هوش مصنوعی مولد: چطوری محتوای قابل اعتماد رو میفهمه و بهش رتبه میده؟
https://searchengineland.com/how-generative-engines-define-rank-trustworthy-content-461575
[“Generative Engine Optimization (GEO)”,”SEO”,”Opinion”]
از دادههای آموزشی گرفته تا تعداد دفعاتی که به یک منبع استناد میشود؛ بیایید با هم ببینیم سیستمهای هوش مصنوعی مولد چطور اعتبار منابع را میسنجند و تصمیم میگیرند کدامها را اول از همه به ما نشان دهند.
هوش مصنوعی مولد خیلی زود از یک پدیده آزمایشی و باحال، به ابزاری روزمره برای همه ما تبدیل شده و با همین سرعت، حساسیتها و بررسیها در موردش هم بیشتر شده.
یکی از مهمترین سوالها این است که این سیستمها چطور تصمیم میگیرند به کدام محتوا اعتماد و آن را برجسته کنند و کدام را نادیده بگیرند.
این نگرانی کاملاً واقعی است: یک مطالعه در دانشگاه کلمبیا نشان داد که در ۲۰۰ آزمایش روی موتورهای جستجوی هوش مصنوعی برتر مثل ChatGPT، Perplexity و Gemini، بیش از ۶۰ درصد از خروجیها استنادهای دقیقی نداشتند.
در همین حال، ظهور مدلهای «استدلالگر» پیشرفته، این مشکل را تشدید کرده و گزارشهایی از افزایش توهمات هوش مصنوعی به گوش میرسد.
همانطور که چالشهای مربوط به اعتبار منابع بیشتر میشود، موتورهای جستجو هم تحت فشار هستند تا ثابت کنند که میتوانند به طور مداوم اطلاعات قابل اعتمادی را به کاربران ارائه دهند.
این موضوع برای ناشران و دیجیتال مارکترها یک سوال اساسی ایجاد میکند:
موتورهای هوش مصنوعی مولد دقیقاً چه محتوایی را قابل اعتماد میدانند و چطور آن را رتبهبندی میکنند؟
توی این مقاله، قرار است این موارد را با هم بررسی کنیم:
- سیگنالهایی که موتورهای مولد برای ارزیابی اعتبار استفاده میکنند: دقت، اعتبار، شفافیت و تازگی.
- این سیگنالها امروز و در آینده چطور روی تصمیمگیریهای رتبهبندی تأثیر میگذارند.
محتوای قابل اعتماد از نظر هوش مصنوعی چیست؟
سیستمهای مولد، یک مفهوم پیچیده مثل «اعتماد» را به معیارهای فنی و قابل اندازهگیری تبدیل میکنند.
سیگنالهای قابل مشاهدهای مثل تعداد استنادها، اعتبار دامنه و تازگی محتوا، به عنوان معیارهای جایگزین برای ویژگیهایی عمل میکنند که ما معمولاً به اطلاعات معتبر نسبت میدهیم.
چارچوب قدیمی سئو یعنی E-E-A-T (تجربه، تخصص، اعتبار و اعتماد) هنوز هم کاربرد دارد.
اما حالا، این ویژگیها به صورت الگوریتمی تخمین زده میشوند تا موتورهای جستجو بتوانند در مقیاس بزرگ تصمیم بگیرند که چه چیزی قابل اعتماد است.
در عمل، این یعنی موتورهای هوش مصنوعی به همان ویژگیهای آشنایی بها میدهند که سالهاست محتوای قابل اعتماد را تعریف کردهاند؛ همان ویژگیهایی که مارکترها و ناشران سالهاست روی آنها تمرکز کردهاند.
ویژگیهای محتوای قابل اعتماد
موتورهای هوش مصنوعی امروزی به دنبال این هستند که نشانههای آشنای اعتبار را در چهار ویژگی اصلی پیدا کنند:
- دقت: محتوایی که حقایق قابل تأیید را منعکس میکند، با شواهد یا دادهها پشتیبانی میشود و از ادعاهای بیاساس دوری میکند.
- اعتبار: اطلاعاتی که از سوی موسسات شناختهشده، ناشران معتبر یا افرادی با تخصص ثابتشده در آن زمینه ارائه میشود.
- شفافیت: منابعی که به وضوح مشخص شدهاند، استناددهی و زمینه مناسبی دارند و امکان ردیابی اطلاعات تا منبع اصلی را فراهم میکنند.
- ثبات در طول زمان: قابل اعتماد بودن در چندین مقاله یا بهروزرسانی نشان داده میشود، نه فقط در موارد جداگانه. این یعنی یک سابقه خوب از اعتبار داشتن.
اعتماد و اعتبار: فرصتی برای سایتهای کوچکتر
اعتبار همچنان یکی از واضحترین سیگنالهای اعتماد است و همین موضوع میتواند باعث شود موتورهای هوش مصنوعی به ناشران بزرگ و دامنههای شناختهشده لطف بیشتری داشته باشند.
بر اساس یک مطالعه در ماه جولای روی بیش از ۱ میلیون استناد در مدلهایی مانند GPT-4o، Gemini Pro و Claude Sonnet، مقالات سازمانهای رسانهای بزرگ حداقل در ۲۷٪ موارد مورد استناد قرار گرفتهاند.
برای جستجوهایی که به اطلاعات جدید نیاز دارند – مثلاً «آخرین بهروزرسانیهای قوانین حریم خصوصی داده در آمریکا» – این سهم به ۴۹٪ افزایش پیدا کرده و به رسانههایی مانند رویترز و اکسیوس اغلب ارجاع داده شده است.
بر اساس تحلیل مرکز تحقیقاتی Pew، AI Overviews گوگل سه برابر بیشتر از نتایج جستجوی استاندارد (SERP) به وبسایتهای دولتی (با پسوند .gov) لینک میدهند.
با همه اینها، «اعتبار» فقط با شهرت برند تعریف نمیشود.
موتورهای مولد به طور فزایندهای در حال شناسایی سیگنالهای «تخصص دستاول» هستند؛ یعنی محتوایی که توسط متخصصان یک حوزه، تحقیقات اصیل یا افرادی که تجربه زیسته خود را به اشتراک میگذارند، تولید شده است.
برندهای کوچکتر و ناشران تخصصی که به طور مداوم این نوع تخصص را نشان میدهند، میتوانند به همان اندازه و گاهی حتی متقاعدکنندهتر از رسانههای قدیمی که فقط تخصص دیگران را خلاصه میکنند، در نتایج ظاهر شوند.
در عمل، اعتبار در جستجوی هوش مصنوعی به نشان دادن تخصص و ارتباط قابل تأیید بستگی دارد، نه فقط به شهرت نام برند.
و از آنجایی که وزندهی اعتبار در این موتورها ریشه در دادههای آموزشی آنها دارد، درک اینکه این دادهها چگونه جمعآوری و فیلتر میشوند، قطعه مهم بعدی این پازل است.
نقش دادههای آموزشی در ارزیابی اعتماد
اینکه موتورهای مولد «اعتماد» را چگونه تعریف میکنند، مدتها قبل از اینکه شما چیزی را جستجو کنید، شروع میشود.
پایه و اساس این تعریف در دادههایی است که با آنها آموزش دیدهاند و نحوه فیلتر و جمعآوری این دادهها مستقیماً تعیین میکند که چه نوع محتوایی به عنوان منبع قابل اعتماد در نظر گرفته میشود.
مجموعه دادههای پیشآموزشی
بیشتر مدلهای زبان بزرگ (LLM) با حجم عظیمی از متون سروکار دارند که معمولاً شامل موارد زیر است:
- کتابها و مجلات دانشگاهی: منابع منتشر شده و داوریشده که مدل را در حوزه تحقیقات رسمی و دانشگاهی غنی میکنند.
- دانشنامهها و منابع مرجع: دانش عمومی و ساختاریافته که پوشش گستردهای از حقایق را فراهم میکند.
- آرشیو اخبار و مقالات: بهویژه از رسانههای معتبر که برای درک بهروز بودن و زمینه موضوعات استفاده میشود.
- منابع عمومی و دسترسی آزاد: مواردی مانند نشریات دولتی، راهنماهای فنی و اسناد حقوقی.
به همان اندازه، انواع منابعی که عموماً از این دادهها حذف میشوند هم مهم هستند، مانند:
- سایتهای اسپم و مزرعه لینک.
- وبلاگهای بیکیفیت و کارخانههای تولید محتوا.
- شبکههای شناختهشده انتشار اطلاعات نادرست یا محتوای دستکاریشده.
جمعآوری و فیلتر کردن دادهها
دادههای خام پیشآموزشی فقط نقطه شروع هستند.
توسعهدهندگان از ترکیبی از روشها برای فیلتر کردن محتوای کماعتبار استفاده میکنند، از جمله:
- بازبینهای انسانی که استانداردهای کیفیت را اعمال میکنند (مشابه نقش ارزیابان کیفیت در جستجوی سنتی).
- طبقهبندیکنندههای الگوریتمی که برای شناسایی اسپم، سیگنالهای بیکیفیت یا اطلاعات نادرست آموزش دیدهاند.
- فیلترهای خودکار که محتوای مضر، سرقت ادبی یا دستکاریشده را حذف یا رتبه آن را کاهش میدهند.
این فرآیند جمعآوری و فیلتر کردن بسیار مهم است، زیرا سطح پایهای را برای سیگنالهای اعتماد و اعتباری که یک مدل پس از آمادهسازی برای استفاده عمومی قادر به تشخیص آن است، تعیین میکند.
موتورهای هوش مصنوعی مولد چگونه منابع معتبر را رتبهبندی و اولویتبندی میکنند؟
پس از وارد کردن یک کوئری، موتورهای مولد لایههای بیشتری از منطق رتبهبندی را اعمال میکنند تا تصمیم بگیرند کدام منابع در لحظه نمایش داده شوند.
این مکانیزمها برای ایجاد تعادل بین اعتبار، ارتباط و بهروز بودن طراحی شدهاند.
سیگنالهای اعتبار محتوا که قبلاً پوشش دادیم، مانند دقت و اعتبار، اهمیت دارند. موارد زیر نیز مهم هستند:
- تعداد استنادها و لینکسازی داخلی.
- تازگی و تکرار بهروزرسانی.
- وزندهی متنی.
تعداد استنادها و لینکسازی داخلی
موتورهای جستجو منابع را به صورت جداگانه بررسی نمیکنند. محتوایی که در چندین سند معتبر دیگر ظاهر میشود، وزن بیشتری پیدا کرده و شانس استناد یا خلاصهشدن آن افزایش مییابد. این نوع ارجاع متقابل باعث میشود سیگنالهای مکرر اعتبار، ارزش ویژهای پیدا کنند.
ساندار پیچای، مدیرعامل گوگل، اخیراً بر این پویایی تأکید کرد و به ما یادآوری کرد که گوگل به صورت دستی تصمیم نمیگیرد کدام صفحات معتبر هستند.
گوگل به سیگنالهایی مانند تعداد لینکهایی که از صفحات معتبر دیگر دریافت میشود، تکیه میکند؛ اصلی که به الگوریتم PageRank برمیگردد و امروزه همچنان مدلهای رتبهبندی پیچیدهتر را شکل میدهد.
اگرچه او به طور کلی در مورد جستجو صحبت میکرد، اما همین منطق در مورد سیستمهای مولد نیز صدق میکند که برای برجسته کردن منابع خاص، به اعتبار ارجاع متقابل وابسته هستند.
تازگی و تکرار بهروزرسانی
تازگی محتوا نیز بسیار مهم است، به خصوص اگر میخواهید در AI Overviews گوگل ظاهر شوید.
دلیلش این است که AI Overviews بر اساس سیستمهای رتبهبندی اصلی گوگل ساخته شدهاند که تازگی محتوا یکی از فاکتورهای رتبهبندی آن است.
محتوایی که به طور فعال نگهداری یا اخیراً بهروز شده، احتمال بیشتری دارد که نمایش داده شود، به ویژه برای کوئریهای مرتبط با موضوعات در حال تحول مانند قوانین، اخبار فوری یا یافتههای تحقیقاتی جدید.
وزندهی متنی
رتبهبندی یک فرمول ثابت برای همه چیز نیست. برای سوالات فنی ممکن است منابع علمی یا سایتهای تخصصی در اولویت قرار بگیرند، در حالی که برای کوئریهای خبری، محتوای ژورنالیستی اهمیت بیشتری دارد.
این سازگاری به موتورهای جستجو اجازه میدهد تا سیگنالهای اعتماد را بر اساس قصد کاربر تنظیم کنند و یک سیستم وزندهی دقیقتر ایجاد کنند که اعتبار را با زمینه موضوع هماهنگ میکند.
معیارهای اعتماد داخلی و استدلال هوش مصنوعی
حتی پس از آموزش و رتبهبندی در زمان کوئری، موتورهای هوش مصنوعی هنوز به راهی نیاز دارند تا تصمیم بگیرند که چقدر به پاسخهایی که تولید میکنند، اطمینان دارند.
اینجاست که معیارهای اعتماد داخلی وارد میشوند؛ سیستمهای امتیازبندی که احتمال صحت یک عبارت را تخمین میزنند.
این امتیازها روی اینکه به کدام منابع استناد شود و اینکه آیا مدل به جای دادن یک پاسخ قطعی، با احتیاط صحبت کند، تأثیر میگذارد.
همانطور که قبلاً اشاره شد، سیگنالهای اعتبار و ارجاع متقابل در اینجا نقش دارند. موارد زیر نیز تأثیرگذارند:
- امتیازدهی اطمینان: مدلها به عباراتی که تولید میکنند، احتمالهای داخلی اختصاص میدهند. امتیاز بالا نشان میدهد که مدل «مطمئنتر» است، در حالی که امتیاز پایین ممکن است باعث فعال شدن مکانیزمهای حفاظتی مانند هشدارهای سلب مسئولیت یا پاسخهای جایگزین شود.
- تنظیم آستانهها: آستانههای اطمینان ثابت نیستند. برای کوئریهایی با اطلاعات کم یا بیکیفیت، موتورها ممکن است تمایل خود را برای تولید یک پاسخ قطعی کاهش دهند یا به سمت استناد صریحتر به منابع خارجی حرکت کنند.
- همسویی بین منابع: مدلها خروجیها را در چندین منبع مقایسه میکنند و زمانی که توافق وجود داشته باشد، به آن پاسخها وزن بیشتری میدهند. اگر سیگنالها با هم تفاوت داشته باشند، سیستم ممکن است با احتیاط عمل کرده یا رتبه آن ادعاها را کاهش دهد.
چالشهای تعیین اعتبار محتوا
با وجود سیستمهای امتیازبندی و مکانیزمهای حفاظتی که در موتورهای مولد تعبیه شده، ارزیابی اعتبار در مقیاس بزرگ هنوز یک کار در حال پیشرفت است.
چالشهایی که باید بر آنها غلبه کرد عبارتند از:
عدم توازن در منابع
سیگنالهای اعتبار اغلب به سمت ناشران بزرگ انگلیسیزبان و رسانههای غربی متمایل است.
اگرچه این دامنهها وزن زیادی دارند، اما اتکای بیش از حد به آنها میتواند نقاط کوری ایجاد کند و تخصصهای محلی یا غیرانگلیسی که ممکن است دقیقتر باشند را نادیده بگیرد و دامنه دیدگاههای ارائهشده را محدود کند.
دانش در حال تحول
حقیقت ثابت نیست.
اجماع علمی تغییر میکند، مقررات عوض میشوند و تحقیقات جدید میتوانند به سرعت فرضیات قبلی را باطل کنند.
چیزی که یک سال دقیق تلقی میشود، ممکن است سال بعد منسوخ شده باشد و این باعث میشود سیگنالهای اعتماد الگوریتمی کمتر از آنچه به نظر میرسد پایدار باشند.
موتورهای جستجو به مکانیزمهایی برای تازهسازی و تنظیم مجدد مداوم نشانگرهای اعتبار نیاز دارند، در غیر این صورت خطر نمایش اطلاعات منسوخ را به جان میخرند.
سیستمهای غیرشفاف
چالش دیگر، شفافیت است. شرکتهای هوش مصنوعی به ندرت ترکیب کامل دادههای آموزشی یا وزندهی دقیق سیگنالهای اعتماد را فاش میکنند.
برای کاربران، این عدم شفافیت درک اینکه چرا برخی منابع بیشتر از دیگران ظاهر میشوند را دشوار میکند.
برای ناشران و مارکترها، این موضوع کار هماهنگ کردن استراتژیهای محتوا با آنچه موتورهای جستجو واقعاً در اولویت قرار میدهند را پیچیده میکند.
فصل بعدی اعتماد در هوش مصنوعی مولد
در آینده، موتورهای جستجو تحت فشار هستند تا شفافتر و پاسخگوتر شوند. نشانههای اولیه حاکی از آن است که بهبودها در چندین جهت در حال شکلگیری هستند.
منابع قابل راستیآزمایی
انتظار میرود تأکید بیشتری بر خروجیهایی شود که مستقیماً قابل ردیابی تا منبع اصلی خود هستند.
ویژگیهایی مانند استنادهای لینکشده، ردیابی منشأ و برچسبگذاری منابع با هدف کمک به کاربران برای تأیید اینکه آیا یک ادعا از یک سند معتبر آمده یا نه، طراحی شدهاند.
مکانیزمهای بازخورد
موتورهای جستجو همچنین در حال شروع به استفاده سیستماتیکتر از ورودی کاربران هستند.
اصلاحات، امتیازدهیها و خطاهای گزارششده میتوانند به بهروزرسانیهای مدل بازخورد داده و به سیستمها اجازه دهند تا سیگنالهای اعتماد خود را در طول زمان تنظیم کنند.
این یک حلقه ایجاد میکند که در آن اعتبار فقط به صورت الگوریتمی تعیین نمیشود، بلکه از طریق استفاده در دنیای واقعی اصلاح میشود.
پروژههای متنباز و شفافسازی
در نهایت، پروژههای متنباز به دنبال ایجاد شفافیت بیشتر در مورد نحوه اعمال سیگنالهای اعتماد هستند.
این طرحها با افشای شیوههای دادههای آموزشی یا سیستمهای وزندهی، به محققان و عموم مردم تصویر واضحتری از اینکه چرا برخی منابع برجسته میشوند، میدهند.
این شفافیت میتواند به ایجاد پاسخگویی در سراسر این صنعت کمک کند.
تبدیل سیگنالهای اعتماد به استراتژی
اعتماد در هوش مصنوعی مولد توسط یک عامل واحد تعیین نمیشود.
این اعتماد از تعامل دادههای آموزشی جمعآوریشده، منطق رتبهبندی در لحظه و معیارهای اطمینان داخلی حاصل میشود که همگی از طریق سیستمهای غیرشفافی که به طور مداوم در حال تکامل هستند، فیلتر میشوند.
برای برندها و ناشران، نکته کلیدی این است که خود را با سیگنالهایی که موتورهای جستجو از قبل میشناسند و به آنها پاداش میدهند، هماهنگ کنند:
- شفافیت را در اولویت قرار دهید: منابع را به وضوح ذکر کنید، تخصص را مشخص کنید و ردیابی ادعاها تا منبع اصلی را آسان کنید.
- تخصص خود را به نمایش بگذارید: محتوای تولید شده توسط متخصصان واقعی یا افراد با تجربه دستاول را برجسته کنید، نه فقط خلاصهای از کار دیگران.
- محتوای خود را تازه نگه دارید: صفحات را به طور منظم بهروز کنید تا آخرین تحولات را منعکس کنند، به ویژه در مورد موضوعات حساس به زمان.
- سیگنالهای اعتبار ایجاد کنید: از دامنههای معتبر دیگر استناد و لینک دریافت کنید تا اعتبار خود را تقویت کنید.
- با حلقههای بازخورد درگیر شوید: نحوه نمایش محتوای خود را در پلتفرمهای هوش مصنوعی زیر نظر داشته باشید و بر اساس خطاها، شکافها یا فرصتهای جدید، استراتژی خود را تطبیق دهید.
مسیر پیش رو کاملاً مشخص است: روی محتوایی تمرکز کنید که شفاف، مبتنی بر تخصص و به طور قابل اعتمادی بهروز باشد.
با یادگیری اینکه هوش مصنوعی چگونه اعتماد را تعریف میکند، برندها میتوانند استراتژیهای خود را دقیقتر کنند، اعتبار بسازند و شانس خود را برای تبدیل شدن به منبعی که موتورهای مولد اول از همه به آن مراجعه میکنند، افزایش دهند.
پاسخی بگذارید