هوش مصنوعی مولد: چطوری محتوای قابل اعتماد رو می‌فهمه و بهش رتبه میده؟

https://searchengineland.com/how-generative-engines-define-rank-trustworthy-content-461575
[“Generative Engine Optimization (GEO)”,”SEO”,”Opinion”]

از داده‌های آموزشی گرفته تا تعداد دفعاتی که به یک منبع استناد می‌شود؛ بیایید با هم ببینیم سیستم‌های هوش مصنوعی مولد چطور اعتبار منابع را می‌سنجند و تصمیم می‌گیرند کدام‌ها را اول از همه به ما نشان دهند.

هوش مصنوعی مولد خیلی زود از یک پدیده آزمایشی و باحال، به ابزاری روزمره برای همه ما تبدیل شده و با همین سرعت، حساسیت‌ها و بررسی‌ها در موردش هم بیشتر شده.

یکی از مهم‌ترین سوال‌ها این است که این سیستم‌ها چطور تصمیم می‌گیرند به کدام محتوا اعتماد و آن را برجسته کنند و کدام را نادیده بگیرند.

این نگرانی کاملاً واقعی است: یک مطالعه در دانشگاه کلمبیا نشان داد که در ۲۰۰ آزمایش روی موتورهای جستجوی هوش مصنوعی برتر مثل ChatGPT، Perplexity و Gemini، بیش از ۶۰ درصد از خروجی‌ها استنادهای دقیقی نداشتند.

در همین حال، ظهور مدل‌های «استدلال‌گر» پیشرفته، این مشکل را تشدید کرده و گزارش‌هایی از افزایش توهمات هوش مصنوعی به گوش می‌رسد.

همان‌طور که چالش‌های مربوط به اعتبار منابع بیشتر می‌شود، موتورهای جستجو هم تحت فشار هستند تا ثابت کنند که می‌توانند به طور مداوم اطلاعات قابل اعتمادی را به کاربران ارائه دهند.

این موضوع برای ناشران و دیجیتال مارکترها یک سوال اساسی ایجاد می‌کند:

موتورهای هوش مصنوعی مولد دقیقاً چه محتوایی را قابل اعتماد می‌دانند و چطور آن را رتبه‌بندی می‌کنند؟

توی این مقاله، قرار است این موارد را با هم بررسی کنیم:

  • سیگنال‌هایی که موتورهای مولد برای ارزیابی اعتبار استفاده می‌کنند: دقت، اعتبار، شفافیت و تازگی.
  • این سیگنال‌ها امروز و در آینده چطور روی تصمیم‌گیری‌های رتبه‌بندی تأثیر می‌گذارند.

محتوای قابل اعتماد از نظر هوش مصنوعی چیست؟

سیستم‌های مولد، یک مفهوم پیچیده مثل «اعتماد» را به معیارهای فنی و قابل اندازه‌گیری تبدیل می‌کنند.

سیگنال‌های قابل مشاهده‌ای مثل تعداد استنادها، اعتبار دامنه و تازگی محتوا، به عنوان معیارهای جایگزین برای ویژگی‌هایی عمل می‌کنند که ما معمولاً به اطلاعات معتبر نسبت می‌دهیم.

چارچوب قدیمی سئو یعنی E-E-A-T (تجربه، تخصص، اعتبار و اعتماد) هنوز هم کاربرد دارد.

اما حالا، این ویژگی‌ها به صورت الگوریتمی تخمین زده می‌شوند تا موتورهای جستجو بتوانند در مقیاس بزرگ تصمیم بگیرند که چه چیزی قابل اعتماد است.

در عمل، این یعنی موتورهای هوش مصنوعی به همان ویژگی‌های آشنایی بها می‌دهند که سال‌هاست محتوای قابل اعتماد را تعریف کرده‌اند؛ همان ویژگی‌هایی که مارکترها و ناشران سال‌هاست روی آن‌ها تمرکز کرده‌اند.

ویژگی‌های محتوای قابل اعتماد

موتورهای هوش مصنوعی امروزی به دنبال این هستند که نشانه‌های آشنای اعتبار را در چهار ویژگی اصلی پیدا کنند:

  • دقت: محتوایی که حقایق قابل تأیید را منعکس می‌کند، با شواهد یا داده‌ها پشتیبانی می‌شود و از ادعاهای بی‌اساس دوری می‌کند.
  • اعتبار: اطلاعاتی که از سوی موسسات شناخته‌شده، ناشران معتبر یا افرادی با تخصص ثابت‌شده در آن زمینه ارائه می‌شود.
  • شفافیت: منابعی که به وضوح مشخص شده‌اند، استناددهی و زمینه مناسبی دارند و امکان ردیابی اطلاعات تا منبع اصلی را فراهم می‌کنند.
  • ثبات در طول زمان: قابل اعتماد بودن در چندین مقاله یا به‌روزرسانی نشان داده می‌شود، نه فقط در موارد جداگانه. این یعنی یک سابقه خوب از اعتبار داشتن.

اعتماد و اعتبار: فرصتی برای سایت‌های کوچک‌تر

اعتبار همچنان یکی از واضح‌ترین سیگنال‌های اعتماد است و همین موضوع می‌تواند باعث شود موتورهای هوش مصنوعی به ناشران بزرگ و دامنه‌های شناخته‌شده لطف بیشتری داشته باشند.

بر اساس یک مطالعه در ماه جولای روی بیش از ۱ میلیون استناد در مدل‌هایی مانند GPT-4o، Gemini Pro و Claude Sonnet، مقالات سازمان‌های رسانه‌ای بزرگ حداقل در ۲۷٪ موارد مورد استناد قرار گرفته‌اند.

برای جستجوهایی که به اطلاعات جدید نیاز دارند – مثلاً «آخرین به‌روزرسانی‌های قوانین حریم خصوصی داده در آمریکا» – این سهم به ۴۹٪ افزایش پیدا کرده و به رسانه‌هایی مانند رویترز و اکسیوس اغلب ارجاع داده شده است.

بر اساس تحلیل مرکز تحقیقاتی Pew، AI Overviews گوگل سه برابر بیشتر از نتایج جستجوی استاندارد (SERP) به وب‌سایت‌های دولتی (با پسوند .gov) لینک می‌دهند.

با همه این‌ها، «اعتبار» فقط با شهرت برند تعریف نمی‌شود.

موتورهای مولد به طور فزاینده‌ای در حال شناسایی سیگنال‌های «تخصص دست‌اول» هستند؛ یعنی محتوایی که توسط متخصصان یک حوزه، تحقیقات اصیل یا افرادی که تجربه زیسته خود را به اشتراک می‌گذارند، تولید شده است.

برندهای کوچک‌تر و ناشران تخصصی که به طور مداوم این نوع تخصص را نشان می‌دهند، می‌توانند به همان اندازه و گاهی حتی متقاعدکننده‌تر از رسانه‌های قدیمی که فقط تخصص دیگران را خلاصه می‌کنند، در نتایج ظاهر شوند.

در عمل، اعتبار در جستجوی هوش مصنوعی به نشان دادن تخصص و ارتباط قابل تأیید بستگی دارد، نه فقط به شهرت نام برند.

و از آنجایی که وزن‌دهی اعتبار در این موتورها ریشه در داده‌های آموزشی آن‌ها دارد، درک اینکه این داده‌ها چگونه جمع‌آوری و فیلتر می‌شوند، قطعه مهم بعدی این پازل است.

نقش داده‌های آموزشی در ارزیابی اعتماد

اینکه موتورهای مولد «اعتماد» را چگونه تعریف می‌کنند، مدت‌ها قبل از اینکه شما چیزی را جستجو کنید، شروع می‌شود.

پایه و اساس این تعریف در داده‌هایی است که با آن‌ها آموزش دیده‌اند و نحوه فیلتر و جمع‌آوری این داده‌ها مستقیماً تعیین می‌کند که چه نوع محتوایی به عنوان منبع قابل اعتماد در نظر گرفته می‌شود.

مجموعه داده‌های پیش‌آموزشی

بیشتر مدل‌های زبان بزرگ (LLM) با حجم عظیمی از متون سروکار دارند که معمولاً شامل موارد زیر است:

  • کتاب‌ها و مجلات دانشگاهی: منابع منتشر شده و داوری‌شده که مدل را در حوزه تحقیقات رسمی و دانشگاهی غنی می‌کنند.
  • دانشنامه‌ها و منابع مرجع: دانش عمومی و ساختاریافته که پوشش گسترده‌ای از حقایق را فراهم می‌کند.
  • آرشیو اخبار و مقالات: به‌ویژه از رسانه‌های معتبر که برای درک به‌روز بودن و زمینه موضوعات استفاده می‌شود.
  • منابع عمومی و دسترسی آزاد: مواردی مانند نشریات دولتی، راهنماهای فنی و اسناد حقوقی.

به همان اندازه، انواع منابعی که عموماً از این داده‌ها حذف می‌شوند هم مهم هستند، مانند:

  • سایت‌های اسپم و مزرعه لینک.
  • وبلاگ‌های بی‌کیفیت و کارخانه‌های تولید محتوا.
  • شبکه‌های شناخته‌شده انتشار اطلاعات نادرست یا محتوای دستکاری‌شده.

جمع‌آوری و فیلتر کردن داده‌ها

داده‌های خام پیش‌آموزشی فقط نقطه شروع هستند.

توسعه‌دهندگان از ترکیبی از روش‌ها برای فیلتر کردن محتوای کم‌اعتبار استفاده می‌کنند، از جمله:

  • بازبین‌های انسانی که استانداردهای کیفیت را اعمال می‌کنند (مشابه نقش ارزیابان کیفیت در جستجوی سنتی).
  • طبقه‌بندی‌کننده‌های الگوریتمی که برای شناسایی اسپم، سیگنال‌های بی‌کیفیت یا اطلاعات نادرست آموزش دیده‌اند.
  • فیلترهای خودکار که محتوای مضر، سرقت ادبی یا دستکاری‌شده را حذف یا رتبه آن را کاهش می‌دهند.

این فرآیند جمع‌آوری و فیلتر کردن بسیار مهم است، زیرا سطح پایه‌ای را برای سیگنال‌های اعتماد و اعتباری که یک مدل پس از آماده‌سازی برای استفاده عمومی قادر به تشخیص آن است، تعیین می‌کند.


موتورهای هوش مصنوعی مولد چگونه منابع معتبر را رتبه‌بندی و اولویت‌بندی می‌کنند؟

پس از وارد کردن یک کوئری، موتورهای مولد لایه‌های بیشتری از منطق رتبه‌بندی را اعمال می‌کنند تا تصمیم بگیرند کدام منابع در لحظه نمایش داده شوند.

این مکانیزم‌ها برای ایجاد تعادل بین اعتبار، ارتباط و به‌روز بودن طراحی شده‌اند.

سیگنال‌های اعتبار محتوا که قبلاً پوشش دادیم، مانند دقت و اعتبار، اهمیت دارند. موارد زیر نیز مهم هستند:

  • تعداد استنادها و لینک‌سازی داخلی.
  • تازگی و تکرار به‌روزرسانی.
  • وزن‌دهی متنی.

تعداد استنادها و لینک‌سازی داخلی

موتورهای جستجو منابع را به صورت جداگانه بررسی نمی‌کنند. محتوایی که در چندین سند معتبر دیگر ظاهر می‌شود، وزن بیشتری پیدا کرده و شانس استناد یا خلاصه‌شدن آن افزایش می‌یابد. این نوع ارجاع متقابل باعث می‌شود سیگنال‌های مکرر اعتبار، ارزش ویژه‌ای پیدا کنند.

ساندار پیچای، مدیرعامل گوگل، اخیراً بر این پویایی تأکید کرد و به ما یادآوری کرد که گوگل به صورت دستی تصمیم نمی‌گیرد کدام صفحات معتبر هستند.

گوگل به سیگنال‌هایی مانند تعداد لینک‌هایی که از صفحات معتبر دیگر دریافت می‌شود، تکیه می‌کند؛ اصلی که به الگوریتم PageRank برمی‌گردد و امروزه همچنان مدل‌های رتبه‌بندی پیچیده‌تر را شکل می‌دهد.

اگرچه او به طور کلی در مورد جستجو صحبت می‌کرد، اما همین منطق در مورد سیستم‌های مولد نیز صدق می‌کند که برای برجسته کردن منابع خاص، به اعتبار ارجاع متقابل وابسته هستند.

تازگی و تکرار به‌روزرسانی

تازگی محتوا نیز بسیار مهم است، به خصوص اگر می‌خواهید در AI Overviews گوگل ظاهر شوید.

دلیلش این است که AI Overviews بر اساس سیستم‌های رتبه‌بندی اصلی گوگل ساخته شده‌اند که تازگی محتوا یکی از فاکتورهای رتبه‌بندی آن است.

محتوایی که به طور فعال نگهداری یا اخیراً به‌روز شده، احتمال بیشتری دارد که نمایش داده شود، به ویژه برای کوئری‌های مرتبط با موضوعات در حال تحول مانند قوانین، اخبار فوری یا یافته‌های تحقیقاتی جدید.

وزن‌دهی متنی

رتبه‌بندی یک فرمول ثابت برای همه چیز نیست. برای سوالات فنی ممکن است منابع علمی یا سایت‌های تخصصی در اولویت قرار بگیرند، در حالی که برای کوئری‌های خبری، محتوای ژورنالیستی اهمیت بیشتری دارد.

این سازگاری به موتورهای جستجو اجازه می‌دهد تا سیگنال‌های اعتماد را بر اساس قصد کاربر تنظیم کنند و یک سیستم وزن‌دهی دقیق‌تر ایجاد کنند که اعتبار را با زمینه موضوع هماهنگ می‌کند.

معیارهای اعتماد داخلی و استدلال هوش مصنوعی

حتی پس از آموزش و رتبه‌بندی در زمان کوئری، موتورهای هوش مصنوعی هنوز به راهی نیاز دارند تا تصمیم بگیرند که چقدر به پاسخ‌هایی که تولید می‌کنند، اطمینان دارند.

اینجاست که معیارهای اعتماد داخلی وارد می‌شوند؛ سیستم‌های امتیازبندی که احتمال صحت یک عبارت را تخمین می‌زنند.

این امتیازها روی اینکه به کدام منابع استناد شود و اینکه آیا مدل به جای دادن یک پاسخ قطعی، با احتیاط صحبت کند، تأثیر می‌گذارد.

همان‌طور که قبلاً اشاره شد، سیگنال‌های اعتبار و ارجاع متقابل در اینجا نقش دارند. موارد زیر نیز تأثیرگذارند:

  • امتیازدهی اطمینان: مدل‌ها به عباراتی که تولید می‌کنند، احتمال‌های داخلی اختصاص می‌دهند. امتیاز بالا نشان می‌دهد که مدل «مطمئن‌تر» است، در حالی که امتیاز پایین ممکن است باعث فعال شدن مکانیزم‌های حفاظتی مانند هشدارهای سلب مسئولیت یا پاسخ‌های جایگزین شود.
  • تنظیم آستانه‌ها: آستانه‌های اطمینان ثابت نیستند. برای کوئری‌هایی با اطلاعات کم یا بی‌کیفیت، موتورها ممکن است تمایل خود را برای تولید یک پاسخ قطعی کاهش دهند یا به سمت استناد صریح‌تر به منابع خارجی حرکت کنند.
  • همسویی بین منابع: مدل‌ها خروجی‌ها را در چندین منبع مقایسه می‌کنند و زمانی که توافق وجود داشته باشد، به آن پاسخ‌ها وزن بیشتری می‌دهند. اگر سیگنال‌ها با هم تفاوت داشته باشند، سیستم ممکن است با احتیاط عمل کرده یا رتبه آن ادعاها را کاهش دهد.

چالش‌های تعیین اعتبار محتوا

با وجود سیستم‌های امتیازبندی و مکانیزم‌های حفاظتی که در موتورهای مولد تعبیه شده، ارزیابی اعتبار در مقیاس بزرگ هنوز یک کار در حال پیشرفت است.

چالش‌هایی که باید بر آن‌ها غلبه کرد عبارتند از:

عدم توازن در منابع

سیگنال‌های اعتبار اغلب به سمت ناشران بزرگ انگلیسی‌زبان و رسانه‌های غربی متمایل است.

اگرچه این دامنه‌ها وزن زیادی دارند، اما اتکای بیش از حد به آن‌ها می‌تواند نقاط کوری ایجاد کند و تخصص‌های محلی یا غیرانگلیسی که ممکن است دقیق‌تر باشند را نادیده بگیرد و دامنه دیدگاه‌های ارائه‌شده را محدود کند.

دانش در حال تحول

حقیقت ثابت نیست.

اجماع علمی تغییر می‌کند، مقررات عوض می‌شوند و تحقیقات جدید می‌توانند به سرعت فرضیات قبلی را باطل کنند.

چیزی که یک سال دقیق تلقی می‌شود، ممکن است سال بعد منسوخ شده باشد و این باعث می‌شود سیگنال‌های اعتماد الگوریتمی کمتر از آنچه به نظر می‌رسد پایدار باشند.

موتورهای جستجو به مکانیزم‌هایی برای تازه‌سازی و تنظیم مجدد مداوم نشانگرهای اعتبار نیاز دارند، در غیر این صورت خطر نمایش اطلاعات منسوخ را به جان می‌خرند.

سیستم‌های غیرشفاف

چالش دیگر، شفافیت است. شرکت‌های هوش مصنوعی به ندرت ترکیب کامل داده‌های آموزشی یا وزن‌دهی دقیق سیگنال‌های اعتماد را فاش می‌کنند.

برای کاربران، این عدم شفافیت درک اینکه چرا برخی منابع بیشتر از دیگران ظاهر می‌شوند را دشوار می‌کند.

برای ناشران و مارکترها، این موضوع کار هماهنگ کردن استراتژی‌های محتوا با آنچه موتورهای جستجو واقعاً در اولویت قرار می‌دهند را پیچیده می‌کند.

فصل بعدی اعتماد در هوش مصنوعی مولد

در آینده، موتورهای جستجو تحت فشار هستند تا شفاف‌تر و پاسخگوتر شوند. نشانه‌های اولیه حاکی از آن است که بهبودها در چندین جهت در حال شکل‌گیری هستند.

منابع قابل راستی‌آزمایی

انتظار می‌رود تأکید بیشتری بر خروجی‌هایی شود که مستقیماً قابل ردیابی تا منبع اصلی خود هستند.

ویژگی‌هایی مانند استنادهای لینک‌شده، ردیابی منشأ و برچسب‌گذاری منابع با هدف کمک به کاربران برای تأیید اینکه آیا یک ادعا از یک سند معتبر آمده یا نه، طراحی شده‌اند.

مکانیزم‌های بازخورد

موتورهای جستجو همچنین در حال شروع به استفاده سیستماتیک‌تر از ورودی کاربران هستند.

اصلاحات، امتیازدهی‌ها و خطاهای گزارش‌شده می‌توانند به به‌روزرسانی‌های مدل بازخورد داده و به سیستم‌ها اجازه دهند تا سیگنال‌های اعتماد خود را در طول زمان تنظیم کنند.

این یک حلقه ایجاد می‌کند که در آن اعتبار فقط به صورت الگوریتمی تعیین نمی‌شود، بلکه از طریق استفاده در دنیای واقعی اصلاح می‌شود.

پروژه‌های متن‌باز و شفاف‌سازی

در نهایت، پروژه‌های متن‌باز به دنبال ایجاد شفافیت بیشتر در مورد نحوه اعمال سیگنال‌های اعتماد هستند.

این طرح‌ها با افشای شیوه‌های داده‌های آموزشی یا سیستم‌های وزن‌دهی، به محققان و عموم مردم تصویر واضح‌تری از اینکه چرا برخی منابع برجسته می‌شوند، می‌دهند.

این شفافیت می‌تواند به ایجاد پاسخگویی در سراسر این صنعت کمک کند.

تبدیل سیگنال‌های اعتماد به استراتژی

اعتماد در هوش مصنوعی مولد توسط یک عامل واحد تعیین نمی‌شود.

این اعتماد از تعامل داده‌های آموزشی جمع‌آوری‌شده، منطق رتبه‌بندی در لحظه و معیارهای اطمینان داخلی حاصل می‌شود که همگی از طریق سیستم‌های غیرشفافی که به طور مداوم در حال تکامل هستند، فیلتر می‌شوند.

برای برندها و ناشران، نکته کلیدی این است که خود را با سیگنال‌هایی که موتورهای جستجو از قبل می‌شناسند و به آن‌ها پاداش می‌دهند، هماهنگ کنند:

  • شفافیت را در اولویت قرار دهید: منابع را به وضوح ذکر کنید، تخصص را مشخص کنید و ردیابی ادعاها تا منبع اصلی را آسان کنید.
  • تخصص خود را به نمایش بگذارید: محتوای تولید شده توسط متخصصان واقعی یا افراد با تجربه دست‌اول را برجسته کنید، نه فقط خلاصه‌ای از کار دیگران.
  • محتوای خود را تازه نگه دارید: صفحات را به طور منظم به‌روز کنید تا آخرین تحولات را منعکس کنند، به ویژه در مورد موضوعات حساس به زمان.
  • سیگنال‌های اعتبار ایجاد کنید: از دامنه‌های معتبر دیگر استناد و لینک دریافت کنید تا اعتبار خود را تقویت کنید.
  • با حلقه‌های بازخورد درگیر شوید: نحوه نمایش محتوای خود را در پلتفرم‌های هوش مصنوعی زیر نظر داشته باشید و بر اساس خطاها، شکاف‌ها یا فرصت‌های جدید، استراتژی خود را تطبیق دهید.

مسیر پیش رو کاملاً مشخص است: روی محتوایی تمرکز کنید که شفاف، مبتنی بر تخصص و به طور قابل اعتمادی به‌روز باشد.

با یادگیری اینکه هوش مصنوعی چگونه اعتماد را تعریف می‌کند، برندها می‌توانند استراتژی‌های خود را دقیق‌تر کنند، اعتبار بسازند و شانس خود را برای تبدیل شدن به منبعی که موتورهای مولد اول از همه به آن مراجعه می‌کنند، افزایش دهند.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *