
هوش مصنوعی برای سایتهای YMYL: آیا امکانپذیر است؟ (قبل از اقدام، شواهد را بخوانید)
دستورالعملهای گوگل و کلی تحقیق و مطالعه نشون میدن که چرا استفاده از هوش مصنوعی برای نوشتن محتوای سلامتی و مالی، اونم جاهایی که تخصص و صحت حرف اول رو میزنه، یه کار پرریسکه.
موضوعات «پول شما یا زندگی شما» (Your Money or Your Life) که به اختصار بهش میگیم YMYL، موضوعاتی رو شامل میشه که روی سلامتی، وضعیت مالی، امنیت یا رفاه کلی آدما تاثیر میذاره. برای همین هم گوگل حق داره که استانداردهای الگوریتمی خیلی سختگیرانهتری رو برای این موضوعات در نظر بگیره.
ابزارهای نویسنده هوش مصنوعی شاید قول بدن که تولید محتوای شما رو چند برابر میکنن، اما وقتی نوشتن برای موضوعات YMYL به توجه و اعتبار نویسنده بیشتری نسبت به بقیه محتواها نیاز داره، آیا واقعاً یه مدل زبان بزرگ (LLM) میتونه محتوای قابل قبولی برای این حوزه بنویسه؟
خلاصه کلام اینه که سیستمهای هوش مصنوعی تو محتوای YMYL کم میارن و یه مشت محتوای تکراری و بیروح تحویل میدن؛ درست همونجایی که تخصص و اعتبار منحصربهفرد بیشترین اهمیت رو داره. هوش مصنوعی تو ۵۰٪ موارد ادعاهای پزشکی بدون پشتوانه مطرح میکنه و تو ۷۵٪ موارد هم رأیهای دادگاه رو از خودش درمیاره (توهم میزنه).
تو این مقاله میخوایم بررسی کنیم که گوگل چطور استانداردهای YMYL رو اجرا میکنه، شواهدی رو نشون بدیم که هوش مصنوعی کجاها گند میزنه و بگیم چرا ناشرانی که روی تخصص واقعی و انسانی حساب میکنن، خودشون رو برای یه موفقیت طولانیمدت آماده کردن.
گوگل با محتوای YMYL شوخی نداره و با دقت الگوریتمی بررسیش میکنه
تو دستورالعملهای ارزیابان کیفیت جستجوی گوگل اومده که «برای صفحاتی که به وضوح درباره موضوعات YMYL هستن، ما استانداردهای خیلی بالایی برای ارزیابی کیفیت صفحه داریم» و این صفحات «به بیشترین دقت و بررسی نیاز دارن.» این دستورالعملها، YMYL رو به عنوان موضوعاتی تعریف میکنن که «میتونن تأثیر قابل توجهی بر سلامت، ثبات مالی یا ایمنی افراد داشته باشن.»
این تفاوت وزن الگوریتمی کاملاً مستند شده. تو راهنمای خود گوگل نوشته شده که برای کوئریهای YMYL، موتور جستجو «در سیستمهای رتبهبندی ما، وزن بیشتری به عواملی مثل درک ما از اعتبار، تخصص یا قابل اعتماد بودن صفحات میده.»
آپدیت اصلی مارس ۲۰۲۴ (March 2024 core update) این رفتار متفاوت رو قشنگ نشون داد. گوگل اعلام کرد که انتظار داره محتوای بیکیفیت ۴۰٪ کاهش پیدا کنه. وبسایتهای YMYL تو حوزههای مالی و بهداشتی از جمله سایتهایی بودن که بیشترین ضربه رو خوردن.
دستورالعملهای ارزیاب کیفیت، یه جور سیستم دو لایه درست میکنن. محتوای معمولی میتونه با تخصص روزمره به «کیفیت متوسط» برسه. اما محتوای YMYL به سطح «بسیار بالایی» از E-E-A-T (تجربه، تخصص، اعتبار و اعتماد) نیاز داره. محتوایی که E-E-A-T ناکافی داشته باشه، برچسب «پایینترین» کیفیت رو میگیره که شدیدترین قضاوت کیفی گوگل به حساب میاد.
با توجه به این استانداردهای سختگیرانه، محتوای تولید شده با هوش مصنوعی برای رسیدن به این معیارها با چالش جدی روبرو میشه.
شاید تو صنعت ما این یه شوخی باشه که توهمات اولیه ChatGPT به مردم توصیه میکرد سنگ بخورن، اما این شوخی یه مسئله خیلی جدی رو برجسته میکنه. کاربرا به کیفیت نتایجی که آنلاین میخونن وابسته هستن و همه نمیتونن واقعیت رو از خیال تشخیص بدن.
درصد خطای بالای هوش مصنوعی، اون رو برای موضوعات YMYL نامناسب میکنه
یه تحقیق از موسسه HAI استنفورد در فوریه ۲۰۲۴، مدل GPT-4 رو با روش بازیابی اطلاعات افزوده (RAG) آزمایش کرد.
نتیجه: ۳۰٪ از اظهارات منفرد، بدون پشتوانه بودن. تقریباً ۵۰٪ از پاسخها حداقل یک اظهارنظر بدون منبع معتبر داشتن. مدل Gemini Pro گوگل هم فقط تو ۱۰٪ موارد تونست پاسخهای کاملاً مستند ارائه بده.
اینها فقط یه سری اختلاف جزئی نیستن. GPT-4 RAG دستورالعملهای درمانی برای نوع اشتباهی از تجهیزات پزشکی ارائه داده بود. این نوع خطا میتونه تو شرایط اضطراری به بیمار آسیب بزنه.
سایت Money.com در نوامبر ۲۰۲۴، ChatGPT Search رو روی ۱۰۰ سوال مالی تست کرد. فقط ۶۵٪ پاسخها درست بودن، ۲۹٪ ناقص یا گمراهکننده بودن و ۶٪ هم کاملاً غلط.
این سیستم جوابهاش رو از وبلاگهای شخصی نامعتبر میگرفت، به تغییرات قوانین اشاره نمیکرد و کاربران رو از «زمانبندی بازار» (timing the market) منصرف نمیکرد.
مطالعه RegLab استنفورد که بیش از ۲۰۰,۰۰۰ کوئری حقوقی رو آزمایش کرد، نشون داد که نرخ توهمزدن (Hallucination) برای مدلهای پیشرفته بین ۶۹٪ تا ۸۸٪ متغیره.
مدلها حداقل تو ۷۵٪ موارد، رأیهای دادگاه رو از خودشون درمیارن. پایگاه داده موارد توهم هوش مصنوعی، ۴۳۹ رأی دادگاه رو ثبت کرده که تو اونها هوش مصنوعی در پروندههای قضایی، محتوای توهمی تولید کرده.
مجله Men’s Journal اولین مقاله سلامتی تولید شده با هوش مصنوعی خودش رو در فوریه ۲۰۲۳ منتشر کرد. دکتر بردلی آناوالت از مرکز پزشکی دانشگاه واشنگتن، ۱۸ خطای مشخص رو تو این مقاله پیدا کرد.
اون این مقاله رو پر از «اشتباهات فاحش و توصیفهای نادرست از علم پزشکی» توصیف کرد، از جمله یکی دونستن اصطلاحات پزشکی مختلف، ادعای ارتباطات بدون پشتوانه بین رژیم غذایی و علائم بیماری، و ارائه هشدارهای بهداشتی بیاساس.
مقاله «به طرز فاحشی در مورد موضوعات پایهای پزشکی اشتباه بود» در حالی که «اونقدر به شواهد علمی نزدیک بود که حرفهاش به گوش آدم واقعی میومد.» این ترکیب خیلی خطرناکه. مردم نمیتونن خطاها رو تشخیص بدن چون حرفها منطقی به نظر میرسن.
اما حتی وقتی هوش مصنوعی حقایق رو درست میگه، از یه راه دیگه شکست میخوره.
گوگل دنبال چیزهاییه که هوش مصنوعی از پسش برنمیاد
در دسامبر ۲۰۲۲، گوگل «تجربه» (Experience) رو به عنوان اولین ستون چارچوب ارزیابی خودش اضافه کرد و E-A-T رو به E-E-A-T گسترش داد.
حالا راهنمای گوگل از ما میپرسه که آیا محتوا «به وضوح تخصص دست اول و عمق دانش رو نشون میده (مثلاً تخصصی که از استفاده از یک محصول یا خدمات، یا بازدید از یک مکان به دست میاد).»
این سوال مستقیماً محدودیتهای هوش مصنوعی رو هدف قرار میده. هوش مصنوعی میتونه محتوای دقیق و فنی تولید کنه که شبیه یه کتاب درسی پزشکی یا مرجع حقوقی باشه. چیزی که نمیتونه تولید کنه، بینش و نگرش یه متخصصه. همون چیزی که از درمان روزانه بیماران یا وکالت متهمان در دادگاه به دست میاد.
تفاوتش تو محتوا مشخص میشه. هوش مصنوعی شاید بتونه تعریف اختلال مفصل گیجگاهی فکی (TMJ) رو به شما بده. اما یه متخصصی که بیماران TMJ رو درمان میکنه، میتونه با جواب دادن به سوالات واقعی که مردم میپرسن، تخصصش رو نشون بده.
دوره بهبودی چطوره؟ بیمارها معمولاً چه اشتباهاتی میکنن؟ کی باید به یه متخصص مراجعه کرد و کی به دندانپزشک عمومی؟ این همون «تجربه» تو E-E-A-T هست؛ درک اثباتشده از سناریوهای دنیای واقعی و نیازهای بیمار.
سوالات کیفیت محتوای گوگل به طور واضح به این موضوع پاداش میدن. این شرکت شما رو تشویق میکنه که بپرسید «آیا محتوا اطلاعات، گزارش، تحقیق یا تحلیل اورجینال ارائه میده؟» و «آیا محتوا تحلیل عمیق یا اطلاعات جالبی فراتر از بدیهیات ارائه میده؟»
گوگل در مورد «خلاصه کردن حرفهای دیگران بدون اضافه کردن ارزش خاصی» هشدار میده. این دقیقاً همون کاریه که مدلهای زبان بزرگ انجام میدن.
این عدم اصالت یه مشکل دیگه هم ایجاد میکنه. وقتی همه از ابزارهای یکسانی استفاده میکنن، محتواها غیرقابل تشخیص میشن.
طراحی هوش مصنوعی، یکسانسازی محتوا رو تضمین میکنه
تحقیقات دانشگاه UCLA چیزی رو مستند کرده که محققان بهش میگن «مارپیچ مرگ یکسانسازی». سیستمهای هوش مصنوعی به سمت میانگین ترجیحات جمعیت متمایل میشن، چون مدلهای زبان بزرگ (LLM) محتملترین کلمه بعدی رو از نظر آماری پیشبینی میکنن.
محققان آکسفورد و کمبریج این موضوع رو در عمل نشون دادن. وقتی اونها یه مدل هوش مصنوعی رو روی نژادهای مختلف سگ آموزش دادن، سیستم به تدریج فقط نژادهای رایج رو تولید کرد و در نهایت به «فروپاشی مدل» (Model Collapse) منجر شد.
یه مطالعه در Science Advances نشون داد که «هوش مصنوعی مولد، خلاقیت فردی رو افزایش میده اما تنوع جمعی محتوای جدید رو کم میکنه.» نویسندهها به صورت فردی وضعیت بهتری پیدا میکنن، اما در مجموع، دامنه محدودتری از محتوا رو تولید میکنن.
برای موضوعات YMYL که تمایز و تخصص منحصربهفرد مزیت رقابتی ایجاد میکنه، این همگرایی خیلی آسیبزنندهست. اگه سه مشاور مالی از ChatGPT برای تولید راهنمای سرمایهگذاری در مورد یه موضوع یکسان استفاده کنن، محتواشون به طرز چشمگیری شبیه به هم میشه. این هیچ دلیلی به گوگل یا کاربرا نمیده که یکی رو به دیگری ترجیح بدن.
آپدیت مارس ۲۰۲۴ گوگل روی «سوءاستفاده از محتوای انبوه» و «محتوای عمومی/بدون تمایز» که اطلاعاتی که همه جا پیدا میشه رو بدون هیچ بینش جدیدی تکرار میکنه، تمرکز داشت.
خب، پس گوگل چطور تشخیص میده که آیا محتوا واقعاً از طرف متخصصی نوشته شده که اسمش روی اون محتواست؟
گوگل چطور تخصص نویسنده رو تایید میکنه؟
گوگل فقط به محتوا به صورت مجزا نگاه نمیکنه. این موتور جستجو تو گراف دانش (knowledge graph) خودش ارتباطاتی برقرار میکنه تا تأیید کنه که نویسندهها تخصصی رو که ادعا میکنن، واقعاً دارن.
برای متخصصان شناختهشده، این تأیید خیلی قویه. متخصصان پزشکی با مقالات منتشر شده در گوگل اسکالر، وکلا با ثبتنام در کانون وکلا، مشاوران مالی با سوابق در FINRA، همگی ردپاهای دیجیتالی قابل تأییدی دارن. گوگل میتونه اسم یه نویسنده رو به مدارک، انتشارات، سخنرانیها و وابستگیهای حرفهای اون وصل کنه.
این کار الگوهایی رو ایجاد میکنه که گوگل میتونه تشخیص بده. سبک نوشتاری شما، انتخاب کلمات، ساختار جملات و تمرکز موضوعی شما یه امضای منحصربهفرد رو تشکیل میده. وقتی محتوایی که با اسم شما منتشر میشه از این الگو منحرف بشه، سوالاتی در مورد اصالتش پیش میاد.
ایجاد اعتبار واقعی به ثبات نیاز داره، بنابراین بهتره به کارهای قبلی خودتون ارجاع بدید و تعامل مداوم با حوزه کاریتون رو نشون بدید. نام نویسندگان رو به صفحات بیوگرافی مفصل لینک بدید. مدارک، حوزههای قضایی، تخصصها و لینک به پروفایلهای حرفهای قابل تأیید (مثل نظام پزشکی، کانون وکلا، مؤسسات دانشگاهی) رو هم اضافه کنید.
و از همه مهمتر، از متخصصان بخواید که محتوایی که با اسمشون منتشر میشه رو خودشون بنویسن یا به طور کامل بازبینی کنن. نه فقط بررسی صحت اطلاعات، بلکه اطمینان از اینکه لحن، دیدگاه و بینشها، تخصص اونها رو منعکس میکنه.
دلیل اهمیت این سیستمهای تأیید، فراتر از رتبهبندیه.
عواقب جدی اطلاعات غلط در دنیای واقعی YMYL
یه مطالعه در سال ۲۰۱۹ از دانشگاه بالتیمور محاسبه کرد که اطلاعات غلط سالانه ۷۸ میلیارد دلار برای اقتصاد جهانی هزینه داره. کلاهبرداری مالی با دیپفیک در سال ۲۰۲۴، ۵۰٪ از کسبوکارها رو تحت تأثیر قرار داد و میانگین ضرر برای هر مورد ۴۵۰,۰۰۰ دلار بود.
عواقب این موضوع با انواع دیگه محتوا فرق داره. خطاهای غیر YMYL باعث ناراحتی کاربر میشن. اما خطاهای YMYL باعث آسیب جسمی، اشتباهات مالی و از بین رفتن اعتماد به نهادها میشن.
طبق قانون فدرال آمریکا، انتشار اطلاعات نادرست که باعث آسیب بشه تا ۵ سال زندان داره، اگه کسی آسیب بدنی شدید ببینه تا ۲۰ سال، و اگه کسی در نتیجه اون بمیره، حبس ابد در پی داره. بین سالهای ۲۰۱۱ تا ۲۰۲۲، ۷۸ کشور قوانین مربوط به اطلاعات نادرست رو تصویب کردن.
اعتبارسنجی برای YMYL اهمیت بیشتری داره چون عواقبش زنجیرهوار و تشدیدشوندهست.
تصمیمات پزشکی که به خاطر اطلاعات غلط به تعویق میفتن، میتونن شرایط رو غیرقابل بازگشت کنن. انتخابهای سرمایهگذاری ضعیف، مشکلات اقتصادی پایداری ایجاد میکنن. مشاوره حقوقی اشتباه میتونه به از دست رفتن حقوق منجر بشه. این نتایج جبرانناپذیرن.
درک این عواقب به ما کمک میکنه بفهمیم که خوانندگان وقتی موضوعات YMYL رو جستجو میکنن، دنبال چی هستن.
مخاطب از محتوای YMYL چی میخواد؟
مردم محتوای YMYL رو باز نمیکنن که تعاریف کتابی رو بخونن که میتونن تو ویکیپدیا هم پیدا کنن. اونها میخوان با متخصصانی ارتباط برقرار کنن که وضعیتشون رو درک میکنن.
اونها میخوان بدونن بیماران دیگه چه سوالهایی میپرسن. معمولاً چی جواب میده. در طول درمان باید منتظر چی باشن. باید حواسشون به چه علائم هشداری باشه. این بینشها از سالها تجربه عملی به دست میاد، نه از دادههای آموزشی.
خوانندهها میتونن تشخیص بدن که کی محتوا از تجربه واقعی میاد و کی از کنار هم چیدن مقالات دیگه. وقتی یه دکتر میگه «شایعترین اشتباهی که میبینم بیمارها انجام میدن اینه که…» این حرف وزنی داره که توصیههای تولید شده با هوش مصنوعی هرگز نمیتونن داشته باشن.
اصالت برای ایجاد اعتماد مهمه. تو موضوعات YMYL که مردم تصمیماتی میگیرن که روی سلامتی، امور مالی یا وضعیت حقوقیشون تأثیر میذاره، نیاز به این اطمینان دارن که راهنمایی از طرف کسی میاد که قبلاً این شرایط رو تجربه کرده.
این درک از خواسته خوانندگان باید استراتژی شما رو شکل بده.
یک انتخاب استراتژیک پیش روی شما
سازمانهایی که محتوای YMYL تولید میکنن با یه تصمیم روبرو هستن. یا روی تخصص واقعی و دیدگاههای منحصربهفرد سرمایهگذاری کنن، یا با جریمههای الگوریتمی و آسیب به اعتبارشون ریسک کنن.
اضافه شدن «تجربه» به E-A-T در سال ۲۰۲۲، ناتوانی هوش مصنوعی در داشتن تجربه دست اول رو هدف گرفت. آپدیت محتوای مفید (Helpful Content Update)، «خلاصه کردن حرف دیگران بدون اضافه کردن ارزش خاصی» رو جریمه کرد؛ توصیف دقیقی از عملکرد مدلهای زبان بزرگ.
وقتی گوگل استانداردهای سختگیرانهتری برای YMYL اعمال میکنه و نرخ خطای هوش مصنوعی بین ۱۸ تا ۸۸ درصده، ریسکهاش بیشتر از مزایاشه.
متخصصان برای نوشتن محتواشون به هوش مصنوعی نیاز ندارن. اونها برای سازماندهی دانش، ساختاربندی بینشها و در دسترس قرار دادن تخصصشون به کمک نیاز دارن. این یه نقش کاملاً متفاوته با خودِ تولید محتوا.
نگاهی به آینده
ارزش محتوای YMYL از دانشی میاد که نمیشه از منابع موجود استخراجش کرد.
این ارزش از اون جراحی میاد که میدونه بیمارها قبل از هر عمل چه سوالهایی میپرسن. از اون مشاور مالی که مشتریهاش رو تو دوران رکود راهنمایی کرده. از اون وکیلی که دیده کدوم استدلالها جلوی کدوم قاضیها جواب میده.
ناشرانی که با محتوای YMYL مثل یه بازی کمّی برخورد میکنن، چه از طریق هوش مصنوعی و چه از طریق مزارع محتوای انسانی، مسیر سختی در پیش دارن. اما اونهایی که بهش به عنوان یه سیگنال اعتبار نگاه میکنن، یه مدل پایدار برای خودشون ساختن.
شما میتونید از هوش مصنوعی به عنوان ابزاری در فرآیند کاریتون استفاده کنید، اما نمیتونید اون رو جایگزین تخصص انسانی کنید.
پاسخی بگذارید