هوش مصنوعی برای سایت‌های YMYL: آیا امکان‌پذیر است؟ (قبل از اقدام، شواهد را بخوانید)

دستورالعمل‌های گوگل و کلی تحقیق و مطالعه نشون میدن که چرا استفاده از هوش مصنوعی برای نوشتن محتوای سلامتی و مالی، اونم جاهایی که تخصص و صحت حرف اول رو می‌زنه، یه کار پرریسکه.

موضوعات «پول شما یا زندگی شما» (Your Money or Your Life) که به اختصار بهش میگیم YMYL، موضوعاتی رو شامل میشه که روی سلامتی، وضعیت مالی، امنیت یا رفاه کلی آدما تاثیر میذاره. برای همین هم گوگل حق داره که استانداردهای الگوریتمی خیلی سخت‌گیرانه‌تری رو برای این موضوعات در نظر بگیره.

ابزارهای نویسنده هوش مصنوعی شاید قول بدن که تولید محتوای شما رو چند برابر می‌کنن، اما وقتی نوشتن برای موضوعات YMYL به توجه و اعتبار نویسنده بیشتری نسبت به بقیه محتواها نیاز داره، آیا واقعاً یه مدل زبان بزرگ (LLM) می‌تونه محتوای قابل قبولی برای این حوزه بنویسه؟

خلاصه کلام اینه که سیستم‌های هوش مصنوعی تو محتوای YMYL کم میارن و یه مشت محتوای تکراری و بی‌روح تحویل میدن؛ درست همون‌جایی که تخصص و اعتبار منحصر‌به‌فرد بیشترین اهمیت رو داره. هوش مصنوعی تو ۵۰٪ موارد ادعاهای پزشکی بدون پشتوانه مطرح می‌کنه و تو ۷۵٪ موارد هم رأی‌های دادگاه رو از خودش درمیاره (توهم می‌زنه).

تو این مقاله می‌خوایم بررسی کنیم که گوگل چطور استانداردهای YMYL رو اجرا می‌کنه، شواهدی رو نشون بدیم که هوش مصنوعی کجاها گند می‌زنه و بگیم چرا ناشرانی که روی تخصص واقعی و انسانی حساب می‌کنن، خودشون رو برای یه موفقیت طولانی‌مدت آماده کردن.

گوگل با محتوای YMYL شوخی نداره و با دقت الگوریتمی بررسیش می‌کنه

تو دستورالعمل‌های ارزیابان کیفیت جستجوی گوگل اومده که «برای صفحاتی که به وضوح درباره موضوعات YMYL هستن، ما استانداردهای خیلی بالایی برای ارزیابی کیفیت صفحه داریم» و این صفحات «به بیشترین دقت و بررسی نیاز دارن.» این دستورالعمل‌ها، YMYL رو به عنوان موضوعاتی تعریف می‌کنن که «می‌تونن تأثیر قابل توجهی بر سلامت، ثبات مالی یا ایمنی افراد داشته باشن.»

این تفاوت وزن الگوریتمی کاملاً مستند شده. تو راهنمای خود گوگل نوشته شده که برای کوئری‌های YMYL، موتور جستجو «در سیستم‌های رتبه‌بندی ما، وزن بیشتری به عواملی مثل درک ما از اعتبار، تخصص یا قابل اعتماد بودن صفحات میده.»

آپدیت اصلی مارس ۲۰۲۴ (March 2024 core update) این رفتار متفاوت رو قشنگ نشون داد. گوگل اعلام کرد که انتظار داره محتوای بی‌کیفیت ۴۰٪ کاهش پیدا کنه. وب‌سایت‌های YMYL تو حوزه‌های مالی و بهداشتی از جمله سایت‌هایی بودن که بیشترین ضربه رو خوردن.

دستورالعمل‌های ارزیاب کیفیت، یه جور سیستم دو لایه درست می‌کنن. محتوای معمولی می‌تونه با تخصص روزمره به «کیفیت متوسط» برسه. اما محتوای YMYL به سطح «بسیار بالایی» از E-E-A-T (تجربه، تخصص، اعتبار و اعتماد) نیاز داره. محتوایی که E-E-A-T ناکافی داشته باشه، برچسب «پایین‌ترین» کیفیت رو می‌گیره که شدیدترین قضاوت کیفی گوگل به حساب میاد.

با توجه به این استانداردهای سخت‌گیرانه، محتوای تولید شده با هوش مصنوعی برای رسیدن به این معیارها با چالش جدی روبرو میشه.

شاید تو صنعت ما این یه شوخی باشه که توهمات اولیه ChatGPT به مردم توصیه می‌کرد سنگ بخورن، اما این شوخی یه مسئله خیلی جدی رو برجسته می‌کنه. کاربرا به کیفیت نتایجی که آنلاین می‌خونن وابسته هستن و همه نمی‌تونن واقعیت رو از خیال تشخیص بدن.

درصد خطای بالای هوش مصنوعی، اون رو برای موضوعات YMYL نامناسب می‌کنه

یه تحقیق از موسسه HAI استنفورد در فوریه ۲۰۲۴، مدل GPT-4 رو با روش بازیابی اطلاعات افزوده (RAG) آزمایش کرد.

نتیجه: ۳۰٪ از اظهارات منفرد، بدون پشتوانه بودن. تقریباً ۵۰٪ از پاسخ‌ها حداقل یک اظهارنظر بدون منبع معتبر داشتن. مدل Gemini Pro گوگل هم فقط تو ۱۰٪ موارد تونست پاسخ‌های کاملاً مستند ارائه بده.

این‌ها فقط یه سری اختلاف جزئی نیستن. GPT-4 RAG دستورالعمل‌های درمانی برای نوع اشتباهی از تجهیزات پزشکی ارائه داده بود. این نوع خطا می‌تونه تو شرایط اضطراری به بیمار آسیب بزنه.

سایت Money.com در نوامبر ۲۰۲۴، ChatGPT Search رو روی ۱۰۰ سوال مالی تست کرد. فقط ۶۵٪ پاسخ‌ها درست بودن، ۲۹٪ ناقص یا گمراه‌کننده بودن و ۶٪ هم کاملاً غلط.

این سیستم جواب‌هاش رو از وبلاگ‌های شخصی نامعتبر می‌گرفت، به تغییرات قوانین اشاره نمی‌کرد و کاربران رو از «زمان‌بندی بازار» (timing the market) منصرف نمی‌کرد.

مطالعه RegLab استنفورد که بیش از ۲۰۰,۰۰۰ کوئری حقوقی رو آزمایش کرد، نشون داد که نرخ توهم‌زدن (Hallucination) برای مدل‌های پیشرفته بین ۶۹٪ تا ۸۸٪ متغیره.

مدل‌ها حداقل تو ۷۵٪ موارد، رأی‌های دادگاه رو از خودشون درمیارن. پایگاه داده موارد توهم هوش مصنوعی، ۴۳۹ رأی دادگاه رو ثبت کرده که تو اون‌ها هوش مصنوعی در پرونده‌های قضایی، محتوای توهمی تولید کرده.

مجله Men’s Journal اولین مقاله سلامتی تولید شده با هوش مصنوعی خودش رو در فوریه ۲۰۲۳ منتشر کرد. دکتر بردلی آناوالت از مرکز پزشکی دانشگاه واشنگتن، ۱۸ خطای مشخص رو تو این مقاله پیدا کرد.

اون این مقاله رو پر از «اشتباهات فاحش و توصیف‌های نادرست از علم پزشکی» توصیف کرد، از جمله یکی دونستن اصطلاحات پزشکی مختلف، ادعای ارتباطات بدون پشتوانه بین رژیم غذایی و علائم بیماری، و ارائه هشدارهای بهداشتی بی‌اساس.

مقاله «به طرز فاحشی در مورد موضوعات پایه‌ای پزشکی اشتباه بود» در حالی که «اونقدر به شواهد علمی نزدیک بود که حرف‌هاش به گوش آدم واقعی میومد.» این ترکیب خیلی خطرناکه. مردم نمی‌تونن خطاها رو تشخیص بدن چون حرف‌ها منطقی به نظر می‌رسن.

اما حتی وقتی هوش مصنوعی حقایق رو درست میگه، از یه راه دیگه شکست می‌خوره.

گوگل دنبال چیزهاییه که هوش مصنوعی از پسش برنمیاد

در دسامبر ۲۰۲۲، گوگل «تجربه» (Experience) رو به عنوان اولین ستون چارچوب ارزیابی خودش اضافه کرد و E-A-T رو به E-E-A-T گسترش داد.

حالا راهنمای گوگل از ما می‌پرسه که آیا محتوا «به وضوح تخصص دست اول و عمق دانش رو نشون میده (مثلاً تخصصی که از استفاده از یک محصول یا خدمات، یا بازدید از یک مکان به دست میاد).»

این سوال مستقیماً محدودیت‌های هوش مصنوعی رو هدف قرار میده. هوش مصنوعی می‌تونه محتوای دقیق و فنی تولید کنه که شبیه یه کتاب درسی پزشکی یا مرجع حقوقی باشه. چیزی که نمی‌تونه تولید کنه، بینش و نگرش یه متخصصه. همون چیزی که از درمان روزانه بیماران یا وکالت متهمان در دادگاه به دست میاد.

تفاوتش تو محتوا مشخص میشه. هوش مصنوعی شاید بتونه تعریف اختلال مفصل گیجگاهی فکی (TMJ) رو به شما بده. اما یه متخصصی که بیماران TMJ رو درمان می‌کنه، می‌تونه با جواب دادن به سوالات واقعی که مردم می‌پرسن، تخصصش رو نشون بده.

دوره بهبودی چطوره؟ بیمارها معمولاً چه اشتباهاتی می‌کنن؟ کی باید به یه متخصص مراجعه کرد و کی به دندانپزشک عمومی؟ این همون «تجربه» تو E-E-A-T هست؛ درک اثبات‌شده از سناریوهای دنیای واقعی و نیازهای بیمار.

سوالات کیفیت محتوای گوگل به طور واضح به این موضوع پاداش میدن. این شرکت شما رو تشویق می‌کنه که بپرسید «آیا محتوا اطلاعات، گزارش، تحقیق یا تحلیل اورجینال ارائه میده؟» و «آیا محتوا تحلیل عمیق یا اطلاعات جالبی فراتر از بدیهیات ارائه میده؟»

گوگل در مورد «خلاصه کردن حرف‌های دیگران بدون اضافه کردن ارزش خاصی» هشدار میده. این دقیقاً همون کاریه که مدل‌های زبان بزرگ انجام میدن.

این عدم اصالت یه مشکل دیگه هم ایجاد می‌کنه. وقتی همه از ابزارهای یکسانی استفاده می‌کنن، محتواها غیرقابل تشخیص میشن.

طراحی هوش مصنوعی، یکسان‌سازی محتوا رو تضمین می‌کنه

تحقیقات دانشگاه UCLA چیزی رو مستند کرده که محققان بهش میگن «مارپیچ مرگ یکسان‌سازی». سیستم‌های هوش مصنوعی به سمت میانگین ترجیحات جمعیت متمایل میشن، چون مدل‌های زبان بزرگ (LLM) محتمل‌ترین کلمه بعدی رو از نظر آماری پیش‌بینی می‌کنن.

محققان آکسفورد و کمبریج این موضوع رو در عمل نشون دادن. وقتی اون‌ها یه مدل هوش مصنوعی رو روی نژادهای مختلف سگ آموزش دادن، سیستم به تدریج فقط نژادهای رایج رو تولید کرد و در نهایت به «فروپاشی مدل» (Model Collapse) منجر شد.

یه مطالعه در Science Advances نشون داد که «هوش مصنوعی مولد، خلاقیت فردی رو افزایش میده اما تنوع جمعی محتوای جدید رو کم می‌کنه.» نویسنده‌ها به صورت فردی وضعیت بهتری پیدا می‌کنن، اما در مجموع، دامنه محدودتری از محتوا رو تولید می‌کنن.

برای موضوعات YMYL که تمایز و تخصص منحصر‌به‌فرد مزیت رقابتی ایجاد می‌کنه، این همگرایی خیلی آسیب‌زننده‌ست. اگه سه مشاور مالی از ChatGPT برای تولید راهنمای سرمایه‌گذاری در مورد یه موضوع یکسان استفاده کنن، محتواشون به طرز چشمگیری شبیه به هم میشه. این هیچ دلیلی به گوگل یا کاربرا نمیده که یکی رو به دیگری ترجیح بدن.

آپدیت مارس ۲۰۲۴ گوگل روی «سوءاستفاده از محتوای انبوه» و «محتوای عمومی/بدون تمایز» که اطلاعاتی که همه جا پیدا میشه رو بدون هیچ بینش جدیدی تکرار می‌کنه، تمرکز داشت.

خب، پس گوگل چطور تشخیص میده که آیا محتوا واقعاً از طرف متخصصی نوشته شده که اسمش روی اون محتواست؟

گوگل چطور تخصص نویسنده رو تایید می‌کنه؟

گوگل فقط به محتوا به صورت مجزا نگاه نمی‌کنه. این موتور جستجو تو گراف دانش (knowledge graph) خودش ارتباطاتی برقرار می‌کنه تا تأیید کنه که نویسنده‌ها تخصصی رو که ادعا می‌کنن، واقعاً دارن.

برای متخصصان شناخته‌شده، این تأیید خیلی قویه. متخصصان پزشکی با مقالات منتشر شده در گوگل اسکالر، وکلا با ثبت‌نام در کانون وکلا، مشاوران مالی با سوابق در FINRA، همگی ردپاهای دیجیتالی قابل تأییدی دارن. گوگل می‌تونه اسم یه نویسنده رو به مدارک، انتشارات، سخنرانی‌ها و وابستگی‌های حرفه‌ای اون وصل کنه.

این کار الگوهایی رو ایجاد می‌کنه که گوگل می‌تونه تشخیص بده. سبک نوشتاری شما، انتخاب کلمات، ساختار جملات و تمرکز موضوعی شما یه امضای منحصر‌به‌فرد رو تشکیل میده. وقتی محتوایی که با اسم شما منتشر میشه از این الگو منحرف بشه، سوالاتی در مورد اصالتش پیش میاد.

ایجاد اعتبار واقعی به ثبات نیاز داره، بنابراین بهتره به کارهای قبلی خودتون ارجاع بدید و تعامل مداوم با حوزه کاری‌تون رو نشون بدید. نام نویسندگان رو به صفحات بیوگرافی مفصل لینک بدید. مدارک، حوزه‌های قضایی، تخصص‌ها و لینک به پروفایل‌های حرفه‌ای قابل تأیید (مثل نظام پزشکی، کانون وکلا، مؤسسات دانشگاهی) رو هم اضافه کنید.

و از همه مهم‌تر، از متخصصان بخواید که محتوایی که با اسمشون منتشر میشه رو خودشون بنویسن یا به طور کامل بازبینی کنن. نه فقط بررسی صحت اطلاعات، بلکه اطمینان از اینکه لحن، دیدگاه و بینش‌ها، تخصص اون‌ها رو منعکس می‌کنه.

دلیل اهمیت این سیستم‌های تأیید، فراتر از رتبه‌بندیه.

عواقب جدی اطلاعات غلط در دنیای واقعی YMYL

یه مطالعه در سال ۲۰۱۹ از دانشگاه بالتیمور محاسبه کرد که اطلاعات غلط سالانه ۷۸ میلیارد دلار برای اقتصاد جهانی هزینه داره. کلاهبرداری مالی با دیپ‌فیک در سال ۲۰۲۴، ۵۰٪ از کسب‌وکارها رو تحت تأثیر قرار داد و میانگین ضرر برای هر مورد ۴۵۰,۰۰۰ دلار بود.

عواقب این موضوع با انواع دیگه محتوا فرق داره. خطاهای غیر YMYL باعث ناراحتی کاربر میشن. اما خطاهای YMYL باعث آسیب جسمی، اشتباهات مالی و از بین رفتن اعتماد به نهادها میشن.

طبق قانون فدرال آمریکا، انتشار اطلاعات نادرست که باعث آسیب بشه تا ۵ سال زندان داره، اگه کسی آسیب بدنی شدید ببینه تا ۲۰ سال، و اگه کسی در نتیجه اون بمیره، حبس ابد در پی داره. بین سال‌های ۲۰۱۱ تا ۲۰۲۲، ۷۸ کشور قوانین مربوط به اطلاعات نادرست رو تصویب کردن.

اعتبارسنجی برای YMYL اهمیت بیشتری داره چون عواقبش زنجیره‌وار و تشدیدشونده‌ست.

تصمیمات پزشکی که به خاطر اطلاعات غلط به تعویق میفتن، می‌تونن شرایط رو غیرقابل بازگشت کنن. انتخاب‌های سرمایه‌گذاری ضعیف، مشکلات اقتصادی پایداری ایجاد می‌کنن. مشاوره حقوقی اشتباه می‌تونه به از دست رفتن حقوق منجر بشه. این نتایج جبران‌ناپذیرن.

درک این عواقب به ما کمک می‌کنه بفهمیم که خوانندگان وقتی موضوعات YMYL رو جستجو می‌کنن، دنبال چی هستن.

مخاطب از محتوای YMYL چی می‌خواد؟

مردم محتوای YMYL رو باز نمی‌کنن که تعاریف کتابی رو بخونن که می‌تونن تو ویکی‌پدیا هم پیدا کنن. اون‌ها می‌خوان با متخصصانی ارتباط برقرار کنن که وضعیتشون رو درک می‌کنن.

اون‌ها می‌خوان بدونن بیماران دیگه چه سوال‌هایی می‌پرسن. معمولاً چی جواب میده. در طول درمان باید منتظر چی باشن. باید حواسشون به چه علائم هشداری باشه. این بینش‌ها از سال‌ها تجربه عملی به دست میاد، نه از داده‌های آموزشی.

خواننده‌ها می‌تونن تشخیص بدن که کی محتوا از تجربه واقعی میاد و کی از کنار هم چیدن مقالات دیگه. وقتی یه دکتر میگه «شایع‌ترین اشتباهی که می‌بینم بیمارها انجام میدن اینه که…» این حرف وزنی داره که توصیه‌های تولید شده با هوش مصنوعی هرگز نمی‌تونن داشته باشن.

اصالت برای ایجاد اعتماد مهمه. تو موضوعات YMYL که مردم تصمیماتی می‌گیرن که روی سلامتی، امور مالی یا وضعیت حقوقی‌شون تأثیر میذاره، نیاز به این اطمینان دارن که راهنمایی از طرف کسی میاد که قبلاً این شرایط رو تجربه کرده.

این درک از خواسته خوانندگان باید استراتژی شما رو شکل بده.

یک انتخاب استراتژیک پیش روی شما

سازمان‌هایی که محتوای YMYL تولید می‌کنن با یه تصمیم روبرو هستن. یا روی تخصص واقعی و دیدگاه‌های منحصر‌به‌فرد سرمایه‌گذاری کنن، یا با جریمه‌های الگوریتمی و آسیب به اعتبارشون ریسک کنن.

اضافه شدن «تجربه» به E-A-T در سال ۲۰۲۲، ناتوانی هوش مصنوعی در داشتن تجربه دست اول رو هدف گرفت. آپدیت محتوای مفید (Helpful Content Update)، «خلاصه کردن حرف دیگران بدون اضافه کردن ارزش خاصی» رو جریمه کرد؛ توصیف دقیقی از عملکرد مدل‌های زبان بزرگ.

وقتی گوگل استانداردهای سخت‌گیرانه‌تری برای YMYL اعمال می‌کنه و نرخ خطای هوش مصنوعی بین ۱۸ تا ۸۸ درصده، ریسک‌هاش بیشتر از مزایاشه.

متخصصان برای نوشتن محتواشون به هوش مصنوعی نیاز ندارن. اون‌ها برای سازماندهی دانش، ساختاربندی بینش‌ها و در دسترس قرار دادن تخصصشون به کمک نیاز دارن. این یه نقش کاملاً متفاوته با خودِ تولید محتوا.

نگاهی به آینده

ارزش محتوای YMYL از دانشی میاد که نمیشه از منابع موجود استخراجش کرد.

این ارزش از اون جراحی میاد که می‌دونه بیمارها قبل از هر عمل چه سوال‌هایی می‌پرسن. از اون مشاور مالی که مشتری‌هاش رو تو دوران رکود راهنمایی کرده. از اون وکیلی که دیده کدوم استدلال‌ها جلوی کدوم قاضی‌ها جواب میده.

ناشرانی که با محتوای YMYL مثل یه بازی کمّی برخورد می‌کنن، چه از طریق هوش مصنوعی و چه از طریق مزارع محتوای انسانی، مسیر سختی در پیش دارن. اما اون‌هایی که بهش به عنوان یه سیگنال اعتبار نگاه می‌کنن، یه مدل پایدار برای خودشون ساختن.

شما می‌تونید از هوش مصنوعی به عنوان ابزاری در فرآیند کاری‌تون استفاده کنید، اما نمی‌تونید اون رو جایگزین تخصص انسانی کنید.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *