فاجعه مدل: وقتی مدل‌ها هوش خود را از دست می‌دهند!

فروپاشی مدل یا Model Collapse به افت عملکرد مدل‌های هوش مصنوعی مولد اشاره داره که با محتوای تولید شده توسط خود هوش مصنوعی آموزش دیدن.

فروپاشی مدل (Model Collapse) چیه؟

فروپاشی مدل به افت عملکرد مدل‌های هوش مصنوعی مولد اشاره داره که با محتوای تولید شده توسط خود هوش مصنوعی آموزش می‌بینن.

یه حرف رایج تو دنیای توسعه هوش مصنوعی و علوم کامپیوتر اینه که یه مدل هوش مصنوعی (AI) فقط به اندازه داده‌هایی که باهاشون آموزش دیده، خوب عمل می‌کنه. تو سال‌های اخیر، محقق‌ها فهمیدن مدل‌های مولدی که فقط با خروجی‌های نسل‌های قبلی خودشون آموزش دیدن، نتایج‌شون روزبه‌روز غیردقیق‌تر میشه. این مدل‌ها که دچار «نقص‌های جبران‌ناپذیر» میشن، در نهایت از کار میفتن و بی‌فایده میشن.۱ این اتفاق میفته چون هر خطایی که تو خروجی یه مدل موقع برازش (fitting) وجود داشته باشه، بعداً وارد داده‌های آموزشی مدل نسل بعدی میشه. بعد، اون مدل جدید هم خطاهای خودش رو تولید می‌کنه. فروپاشی مدل با جمع شدن این خطاها تو نسل‌های متوالی، شدیدتر میشه.۲

این خطاها به این دلیل اتفاق میفتن که مدل‌های هوش مصنوعی مولد، مجموعه‌داده‌هایی تولید می‌کنن که تنوع کمتری نسبت به توزیع داده‌های اصلی دارن. ایلیا شومایلوف، زاخار شومایلوف، ییرن ژائو و تیمی از محققان دانشگاه‌های بریتانیا و کانادا، یه گزارش خیلی معروف در مورد فروپاشی مدل نوشتن. این تیم با آزمایش روی مدل‌های هوش مصنوعی، متوجه شدن مدل‌هایی که با داده‌های تولید شده توسط هوش مصنوعی (که بهشون داده‌های مصنوعی یا synthetic data هم میگن) آموزش دیدن، اول از همه اطلاعات مربوط به «دنباله‌ها» یا نقاط انتهایی و دور از مرکز توزیع واقعی داده‌ها رو از دست میدن. اونا اسم این مرحله رو «فروپاشی اولیه مدل» گذاشتن. تو تکرارهای بعدی مدل، توزیع داده‌ها اونقدر به هم نزدیک شد که دیگه تقریباً هیچ شباهتی به داده‌های اصلی نداشت. محقق‌ها این مرحله رو «فروپاشی نهایی مدل» نام‌گذاری کردن.۳

تو دنیای واقعی، فروپاشی مدل ممکنه به خاطر فرآیندهای آموزشی که برای مدل‌های بزرگ هوش مصنوعی مولد، مثل مدل‌های زبان بزرگ (LLMs)، استفاده میشه، اتفاق بیفته. مدل‌های زبان بزرگ بیشتر با داده‌های تولید شده توسط انسان که از سطح اینترنت جمع‌آوری (scrape) شدن، آموزش می‌بینن. اما هرچقدر محتوای تولید شده توسط هوش مصنوعی تو وب بیشتر میشه، احتمال اینکه مدل‌های آینده به جای داده‌های انسانی، با همین محتواها آموزش ببینن هم بالاتر میره و این موضوع می‌تونه باعث تسریع فروپاشی مدل بشه.

پدیده فروپاشی مدل پیامدهای جدی برای توسعه هوش مصنوعی داره و به همین خاطر محقق‌ها چندتا راه حل پیشنهاد دادن. این راه حل‌ها شامل ردیابی منشأ داده‌ها، حفظ دسترسی به منابع داده اصلی و ترکیب داده‌های انباشته شده توسط هوش مصنوعی با داده‌های واقعی برای آموزش مدل‌های هوش مصنوعی میشه.

فروپاشی مدل چه عواقبی داره؟

مدل‌های هوش مصنوعی مولد تو سال‌های اخیر به خاطر تولید خروجی‌های غیردقیق و بی‌معنی، که بهشون توهم هوش مصنوعی (AI hallucinations) هم میگن، خیلی خبرساز شدن. مثلاً، چت‌بات گوگل بارد یه ادعای اشتباه در مورد تلسکوپ فضایی جیمز وب مطرح کرد، یا اینکه تصاویر تولید شده توسط هوش مصنوعی از انسان‌ها معمولاً انگشت‌های اضافه دارن که دیگه یه چیز عادی شده.

با اینکه خروجی‌های غیردقیق و بی‌معنی گاهی فقط دردسرساز یا حتی سرگرم‌کننده‌ان، اما عواقب فروپاشی مدل می‌تونه خیلی گسترده‌تر و جدی‌تر باشه:

تصمیم‌گیری‌های ضعیف

خروجی‌های نادرست ناشی از فروپاشی مدل می‌تونه برای کسب‌وکارهایی که از هوش مصنوعی برای تصمیم‌گیری استفاده می‌کنن، هزینه‌های سنگینی داشته باشه. همه چیز، از چت‌بات‌های خدمات مشتری گرفته تا ابزارهای تشخیص پزشکی مبتنی بر هوش مصنوعی، ممکنه تحت تأثیر قرار بگیرن. مثلاً تصور کنین یه مدل هوش مصنوعی تشخیص پزشکی نتونه یه بیماری نادر رو تو یه بیمار به درستی تشخیص بده، چون این بیماری نادر و کم‌احتمال تو نسل‌های قبلی مدل، کم‌کم از داده‌های آموزشی حذف و فراموش شده.

کاهش تعامل کاربر

در اثر فروپاشی مدل، ممکنه مدل‌ها نقاط داده پرت و دور از مرکز رو که به تعاملات و ترجیحات واقعی انسان‌ها مربوط میشن، نادیده بگیرن. در نتیجه، کاربرهایی که دنبال محتوای کمتر محبوب یا منحصر به فرد هستن، ممکنه از خروجی‌های مدل ناامید بشن.۴ مثلاً یه سیستم پیشنهاددهنده هوش مصنوعی برای خریداران آنلاین رو در نظر بگیرین: اگه یه مشتری کفش سبز لیمویی دوست داشته باشه، اما سیستم مدام بهش کفش‌های سیاه و سفید رو پیشنهاد بده چون پرفروش‌ترن، اون مشتری احتمالاً میره سراغ یه فروشگاه دیگه.

افت سطح دانش

اگه سیستم‌های هوش مصنوعی پرکاربرد که در حال فروپاشی مدل هستن، مدام خروجی‌های محدودتر و بسته‌تری تولید کنن، ایده‌های «دنباله بلند» (long-tail) ممکنه به مرور از ذهن عموم مردم پاک بشن. این موضوع دامنه دانش بشری رو محدود می‌کنه و سوگیری‌های رایج تو جامعه رو تشدید می‌کنه.۵ برای مثال، امروزه دانشمندان می‌تونن برای پیدا کردن مقالات و پژوهش‌ها از ابزارهای تحقیقاتی مبتنی بر هوش مصنوعی استفاده کنن. اما اگه این ابزارها دچار فروپاشی مدل شده باشن، ممکنه فقط مطالعاتی رو به کاربر نشون بدن که خیلی بهشون ارجاع داده شده و به این ترتیب، کاربر رو از اطلاعات کلیدی که می‌تونه به کشف‌های مهمی منجر بشه، محروم کنن.

فروپاشی مدل روی مدل‌های مختلف هوش مصنوعی مولد چه تأثیری داره؟

انواع مختلف مدل‌های هوش مصنوعی مولد، به شکل‌های متفاوتی تحت تأثیر فروپاشی مدل قرار می‌گیرن.

مدل‌های زبان بزرگ (LLMs)

تو مدل‌های زبان بزرگ، فروپاشی مدل می‌تونه خودش رو به شکل خروجی‌های متنی بی‌ربط، بی‌معنی و تکراری نشون بده. تو یه آزمایش، محقق‌ها مدل زبان بزرگ متن‌باز OPT-125M رو که متا منتشر کرده، فاین-تیون (fine-tune) کردن. نسل‌های مختلف این مدل با داده‌های تولید شده توسط نسل‌های قبلی آموزش دیدن. بعد از یه ورودی اولیه انگلیسی در مورد معماری، یکی از نسل‌های مدل در نهایت یه خروجی در مورد خرگوش‌های صحرایی با دم‌های رنگارنگ تولید کرد!۶

مدل‌های تولید تصویر

فروپاشی مدل تو مدل‌های تولید تصویر خیلی واضحه، چون کیفیت، تنوع و دقت تصاویر خروجی روز به روز کمتر میشه. تو یه آزمایش از یه مجموعه‌داده از اعداد دست‌نویس و متمایز برای آموزش یه مدل خودرمزگذار متغیر (VAE) استفاده شد. بعد از چندین چرخه آموزشی تکراری، نسل‌های بعدی مدل خروجی‌هایی تولید کردن که تو اون‌ها خیلی از اعداد شبیه به هم بودن.۷ یه مطالعه دیگه روی یه مدل شبکه مولد تخاصمی (GAN) که با تصاویر متنوعی از چهره‌ها آموزش دیده بود، نشون داد که این مدل در نهایت چهره‌های یکنواخت‌تر و شبیه‌تری تولید می‌کرد.۸

مدل‌های آمیخته گوسی (GMMs)

مدل‌های آمیخته گوسی می‌تونن داده‌ها رو تو خوشه‌های مختلف دسته‌بندی کنن، اما محقق‌ها فهمیدن مدلی از این نوع که وظیفه داشت داده‌ها رو به دو خوشه تقسیم کنه، بعد از چند ده بار تکرار، عملکردش به شدت افت کرد. درک مدل از توزیع داده‌های زیربنایی به مرور زمان تغییر کرد و تا نسل دوهزارم، خروجی اون دیگه تنوع خیلی کمی داشت.۹

فروپاشی مدل چه ارتباطی با بقیه پدیده‌های افت عملکرد مدل داره؟

فروپاشی مدل یکی از چندین پدیده افت عملکرد مدله که تو یادگیری ماشین دیده میشه. موارد دیگه شامل فراموشی فاجعه‌بار، فروپاشی مُد، رانش مدل و پیش‌بینی اجرایی هستن. هر کدوم از این‌ها شباهت‌هایی به فروپاشی مدل دارن، اما باهاش فرق می‌کنن.

فراموشی فاجعه‌بار (Catastrophic Forgetting)

هم فراموشی فاجعه‌بار و هم فروپاشی مدل، هر دو به از دست رفتن اطلاعات توسط سیستم‌های هوش مصنوعی مربوط میشن. اما فراموشی فاجعه‌بار با فروپاشی مدل فرق داره. فراموشی فاجعه‌بار زمانی اتفاق میفته که *یک* مدل، اطلاعات جدیدی یاد می‌گیره و اطلاعات قبلی رو «فراموش» می‌کنه. در نتیجه، وقتی اون مدل برای کاری استفاده میشه که به اطلاعات قدیمی نیاز داره، عملکردش ضعیف میشه. اما فروپاشی مدل فرق داره، چون این پدیده به افت عملکرد در *نسل‌های متوالی* مدل مربوط میشه، نه از دست رفتن داده و افت عملکرد در *یک* مدل.۱۰

فروپاشی مُد (Mode Collapse)

با اینکه اسمش شبیه فروپاشی مدله، اما فروپاشی مُد یه پدیده مخصوص مدل‌های GAN هست. این مدل‌ها دو بخش مختلف دارن – یه مولد (generator) و یه تمایزدهنده (discriminator) – که کمک می‌کنن داده‌های مصنوعی شبیه به داده‌های واقعی تولید بشن. مولد وظیفه ساخت داده‌ها رو داره و تمایزدهنده مثل یه بازرس دائمی عمل می‌کنه و داده‌هایی رو که غیرواقعی به نظر می‌رسن، شناسایی می‌کنه. فروپاشی مُد وقتی اتفاق میفته که خروجی مولد تنوع کافی نداره و این نقص از چشم تمایزدهنده دور می‌مونه و در نهایت باعث افت عملکرد میشه.

رانش مدل (Model Drift)

رانش مدل به افت عملکرد مدل یادگیری ماشین به خاطر تغییر در داده‌ها یا تغییر در روابط بین متغیرهای ورودی و خروجی اشاره داره. مدل‌هایی که با داده‌های تاریخی ساخته شدن، می‌تونن به مرور زمان قدیمی و ناکارآمد بشن. اگه آموزشی که یه مدل هوش مصنوعی بر اساس داده‌های قدیمی دیده، با داده‌های جدید ورودی همخوانی نداشته باشه، نمی‌تونه اون داده‌ها رو درست تفسیر کنه یا ازشون برای پیش‌بینی‌های دقیق استفاده کنه. فروپاشی مدل با این پدیده فرق داره، چون شامل آموزش مدل‌ها با داده‌های جدید و تولید شده توسط هوش مصنوعی در چرخه‌های تکراری میشه.

پیش‌بینی اجرایی (Performative Prediction)

محقق‌ها فروپاشی مدل تو مدل‌های مولد رو با پدیده پیش‌بینی اجرایی تو مدل‌های یادگیری نظارت‌شده مقایسه کردن، چون هر دو شامل آلوده شدن مجموعه‌های آموزشی با ورودی‌های مدل‌های قبلی هستن. پیش‌بینی اجرایی زمانی اتفاق میفته که خروجی یه مدل یادگیری نظارت‌شده، روی نتایج دنیای واقعی طوری تأثیر میذاره که با پیش‌بینی خود مدل مطابقت داشته باشه. این موضوع به نوبه خودش روی خروجی‌های آینده مدل تأثیر میذاره و یه جور «پیش‌گویی خودمحقق‌کننده» (self-fulfilling prophecy) ایجاد می‌کنه. وقتی این فرآیند باعث تثبیت تبعیض بشه، بهش حلقه بازخورد انصاف (fairness feedback loop) هم میگن.۱۱ مثلاً، یه مدل هوش مصنوعی برای تصمیم‌گیری در مورد وام مسکن، که با داده‌های دوران تبعیض‌آمیز «خط‌کشی قرمز» (redlining) در آمریکا آموزش دیده، می‌تونه وام‌دهنده‌ها رو تشویق کنه که ناخواسته همون تبعیض رو امروز هم تکرار کنن.

چطور میشه از فروپاشی مدل جلوگیری کرد؟

چندتا استراتژی وجود داره که می‌تونه به توسعه‌دهنده‌های هوش مصنوعی و سازمان‌ها کمک کنه تا از فروپاشی مدل جلوگیری کنن. این استراتژی‌ها عبارتند از:

  • حفظ منابع داده غیر هوش مصنوعی
  • تشخیص منشأ داده‌ها
  • استفاده از انباشت داده‌ها
  • استفاده از داده‌های مصنوعی بهتر
  • پیاده‌سازی ابزارهای حاکمیت هوش مصنوعی

حفظ منابع داده غیر هوش مصنوعی

منابع داده اصلی و باکیفیت می‌تونن تنوع مهمی رو فراهم کنن که ممکنه تو داده‌های تولید شده توسط هوش مصنوعی وجود نداشته باشه. اطمینان از اینکه مدل‌های هوش مصنوعی همچنان با داده‌های تولید شده توسط انسان آموزش می‌بینن، می‌تونه توانایی سیستم‌های هوش مصنوعی رو برای عملکرد خوب تو موقعیت‌هایی که با رویدادهای کم‌احتمال سروکار دارن، حفظ کنه. مثلاً موقعیتی که یه مشتری محصولی غیرعادی رو ترجیح میده یا یه دانشمند از اطلاعات یه مقاله که کمتر بهش ارجاع شده، سود می‌بره. تو چنین شرایطی، خروجی ممکنه رایج یا محبوب نباشه، اما در واقع دقیق‌ترین نتیجه است.

تشخیص منشأ داده‌ها

تشخیص تفاوت بین داده‌های تولید شده توسط مدل و داده‌های انسانی تو اکوسیستم‌های اطلاعاتی می‌تونه سخت باشه، اما هماهنگی بین توسعه‌دهنده‌های مدل‌های زبان بزرگ و محققان هوش مصنوعی می‌تونه به اطمینان از دسترسی به اطلاعات مربوط به منشأ داده‌ها کمک کنه. یکی از این تلاش‌های هماهنگ، «ابتکار عمل منشأ داده‌ها» (The Data Provenance Initiative) هست؛ گروهی از محققان هوش مصنوعی از دانشگاه MIT و دانشگاه‌های دیگه که تا امروز بیش از ۴۰۰۰ مجموعه‌داده رو بررسی و ممیزی کردن.۱۲

استفاده از انباشت داده‌ها

طبق یه مطالعه، توسعه‌دهنده‌های هوش مصنوعی می‌تونن با آموزش مدل‌هاشون با ترکیبی از داده‌های واقعی و داده‌های مصنوعی از چندین نسل مختلف، از افت عملکرد جلوگیری کنن. این روش «انباشت» در تضاد با رویه‌ایه که تو اون داده‌های اصلی به طور کامل با داده‌های تولید شده توسط هوش مصنوعی جایگزین میشن.۱۳

استفاده از داده‌های مصنوعی بهتر

همزمان با اینکه توسعه‌دهنده‌های هوش مصنوعی روش انباشت داده رو بررسی می‌کنن، می‌تونن از بهبود کیفیت داده‌های مصنوعی که به طور خاص برای اهداف آموزشی یادگیری ماشین تولید میشن هم بهره‌مند بشن. پیشرفت تو الگوریتم‌های تولید داده می‌تونه به افزایش قابلیت اطمینان و کاربرد داده‌های مصنوعی کمک کنه. مثلاً تو حوزه بهداشت و درمان، از داده‌های مصنوعی میشه برای ارائه طیف وسیع‌تری از سناریوها برای آموزش مدل‌ها استفاده کرد که در نهایت به قابلیت‌های تشخیصی بهتری منجر میشه.

پیاده‌سازی ابزارهای حاکمیت هوش مصنوعی

ابزارهای حاکمیت هوش مصنوعی (AI Governance) می‌تونن با فراهم کردن امکان نظارت و کنترل روی سیستم‌های هوش مصنوعی، به توسعه‌دهنده‌ها و شرکت‌ها کمک کنن تا ریسک افت عملکرد هوش مصنوعی رو کاهش بدن. این ابزارها می‌تونن شامل سیستم‌های تشخیص خودکار برای سوگیری، رانش، عملکرد و ناهنجاری‌ها باشن و به طور بالقوه فروپاشی مدل رو قبل از اینکه به کسب‌وکار آسیب بزنه، شناسایی کنن.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *