
فاجعه مدل: وقتی مدلها هوش خود را از دست میدهند!
فروپاشی مدل یا Model Collapse به افت عملکرد مدلهای هوش مصنوعی مولد اشاره داره که با محتوای تولید شده توسط خود هوش مصنوعی آموزش دیدن.
فروپاشی مدل (Model Collapse) چیه؟
فروپاشی مدل به افت عملکرد مدلهای هوش مصنوعی مولد اشاره داره که با محتوای تولید شده توسط خود هوش مصنوعی آموزش میبینن.
یه حرف رایج تو دنیای توسعه هوش مصنوعی و علوم کامپیوتر اینه که یه مدل هوش مصنوعی (AI) فقط به اندازه دادههایی که باهاشون آموزش دیده، خوب عمل میکنه. تو سالهای اخیر، محققها فهمیدن مدلهای مولدی که فقط با خروجیهای نسلهای قبلی خودشون آموزش دیدن، نتایجشون روزبهروز غیردقیقتر میشه. این مدلها که دچار «نقصهای جبرانناپذیر» میشن، در نهایت از کار میفتن و بیفایده میشن.۱ این اتفاق میفته چون هر خطایی که تو خروجی یه مدل موقع برازش (fitting) وجود داشته باشه، بعداً وارد دادههای آموزشی مدل نسل بعدی میشه. بعد، اون مدل جدید هم خطاهای خودش رو تولید میکنه. فروپاشی مدل با جمع شدن این خطاها تو نسلهای متوالی، شدیدتر میشه.۲
این خطاها به این دلیل اتفاق میفتن که مدلهای هوش مصنوعی مولد، مجموعهدادههایی تولید میکنن که تنوع کمتری نسبت به توزیع دادههای اصلی دارن. ایلیا شومایلوف، زاخار شومایلوف، ییرن ژائو و تیمی از محققان دانشگاههای بریتانیا و کانادا، یه گزارش خیلی معروف در مورد فروپاشی مدل نوشتن. این تیم با آزمایش روی مدلهای هوش مصنوعی، متوجه شدن مدلهایی که با دادههای تولید شده توسط هوش مصنوعی (که بهشون دادههای مصنوعی یا synthetic data هم میگن) آموزش دیدن، اول از همه اطلاعات مربوط به «دنبالهها» یا نقاط انتهایی و دور از مرکز توزیع واقعی دادهها رو از دست میدن. اونا اسم این مرحله رو «فروپاشی اولیه مدل» گذاشتن. تو تکرارهای بعدی مدل، توزیع دادهها اونقدر به هم نزدیک شد که دیگه تقریباً هیچ شباهتی به دادههای اصلی نداشت. محققها این مرحله رو «فروپاشی نهایی مدل» نامگذاری کردن.۳
تو دنیای واقعی، فروپاشی مدل ممکنه به خاطر فرآیندهای آموزشی که برای مدلهای بزرگ هوش مصنوعی مولد، مثل مدلهای زبان بزرگ (LLMs)، استفاده میشه، اتفاق بیفته. مدلهای زبان بزرگ بیشتر با دادههای تولید شده توسط انسان که از سطح اینترنت جمعآوری (scrape) شدن، آموزش میبینن. اما هرچقدر محتوای تولید شده توسط هوش مصنوعی تو وب بیشتر میشه، احتمال اینکه مدلهای آینده به جای دادههای انسانی، با همین محتواها آموزش ببینن هم بالاتر میره و این موضوع میتونه باعث تسریع فروپاشی مدل بشه.
پدیده فروپاشی مدل پیامدهای جدی برای توسعه هوش مصنوعی داره و به همین خاطر محققها چندتا راه حل پیشنهاد دادن. این راه حلها شامل ردیابی منشأ دادهها، حفظ دسترسی به منابع داده اصلی و ترکیب دادههای انباشته شده توسط هوش مصنوعی با دادههای واقعی برای آموزش مدلهای هوش مصنوعی میشه.
فروپاشی مدل چه عواقبی داره؟
مدلهای هوش مصنوعی مولد تو سالهای اخیر به خاطر تولید خروجیهای غیردقیق و بیمعنی، که بهشون توهم هوش مصنوعی (AI hallucinations) هم میگن، خیلی خبرساز شدن. مثلاً، چتبات گوگل بارد یه ادعای اشتباه در مورد تلسکوپ فضایی جیمز وب مطرح کرد، یا اینکه تصاویر تولید شده توسط هوش مصنوعی از انسانها معمولاً انگشتهای اضافه دارن که دیگه یه چیز عادی شده.
با اینکه خروجیهای غیردقیق و بیمعنی گاهی فقط دردسرساز یا حتی سرگرمکنندهان، اما عواقب فروپاشی مدل میتونه خیلی گستردهتر و جدیتر باشه:
تصمیمگیریهای ضعیف
خروجیهای نادرست ناشی از فروپاشی مدل میتونه برای کسبوکارهایی که از هوش مصنوعی برای تصمیمگیری استفاده میکنن، هزینههای سنگینی داشته باشه. همه چیز، از چتباتهای خدمات مشتری گرفته تا ابزارهای تشخیص پزشکی مبتنی بر هوش مصنوعی، ممکنه تحت تأثیر قرار بگیرن. مثلاً تصور کنین یه مدل هوش مصنوعی تشخیص پزشکی نتونه یه بیماری نادر رو تو یه بیمار به درستی تشخیص بده، چون این بیماری نادر و کماحتمال تو نسلهای قبلی مدل، کمکم از دادههای آموزشی حذف و فراموش شده.
کاهش تعامل کاربر
در اثر فروپاشی مدل، ممکنه مدلها نقاط داده پرت و دور از مرکز رو که به تعاملات و ترجیحات واقعی انسانها مربوط میشن، نادیده بگیرن. در نتیجه، کاربرهایی که دنبال محتوای کمتر محبوب یا منحصر به فرد هستن، ممکنه از خروجیهای مدل ناامید بشن.۴ مثلاً یه سیستم پیشنهاددهنده هوش مصنوعی برای خریداران آنلاین رو در نظر بگیرین: اگه یه مشتری کفش سبز لیمویی دوست داشته باشه، اما سیستم مدام بهش کفشهای سیاه و سفید رو پیشنهاد بده چون پرفروشترن، اون مشتری احتمالاً میره سراغ یه فروشگاه دیگه.
افت سطح دانش
اگه سیستمهای هوش مصنوعی پرکاربرد که در حال فروپاشی مدل هستن، مدام خروجیهای محدودتر و بستهتری تولید کنن، ایدههای «دنباله بلند» (long-tail) ممکنه به مرور از ذهن عموم مردم پاک بشن. این موضوع دامنه دانش بشری رو محدود میکنه و سوگیریهای رایج تو جامعه رو تشدید میکنه.۵ برای مثال، امروزه دانشمندان میتونن برای پیدا کردن مقالات و پژوهشها از ابزارهای تحقیقاتی مبتنی بر هوش مصنوعی استفاده کنن. اما اگه این ابزارها دچار فروپاشی مدل شده باشن، ممکنه فقط مطالعاتی رو به کاربر نشون بدن که خیلی بهشون ارجاع داده شده و به این ترتیب، کاربر رو از اطلاعات کلیدی که میتونه به کشفهای مهمی منجر بشه، محروم کنن.
فروپاشی مدل روی مدلهای مختلف هوش مصنوعی مولد چه تأثیری داره؟
انواع مختلف مدلهای هوش مصنوعی مولد، به شکلهای متفاوتی تحت تأثیر فروپاشی مدل قرار میگیرن.
مدلهای زبان بزرگ (LLMs)
تو مدلهای زبان بزرگ، فروپاشی مدل میتونه خودش رو به شکل خروجیهای متنی بیربط، بیمعنی و تکراری نشون بده. تو یه آزمایش، محققها مدل زبان بزرگ متنباز OPT-125M رو که متا منتشر کرده، فاین-تیون (fine-tune) کردن. نسلهای مختلف این مدل با دادههای تولید شده توسط نسلهای قبلی آموزش دیدن. بعد از یه ورودی اولیه انگلیسی در مورد معماری، یکی از نسلهای مدل در نهایت یه خروجی در مورد خرگوشهای صحرایی با دمهای رنگارنگ تولید کرد!۶
مدلهای تولید تصویر
فروپاشی مدل تو مدلهای تولید تصویر خیلی واضحه، چون کیفیت، تنوع و دقت تصاویر خروجی روز به روز کمتر میشه. تو یه آزمایش از یه مجموعهداده از اعداد دستنویس و متمایز برای آموزش یه مدل خودرمزگذار متغیر (VAE) استفاده شد. بعد از چندین چرخه آموزشی تکراری، نسلهای بعدی مدل خروجیهایی تولید کردن که تو اونها خیلی از اعداد شبیه به هم بودن.۷ یه مطالعه دیگه روی یه مدل شبکه مولد تخاصمی (GAN) که با تصاویر متنوعی از چهرهها آموزش دیده بود، نشون داد که این مدل در نهایت چهرههای یکنواختتر و شبیهتری تولید میکرد.۸
مدلهای آمیخته گوسی (GMMs)
مدلهای آمیخته گوسی میتونن دادهها رو تو خوشههای مختلف دستهبندی کنن، اما محققها فهمیدن مدلی از این نوع که وظیفه داشت دادهها رو به دو خوشه تقسیم کنه، بعد از چند ده بار تکرار، عملکردش به شدت افت کرد. درک مدل از توزیع دادههای زیربنایی به مرور زمان تغییر کرد و تا نسل دوهزارم، خروجی اون دیگه تنوع خیلی کمی داشت.۹
فروپاشی مدل چه ارتباطی با بقیه پدیدههای افت عملکرد مدل داره؟
فروپاشی مدل یکی از چندین پدیده افت عملکرد مدله که تو یادگیری ماشین دیده میشه. موارد دیگه شامل فراموشی فاجعهبار، فروپاشی مُد، رانش مدل و پیشبینی اجرایی هستن. هر کدوم از اینها شباهتهایی به فروپاشی مدل دارن، اما باهاش فرق میکنن.
فراموشی فاجعهبار (Catastrophic Forgetting)
هم فراموشی فاجعهبار و هم فروپاشی مدل، هر دو به از دست رفتن اطلاعات توسط سیستمهای هوش مصنوعی مربوط میشن. اما فراموشی فاجعهبار با فروپاشی مدل فرق داره. فراموشی فاجعهبار زمانی اتفاق میفته که *یک* مدل، اطلاعات جدیدی یاد میگیره و اطلاعات قبلی رو «فراموش» میکنه. در نتیجه، وقتی اون مدل برای کاری استفاده میشه که به اطلاعات قدیمی نیاز داره، عملکردش ضعیف میشه. اما فروپاشی مدل فرق داره، چون این پدیده به افت عملکرد در *نسلهای متوالی* مدل مربوط میشه، نه از دست رفتن داده و افت عملکرد در *یک* مدل.۱۰
فروپاشی مُد (Mode Collapse)
با اینکه اسمش شبیه فروپاشی مدله، اما فروپاشی مُد یه پدیده مخصوص مدلهای GAN هست. این مدلها دو بخش مختلف دارن – یه مولد (generator) و یه تمایزدهنده (discriminator) – که کمک میکنن دادههای مصنوعی شبیه به دادههای واقعی تولید بشن. مولد وظیفه ساخت دادهها رو داره و تمایزدهنده مثل یه بازرس دائمی عمل میکنه و دادههایی رو که غیرواقعی به نظر میرسن، شناسایی میکنه. فروپاشی مُد وقتی اتفاق میفته که خروجی مولد تنوع کافی نداره و این نقص از چشم تمایزدهنده دور میمونه و در نهایت باعث افت عملکرد میشه.
رانش مدل (Model Drift)
رانش مدل به افت عملکرد مدل یادگیری ماشین به خاطر تغییر در دادهها یا تغییر در روابط بین متغیرهای ورودی و خروجی اشاره داره. مدلهایی که با دادههای تاریخی ساخته شدن، میتونن به مرور زمان قدیمی و ناکارآمد بشن. اگه آموزشی که یه مدل هوش مصنوعی بر اساس دادههای قدیمی دیده، با دادههای جدید ورودی همخوانی نداشته باشه، نمیتونه اون دادهها رو درست تفسیر کنه یا ازشون برای پیشبینیهای دقیق استفاده کنه. فروپاشی مدل با این پدیده فرق داره، چون شامل آموزش مدلها با دادههای جدید و تولید شده توسط هوش مصنوعی در چرخههای تکراری میشه.
پیشبینی اجرایی (Performative Prediction)
محققها فروپاشی مدل تو مدلهای مولد رو با پدیده پیشبینی اجرایی تو مدلهای یادگیری نظارتشده مقایسه کردن، چون هر دو شامل آلوده شدن مجموعههای آموزشی با ورودیهای مدلهای قبلی هستن. پیشبینی اجرایی زمانی اتفاق میفته که خروجی یه مدل یادگیری نظارتشده، روی نتایج دنیای واقعی طوری تأثیر میذاره که با پیشبینی خود مدل مطابقت داشته باشه. این موضوع به نوبه خودش روی خروجیهای آینده مدل تأثیر میذاره و یه جور «پیشگویی خودمحققکننده» (self-fulfilling prophecy) ایجاد میکنه. وقتی این فرآیند باعث تثبیت تبعیض بشه، بهش حلقه بازخورد انصاف (fairness feedback loop) هم میگن.۱۱ مثلاً، یه مدل هوش مصنوعی برای تصمیمگیری در مورد وام مسکن، که با دادههای دوران تبعیضآمیز «خطکشی قرمز» (redlining) در آمریکا آموزش دیده، میتونه وامدهندهها رو تشویق کنه که ناخواسته همون تبعیض رو امروز هم تکرار کنن.
چطور میشه از فروپاشی مدل جلوگیری کرد؟
چندتا استراتژی وجود داره که میتونه به توسعهدهندههای هوش مصنوعی و سازمانها کمک کنه تا از فروپاشی مدل جلوگیری کنن. این استراتژیها عبارتند از:
- حفظ منابع داده غیر هوش مصنوعی
- تشخیص منشأ دادهها
- استفاده از انباشت دادهها
- استفاده از دادههای مصنوعی بهتر
- پیادهسازی ابزارهای حاکمیت هوش مصنوعی
حفظ منابع داده غیر هوش مصنوعی
منابع داده اصلی و باکیفیت میتونن تنوع مهمی رو فراهم کنن که ممکنه تو دادههای تولید شده توسط هوش مصنوعی وجود نداشته باشه. اطمینان از اینکه مدلهای هوش مصنوعی همچنان با دادههای تولید شده توسط انسان آموزش میبینن، میتونه توانایی سیستمهای هوش مصنوعی رو برای عملکرد خوب تو موقعیتهایی که با رویدادهای کماحتمال سروکار دارن، حفظ کنه. مثلاً موقعیتی که یه مشتری محصولی غیرعادی رو ترجیح میده یا یه دانشمند از اطلاعات یه مقاله که کمتر بهش ارجاع شده، سود میبره. تو چنین شرایطی، خروجی ممکنه رایج یا محبوب نباشه، اما در واقع دقیقترین نتیجه است.
تشخیص منشأ دادهها
تشخیص تفاوت بین دادههای تولید شده توسط مدل و دادههای انسانی تو اکوسیستمهای اطلاعاتی میتونه سخت باشه، اما هماهنگی بین توسعهدهندههای مدلهای زبان بزرگ و محققان هوش مصنوعی میتونه به اطمینان از دسترسی به اطلاعات مربوط به منشأ دادهها کمک کنه. یکی از این تلاشهای هماهنگ، «ابتکار عمل منشأ دادهها» (The Data Provenance Initiative) هست؛ گروهی از محققان هوش مصنوعی از دانشگاه MIT و دانشگاههای دیگه که تا امروز بیش از ۴۰۰۰ مجموعهداده رو بررسی و ممیزی کردن.۱۲
استفاده از انباشت دادهها
طبق یه مطالعه، توسعهدهندههای هوش مصنوعی میتونن با آموزش مدلهاشون با ترکیبی از دادههای واقعی و دادههای مصنوعی از چندین نسل مختلف، از افت عملکرد جلوگیری کنن. این روش «انباشت» در تضاد با رویهایه که تو اون دادههای اصلی به طور کامل با دادههای تولید شده توسط هوش مصنوعی جایگزین میشن.۱۳
استفاده از دادههای مصنوعی بهتر
همزمان با اینکه توسعهدهندههای هوش مصنوعی روش انباشت داده رو بررسی میکنن، میتونن از بهبود کیفیت دادههای مصنوعی که به طور خاص برای اهداف آموزشی یادگیری ماشین تولید میشن هم بهرهمند بشن. پیشرفت تو الگوریتمهای تولید داده میتونه به افزایش قابلیت اطمینان و کاربرد دادههای مصنوعی کمک کنه. مثلاً تو حوزه بهداشت و درمان، از دادههای مصنوعی میشه برای ارائه طیف وسیعتری از سناریوها برای آموزش مدلها استفاده کرد که در نهایت به قابلیتهای تشخیصی بهتری منجر میشه.
پیادهسازی ابزارهای حاکمیت هوش مصنوعی
ابزارهای حاکمیت هوش مصنوعی (AI Governance) میتونن با فراهم کردن امکان نظارت و کنترل روی سیستمهای هوش مصنوعی، به توسعهدهندهها و شرکتها کمک کنن تا ریسک افت عملکرد هوش مصنوعی رو کاهش بدن. این ابزارها میتونن شامل سیستمهای تشخیص خودکار برای سوگیری، رانش، عملکرد و ناهنجاریها باشن و به طور بالقوه فروپاشی مدل رو قبل از اینکه به کسبوکار آسیب بزنه، شناسایی کنن.

پاسخی بگذارید