پژوهشی از Anthropic راز درک متن توسط مدل‌های زبانی بزرگ را کشف می کند

9 آبان 1404

تحقیقات جدید شرکت آنتروپیک (Anthropic) نشون میده که مدل‌های زبان بزرگ، نقشه‌های ذهنی‌ای شبیه به سیستم‌های ادراکی انسان‌ها برای خودشون می‌سازن.

محققان آنتروپیک، توانایی مدل Claude 3.5 Haiku رو برای شکستن خطوط متن (line break) در یک عرض ثابت بررسی کردن؛ کاری که نیازمنده مدل موقع نوشتن، جایگاه خودش رو توی متن ردیابی کنه. نتیجه این تحقیق خیلی جالب و غافلگیرکننده بود: مدل‌های زبانی الگوهای داخلی‌ای رو شکل میدن که خیلی شبیه به آگاهی فضایی ما انسان‌هاست که ازش برای ردیابی موقعیتمون در فضای فیزیکی استفاده می‌کنیم.

آندریاس ولپینی در توییتی در مورد این مقاله، این موضوع رو به «خرد کردن محتوا» (chunking) برای مصرف هوش مصنوعی تشبیه کرد. اگه بخوایم کلی‌تر نگاه کنیم، نظر اون یه استعاره‌ست از اینکه چطور هم نویسنده‌ها و هم مدل‌های هوش مصنوعی، با ساختار متن کلنجار میرن و در مرز بین پایان یک بخش و شروع بخش بعدی، به دنبال یکپارچگی و انسجام هستن.

البته این مقاله تحقیقی، در مورد خوندن محتوا نیست، بلکه در مورد تولید متنه و اینکه مدل چطور تشخیص میده کجا باید خط رو بشکنه تا متن در یک عرض مشخص جا بشه. هدف از این کار این بود که محققان بهتر بفهمن توی مغز یه مدل زبان بزرگ (LLM) چه خبره؛ وقتی که داره موقعیت متن، انتخاب کلمات و مرزهای شکستن خط رو حین نوشتن دنبال می‌کنه.

محقق‌ها یک آزمایش طراحی کردن که در اون، مدل باید متنی رو با شکستن خط در یک عرض مشخص تولید می‌کرد. هدف این بود که بفهمن Claude 3.5 Haiku چطور کلمات رو برای جا شدن در یک عرض مشخص انتخاب می‌کنه و چه زمانی تصمیم می‌گیره خط رو بشکنه؛ کاری که نیازمند اینه که مدل موقعیت فعلی خودش رو در خطی که داره تولید می‌کنه، ردیابی کنه.

این آزمایش نشون میده که مدل‌های زبانی چطور ساختار رو از روی الگوهای موجود در متن، بدون هیچ برنامه‌نویسی یا نظارت مستقیمی، یاد می‌گیرن.

چالش شکستن خط (Linebreaking)

وظیفه شکستن خط، از مدل می‌خواد که تصمیم بگیره آیا کلمه بعدی در همین خط جا میشه یا باید به خط جدیدی بره. برای موفقیت تو این کار، مدل باید محدودیت عرض خط رو یاد بگیره (قانونی که تعداد کاراکترهای قابل جا شدن در یک خط رو محدود می‌کنه، درست مثل فضای فیزیکی روی یک صفحه کاغذ). برای انجام این کار، مدل زبان بزرگ باید تعداد کاراکترهای نوشته شده رو ردیابی کنه، حساب کنه چقدر فضا باقی مونده، و تصمیم بگیره که آیا کلمه بعدی جا میشه یا نه. این کار به استدلال، حافظه و برنامه‌ریزی نیاز داره. محققان از گراف‌های اِسنادی (attribution graphs) استفاده کردن تا ببینن مدل چطور این محاسبات رو هماهنگ می‌کنه و ویژگی‌های داخلی مشخصی رو برای شمارش کاراکترها، کلمه بعدی و لحظه‌ای که باید خط شکسته بشه، به نمایش گذاشتن.

شمارش پیوسته

محققان متوجه شدن که Claude 3.5 Haiku تعداد کاراکترهای خط رو نه به صورت شمارش قدم به قدم، بلکه به شکل یک ساختار هندسی نرم و پیوسته نمایش میده که مثل یک سطح منحنی رفتار می‌کنه. این به مدل اجازه میده موقعیت خودش رو به صورت روان و در لحظه (on the fly) ردیابی کنه، نه اینکه کاراکتر به کاراکتر بشمره.

یه نکته جالب دیگه اینه که اون‌ها کشف کردن که مدل زبان بزرگ، یک «هِد مرزی» (boundary head) یا همون «هِد توجه» (attention head) ایجاد کرده که مسئول تشخیص مرز خطه. مکانیزم توجه (attention mechanism)، اهمیت توکن‌ها (کلمات و علائم) رو وزن‌دهی می‌کنه. «هِد توجه» یه بخش تخصصی از این مکانیزمه. «هِد مرزی» که خودش یه نوع «هِد توجه» هست، به طور خاص روی وظیفه باریکِ تشخیص مرز انتهای خط تمرکز می‌کنه.

در مقاله تحقیقی اومده:

«یکی از ویژگی‌های اساسی نمایش تعداد کاراکترهای خط اینه که “هِد مرزی” این نمایش رو می‌پیچونه و به هر شمارش اجازه میده با شمارش کمی بزرگ‌تر از خودش جفت بشه، که این نشون میده مرز نزدیکه. یعنی، یک نقشه خطی QK وجود داره که منحنی شمارش کاراکتر رو در امتداد خودش می‌لغزونه. چنین عملی در تعبیه‌سازی‌های کلی با انحنای بالا از دایره یا بازه، مثل مدل‌های فیزیکی که ما ساختیم، امکان‌پذیر نیست. اما این ویژگی هم در منیفولدی (manifold) که ما در Haiku مشاهده می‌کنیم و هم، همانطور که الان نشون میدیم، در ساختار فوریه وجود داره.»

حس کردن مرزها چطوری کار می‌کنه؟

محققان فهمیدن که Claude 3.5 Haiku با مقایسه دو سیگنال داخلی متوجه میشه که کی خط متن داره به انتها می‌رسه:

چندتا کاراکتر تا الان تولید کرده، و
طول خط قراره چقدر باشه.

«هِدهای توجه مرزی» که قبلاً بهشون اشاره کردیم، تصمیم می‌گیرن که روی کدوم بخش‌های متن تمرکز کنن. بعضی از این هِدها تخصصشون اینه که تشخیص بدن چه زمانی خط به محدودیت خودش نزدیک میشه. اون‌ها این کار رو با چرخوندن یا هم‌تراز کردن جزئی دو سیگنال داخلی (شمارش کاراکترها و حداکثر عرض خط) انجام میدن. به این ترتیب، وقتی این دو سیگنال تقریباً با هم منطبق میشن، توجه مدل به سمت قرار دادن یک کاراکتر خط جدید (newline) جلب میشه.

محققان توضیح میدن:

«برای تشخیص نزدیک شدن به مرز خط، مدل باید دو کمیت رو مقایسه کنه: تعداد کاراکترهای فعلی و عرض خط. ما هِدهای توجهی رو پیدا کردیم که ماتریس QK اون‌ها یک منیفولد شمارش رو می‌چرخونه تا اون رو با دیگری در یک آفست مشخص هم‌تراز کنه و وقتی اختلاف شمارش‌ها در یک محدوده هدف قرار می‌گیره، یک ضرب داخلی بزرگ ایجاد می‌کنه. چندین هِد با آفست‌های مختلف با هم کار می‌کنن تا تعداد کاراکترهای باقی‌مونده رو به طور دقیق تخمین بزنن.»

مرحله نهایی

در این مرحله از آزمایش، مدل از قبل تشخیص داده که چقدر به مرز خط نزدیکه و کلمه بعدی چقدر طولانیه. آخرین قدم اینه که از این اطلاعات استفاده کنه.

اینطوری توضیح داده شده:

«قدم نهایی در وظیفه شکستن خط اینه که تخمین مرز خط با پیش‌بینی کلمه بعدی ترکیب بشه تا مشخص بشه آیا کلمه بعدی در خط جا میشه یا باید خط شکسته بشه.»

محققان فهمیدن که برخی ویژگی‌های داخلی در مدل، زمانی فعال میشن که کلمه بعدی باعث عبور از مرز خط میشه و عملاً مثل آشکارسازهای مرز عمل می‌کنن. وقتی این اتفاق میفته، مدل احتمال پیش‌بینی یک نماد خط جدید (newline) رو بالا می‌بره و احتمال پیش‌بینی یک کلمه دیگه رو کم می‌کنه. ویژگی‌های دیگه‌ای برعکس عمل می‌کنن: وقتی کلمه هنوز جا میشه، فعال میشن و احتمال قرار دادن خط جدید رو کاهش میدن.

در کنار هم، این دو نیرو، یکی که برای شکستن خط فشار میاره و دیگری که جلوی اون رو می‌گیره، با هم به تعادل می‌رسن تا تصمیم نهایی گرفته بشه.

مدل‌های هوش مصنوعی هم دچار خطای دید میشن؟

بخش بعدی تحقیق واقعاً شگفت‌انگیزه، چون محققان سعی کردن بررسی کنن که آیا مدل می‌تونه تحت تأثیر خطاهای دیدی قرار بگیره که باعث گیج شدنش بشه. اون‌ها از این ایده شروع کردن که چطور ما انسان‌ها با خطاهای دیدی فریب می‌خوریم که یک پرسپکتیو غلط رو نشون میدن و باعث میشن خطوطی با طول یکسان، طول‌های متفاوتی داشته باشن، یکی کوتاه‌تر از دیگری.

اسکرین‌شاتی از یک خطای دید

محققان توکن‌های مصنوعی مثل «@@» رو وارد متن کردن تا ببینن چطور حس موقعیت‌سنجی مدل رو مختل می‌کنن. این تست‌ها باعث ناهماهنگی در الگوهای داخلی مدل شد که برای ردیابی موقعیت استفاده می‌کنه، درست مثل خطاهای دیدی که ادراک انسان رو فریب میدن. این باعث شد که درک مدل از مرزهای خط جابجا بشه و نشون داد که درک مدل از ساختار، به زمینه و الگوهای یادگرفته شده بستگی داره. با اینکه مدل‌های زبان بزرگ نمی‌بینن، اما در سازمان‌دهی داخلی خودشون اعوجاج‌هایی رو تجربه می‌کنن که شبیه به قضاوت اشتباه ما انسان‌ها از چیزهایی هست که با مختل کردن هِدهای توجه مربوطه می‌بینیم.

اون‌ها توضیح دادن:

«ما فهمیدیم که این کار، توکن بعدی پیش‌بینی‌شده رو تغییر میده و پیش‌بینی خط جدید رو مختل می‌کنه! همونطور که پیش‌بینی می‌شد، هِدهای مربوطه حواسشون پرت میشه: در حالی که با پرامپت اصلی، هِدها از خط جدید به خط جدید توجه می‌کردن، در پرامپت تغییریافته، هِدها به «@@» هم توجه می‌کنن.»

اون‌ها کنجکاو بودن که آیا چیز خاصی در مورد کاراکترهای «@@» وجود داره یا هر کاراکتر تصادفی دیگه‌ای می‌تونه توانایی مدل رو برای انجام موفقیت‌آمیز این وظیفه مختل کنه. برای همین، یک تست با ۱۸۰ دنباله مختلف انجام دادن و فهمیدن که اکثر اون‌ها توانایی مدل رو در پیش‌بینی نقطه شکستن خط مختل نمی‌کنن. اون‌ها کشف کردن که فقط گروه کوچکی از کاراکترها که به کدنویسی مرتبط بودن، می‌تونستن حواس هِدهای توجه مربوطه رو پرت کنن و فرآیند شمارش رو مختل کنن.

مدل‌های زبان بزرگ (LLM) برای متن، درکِ شبه‌بصری دارن

این مطالعه نشون میده که چطور ویژگی‌های مبتنی بر متن، در داخل یک مدل زبانی به سیستم‌های هندسی نرم و پیوسته تبدیل میشن. همچنین نشون میده که مدل‌ها فقط نمادها رو پردازش نمی‌کنن، بلکه از اون‌ها نقشه‌هایی مبتنی بر ادراک می‌سازن. به نظر من، این بخش در مورد ادراک، واقعاً بخش جالب این تحقیقه. محققان مدام به تشبیه‌هایی مرتبط با ادراک انسان برمی‌گردن و اینکه چطور این تشبیه‌ها با چیزی که داخل مدل زبان بزرگ می‌بینن، مطابقت داره.

اون‌ها می‌نویسن:

«اگرچه ما گاهی لایه‌های اولیه مدل‌های زبانی رو مسئول “توکن‌زدایی” (detokenizing) ورودی توصیف می‌کنیم، شاید گویاتر باشه که این فرآیند رو به عنوان “ادراک” در نظر بگیریم. ابتدای مدل واقعاً مسئول “دیدن” ورودی هست و بسیاری از مدارهای اولیه در خدمت حس کردن یا درک کردن متن هستن، شبیه به اینکه چطور لایه‌های اولیه در مدل‌های بینایی، ادراک سطح پایین رو پیاده‌سازی می‌کنن.»

و کمی بعدتر می‌نویسن:

«الگوهای هندسی و الگوریتمی که ما مشاهده می‌کنیم، شباهت‌های قابل تأملی با ادراک در سیستم‌های عصبی بیولوژیکی دارن… این ویژگی‌ها اتساع (dilation) رو به نمایش می‌ذارن – یعنی نمایش تعداد کاراکترهای بزرگ‌تر که در محدوده‌های بزرگ‌تری فعال میشن – که این آینه‌ای از اتساع نمایش اعداد در مغزهای بیولوژیکیه. علاوه بر این، سازمان‌دهی این ویژگی‌ها روی یک منیفولد با ابعاد پایین، نمونه‌ای از یک موتیف رایج در شناخت بیولوژیکیه. با اینکه این تشبیه‌ها کامل نیستن، ما گمان می‌کنیم که هنوز هم هم‌پوشانی مفهومی پرباری از همکاری بیشتر بین علوم اعصاب و تفسیرپذیری (interpretability) وجود داره.»

اینا چه ربطی به سئو داره؟

آرتور سی. کلارک نوشته که «هر فناوری پیشرفته‌ای، از جادو قابل تشخیص نیست». من فکر می‌کنم وقتی یک فناوری رو می‌فهمید، براتون ملموس‌تر میشه و کمتر شبیه به جادو به نظر می‌رسه. همه دانش‌ها کاربرد ابزاری ندارن و به نظرم درک اینکه یک مدل زبان بزرگ چطور محتوا رو درک می‌کنه، از این جهت مفیده که دیگه جادویی به نظر نمیاد. آیا این تحقیق شما رو به سئوکار بهتری تبدیل می‌کنه؟ شاید نه به طور مستقیم، اما درک ما رو از اینکه مدل‌های زبانی چطور ساختار محتوا رو سازمان‌دهی و تفسیر می‌کنن، عمیق‌تر می‌کنه و اون رو قابل فهم‌تر و کمتر شبیه به جادو می‌کنه.

مقاله کامل این تحقیق رو اینجا بخونید:

When Models Manipulate Manifolds: The Geometry of a Counting Task