هوش مصنوعی جدید Anthropic می‌تونه کامپیوتر شما رو کنترل کنه

8 آبان 1403

بهار سال گذشته، Anthropic در جلسه‌ای با سرمایه‌گذارها گفته بود که قصد داره هوش مصنوعی‌ای بسازه که بتونه دستیارهای مجازی رو راه‌اندازی کنه – دستیارهایی که می‌تونن تحقیق کنن، به ایمیل‌ها جواب بدن و کارهای اداری دیگه رو خودشون انجام بدن. شرکت از این فناوری به عنوان “الگوریتم نسل بعدی برای خودآموزی هوش مصنوعی” یاد کرد – الگوریتمی که اگه همه چیز طبق برنامه پیش بره، می‌تونه روزی بخش بزرگی از اقتصاد رو خودکار کنه.

مدتی طول کشید، ولی حالا این هوش مصنوعی داره از راه می‌رسه.

Anthropic روز سه‌شنبه نسخه ارتقا یافته‌ای از مدل Claude 3.5 Sonnet رو منتشر کرد که می‌تونه هر برنامه دسکتاپی رو درک و باهاش کار کنه. از طریق یک API جدید به اسم “Computer Use” که الان در مرحله بتای عمومی هست، این مدل می‌تونه فشار کلیدها، کلیک‌های دکمه و حرکات موس رو تقلید کنه – در واقع مثل یه آدم که پشت کامپیوتر نشسته عمل می‌کنه.

Anthropic در یه پست وبلاگی که با TechCrunch به اشتراک گذاشت نوشت: “ما Claude رو طوری آموزش دادیم که بتونه اتفاقات روی صفحه نمایش رو ببینه و بعد از ابزارهای نرم‌افزاری موجود برای انجام کارها استفاده کنه. وقتی یه توسعه‌دهنده از Claude می‌خواد که از یه نرم‌افزار کامپیوتری استفاده کنه و دسترسی‌های لازم رو بهش میده، Claude به اسکرین‌شات‌های چیزی که برای کاربر قابل مشاهده است نگاه می‌کنه و بعد محاسبه می‌کنه که برای کلیک کردن در محل درست، باید نشانگر رو چند پیکسل به صورت عمودی یا افقی حرکت بده.”

توسعه‌دهنده‌ها می‌تونن Computer Use رو از طریق API خود Anthropic، Amazon Bedrock و پلتفرم Vertex AI گوگل امتحان کنن. نسخه 3.5 Sonnet بدون قابلیت Computer Use داره به اپ‌های Claude اضافه میشه و نسبت به مدل قبلی 3.5 Sonnet بهبودهای مختلفی در عملکرد داره.

خودکارسازی اپلیکیشن‌ها

ابزاری که بتونه کارها روی کامپیوتر رو خودکار کنه، ایده جدیدی نیست. شرکت‌های بی‌شماری چنین ابزارهایی رو ارائه می‌کنن، از فروشنده‌های قدیمی RPA گرفته تا استارتاپ‌های جدیدتر مثل Relay، Induced AI و Automat.

در مسابقه توسعه چیزی هست که بهش میگن “عامل‌های هوش مصنوعی (AI agents)”، این حوزه حتی شلوغ‌تر هم شده. عامل‌های هوش مصنوعی یا همون ایجنت های هوش مصنوعی هنوز تعریف دقیقی نداره، ولی معمولاً به هوش مصنوعی‌ای گفته میشه که می‌تونه نرم‌افزارها رو خودکار کنه.

بعضی تحلیلگرها میگن ایجنت‌های هوش مصنوعی می‌تونن راه آسون‌تری برای شرکت‌ها فراهم کنن تا از میلیاردها دلاری که توی هوش مصنوعی سرمایه‌گذاری کردن، درآمد کسب کنن. به نظر میاد شرکت‌ها هم موافقن: طبق نظرسنجی اخیر Capgemini، 10 درصد سازمان‌ها از قبل از ایجنت‌های هوش مصنوعی استفاده می‌کنن و 82 درصد تو سه سال آینده اونا رو به کار می‌گیرن.

Salesforce تابستون امسال اعلامیه‌های پر سر و صدایی درباره فناوری عامل هوش مصنوعیش منتشر کرد، در حالی که مایکروسافت دیروز از ابزارهای جدید برای ساخت ایجنت‌های هوش مصنوعی رونمایی کرد. OpenAI که داره نوع خودش از ایجنت‌های هوش مصنوعی رو برنامه‌ریزی می‌کنه، این فناوری رو قدمی به سمت هوش مصنوعی فوق‌العاده می‌دونه.

Anthropic رویکرد خودش به مفهوم عامل هوش مصنوعی رو یه “لایه اجرای عمل” می‌نامه که به 3.5 Sonnet جدید اجازه میده دستورات سطح دسکتاپ رو اجرا کنه. به لطف توانایی‌اش در مرور وب (که برای مدل‌های هوش مصنوعی چیز جدیدی نیست، ولی برای Anthropic اولین باره)، 3.5 Sonnet می‌تونه از هر وب‌سایت و هر برنامه‌ای استفاده کنه.

سخنگوی Anthropic گفت: “انسان‌ها با ارائه دستورالعمل‌های خاص که اقدامات Claude رو هدایت می‌کنه، مثل ‘از داده‌های کامپیوتر من و آنلاین برای پر کردن این فرم استفاده کن’، همچنان کنترل رو در دست دارن. مردم دسترسی رو فعال می‌کنن و در صورت نیاز محدود می‌کنن. Claude دستورات کاربر رو به فرمان‌های کامپیوتری (مثل حرکت نشانگر، کلیک کردن، تایپ کردن) تجزیه می‌کنه تا اون کار خاص رو انجام بده.”

پلتفرم توسعه نرم‌افزار Replit از یه نسخه اولیه مدل جدید 3.5 Sonnet برای ساخت یه “تأییدکننده خودکار” استفاده کرده که می‌تونه اپلیکیشن‌ها رو حین ساخته شدن ارزیابی کنه. در همین حال، Canva میگه که داره راه‌هایی رو بررسی می‌کنه که مدل جدید بتونه از فرآیند طراحی و ویرایش پشتیبانی کنه.

ولی این چه فرقی با بقیه عامل‌های هوش مصنوعی داره؟ سؤال منطقی‌ایه. استارتاپ Rabbit داره یه ایجنت وب می‌سازه که می‌تونه کارهایی مثل خرید بلیت سینما به صورت آنلاین رو انجام بده؛ Adept که اخیراً توسط آمازون خریداری شد، مدل‌هایی رو آموزش میده که می‌تونن وب‌سایت‌ها رو مرور کنن و با نرم‌افزارها کار کنن؛ و Twin Labs از مدل‌های آماده، از جمله GPT-4o از OpenAI، برای خودکارسازی فرآیندهای دسکتاپ استفاده می‌کنه.

Anthropic ادعا می‌کنه که 3.5 Sonnet جدید صرفاً یه مدل قوی‌تر و قدرتمندتره که می‌تونه در کارهای برنامه‌نویسی حتی از o1 پرچمدار OpenAI هم بهتر عمل کنه (طبق معیار SWE-bench Verified). با اینکه به طور خاص برای این کار آموزش ندیده، 3.5 Sonnet ارتقا یافته می‌تونه خودش رو اصلاح کنه و وقتی با مانع روبرو میشه کارها رو دوباره امتحان کنه، و می‌تونه به سمت اهدافی حرکت کنه که به ده‌ها یا صدها مرحله نیاز دارن.

ولی هنوز زود هست که منشی‌تون رو اخراج کنید!

در یه ارزیابی که برای آزمایش توانایی یه عامل هوش مصنوعی در کمک به کارهای رزرو پرواز طراحی شده بود، مثل تغییر رزرو پرواز، 3.5 Sonnet جدید تونست کمتر از نصف کارها رو با موفقیت انجام بده. در یه آزمایش جداگانه که شامل کارهایی مثل شروع مرجوعی بود، 3.5 Sonnet تقریباً یک سوم مواقع شکست خورد.

Anthropic قبول داره که 3.5 Sonnet ارتقا یافته با کارهای پایه مثل اسکرول کردن و زوم کردن مشکل داره، و به خاطر روشی که اسکرین‌شات می‌گیره و اونا رو کنار هم می‌ذاره، ممکنه اقدامات و اعلان‌های “کوتاه مدت” رو از دست بده.

Anthropic در پست خودش می‌نویسه: “استفاده از کامپیوتر توسط Claude همچنان کند و اغلب مستعد خطاست. ما توسعه‌دهنده‌ها رو تشویق می‌کنیم که کاوش رو با کارهای کم‌خطر شروع کنن.”

کسب و کار پرخطر

ولی آیا 3.5 Sonnet جدید اونقدر توانمند هست که خطرناک باشه؟ احتمالاً.

مطالعه اخیر نشون داد که مدل‌هایی که توانایی استفاده از برنامه‌های دسکتاپ رو ندارن، مثل GPT-4o از OpenAI، وقتی با استفاده از تکنیک‌های جیلبریک “حمله” می‌شن، مایل به انجام “رفتار عامل چند مرحله‌ای” مضر هستن، مثل سفارش پاسپورت جعلی از یه نفر در دارک وب. طبق گفته محققان، جیلبریک‌ها حتی برای مدل‌هایی که با فیلترها و محافظ‌ها محافظت می‌شن، منجر به نرخ موفقیت بالایی در انجام کارهای مضر شده.

می‌شه تصور کرد که یه مدل با دسترسی به دسکتاپ چطور می‌تونه خرابکاری بیشتری به بار بیاره – مثلاً با استفاده از آسیب‌پذیری‌های برنامه‌ها برای به خطر انداختن اطلاعات شخصی (یا ذخیره چت‌ها به صورت متن ساده). جدا از اهرم‌های نرم‌افزاری که در اختیارشه، ارتباطات آنلاین و برنامه‌ای مدل می‌تونه راه‌هایی رو برای جیلبریکرهای بدخواه باز کنه.

Anthropic انکار نمی‌کنه که در انتشار 3.5 Sonnet جدید خطری وجود داره. ولی شرکت استدلال می‌کنه که مزایای مشاهده نحوه استفاده از مدل در دنیای واقعی در نهایت بر این خطر می‌چربه.

شرکت نوشت: “ما فکر می‌کنیم خیلی بهتره که دسترسی به کامپیوترها رو به مدل‌های امروزی که محدودتر و نسبتاً امن‌تر هستن بدیم. این یعنی می‌تونیم شروع کنیم به مشاهده و یادگیری از هر مشکل احتمالی که در این سطح پایین‌تر پیش میاد، و به تدریج و همزمان، استفاده از کامپیوتر و تدابیر امنیتی رو گسترش بدیم.”

Anthropic همچنین میگه که برای جلوگیری از سوء استفاده اقداماتی انجام داده، مثل اینکه 3.5 Sonnet جدید رو روی اسکرین‌شات‌ها و دستورات کاربران آموزش نداده، و از دسترسی مدل به وب در طول آموزش جلوگیری کرده. شرکت میگه که طبقه‌بندی‌کننده‌هایی رو توسعه داده تا 3.5 Sonnet رو از اقداماتی که پرخطر تلقی میشن دور نگه داره، مثل پست گذاشتن در شبکه‌های اجتماعی، ساخت حساب کاربری و تعامل با وب‌سایت‌های دولتی.

با نزدیک شدن به انتخابات عمومی آمریکا، Anthropic میگه که روی کاهش سوء استفاده انتخاباتی از مدل‌هاش تمرکز کرده. مؤسسه ایمنی هوش مصنوعی آمریکا و مؤسسه ایمنی بریتانیا، دو نهاد دولتی جداگانه اما متحد که به ارزیابی خطر مدل‌های هوش مصنوعی اختصاص دارن، قبل از استقرار 3.5 Sonnet جدید اون رو آزمایش کردن.

Anthropic گفته که در صورت نیاز، توانایی محدود کردن دسترسی به وب‌سایت‌ها و ویژگی‌های اضافی مثلاً برای محافظت در برابر اسپم، کلاهبرداری و اطلاعات نادرست رو داره. به عنوان یه اقدام احتیاطی، شرکت هر اسکرین‌شاتی که توسط Computer Use گرفته میشه رو حداقل 30 روز نگه می‌داره – دوره نگهداری‌ای که ممکنه بعضی توسعه‌دهنده‌ها رو نگران کنه.

ما از Anthropic پرسیدیم که تحت چه شرایطی، اگر ازش خواسته بشه، اسکرین‌شات‌ها رو به یک شخص ثالث (مثلاً نیروی انتظامی) تحویل میده. یه سخنگو گفت که شرکت “در پاسخ به درخواست‌های قانونی معتبر، با درخواست‌های داده همکاری می‌کنه.”

Anthropic گفت: “هیچ روش صد در صد مطمئنی وجود نداره و ما به طور مداوم اقدامات ایمنی خودمون رو ارزیابی و اصلاح می‌کنیم تا بین قابلیت‌های Claude و استفاده مسئولانه تعادل برقرار کنیم. کسانی که از نسخه کامپیوتری Claude استفاده می‌کنن باید احتیاط‌های لازم رو برای به حداقل رسوندن این نوع خطرات انجام بدن، از جمله جدا کردن Claude از داده‌های خیلی حساس روی کامپیوترشون.”

امیدواریم این کارها برای جلوگیری از بدترین اتفاقات کافی باشه.

یه مدل ارزون‌تر

تیتر امروز شاید مدل ارتقا یافته 3.5 Sonnet بود، ولی Anthropic همچنین گفت که نسخه به‌روز شده‌ای از Haiku، ارزون‌ترین و کارآمدترین مدل در سری Claude، تو راهه.

Claude 3.5 Haiku که قراره در هفته‌های آینده عرضه بشه، در بعضی معیارها با عملکرد Claude 3 Opus، که زمانی پیشرفته‌ترین مدل Anthropic بود، برابری می‌کنه و هزینه و “سرعت تقریبی” اون مثل Claude 3 Haiku خواهد بود.

Anthropic در یه پست نوشت: “با تأخیر کم، پیروی از دستورالعمل‌های بهبود یافته و استفاده دقیق‌تر از ابزار، Claude 3.5 Haiku برای محصولات مواجه با کاربر، وظایف زیرعامل تخصصی و تولید تجربه‌های شخصی‌سازی شده از حجم زیادی از داده‌ها – مثل سابقه خرید، قیمت‌گذاری یا داده‌های موجودی – مناسبه.”

3.5 Haiku در ابتدا به عنوان یه مدل فقط متنی در دسترس خواهد بود و بعداً به عنوان بخشی از یه بسته چندرسانه‌ای که می‌تونه هم متن و هم تصویر رو تحلیل کنه، عرضه میشه.

پس وقتی 3.5 Haiku در دسترس قرار گرفت، آیا دلیل زیادی برای استفاده از 3 Opus وجود خواهد داشت؟ درباره 3.5 Opus، جانشین 3 Opus، که Anthropic در ماه ژوئن به اون اشاره کرد چطور؟

سخنگوی Anthropic گفت: “همه مدل‌ها در خانواده مدل Claude 3 کاربردهای خاص خودشون رو برای مشتریان دارن. Claude 3.5 Opus در نقشه راه ما قرار داره و به محض اینکه بتونیم، حتماً اطلاعات بیشتری رو به اشتراک می‌ذاریم.”

هوش مصنوعی جدید Anthropic می‌تونه کامپیوتر شما رو کنترل کنه

خودکارسازی اپلیکیشن‌ها

کسب و کار پرخطر

یه مدل ارزون‌تر

پاسخی بگذاریدانصراف از پاسخ