گوگل: دوران نوین جستجوی صوتی آغاز شد!

گوگل اعلام کرد که یه آپدیت بزرگ برای جستجوی صوتی منتشر کرده که با استفاده از هوش مصنوعی، اون رو سریع‌تر و دقیق‌تر می‌کنه و اسم این اتفاق رو شروع یک «دوران جدید» گذاشته.

گوگل از یک آپدیت جدید برای جستجوی صوتی خودش خبر داد که نحوه پردازش و رتبه‌بندی کوئری‌های صوتی رو به کل تغییر میده. مدل هوش مصنوعی جدید، خودِ «صدا» رو به عنوان ورودی برای فرایند جستجو و رنکینگ در نظر می‌گیره و مرحله تبدیل صدا به متن رو کاملاً دور می‌زنه.

سیستم قدیمی «Cascade ASR» نام داشت. در این سیستم، یک کوئری صوتی اول به متن تبدیل می‌شد و بعد وارد فرایند رتبه‌بندی عادی گوگل می‌شد. مشکل این روش این بود که خیلی مستعد خطا بود. فرایند تبدیل صدا به متن می‌تونست بعضی از سرنخ‌های مفهومی و لحن کلام رو از بین ببره و همین موضوع باعث ایجاد خطا می‌شد.

سیستم جدید «Speech-to-Retrieval» یا به اختصار «S2R» نام داره. این یک مدل یادگیری ماشین مبتنی بر شبکه عصبی هست که روی مجموعه داده‌های خیلی بزرگی از جفت‌های «کوئری صوتی و اسناد متنی مرتبط» آموزش دیده. این آموزش به سیستم این قابلیت رو میده که کوئری‌های جستجوی صوتی رو (بدون تبدیل اون‌ها به متن) پردازش کنه و مستقیماً اون‌ها رو با اسناد مرتبط تطبیق بده.

مدل انکودر دوگانه (Dual-Encoder): ترکیبی از دو شبکه عصبی

این سیستم از دو تا شبکه عصبی استفاده می‌کنه:

  1. یکی از این شبکه‌های عصبی که بهش «انکودر صدا» (audio encoder) میگن، کوئری‌های صوتی رو به یک نمایش برداری از معنای اون‌ها تبدیل می‌کنه.
  2. شبکه دوم، یعنی «انکودر اسناد» (document encoder)، اطلاعات نوشتاری رو در همون فرمت برداری نمایش میده.

این دو انکودر یاد می‌گیرن که کوئری‌های صوتی و اسناد متنی رو در یک فضای معنایی مشترک ترسیم کنن. در نتیجه، صدا و متن‌هایی که از نظر معنایی به هم مرتبط هستن، در این فضا نزدیک به هم قرار می‌گیرن.

انکودر صدا

سیستم Speech-to-Retrieval یا همون S2R، صدای کوئری یک شخص رو می‌گیره و اون رو به یک بردار (مجموعه‌ای از اعداد) تبدیل می‌کنه که نشون‌دهنده معنای مفهومی چیزیه که اون شخص دنبالشه.

گوگل برای اینکه موضوع رو بهتر جا بندازه، از مثال نقاشی معروف «جیغ» اثر ادوارد مونک استفاده کرده. در این مثال، عبارت صوتی «نقاشی جیغ» به نقطه‌ای در فضای برداری تبدیل میشه که نزدیک به اطلاعات مربوط به نقاشی «جیغ» ادوارد مونک قرار داره (مثلاً اطلاعاتی درباره موزه‌ای که این نقاشی در اون نگهداری میشه و غیره).

انکودر اسناد

انکودر اسناد هم کار مشابهی رو با اسناد متنی مثل صفحات وب انجام میده و اون‌ها رو به بردارهای مخصوص به خودشون تبدیل می‌کنه که نشون‌دهنده موضوع اون اسناد هستن.

در طول آموزش مدل، هر دو انکودر با هم یاد می‌گیرن. به این ترتیب، بردارهای مربوط به کوئری‌های صوتی و اسناد متنی مرتبط، در فضای برداری نزدیک به هم قرار می‌گیرن، در حالی که بردارهای نامرتبط از هم فاصله زیادی دارن.

نمایش برداری غنی: فراتر از کلمات کلیدی

گوگل در اطلاعیه خودش میگه که این انکودرها، صدا و متن رو به «نمایش‌های برداری غنی» (rich vector representations) تبدیل می‌کنن. یک نمایش برداری غنی، در واقع یک مدل عددی هست که معنا و مفهوم موجود در صدا و متن رو در خودش کدگذاری می‌کنه. بهش میگن «غنی» چون هدف و مفهوم پشت کلمات رو هم درک می‌کنه.

برای سیستم S2R، این یعنی سیستم دیگه به تطابق کلمات کلیدی متکی نیست؛ بلکه به صورت مفهومی «می‌فهمه» که کاربر دنبال چیه. بنابراین، حتی اگه کسی بگه «نقاشی صورت جیغ‌زن مونک رو نشونم بده»، نمایش برداری این کوئری باز هم نزدیک به اسناد مربوط به نقاشی «جیغ» قرار می‌گیره.

به گفته گوگل:

«کلید اصلی موفقیت این مدل، نحوه آموزش دیدن اونه. سیستم با استفاده از یک مجموعه داده بزرگ از جفت‌های کوئری صوتی و اسناد مرتبط، یاد می‌گیره که پارامترهای هر دو انکودر رو به طور همزمان تنظیم کنه.»

«هدف از این آموزش اینه که مطمئن بشیم بردارِ یک کوئری صوتی، از نظر هندسی در فضای نمایشی، به بردارهای اسناد مرتبط با خودش نزدیک باشه. این معماری به مدل اجازه میده چیزی نزدیک به «هدف اصلی» کاربر رو مستقیماً از روی صدا یاد بگیره و اون مرحله شکننده و میانیِ رونویسی کلمه به کلمه رو دور بزنه؛ همون مرحله‌ای که نقطه ضعف اصلی طراحی سیستم قدیمی بود.»

لایه رتبه‌بندی (Ranking Layer)

سیستم S2R هم درست مثل جستجوی متنی معمولی، یک فرایند رتبه‌بندی داره. وقتی کسی یک کوئری رو به صورت صوتی بیان می‌کنه، صدا ابتدا توسط انکودر صدای از پیش آموزش‌دیده پردازش میشه و به یک شکل عددی (بردار) تبدیل میشه که معنای منظور اون شخص رو در خودش داره. بعد، این بردار با ایندکس گوگل مقایسه میشه تا صفحاتی پیدا بشن که معنای اون‌ها بیشترین شباهت رو به درخواست صوتی کاربر داره.

برای مثال، اگه کسی بگه «نقاشی جیغ»، مدل این عبارت رو به یک بردار تبدیل می‌کنه که معنای اون رو نشون میده. بعد سیستم در ایندکس اسناد خودش می‌گرده و صفحاتی رو پیدا می‌کنه که بردارهای اون‌ها شباهت نزدیکی به این بردار دارن؛ مثل اطلاعاتی درباره نقاشی «جیغ» اثر ادوارد مونک.

وقتی این موارد مشابه احتمالی شناسایی شدن، یک مرحله رتبه‌بندی جداگانه وارد عمل میشه. این بخش از سیستم، امتیازهای شباهت به‌دست‌آمده از مرحله اول رو با صدها سیگنال رتبه‌بندی دیگه (مربوط به ارتباط و کیفیت) ترکیب می‌کنه تا تصمیم بگیره کدوم صفحات باید در رتبه‌های اول قرار بگیرن.

مقایسه و ارزیابی عملکرد (Benchmarking)

گوگل سیستم جدید رو با سیستم قدیمی Cascade ASR و همچنین با یک نسخه بی‌نقص از اون به اسم Cascade Groundtruth مقایسه کرد. نتیجه این بود که S2R تونست Cascade ASR رو شکست بده و عملکردش خیلی نزدیک به نسخه بی‌نقص Cascade Groundtruth بود. گوگل نتیجه‌گیری کرده که عملکرد این سیستم خیلی امیدوارکننده‌ست، اما هنوز جای پیشرفت بیشتری هم داره.

جستجوی صوتی جدید همین الان فعال است!

با اینکه ارزیابی‌ها نشون داد که هنوز جای بهبود وجود داره، گوگل اعلام کرد که سیستم جدید به صورت زنده برای چندین زبان فعال شده و اسم این اتفاق رو شروع یک دوران جدید در دنیای جستجو گذاشته. این سیستم به احتمال زیاد برای زبان انگلیسی هم استفاده میشه.

گوگل اینطور توضیح میده:

«جستجوی صوتی در حال حاضر با موتور جدید ما یعنی Speech-to-Retrieval کار می‌کنه. این سیستم جواب‌ها رو مستقیماً از کوئری صوتی شما دریافت می‌کنه، بدون اینکه نیازی به تبدیل اون به متن داشته باشه. نتیجه این کار، یک جستجوی سریع‌تر و قابل‌اطمینان‌تر برای همه است.»

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *