
گوگل: دوران نوین جستجوی صوتی آغاز شد!
گوگل اعلام کرد که یه آپدیت بزرگ برای جستجوی صوتی منتشر کرده که با استفاده از هوش مصنوعی، اون رو سریعتر و دقیقتر میکنه و اسم این اتفاق رو شروع یک «دوران جدید» گذاشته.
گوگل از یک آپدیت جدید برای جستجوی صوتی خودش خبر داد که نحوه پردازش و رتبهبندی کوئریهای صوتی رو به کل تغییر میده. مدل هوش مصنوعی جدید، خودِ «صدا» رو به عنوان ورودی برای فرایند جستجو و رنکینگ در نظر میگیره و مرحله تبدیل صدا به متن رو کاملاً دور میزنه.
سیستم قدیمی «Cascade ASR» نام داشت. در این سیستم، یک کوئری صوتی اول به متن تبدیل میشد و بعد وارد فرایند رتبهبندی عادی گوگل میشد. مشکل این روش این بود که خیلی مستعد خطا بود. فرایند تبدیل صدا به متن میتونست بعضی از سرنخهای مفهومی و لحن کلام رو از بین ببره و همین موضوع باعث ایجاد خطا میشد.
سیستم جدید «Speech-to-Retrieval» یا به اختصار «S2R» نام داره. این یک مدل یادگیری ماشین مبتنی بر شبکه عصبی هست که روی مجموعه دادههای خیلی بزرگی از جفتهای «کوئری صوتی و اسناد متنی مرتبط» آموزش دیده. این آموزش به سیستم این قابلیت رو میده که کوئریهای جستجوی صوتی رو (بدون تبدیل اونها به متن) پردازش کنه و مستقیماً اونها رو با اسناد مرتبط تطبیق بده.
مدل انکودر دوگانه (Dual-Encoder): ترکیبی از دو شبکه عصبی
این سیستم از دو تا شبکه عصبی استفاده میکنه:
- یکی از این شبکههای عصبی که بهش «انکودر صدا» (audio encoder) میگن، کوئریهای صوتی رو به یک نمایش برداری از معنای اونها تبدیل میکنه.
- شبکه دوم، یعنی «انکودر اسناد» (document encoder)، اطلاعات نوشتاری رو در همون فرمت برداری نمایش میده.
این دو انکودر یاد میگیرن که کوئریهای صوتی و اسناد متنی رو در یک فضای معنایی مشترک ترسیم کنن. در نتیجه، صدا و متنهایی که از نظر معنایی به هم مرتبط هستن، در این فضا نزدیک به هم قرار میگیرن.
انکودر صدا
سیستم Speech-to-Retrieval یا همون S2R، صدای کوئری یک شخص رو میگیره و اون رو به یک بردار (مجموعهای از اعداد) تبدیل میکنه که نشوندهنده معنای مفهومی چیزیه که اون شخص دنبالشه.
گوگل برای اینکه موضوع رو بهتر جا بندازه، از مثال نقاشی معروف «جیغ» اثر ادوارد مونک استفاده کرده. در این مثال، عبارت صوتی «نقاشی جیغ» به نقطهای در فضای برداری تبدیل میشه که نزدیک به اطلاعات مربوط به نقاشی «جیغ» ادوارد مونک قرار داره (مثلاً اطلاعاتی درباره موزهای که این نقاشی در اون نگهداری میشه و غیره).
انکودر اسناد
انکودر اسناد هم کار مشابهی رو با اسناد متنی مثل صفحات وب انجام میده و اونها رو به بردارهای مخصوص به خودشون تبدیل میکنه که نشوندهنده موضوع اون اسناد هستن.
در طول آموزش مدل، هر دو انکودر با هم یاد میگیرن. به این ترتیب، بردارهای مربوط به کوئریهای صوتی و اسناد متنی مرتبط، در فضای برداری نزدیک به هم قرار میگیرن، در حالی که بردارهای نامرتبط از هم فاصله زیادی دارن.
نمایش برداری غنی: فراتر از کلمات کلیدی
گوگل در اطلاعیه خودش میگه که این انکودرها، صدا و متن رو به «نمایشهای برداری غنی» (rich vector representations) تبدیل میکنن. یک نمایش برداری غنی، در واقع یک مدل عددی هست که معنا و مفهوم موجود در صدا و متن رو در خودش کدگذاری میکنه. بهش میگن «غنی» چون هدف و مفهوم پشت کلمات رو هم درک میکنه.
برای سیستم S2R، این یعنی سیستم دیگه به تطابق کلمات کلیدی متکی نیست؛ بلکه به صورت مفهومی «میفهمه» که کاربر دنبال چیه. بنابراین، حتی اگه کسی بگه «نقاشی صورت جیغزن مونک رو نشونم بده»، نمایش برداری این کوئری باز هم نزدیک به اسناد مربوط به نقاشی «جیغ» قرار میگیره.
به گفته گوگل:
«کلید اصلی موفقیت این مدل، نحوه آموزش دیدن اونه. سیستم با استفاده از یک مجموعه داده بزرگ از جفتهای کوئری صوتی و اسناد مرتبط، یاد میگیره که پارامترهای هر دو انکودر رو به طور همزمان تنظیم کنه.»
«هدف از این آموزش اینه که مطمئن بشیم بردارِ یک کوئری صوتی، از نظر هندسی در فضای نمایشی، به بردارهای اسناد مرتبط با خودش نزدیک باشه. این معماری به مدل اجازه میده چیزی نزدیک به «هدف اصلی» کاربر رو مستقیماً از روی صدا یاد بگیره و اون مرحله شکننده و میانیِ رونویسی کلمه به کلمه رو دور بزنه؛ همون مرحلهای که نقطه ضعف اصلی طراحی سیستم قدیمی بود.»
لایه رتبهبندی (Ranking Layer)
سیستم S2R هم درست مثل جستجوی متنی معمولی، یک فرایند رتبهبندی داره. وقتی کسی یک کوئری رو به صورت صوتی بیان میکنه، صدا ابتدا توسط انکودر صدای از پیش آموزشدیده پردازش میشه و به یک شکل عددی (بردار) تبدیل میشه که معنای منظور اون شخص رو در خودش داره. بعد، این بردار با ایندکس گوگل مقایسه میشه تا صفحاتی پیدا بشن که معنای اونها بیشترین شباهت رو به درخواست صوتی کاربر داره.
برای مثال، اگه کسی بگه «نقاشی جیغ»، مدل این عبارت رو به یک بردار تبدیل میکنه که معنای اون رو نشون میده. بعد سیستم در ایندکس اسناد خودش میگرده و صفحاتی رو پیدا میکنه که بردارهای اونها شباهت نزدیکی به این بردار دارن؛ مثل اطلاعاتی درباره نقاشی «جیغ» اثر ادوارد مونک.
وقتی این موارد مشابه احتمالی شناسایی شدن، یک مرحله رتبهبندی جداگانه وارد عمل میشه. این بخش از سیستم، امتیازهای شباهت بهدستآمده از مرحله اول رو با صدها سیگنال رتبهبندی دیگه (مربوط به ارتباط و کیفیت) ترکیب میکنه تا تصمیم بگیره کدوم صفحات باید در رتبههای اول قرار بگیرن.
مقایسه و ارزیابی عملکرد (Benchmarking)
گوگل سیستم جدید رو با سیستم قدیمی Cascade ASR و همچنین با یک نسخه بینقص از اون به اسم Cascade Groundtruth مقایسه کرد. نتیجه این بود که S2R تونست Cascade ASR رو شکست بده و عملکردش خیلی نزدیک به نسخه بینقص Cascade Groundtruth بود. گوگل نتیجهگیری کرده که عملکرد این سیستم خیلی امیدوارکنندهست، اما هنوز جای پیشرفت بیشتری هم داره.
جستجوی صوتی جدید همین الان فعال است!
با اینکه ارزیابیها نشون داد که هنوز جای بهبود وجود داره، گوگل اعلام کرد که سیستم جدید به صورت زنده برای چندین زبان فعال شده و اسم این اتفاق رو شروع یک دوران جدید در دنیای جستجو گذاشته. این سیستم به احتمال زیاد برای زبان انگلیسی هم استفاده میشه.
گوگل اینطور توضیح میده:
«جستجوی صوتی در حال حاضر با موتور جدید ما یعنی Speech-to-Retrieval کار میکنه. این سیستم جوابها رو مستقیماً از کوئری صوتی شما دریافت میکنه، بدون اینکه نیازی به تبدیل اون به متن داشته باشه. نتیجه این کار، یک جستجوی سریعتر و قابلاطمینانتر برای همه است.»
پاسخی بگذارید