دعوای انحصارطلبی گوگل: خلاصههای هوش مصنوعی، FastSearch محورند نه لینک!
پرونده ضد انحصار گوگل نشان میدهد که فرآیند رتبهبندی مرورهای هوش مصنوعی از لینکها به عنوان بخشی از رتبهبندی استفاده نمیکند.
یک بازاریاب جستجوی تیزبین دلیل نمایش صفحات وب اسپم توسط مرورهای هوش مصنوعی گوگل را کشف کرده است. یادداشت تفاهم اخیر در پرونده ضد انحصار گوگل شامل بخشی است که سرنخی درباره چرایی وقوع این اتفاق ارائه میدهد و حدس و گمانهایی را در مورد چگونگی بازتاب حرکت گوگل از لینکها به عنوان یک عامل برجسته رتبهبندی مطرح میکند.
رایان جونز، بنیانگذار SERPrecon (پروفایل لینکدین)، توجه را به بخشی از یادداشت تفاهم اخیر جلب کرد که نشان میدهد گوگل چگونه مدلهای جمینی خود را پایهگذاری میکند.
پایهگذاری پاسخهای هوش مصنوعی مولد
این بخش در قسمتی در مورد پایهگذاری پاسخها با دادههای جستجو قرار دارد. به طور معمول، فرض معقولی است که لینکها در رتبهبندی صفحات وبی که یک مدل هوش مصنوعی از یک کوئری جستجو برای یک موتور جستجوی داخلی بازیابی میکند، نقش دارند. بنابراین، هنگامی که کسی از مرورهای هوش مصنوعی گوگل سوالی میپرسد، سیستم گوگل جستجو را کوئری میکند و سپس خلاصهای از نتایج جستجوی آن ایجاد میکند.
اما ظاهراً در گوگل اینگونه کار نمیکند. گوگل الگوریتم جداگانهای دارد که اسناد وب کمتری را بازیابی میکند و این کار را با سرعت بیشتری انجام میدهد.
این بخش میخواند:
«گوگل برای پایهگذاری مدلهای جمینی خود از فناوری اختصاصی به نام FastSearch استفاده میکند. Rem. Tr. در 3509:23–3511:4 (Reid). FastSearch بر اساس سیگنالهای RankEmbed—مجموعهای از سیگنالهای رتبهبندی جستجو—بنا شده است و نتایج وب خلاصهشده و رتبهبندی شدهای را تولید میکند که یک مدل میتواند برای تولید یک پاسخ پایهگذاری شده از آن استفاده کند. Id. FastSearch نتایج را سریعتر از جستجو ارائه میدهد زیرا اسناد کمتری را بازیابی میکند، اما کیفیت حاصل پایینتر از نتایج وب کاملاً رتبهبندی شده جستجو است.»
رایان جونز این بینشها را به اشتراک گذاشت:
«این جالب است و هم آنچه بسیاری از ما فکر میکردیم و هم آنچه را که در آزمایشهای اولیه میدیدیم تأیید میکند. این یعنی چی؟ این یعنی برای پایهگذاری، گوگل از همان الگوریتم جستجو استفاده نمیکند. آنها به سرعت بیشتری نیاز دارند اما به سیگنالهای کمتری هم اهمیت نمیدهند. آنها فقط به متنی نیاز دارند که آنچه را که میگویند تأیید کند.
… احتمالاً مقدار زیادی سیگنال اسپم و کیفیت وجود دارد که برای fastsearch نیز محاسبه نمیشوند. این میتواند توضیح دهد که چگونه/چرا در نسخههای اولیه ما برخی سایتهای اسپم و حتی سایتهای جریمه شده را در مرورهای هوش مصنوعی مشاهده کردیم.»
او ادامه میدهد و نظر خود را به اشتراک میگذارد که لینکها در اینجا نقشی ندارند زیرا پایهگذاری از ارتباط معنایی استفاده میکند.
FastSearch چیست؟
در جای دیگر، این یادداشت بیان میکند که FastSearch نتایج جستجوی محدودی را تولید میکند:
«FastSearch فناوریای است که به سرعت نتایج جستجوی ارگانیک محدودی را برای موارد استفاده خاص، مانند پایهگذاری LLMها، تولید میکند و عمدتاً از مدل RankEmbed مشتق شده است.»
حالا سوال این است که مدل RankEmbed چیست؟
این یادداشت توضیح میدهد که RankEmbed یک مدل یادگیری عمیق است. به زبان ساده، یک مدل یادگیری عمیق الگوها را در مجموعه دادههای عظیم شناسایی میکند و میتواند، به عنوان مثال، معانی و روابط معنایی را شناسایی کند. این مدل هیچ چیز را به همان شکلی که یک انسان درک میکند، درک نمیکند؛ اساساً الگوها و همبستگیها را شناسایی میکند.
این یادداشت بخشی دارد که توضیح میدهد:
«در انتهای دیگر طیف، مدلهای نوآورانه یادگیری عمیق قرار دارند که مدلهای یادگیری ماشین هستند که الگوهای پیچیده را در مجموعه دادههای بزرگ تشخیص میدهند. …(Allan)
… گوگل سیگنالهای “سطح بالا” مختلفی را توسعه داده است که ورودیهایی برای تولید امتیاز نهایی برای یک صفحه وب هستند. Id. در 2793:5–2794:9 (Allan) (بحث در مورد RDXD-20.018). در میان سیگنالهای سطح بالای گوگل، سیگنالهایی وجود دارند که کیفیت و محبوبیت یک صفحه وب را اندازهگیری میکنند. Id.; RDX0041 در -001.
سیگنالهایی که از طریق مدلهای یادگیری عمیق، مانند RankEmbed، توسعه یافتهاند نیز در میان سیگنالهای سطح بالای گوگل قرار دارند.»
دادههای سمت کاربر
RankEmbed از دادههای “سمت کاربر” استفاده میکند. این یادداشت، در بخشی در مورد نوع دادههایی که گوگل باید به رقبا ارائه دهد، RankEmbed (که FastSearch بر اساس آن ساخته شده است) را به این صورت توصیف میکند:
«دادههای سمت کاربر که برای آموزش، ساخت یا عملیاتی کردن مدل(های) RankEmbed استفاده میشوند؛ “
در جای دیگر بیان میکند:
«RankEmbed و نسخه بعدی آن RankEmbedBERT مدلهای رتبهبندی هستند که به دو منبع اصلی داده متکی هستند: _____٪ از 70 روز گزارشهای جستجو به علاوه امتیازاتی که توسط ارزیابان انسانی تولید شده و توسط گوگل برای اندازهگیری کیفیت نتایج جستجوی ارگانیک استفاده میشود.»
سپس:
«خود مدل RankEmbed یک سیستم یادگیری عمیق مبتنی بر هوش مصنوعی است که درک زبان طبیعی قوی دارد. این به مدل اجازه میدهد تا اسناد را به طور موثرتری شناسایی کند، حتی اگر یک کوئری فاقد عبارات خاصی باشد. PXR0171 در -086 (“بازیابی مبتنی بر Embedding در تطابق معنایی اسناد و کوئریها مؤثر است”);
… RankEmbed با 1/100 دادههای استفاده شده برای آموزش مدلهای رتبهبندی قبلی آموزش دیده است، اما نتایج جستجوی با کیفیتتری را ارائه میدهد.
… RankEmbed به ویژه به گوگل در بهبود پاسخهای خود به کوئریهای طولانی کمک کرد.
… در میان دادههای آموزشی زیربنایی، اطلاعات مربوط به کوئری، از جمله عبارات برجسته که گوگل از کوئری استخراج کرده است، و صفحات وب حاصله وجود دارد.
… دادههای زیربنایی مدلهای RankEmbed ترکیبی از دادههای کلیک و کوئری و امتیازدهی صفحات وب توسط ارزیابان انسانی است.
… RankEmbedBERT باید دوباره آموزش داده شود تا دادههای تازه را منعکس کند…»
دیدگاهی نو به جستجوی هوش مصنوعی
آیا این درست است که لینکها در انتخاب صفحات وب برای مرورهای هوش مصنوعی نقشی ندارند؟ FastSearch گوگل سرعت را در اولویت قرار میدهد. رایان جونز حدس میزند که این ممکن است به این معنی باشد که گوگل از چندین ایندکس استفاده میکند، با یکی که مخصوص FastSearch است و از سایتهایی تشکیل شده که تمایل به جذب بازدید کننده دارند. این ممکن است بازتابی از بخش RankEmbed از FastSearch باشد که گفته میشود ترکیبی از “دادههای کلیک و کوئری” و دادههای ارزیاب انسانی است.
در مورد دادههای ارزیاب انسانی، با میلیاردها یا تریلیونها صفحه در یک ایندکس، برای ارزیابان غیرممکن خواهد بود که بیش از بخش کوچکی را به صورت دستی رتبهبندی کنند. بنابراین، دادههای ارزیاب انسانی برای ارائه نمونههای برچسبگذاری شده کیفی برای آموزش استفاده میشود. دادههای برچسبگذاری شده نمونههایی هستند که یک مدل بر روی آنها آموزش میبیند تا الگوهای ذاتی شناسایی یک صفحه با کیفیت بالا یا صفحه با کیفیت پایین آشکار شوند.
پاسخی بگذارید