دعوای انحصارطلبی گوگل: خلاصه‌های هوش مصنوعی، FastSearch محورند نه لینک!

پرونده ضد انحصار گوگل نشان می‌دهد که فرآیند رتبه‌بندی مرورهای هوش مصنوعی از لینک‌ها به عنوان بخشی از رتبه‌بندی استفاده نمی‌کند.

یک بازاریاب جستجوی تیزبین دلیل نمایش صفحات وب اسپم توسط مرورهای هوش مصنوعی گوگل را کشف کرده است. یادداشت تفاهم اخیر در پرونده ضد انحصار گوگل شامل بخشی است که سرنخی درباره چرایی وقوع این اتفاق ارائه می‌دهد و حدس و گمان‌هایی را در مورد چگونگی بازتاب حرکت گوگل از لینک‌ها به عنوان یک عامل برجسته رتبه‌بندی مطرح می‌کند.

رایان جونز، بنیانگذار SERPrecon (پروفایل لینکدین)، توجه را به بخشی از یادداشت تفاهم اخیر جلب کرد که نشان می‌دهد گوگل چگونه مدل‌های جمینی خود را پایه‌گذاری می‌کند.

پایه‌گذاری پاسخ‌های هوش مصنوعی مولد

این بخش در قسمتی در مورد پایه‌گذاری پاسخ‌ها با داده‌های جستجو قرار دارد. به طور معمول، فرض معقولی است که لینک‌ها در رتبه‌بندی صفحات وبی که یک مدل هوش مصنوعی از یک کوئری جستجو برای یک موتور جستجوی داخلی بازیابی می‌کند، نقش دارند. بنابراین، هنگامی که کسی از مرورهای هوش مصنوعی گوگل سوالی می‌پرسد، سیستم گوگل جستجو را کوئری می‌کند و سپس خلاصه‌ای از نتایج جستجوی آن ایجاد می‌کند.

اما ظاهراً در گوگل اینگونه کار نمی‌کند. گوگل الگوریتم جداگانه‌ای دارد که اسناد وب کمتری را بازیابی می‌کند و این کار را با سرعت بیشتری انجام می‌دهد.

این بخش می‌خواند:

«گوگل برای پایه‌گذاری مدل‌های جمینی خود از فناوری اختصاصی به نام FastSearch استفاده می‌کند. Rem. Tr. در 3509:23–3511:4 (Reid). FastSearch بر اساس سیگنال‌های RankEmbed—مجموعه‌ای از سیگنال‌های رتبه‌بندی جستجو—بنا شده است و نتایج وب خلاصه‌شده و رتبه‌بندی شده‌ای را تولید می‌کند که یک مدل می‌تواند برای تولید یک پاسخ پایه‌گذاری شده از آن استفاده کند. Id. FastSearch نتایج را سریع‌تر از جستجو ارائه می‌دهد زیرا اسناد کمتری را بازیابی می‌کند، اما کیفیت حاصل پایین‌تر از نتایج وب کاملاً رتبه‌بندی شده جستجو است.»

رایان جونز این بینش‌ها را به اشتراک گذاشت:

«این جالب است و هم آنچه بسیاری از ما فکر می‌کردیم و هم آنچه را که در آزمایش‌های اولیه می‌دیدیم تأیید می‌کند. این یعنی چی؟ این یعنی برای پایه‌گذاری، گوگل از همان الگوریتم جستجو استفاده نمی‌کند. آنها به سرعت بیشتری نیاز دارند اما به سیگنال‌های کمتری هم اهمیت نمی‌دهند. آنها فقط به متنی نیاز دارند که آنچه را که می‌گویند تأیید کند.

… احتمالاً مقدار زیادی سیگنال اسپم و کیفیت وجود دارد که برای fastsearch نیز محاسبه نمی‌شوند. این می‌تواند توضیح دهد که چگونه/چرا در نسخه‌های اولیه ما برخی سایت‌های اسپم و حتی سایت‌های جریمه شده را در مرورهای هوش مصنوعی مشاهده کردیم.»

او ادامه می‌دهد و نظر خود را به اشتراک می‌گذارد که لینک‌ها در اینجا نقشی ندارند زیرا پایه‌گذاری از ارتباط معنایی استفاده می‌کند.

FastSearch چیست؟

در جای دیگر، این یادداشت بیان می‌کند که FastSearch نتایج جستجوی محدودی را تولید می‌کند:

«FastSearch فناوری‌ای است که به سرعت نتایج جستجوی ارگانیک محدودی را برای موارد استفاده خاص، مانند پایه‌گذاری LLMها، تولید می‌کند و عمدتاً از مدل RankEmbed مشتق شده است.»

حالا سوال این است که مدل RankEmbed چیست؟

این یادداشت توضیح می‌دهد که RankEmbed یک مدل یادگیری عمیق است. به زبان ساده، یک مدل یادگیری عمیق الگوها را در مجموعه داده‌های عظیم شناسایی می‌کند و می‌تواند، به عنوان مثال، معانی و روابط معنایی را شناسایی کند. این مدل هیچ چیز را به همان شکلی که یک انسان درک می‌کند، درک نمی‌کند؛ اساساً الگوها و همبستگی‌ها را شناسایی می‌کند.

این یادداشت بخشی دارد که توضیح می‌دهد:

«در انتهای دیگر طیف، مدل‌های نوآورانه یادگیری عمیق قرار دارند که مدل‌های یادگیری ماشین هستند که الگوهای پیچیده را در مجموعه داده‌های بزرگ تشخیص می‌دهند. …(Allan)

… گوگل سیگنال‌های “سطح بالا” مختلفی را توسعه داده است که ورودی‌هایی برای تولید امتیاز نهایی برای یک صفحه وب هستند. Id. در 2793:5–2794:9 (Allan) (بحث در مورد RDXD-20.018). در میان سیگنال‌های سطح بالای گوگل، سیگنال‌هایی وجود دارند که کیفیت و محبوبیت یک صفحه وب را اندازه‌گیری می‌کنند. Id.; RDX0041 در -001.

سیگنال‌هایی که از طریق مدل‌های یادگیری عمیق، مانند RankEmbed، توسعه یافته‌اند نیز در میان سیگنال‌های سطح بالای گوگل قرار دارند.»

داده‌های سمت کاربر

RankEmbed از داده‌های “سمت کاربر” استفاده می‌کند. این یادداشت، در بخشی در مورد نوع داده‌هایی که گوگل باید به رقبا ارائه دهد، RankEmbed (که FastSearch بر اساس آن ساخته شده است) را به این صورت توصیف می‌کند:

«داده‌های سمت کاربر که برای آموزش، ساخت یا عملیاتی کردن مدل(های) RankEmbed استفاده می‌شوند؛ “

در جای دیگر بیان می‌کند:

«RankEmbed و نسخه بعدی آن RankEmbedBERT مدل‌های رتبه‌بندی هستند که به دو منبع اصلی داده متکی هستند: _____٪ از 70 روز گزارش‌های جستجو به علاوه امتیازاتی که توسط ارزیابان انسانی تولید شده و توسط گوگل برای اندازه‌گیری کیفیت نتایج جستجوی ارگانیک استفاده می‌شود.»

سپس:

«خود مدل RankEmbed یک سیستم یادگیری عمیق مبتنی بر هوش مصنوعی است که درک زبان طبیعی قوی دارد. این به مدل اجازه می‌دهد تا اسناد را به طور موثرتری شناسایی کند، حتی اگر یک کوئری فاقد عبارات خاصی باشد. PXR0171 در -086 (“بازیابی مبتنی بر Embedding در تطابق معنایی اسناد و کوئری‌ها مؤثر است”);

… RankEmbed با 1/100 داده‌های استفاده شده برای آموزش مدل‌های رتبه‌بندی قبلی آموزش دیده است، اما نتایج جستجوی با کیفیت‌تری را ارائه می‌دهد.

… RankEmbed به ویژه به گوگل در بهبود پاسخ‌های خود به کوئری‌های طولانی کمک کرد.

… در میان داده‌های آموزشی زیربنایی، اطلاعات مربوط به کوئری، از جمله عبارات برجسته که گوگل از کوئری استخراج کرده است، و صفحات وب حاصله وجود دارد.

… داده‌های زیربنایی مدل‌های RankEmbed ترکیبی از داده‌های کلیک و کوئری و امتیازدهی صفحات وب توسط ارزیابان انسانی است.

… RankEmbedBERT باید دوباره آموزش داده شود تا داده‌های تازه را منعکس کند…»

دیدگاهی نو به جستجوی هوش مصنوعی

آیا این درست است که لینک‌ها در انتخاب صفحات وب برای مرورهای هوش مصنوعی نقشی ندارند؟ FastSearch گوگل سرعت را در اولویت قرار می‌دهد. رایان جونز حدس می‌زند که این ممکن است به این معنی باشد که گوگل از چندین ایندکس استفاده می‌کند، با یکی که مخصوص FastSearch است و از سایت‌هایی تشکیل شده که تمایل به جذب بازدید کننده دارند. این ممکن است بازتابی از بخش RankEmbed از FastSearch باشد که گفته می‌شود ترکیبی از “داده‌های کلیک و کوئری” و داده‌های ارزیاب انسانی است.

در مورد داده‌های ارزیاب انسانی، با میلیاردها یا تریلیون‌ها صفحه در یک ایندکس، برای ارزیابان غیرممکن خواهد بود که بیش از بخش کوچکی را به صورت دستی رتبه‌بندی کنند. بنابراین، داده‌های ارزیاب انسانی برای ارائه نمونه‌های برچسب‌گذاری شده کیفی برای آموزش استفاده می‌شود. داده‌های برچسب‌گذاری شده نمونه‌هایی هستند که یک مدل بر روی آن‌ها آموزش می‌بیند تا الگوهای ذاتی شناسایی یک صفحه با کیفیت بالا یا صفحه با کیفیت پایین آشکار شوند.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *