گوگل بی‌صدا اعلام کرد: NotebookLM به `robots.txt` بی‌توجه است!

گوگل در یک به‌روزرسانی بی‌سروصدا، مستندات ابزار NotebookLM خود را تغییر داده تا به طور واضح اعلام کند که این ابزار، فایل robots.txt را نادیده می‌گیرد. اما نگران نباشید، ما به شما نشان می‌دهیم که چطور می‌توانید جلوی آن را بگیرید.

گوگل بی‌سروصدا لیست خزنده‌هایی که توسط کاربر فعال می‌شوند (user-triggered fetchers) را با اضافه کردن مستندات جدیدی برای Google NotebookLM آپدیت کرده است. اهمیت این تغییر، که شاید در ظاهر کوچک به نظر بیاید، این است که حالا دیگر به طور واضح مشخص شده که Google NotebookLM از دستورات فایل robots.txt شما پیروی نخواهد کرد.

سرویس Google NotebookLM چیست؟

NotebookLM یک ابزار تحقیق و نوشتن مبتنی بر هوش مصنوعی است که به کاربران اجازه می‌دهد آدرس یک صفحه وب (URL) را به آن بدهند. سپس ابزار، محتوای آن صفحه را پردازش کرده و به کاربر این امکان را می‌دهد که سوالات مختلفی بپرسد و یا خلاصه‌ای از محتوا را دریافت کند.

این ابزار گوگل حتی می‌تواند به طور خودکار یک نقشه ذهنی تعاملی (mind map) بسازد که موضوعات مختلف یک وب‌سایت را سازماندهی کرده و نکات کلیدی آن را استخراج می‌کند.

چرا خزنده‌های فعال‌شده توسط کاربر، فایل robots.txt را نادیده می‌گیرند؟

خزنده‌های فعال‌شده توسط کاربر گوگل (Google User-Triggered Fetchers)، ربات‌های وبی هستند که توسط خود کاربران فعال می‌شوند و به همین دلیل به طور پیش‌فرض، پروتکل robots.txt را نادیده می‌گیرند.

طبق مستندات خود گوگل در مورد این خزنده‌ها:

«از آنجایی که این واکشی (fetch) به درخواست یک کاربر انجام شده، این خزنده‌ها عموماً قوانین robots.txt را نادیده می‌گیرند.»

پس Google-NotebookLM هم فایل robots.txt را نادیده می‌گیرد

هدف اصلی فایل robots.txt این است که به صاحبان وب‌سایت‌ها این امکان را بدهد تا روی ربات‌هایی که صفحات وب را ایندکس می‌کنند، کنترل داشته باشند. اما ربات‌هایی مانند خزنده‌ی Google-NotebookLM محتوای وب را ایندکس نمی‌کنند؛ آن‌ها از طرف کاربرانی عمل می‌کنند که از طریق ابزار NotebookLM گوگل با محتوای وب‌سایت شما در حال تعامل هستند.

چطور جلوی دسترسی NotebookLM را بگیریم؟

گوگل هنگام استخراج محتوای وب‌سایت از یوزر ایجنت (user agent) به نام Google-NotebookLM استفاده می‌کند. بنابراین، صاحبان وب‌سایت‌هایی که می‌خواهند جلوی دسترسی کاربران از این طریق را بگیرند، می‌توانند قوانینی تعریف کنند که به طور خودکار این یوزر ایجنت را مسدود کند. به عنوان مثال، یک راه‌حل ساده برای صاحبان سایت‌های وردپرسی، استفاده از افزونه Wordfence و ایجاد یک قانون سفارشی برای مسدود کردن تمام بازدیدکنندگانی است که از یوزر ایجنت Google-NotebookLM استفاده می‌کنند.

یک راه دیگر برای انجام این کار، استفاده از فایل .htaccess و کد زیر است:

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [NC]
RewriteRule .* - [F,L]
</IfModule>

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *