هر آنچه باید درباره لاگ‌های دسترسی سرور و سئو بدانید

7 آبان 1404

در این مقاله یاد می‌گیریم چطور با تحلیل لاگ‌های دسترسی سرور (Server Access Logs)، به اطلاعات ارزشمندی در مورد فعالیت ربات‌ها، بهینگی خزش (Crawl) و موارد دیگه برای سئوی پیشرفته دست پیدا کنیم.

لاگ‌های دسترسی سرور یه منبع باارزش ولی اغلب نادیده گرفته شده برای سئو هستن.

این لاگ‌ها هر درخواستی که به وب‌سایت ارسال میشه رو ثبت می‌کنن و یه دید کامل و بدون فیلتر از نحوه تعامل کاربرا و ربات‌ها با سایت به ما میدن. این اطلاعات می‌تونه حسابی به استراتژی سئوی شما کمک کنه.

تو این مطلب قراره بفهمیم چرا لاگ‌های دسترسی سرور برای سئو حیاتی هستن، چطور تحلیلشون کنیم و چطور از اطلاعات و داده‌های تصویری اون‌ها برای بهبود استراتژی سئومون استفاده کنیم.

چرا لاگ‌های دسترسی سرور برای تحلیل پیشرفته سئو ضروری هستن؟

خیلی از ابزارهای معروف تحلیل وب و ردیابی، اطلاعات خوبی بهمون میدن اما محدودیت‌های خودشون رو هم دارن.

اون‌ها بیشتر تعاملات جاوا اسکریپتی رو ثبت می‌کنن یا به کوکی‌های مرورگر وابسته‌ان، و این یعنی ممکنه بعضی از تعاملات بازدیدکننده‌ها از دست برن.

ابزارهایی مثل گوگل آنالیتیکس به طور پیش‌فرض سعی می‌کنن بیشتر ترافیک غیرانسانی (ربات‌ها) رو فیلتر کنن و درخواست‌ها رو تو قالب «جلسات» (Sessions) دسته‌بندی و به کانال‌های مختلفی مثل ورودی مستقیم، جستجوی ارگانیک و… مرتبط کنن.

در مقابل، لاگ‌های دسترسی، تمام درخواست‌های ارسالی به سرور رو ردیابی می‌کنن و اطلاعات مربوط به کاربرای واقعی و ربات‌ها رو با هم ثبت می‌کنن. این کار یه دید واضح و بدون فیلتر از ترافیک سایت به ما میده و تحلیل لاگ رو به یه ابزار کلیدی برای سئو تبدیل می‌کنه، فرقی هم نمی‌کنه کاربرا چطور با سایت تعامل داشته باشن.

آناتومی یک رکورد در لاگ دسترسی سرور

یک نمونه کامل از لاگ دسترسی سرور می‌تونه این شکلی باشه:

192.168.1.1 - - [10/Oct/2023:13:55:36 +0000] "GET /about-us.html HTTP/1.1" 200 1024 "https://www.example.com/home" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 0.237

این رکورد یک درخواست به سرور رو نشون میده و شامل این موارد میشه:

آدرس IP: 192.168.1.1
- آدرس IP کلاینت رو مشخص می‌کنه.
برچسب زمانی (Timestamp): [10/Oct/2023:13:55:36 +0000]
- تاریخ و زمان درخواست رو نشون میده.
متد HTTP: GET
- نوع درخواست رو مشخص می‌کنه.
URL درخواستی: /about-us.html
- صفحه‌ای که بهش دسترسی پیدا شده.
پروتکل HTTP: HTTP/1.1
- نسخه پروتکلی که برای درخواست استفاده شده.
کد وضعیت (Status code): 200
- نشون میده که درخواست موفقیت‌آمیز بوده.
بایت‌های منتقل شده: 1024
- حجم داده‌ای که در پاسخ ارسال شده.
URL ارجاع‌دهنده (Referrer): https://www.example.com/home
- صفحه‌ای که بازدیدکننده از اونجا اومده.
عامل کاربر (User-agent): Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- ربات گوگل رو به عنوان کلاینت معرفی می‌کنه.
زمان پاسخ (Response time): 0.237
- مدت زمانی که طول کشیده تا سرور پاسخ بده.

با تحلیل هر کدوم از این اجزا، متخصصان سئو می‌تونن:

رفتار کاربرها و ربات‌ها رو درک کنن.
مشکلات فنی رو شناسایی کنن.
تصمیم‌های داده‌محور برای بهبود عملکرد سئو بگیرن.

دید دقیق و جزئی از فعالیت ربات‌ها

لاگ‌ها به خصوص برای ردیابی فعالیت ربات‌ها خیلی مفید هستن، چون نشون میدن خزنده‌های موتورهای جستجو چطور و چه زمانی با صفحات خاصی از یه وب‌سایت تعامل دارن.

اینکه بدونیم ربات گوگل، بینگ یا بقیه موتورهای جستجو هرچند وقت یک‌بار سایت شما رو می‌خزن (Crawl)، بهمون کمک می‌کنه الگوها رو پیدا کنیم و بفهمیم ربات‌ها به کدوم صفحات اولویت میدن و از کدوم‌ها غافل میشن. همچنین می‌تونیم صفحات باارزش رو برای تخصیص بهتر «بودجه خزش» (Crawl Budget) شناسایی کنیم.

لاگ‌های دسترسی به شما کمک می‌کنن به سوالاتی مثل این‌ها جواب بدین:

ربات گوگل بیشتر چه نوع محتوایی رو کراول می‌کنه؟
چه سهمی از کل درخواست‌ها به یک نوع صفحه خاص مربوط میشه و این سهم در مقایسه با تعداد کل URLهای اون نوع صفحه چطوره؟
آیا صفحات مهم به اندازه کافی کراول میشن؟
آیا URLهایی وجود دارن که اصلا کراول نمیشن؟
آیا الگوی درخواست ربات‌ها برای انواع محتوای خاص، با درخواست‌های بقیه User-agentها و ارجاع‌دهنده‌ها همخوانی داره؟ آیا میشه از تفاوت‌هاشون به نتیجه‌ای رسید؟
آیا بعضی از URLها سهم نامتناسبی از درخواست‌های خزش رو به خودشون اختصاص میدن؟
آیا ربات‌ها از بعضی محتواهای مهم غافل شدن؟
ربات گوگل چند درصد از کل URLهای قابل ایندکس سایت رو درخواست می‌کنه؟

اگه متوجه شدین که صفحات خیلی مهم یا کل بخش‌هایی از سایت توسط ربات‌ها نادیده گرفته میشن، شاید وقتش رسیده که معماری اطلاعات، توزیع لینک‌های داخلی یا بقیه مشکلات فنی رو بررسی کنین.

کشف فرصت‌های بهبود کارایی خزش

درک و نظارت بر رفتار ربات‌های موتور جستجو به خصوص برای سایت‌های بزرگ خیلی مهمه.

لاگ‌های سرور در کنار ابزارهای دیگه‌ای مثل گوگل سرچ کنسول (GSC)، گوگل آنالیتیکس (GA) و BigQuery، به شما کمک می‌کنن تا یه نمای کامل از قیف جستجوی ارگانیک خودتون بسازین و نقاط ضعف رو پیدا کنین.

برای یه سایت فروشگاهی بزرگ، این تحلیل می‌تونه در سطح کل سایت یا برای انواع صفحات خاص انجام بشه و کل زنجیره رو در نظر بگیره، از جمله:

تعداد کل URLها (از CMS یا دیتابیس)
تعداد URLهای شناسایی‌شده (در سرچ کنسول)
URLهای خزش‌شده (در سرچ کنسول، سایت‌مپ XML، لاگ‌های سرور)
URLهای ایندکس‌شده (در سرچ کنسول)
URLهایی که ایمپرشن می‌گیرن (در سرچ کنسول – BigQuery)
URLهایی که بازدید/کلیک می‌گیرن (در گوگل آنالیتیکس، سرچ کنسول – BigQuery، لاگ‌های سرور)
تبدیل‌ها (Conversions) (در گوگل آنالیتیکس)

تحلیل این زنجیره به شناسایی مشکلات کمک می‌کنه و باعث میشه خزنده‌ها رو به سمت URLهای مهم هدایت کنیم و URLهای غیرضروری مثل محتوای تکراری یا کم‌ارزش رو حذف کنیم تا بودجه خزش هدر نره.

نمونه‌هایی از تحلیل لاگ سرور برای سئو

نظارت بر فعالیت خزش در طول زمان

با استفاده از نمودارهای خطی، می‌تونین روند بازدید ربات‌ها رو به تصویر بکشین و تغییرات رفتارشون رو در طول زمان تشخیص بدین.

افت شدید بازدیدهای ربات گوگل می‌تونه نشونه یه مشکلی باشه که باید بررسی بشه، در حالی که افزایش ناگهانی بازدیدها ممکنه به خاطر یه تغییر در کد سایت باشه که ربات گوگل رو برای خزش مجدد تحریک کرده.

تشخیص مشکلات سئو تکنیکال با نمودارهای توزیع خطا

نمودارهای توزیع خطا که ارورهای 404 یا 500 رو ردیابی می‌کنن، می‌تونن نظارت بر خطاها رو ساده‌تر کنن. به تصویر کشیدن خطاها در طول زمان یا بر اساس دسته‌بندی URL، به شناسایی مشکلات تکراری کمک می‌کنه.

این کار برای عیب‌یابی خطاهای 500 که فقط در ساعات اوج ترافیک و به خاطر مشکلات عملکرد پلتفرم رخ میدن و شاید به راحتی قابل تکرار نباشن، خیلی ارزشمنده.

ابزارهایی مثل BigQuery، ELK Stack یا اسکریپت‌های سفارشی می‌تونن به خودکارسازی جمع‌آوری، تحلیل و ارسال هشدارهای آنی برای افزایش ناگهانی درخواست‌ها، خطاهای 404 یا 500 و رویدادهای دیگه کمک کنن.

شناسایی فعالیت ربات‌های ناخواسته (فیلتر کردن ربات‌ها)

همه ترافیک‌های ربات‌ها مفید نیستن. ربات‌های مخرب و اسکرپرها (Scrapers) می‌تونن هزینه‌بر و مضر باشن، سرور رو با درخواست‌های زیاد تحت فشار قرار بدن و باعث ایجاد مشکلات دیگه‌ای بشن.

با استفاده از لاگ‌های دسترسی سرور می‌تونین ترافیک ربات‌های ناخواسته رو شناسایی کنین و مکانیزم‌های فیلتر کردن IP یا مسدود کردن ربات‌ها رو تنظیم کنین.

مثلاً، نظارت بر دسترسی‌های مکرر از آدرس‌های IP خاص یا ربات‌هایی که متعلق به موتورهای جستجو نیستن، به شناسایی ربات‌های اسکرپر، عوامل مخرب، هوش مصنوعی یا فعالیت رقبا کمک می‌کنه.

محدود کردن نرخ درخواست (Rate limiting) یا حتی مسدود کردن ربات‌های ناخواسته، بار سرور رو کم می‌کنه، از محتوای شما محافظت می‌کنه و به سرور اجازه میده منابعش رو روی تعاملات ارزشمند کاربرها و ربات‌های مفید متمرکز کنه.

مثال‌های واقعی از تحلیل لاگ

سایت فروشگاهی: بهینه‌سازی اثربخشی خزش و اولویت‌های ایندکس

پیش‌زمینه

یه وب‌سایت فروشگاهی با کاتالوگ محصولات گسترده‌ای که صدها دسته‌بندی رو شامل می‌شد، در حفظ سطح مطلوب بازدید ارگانیک برای صفحات محصول حیاتی خودش به مشکل خورده بود، چون این صفحات به اندازه کافی سریع ایندکس نمی‌شدن یا بعد از به‌روزرسانی محتوا، دوباره خزش نمی‌شدن.

چالش

ابزارهای تحلیل وب بازاریابی، اطلاعات لازم برای پیدا کردن دلیل اصلی عملکرد ضعیف صفحات رو ارائه نمی‌دادن. به همین خاطر، تیم سئو به سراغ لاگ‌های دسترسی سرور رفت.

راهکار

با استفاده از لاگ‌های سرور، تیم تحلیل کرد که کدوم URLها بیشتر خزش میشن و الگوهای رفتار ربات‌ها رو شناسایی کرد.

اون‌ها درخواست‌های ربات‌ها رو بر اساس انواع مختلف صفحات (مثل محصولات، دسته‌بندی‌ها و صفحات تبلیغاتی) ترسیم کردن و متوجه شدن که ربات‌ها بیش از حد صفحات ثابتی که به‌روزرسانی کمی داشتن رو خزش می‌کردن و در عین حال، محتوای با اولویت بالا رو از دست می‌دادن.

تیم با استفاده از این اطلاعات:

اصلاحاتی در لینک‌سازی داخلی انجام داد تا مسیرهای خزش جدیدی به سمت صفحات با اولویت بالاتر ایجاد کنه.
تگ‌های nofollow و noindex رو به بعضی صفحات کم‌ارزش (مثلاً صفحات فروش فصلی یا محتوای آرشیو شده) اضافه کرد تا بودجه خزش رو از این URLها دور کنه.
چند نوع فیلتر جستجو رو در فایل robots.txt مسدود (Disallow) کرد.
برای صفحات محصول جدید یا به‌روز شده، سایت‌مپ‌های XML داینامیک ایجاد کرد.

نتایج

این تغییرات باعث توزیع مطلوب‌تر درخواست‌های خزش شد و در نتیجه، محصولات جدید به جای چند هفته، در عرض چند ساعت یا چند روز شناسایی و ایندکس می‌شدن.

این موضوع باعث بهبود دید ارگانیک و افزایش ترافیک صفحات محصول شد.

شرکت رسانه‌ای: کاهش ترافیک ربات‌های ناخواسته و بار سرور

پیش‌زمینه

یک وب‌سایت رسانه‌ای و خبری با بار سرور بالایی مواجه بود که منجر به کندی زمان پاسخ‌دهی و گاهی قطعی سایت می‌شد.

این سایت به طور مکرر محتوای جدیدی مثل اخبار، پست‌های وبلاگ و رسانه‌های تعاملی منتشر می‌کرد، بنابراین ایندکس سریع و عملکرد پایدار برای اون‌ها خیلی حیاتی بود.

چالش

اینطور به نظر می‌رسید که ترافیک سنگین ربات‌ها به منابع سرور فشار میاره و باعث افزایش تأخیر و گاهی قطعی سایت میشه.

راهکار

با تحلیل لاگ‌های سرور، مشخص شد که ربات‌های غیر از موتورهای جستجو – مثل اسکرپرها و خزنده‌های سرویس‌های شخص ثالث و همچنین ربات‌های مخرب – بخش قابل توجهی از کل درخواست‌ها رو تشکیل میدن.

تیم الگوهایی رو از محدوده‌های IP خاص و User-agentهای ربات‌ها که با خزنده‌های تهاجمی و مخرب مرتبط بودن، شناسایی کرد و:

آدرس‌های IP مشکل‌ساز رو مسدود و همچنین دسترسی به بعضی ربات‌ها رو از طریق فایل robots.txt محدود کرد.
برای User-agentهای خاصی که سرور رو تحت فشار قرار می‌دادن، محدودیت نرخ درخواست (rate limiting) اعمال کرد.
هشدارهای آنی برای افزایش غیرعادی ترافیک تنظیم کرد تا تیم بتونه به سرعت به افزایش ناگهانی ترافیک ربات‌های ناخواسته واکنش نشون بده.

نتایج

سایت خبری شاهد کاهش قابل توجهی در بار سرور و بهبود زمان بارگذاری صفحات بود.

با کاهش فشار روی سرور، ربات‌های موتور جستجو و کاربران واقعی راحت‌تر به محتوا دسترسی پیدا می‌کردن که این امر منجر به بهبود خزش، ایندکس و تعامل کاربران شد.

استفاده از لاگ‌های دسترسی سرور برای بینش‌های پیشرفته سئو

لاگ‌های دسترسی سرور، عمقی از داده‌ها رو در اختیار متخصصان سئو قرار میدن که ابزارهای سنتی بازاریابی وب و تحلیل سایت، به سادگی نمی‌تونن ارائه بدن.

لاگ‌های سرور با ثبت اطلاعات خام و بدون فیلتر از تعاملات کاربر و ربات، فرصت‌های جدیدی رو برای بهینه‌سازی توزیع خزش، بهبود سئو تکنیکال و درک دقیق‌تر رفتار ربات‌ها باز می‌کنن.

هر آنچه باید درباره لاگ‌های دسترسی سرور و سئو بدانید

چرا لاگ‌های دسترسی سرور برای تحلیل پیشرفته سئو ضروری هستن؟

آناتومی یک رکورد در لاگ دسترسی سرور

دید دقیق و جزئی از فعالیت ربات‌ها

کشف فرصت‌های بهبود کارایی خزش

نمونه‌هایی از تحلیل لاگ سرور برای سئو

نظارت بر فعالیت خزش در طول زمان

تشخیص مشکلات سئو تکنیکال با نمودارهای توزیع خطا

شناسایی فعالیت ربات‌های ناخواسته (فیلتر کردن ربات‌ها)

مثال‌های واقعی از تحلیل لاگ

سایت فروشگاهی: بهینه‌سازی اثربخشی خزش و اولویت‌های ایندکس

شرکت رسانه‌ای: کاهش ترافیک ربات‌های ناخواسته و بار سرور

استفاده از لاگ‌های دسترسی سرور برای بینش‌های پیشرفته سئو

پاسخی بگذاریدانصراف از پاسخ