
هر آنچه باید درباره لاگهای دسترسی سرور و سئو بدانید
در این مقاله یاد میگیریم چطور با تحلیل لاگهای دسترسی سرور (Server Access Logs)، به اطلاعات ارزشمندی در مورد فعالیت رباتها، بهینگی خزش (Crawl) و موارد دیگه برای سئوی پیشرفته دست پیدا کنیم.
لاگهای دسترسی سرور یه منبع باارزش ولی اغلب نادیده گرفته شده برای سئو هستن.
این لاگها هر درخواستی که به وبسایت ارسال میشه رو ثبت میکنن و یه دید کامل و بدون فیلتر از نحوه تعامل کاربرا و رباتها با سایت به ما میدن. این اطلاعات میتونه حسابی به استراتژی سئوی شما کمک کنه.
تو این مطلب قراره بفهمیم چرا لاگهای دسترسی سرور برای سئو حیاتی هستن، چطور تحلیلشون کنیم و چطور از اطلاعات و دادههای تصویری اونها برای بهبود استراتژی سئومون استفاده کنیم.
چرا لاگهای دسترسی سرور برای تحلیل پیشرفته سئو ضروری هستن؟
خیلی از ابزارهای معروف تحلیل وب و ردیابی، اطلاعات خوبی بهمون میدن اما محدودیتهای خودشون رو هم دارن.
اونها بیشتر تعاملات جاوا اسکریپتی رو ثبت میکنن یا به کوکیهای مرورگر وابستهان، و این یعنی ممکنه بعضی از تعاملات بازدیدکنندهها از دست برن.
ابزارهایی مثل گوگل آنالیتیکس به طور پیشفرض سعی میکنن بیشتر ترافیک غیرانسانی (رباتها) رو فیلتر کنن و درخواستها رو تو قالب «جلسات» (Sessions) دستهبندی و به کانالهای مختلفی مثل ورودی مستقیم، جستجوی ارگانیک و… مرتبط کنن.
در مقابل، لاگهای دسترسی، تمام درخواستهای ارسالی به سرور رو ردیابی میکنن و اطلاعات مربوط به کاربرای واقعی و رباتها رو با هم ثبت میکنن. این کار یه دید واضح و بدون فیلتر از ترافیک سایت به ما میده و تحلیل لاگ رو به یه ابزار کلیدی برای سئو تبدیل میکنه، فرقی هم نمیکنه کاربرا چطور با سایت تعامل داشته باشن.
آناتومی یک رکورد در لاگ دسترسی سرور
یک نمونه کامل از لاگ دسترسی سرور میتونه این شکلی باشه:
192.168.1.1 - - [10/Oct/2023:13:55:36 +0000] "GET /about-us.html HTTP/1.1" 200 1024 "https://www.example.com/home" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 0.237
این رکورد یک درخواست به سرور رو نشون میده و شامل این موارد میشه:
- آدرس IP:
192.168.1.1- آدرس IP کلاینت رو مشخص میکنه.
- برچسب زمانی (Timestamp):
[10/Oct/2023:13:55:36 +0000]- تاریخ و زمان درخواست رو نشون میده.
- متد HTTP:
GET- نوع درخواست رو مشخص میکنه.
- URL درخواستی:
/about-us.html- صفحهای که بهش دسترسی پیدا شده.
- پروتکل HTTP:
HTTP/1.1- نسخه پروتکلی که برای درخواست استفاده شده.
- کد وضعیت (Status code):
200- نشون میده که درخواست موفقیتآمیز بوده.
- بایتهای منتقل شده:
1024- حجم دادهای که در پاسخ ارسال شده.
- URL ارجاعدهنده (Referrer):
https://www.example.com/home- صفحهای که بازدیدکننده از اونجا اومده.
- عامل کاربر (User-agent):
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)- ربات گوگل رو به عنوان کلاینت معرفی میکنه.
- زمان پاسخ (Response time):
0.237- مدت زمانی که طول کشیده تا سرور پاسخ بده.
با تحلیل هر کدوم از این اجزا، متخصصان سئو میتونن:
- رفتار کاربرها و رباتها رو درک کنن.
- مشکلات فنی رو شناسایی کنن.
- تصمیمهای دادهمحور برای بهبود عملکرد سئو بگیرن.
دید دقیق و جزئی از فعالیت رباتها
لاگها به خصوص برای ردیابی فعالیت رباتها خیلی مفید هستن، چون نشون میدن خزندههای موتورهای جستجو چطور و چه زمانی با صفحات خاصی از یه وبسایت تعامل دارن.
اینکه بدونیم ربات گوگل، بینگ یا بقیه موتورهای جستجو هرچند وقت یکبار سایت شما رو میخزن (Crawl)، بهمون کمک میکنه الگوها رو پیدا کنیم و بفهمیم رباتها به کدوم صفحات اولویت میدن و از کدومها غافل میشن. همچنین میتونیم صفحات باارزش رو برای تخصیص بهتر «بودجه خزش» (Crawl Budget) شناسایی کنیم.
لاگهای دسترسی به شما کمک میکنن به سوالاتی مثل اینها جواب بدین:
- ربات گوگل بیشتر چه نوع محتوایی رو کراول میکنه؟
- چه سهمی از کل درخواستها به یک نوع صفحه خاص مربوط میشه و این سهم در مقایسه با تعداد کل URLهای اون نوع صفحه چطوره؟
- آیا صفحات مهم به اندازه کافی کراول میشن؟
- آیا URLهایی وجود دارن که اصلا کراول نمیشن؟
- آیا الگوی درخواست رباتها برای انواع محتوای خاص، با درخواستهای بقیه User-agentها و ارجاعدهندهها همخوانی داره؟ آیا میشه از تفاوتهاشون به نتیجهای رسید؟
- آیا بعضی از URLها سهم نامتناسبی از درخواستهای خزش رو به خودشون اختصاص میدن؟
- آیا رباتها از بعضی محتواهای مهم غافل شدن؟
- ربات گوگل چند درصد از کل URLهای قابل ایندکس سایت رو درخواست میکنه؟
اگه متوجه شدین که صفحات خیلی مهم یا کل بخشهایی از سایت توسط رباتها نادیده گرفته میشن، شاید وقتش رسیده که معماری اطلاعات، توزیع لینکهای داخلی یا بقیه مشکلات فنی رو بررسی کنین.
کشف فرصتهای بهبود کارایی خزش
درک و نظارت بر رفتار رباتهای موتور جستجو به خصوص برای سایتهای بزرگ خیلی مهمه.
لاگهای سرور در کنار ابزارهای دیگهای مثل گوگل سرچ کنسول (GSC)، گوگل آنالیتیکس (GA) و BigQuery، به شما کمک میکنن تا یه نمای کامل از قیف جستجوی ارگانیک خودتون بسازین و نقاط ضعف رو پیدا کنین.
برای یه سایت فروشگاهی بزرگ، این تحلیل میتونه در سطح کل سایت یا برای انواع صفحات خاص انجام بشه و کل زنجیره رو در نظر بگیره، از جمله:
- تعداد کل URLها (از CMS یا دیتابیس)
- تعداد URLهای شناساییشده (در سرچ کنسول)
- URLهای خزششده (در سرچ کنسول، سایتمپ XML، لاگهای سرور)
- URLهای ایندکسشده (در سرچ کنسول)
- URLهایی که ایمپرشن میگیرن (در سرچ کنسول – BigQuery)
- URLهایی که بازدید/کلیک میگیرن (در گوگل آنالیتیکس، سرچ کنسول – BigQuery، لاگهای سرور)
- تبدیلها (Conversions) (در گوگل آنالیتیکس)
تحلیل این زنجیره به شناسایی مشکلات کمک میکنه و باعث میشه خزندهها رو به سمت URLهای مهم هدایت کنیم و URLهای غیرضروری مثل محتوای تکراری یا کمارزش رو حذف کنیم تا بودجه خزش هدر نره.
نمونههایی از تحلیل لاگ سرور برای سئو
نظارت بر فعالیت خزش در طول زمان
با استفاده از نمودارهای خطی، میتونین روند بازدید رباتها رو به تصویر بکشین و تغییرات رفتارشون رو در طول زمان تشخیص بدین.
افت شدید بازدیدهای ربات گوگل میتونه نشونه یه مشکلی باشه که باید بررسی بشه، در حالی که افزایش ناگهانی بازدیدها ممکنه به خاطر یه تغییر در کد سایت باشه که ربات گوگل رو برای خزش مجدد تحریک کرده.
تشخیص مشکلات سئو تکنیکال با نمودارهای توزیع خطا
نمودارهای توزیع خطا که ارورهای 404 یا 500 رو ردیابی میکنن، میتونن نظارت بر خطاها رو سادهتر کنن. به تصویر کشیدن خطاها در طول زمان یا بر اساس دستهبندی URL، به شناسایی مشکلات تکراری کمک میکنه.
این کار برای عیبیابی خطاهای 500 که فقط در ساعات اوج ترافیک و به خاطر مشکلات عملکرد پلتفرم رخ میدن و شاید به راحتی قابل تکرار نباشن، خیلی ارزشمنده.
ابزارهایی مثل BigQuery، ELK Stack یا اسکریپتهای سفارشی میتونن به خودکارسازی جمعآوری، تحلیل و ارسال هشدارهای آنی برای افزایش ناگهانی درخواستها، خطاهای 404 یا 500 و رویدادهای دیگه کمک کنن.
شناسایی فعالیت رباتهای ناخواسته (فیلتر کردن رباتها)
همه ترافیکهای رباتها مفید نیستن. رباتهای مخرب و اسکرپرها (Scrapers) میتونن هزینهبر و مضر باشن، سرور رو با درخواستهای زیاد تحت فشار قرار بدن و باعث ایجاد مشکلات دیگهای بشن.
با استفاده از لاگهای دسترسی سرور میتونین ترافیک رباتهای ناخواسته رو شناسایی کنین و مکانیزمهای فیلتر کردن IP یا مسدود کردن رباتها رو تنظیم کنین.
مثلاً، نظارت بر دسترسیهای مکرر از آدرسهای IP خاص یا رباتهایی که متعلق به موتورهای جستجو نیستن، به شناسایی رباتهای اسکرپر، عوامل مخرب، هوش مصنوعی یا فعالیت رقبا کمک میکنه.
محدود کردن نرخ درخواست (Rate limiting) یا حتی مسدود کردن رباتهای ناخواسته، بار سرور رو کم میکنه، از محتوای شما محافظت میکنه و به سرور اجازه میده منابعش رو روی تعاملات ارزشمند کاربرها و رباتهای مفید متمرکز کنه.
مثالهای واقعی از تحلیل لاگ
سایت فروشگاهی: بهینهسازی اثربخشی خزش و اولویتهای ایندکس
پیشزمینه
یه وبسایت فروشگاهی با کاتالوگ محصولات گستردهای که صدها دستهبندی رو شامل میشد، در حفظ سطح مطلوب بازدید ارگانیک برای صفحات محصول حیاتی خودش به مشکل خورده بود، چون این صفحات به اندازه کافی سریع ایندکس نمیشدن یا بعد از بهروزرسانی محتوا، دوباره خزش نمیشدن.
چالش
ابزارهای تحلیل وب بازاریابی، اطلاعات لازم برای پیدا کردن دلیل اصلی عملکرد ضعیف صفحات رو ارائه نمیدادن. به همین خاطر، تیم سئو به سراغ لاگهای دسترسی سرور رفت.
راهکار
با استفاده از لاگهای سرور، تیم تحلیل کرد که کدوم URLها بیشتر خزش میشن و الگوهای رفتار رباتها رو شناسایی کرد.
اونها درخواستهای رباتها رو بر اساس انواع مختلف صفحات (مثل محصولات، دستهبندیها و صفحات تبلیغاتی) ترسیم کردن و متوجه شدن که رباتها بیش از حد صفحات ثابتی که بهروزرسانی کمی داشتن رو خزش میکردن و در عین حال، محتوای با اولویت بالا رو از دست میدادن.
تیم با استفاده از این اطلاعات:
- اصلاحاتی در لینکسازی داخلی انجام داد تا مسیرهای خزش جدیدی به سمت صفحات با اولویت بالاتر ایجاد کنه.
- تگهای nofollow و noindex رو به بعضی صفحات کمارزش (مثلاً صفحات فروش فصلی یا محتوای آرشیو شده) اضافه کرد تا بودجه خزش رو از این URLها دور کنه.
- چند نوع فیلتر جستجو رو در فایل robots.txt مسدود (Disallow) کرد.
- برای صفحات محصول جدید یا بهروز شده، سایتمپهای XML داینامیک ایجاد کرد.
نتایج
این تغییرات باعث توزیع مطلوبتر درخواستهای خزش شد و در نتیجه، محصولات جدید به جای چند هفته، در عرض چند ساعت یا چند روز شناسایی و ایندکس میشدن.
این موضوع باعث بهبود دید ارگانیک و افزایش ترافیک صفحات محصول شد.
شرکت رسانهای: کاهش ترافیک رباتهای ناخواسته و بار سرور
پیشزمینه
یک وبسایت رسانهای و خبری با بار سرور بالایی مواجه بود که منجر به کندی زمان پاسخدهی و گاهی قطعی سایت میشد.
این سایت به طور مکرر محتوای جدیدی مثل اخبار، پستهای وبلاگ و رسانههای تعاملی منتشر میکرد، بنابراین ایندکس سریع و عملکرد پایدار برای اونها خیلی حیاتی بود.
چالش
اینطور به نظر میرسید که ترافیک سنگین رباتها به منابع سرور فشار میاره و باعث افزایش تأخیر و گاهی قطعی سایت میشه.
راهکار
با تحلیل لاگهای سرور، مشخص شد که رباتهای غیر از موتورهای جستجو – مثل اسکرپرها و خزندههای سرویسهای شخص ثالث و همچنین رباتهای مخرب – بخش قابل توجهی از کل درخواستها رو تشکیل میدن.
تیم الگوهایی رو از محدودههای IP خاص و User-agentهای رباتها که با خزندههای تهاجمی و مخرب مرتبط بودن، شناسایی کرد و:
- آدرسهای IP مشکلساز رو مسدود و همچنین دسترسی به بعضی رباتها رو از طریق فایل robots.txt محدود کرد.
- برای User-agentهای خاصی که سرور رو تحت فشار قرار میدادن، محدودیت نرخ درخواست (rate limiting) اعمال کرد.
- هشدارهای آنی برای افزایش غیرعادی ترافیک تنظیم کرد تا تیم بتونه به سرعت به افزایش ناگهانی ترافیک رباتهای ناخواسته واکنش نشون بده.
نتایج
سایت خبری شاهد کاهش قابل توجهی در بار سرور و بهبود زمان بارگذاری صفحات بود.
با کاهش فشار روی سرور، رباتهای موتور جستجو و کاربران واقعی راحتتر به محتوا دسترسی پیدا میکردن که این امر منجر به بهبود خزش، ایندکس و تعامل کاربران شد.
استفاده از لاگهای دسترسی سرور برای بینشهای پیشرفته سئو
لاگهای دسترسی سرور، عمقی از دادهها رو در اختیار متخصصان سئو قرار میدن که ابزارهای سنتی بازاریابی وب و تحلیل سایت، به سادگی نمیتونن ارائه بدن.
لاگهای سرور با ثبت اطلاعات خام و بدون فیلتر از تعاملات کاربر و ربات، فرصتهای جدیدی رو برای بهینهسازی توزیع خزش، بهبود سئو تکنیکال و درک دقیقتر رفتار رباتها باز میکنن.
پاسخی بگذارید