راهنمای جامع بهینه‌سازی کراول برای موتورهای جستجو

6 آبان 1404

کراولابیلیتی (Crawlability) یعنی موتورهای جستجو چقدر راحت می‌تونن به سایت شما دسترسی پیدا کنن. تو این مقاله یاد می‌گیریم که این مفهوم دقیقاً چیه، چرا مهمه و چطور مشکلات مربوط به خزش (Crawl) که به سئوی سایت ضربه می‌زنه رو برطرف کنیم.

کراولابیلیتی یعنی توانایی موتورهای جستجو برای دسترسی و گشت‌وگذار بین صفحات سایت شما. همین ویژگیه که باعث می‌شه محتوای شما کشف، ایندکس و در نهایت تو نتایج جستجو نمایش داده بشه.

بدون کراولابیلیتی، حتی بهترین محتوای شما هم ممکنه از چشم موتورهای جستجو پنهان بمونه. با اینکه کاربرا هنوز می‌تونن مستقیماً از طریق لینک‌ها، بوکمارک‌ها یا تایپ کردن آدرس، به صفحات وب دسترسی داشته باشن، اما موتورهای جستجو تا زمانی که این صفحات قابل خزش (Crawlable) نباشن، اون‌ها رو پیدا یا رتبه‌بندی نمی‌کنن. این یعنی شما دیده شدن تو نتایج جستجو و ترافیک ارگانیکی که به همراه داره رو از دست می‌دید.

تو این راهنما، با هم بررسی می‌کنیم که موتورهای جستجو چطور سایت‌ها رو «کراول» یا کاوش می‌کنن، چه چیزهایی مانع رسیدن اون‌ها به محتوای شما می‌شه و چطور این موانع رو برطرف کنیم. همچنین ابزارها و نکاتی رو معرفی می‌کنیم تا مهم‌ترین صفحاتتون توسط خزنده‌ها پیدا و رتبه‌بندی بشن.

موتورهای جستجو چطور سایت شما رو کراول می‌کنن؟

موتورهای جستجو از ربات‌ها یا همون «خزنده‌ها» (Crawlers) برای کشف محتوا در وب استفاده می‌کنن. این ربات‌ها به سایت شما سر می‌زنن و لینک‌های داخلی رو از یک صفحه به صفحه دیگه دنبال می‌کنن تا محتوای شما رو پیدا و درک کنن. بعد اطلاعات رو جمع‌آوری می‌کنن تا تصمیم بگیرن چه چیزهایی ایندکس بشه و تو نتایج جستجو نمایش داده بشه.

به این فرآیند «خزش» یا کراول کردن (Crawling) میگن. این اولین قدم برای قابل جستجو کردن محتوای شماست. چرا؟ چون اگه یک صفحه کراول نشه، نمی‌تونه ایندکس بشه و این یعنی تو موتورهای جستجویی مثل گوگل اصلاً نمایش داده نمیشه.

چه چیزهایی به ربات گوگل کمک می‌کنه تا سایت شما رو به طور موثر کراول کنه؟

برای اینکه به ربات‌های موتور جستجو کمک کنید تا سایت شما رو بهینه کراول کنن، به سه چیز نیاز دارید که با هم کار کنن:

نقشه سایت XML: این فایل، لیستی از صفحات مهم سایت شما – مثل صفحه اصلی، پست‌های وبلاگ، صفحات محصول یا لیست خدمات – رو در اختیار موتورهای جستجو قرار میده تا بتونن اون‌ها رو پیدا کنن و اولویت‌بندی کنن. اکثر سیستم‌های مدیریت محتوا (CMS) مثل وردپرس به طور خودکار یکی از این‌ها رو ایجاد می‌کنن. شما همچنین می‌تونید به صورت دستی نقشه سایت رو در گوگل سرچ کنسول ثبت کنید.
لینک‌های داخلی: لینک‌های داخلی صفحات شما رو به هم وصل می‌کنن و ربات گوگل رو موقع گشت‌وگذار در سایت راهنمایی می‌کنن، درست مثل یک انسان که روی لینک‌ها کلیک می‌کنه. پیدا کردن صفحاتی که هیچ لینک داخلی ندارن برای موتورهای جستجو سخت‌تره و ممکنه ایندکس نشن.
ساختار سایت واضح: یک ساختار سایت خوب و شفاف، دسترسی به محتوای مهم رو آسون می‌کنه؛ به طور ایده‌آل با دو یا سه کلیک از صفحه اصلی. اگه صفحات خیلی تو در تو و عمیق باشن، ممکنه ربات گوگل کمتر به اون‌ها سر بزنه (یا اصلاً سراغشون نره).

موتورهای جستجو همچنین از صف‌های خزش (Crawl Queues) برای تعیین اینکه به کدام صفحات و هر چند وقت یک‌بار سر بزنند، استفاده می‌کنند. اون‌ها یک بودجه خزش (Crawl Budget) هم در نظر می‌گیرن که تعداد صفحاتی که در هر بازدید کراول میشه رو محدود می‌کنه.

سایت‌های کوچیک با ساختار خوب، معمولاً به طور کامل کراول میشن. اما سایت‌های بزرگ‌تر یا سایت‌هایی که لینک‌های شکسته یا صفحات تکراری دارن، می‌تونن بودجه خزش خودشون رو برای محتوای کم‌ارزش هدر بدن و این ریسک وجود داره که صفحات کلیدی‌شون نادیده گرفته بشه.

سایت‌های کوچک و با ساختار مناسب معمولاً بدون مشکل به طور کامل کراول می‌شوند. با این حال، سایت‌های بزرگ‌تر با لینک‌های شکسته، محتوای تکراری یا صفحات کم‌ارزش مثل آرشیو تگ‌های قدیمی، صفحات موقعیت مکانی ضعیف یا لیست محصولات تقریباً یکسان، می‌توانند بودجه خزش خود را هدر دهند. این موضوع ممکن است باعث شود موتورهای جستجو محتوای مهم‌تر را نادیده بگیرند یا اولویت کمتری به آن بدهند.

نکته حرفه‌ای: با ثبت نقشه سایت XML، لینک‌دهی بین صفحات و قرار دادن محتوای مهم در فاصله چند کلیکی از صفحه اصلی، به ربات گوگل کمک کنید هوشمندانه‌تر کراول کنه. بررسی و آنالیز منظم سایت (Site Audit) می‌تونه مشکلات مربوط به خزش رو آشکار کنه.

مشکلات رایج کراولابیلیتی

حتی وب‌سایت‌هایی که به خوبی طراحی شدن هم ممکنه با مشکلات کراولابیلیتی مواجه بشن. این مشکلات اغلب از تنظیمات فنی یا مشکلات ساختاری سایت ناشی میشن که مانع پیدا کردن صفحات مهم توسط ربات گوگل میشن.

لینک‌های داخلی شکسته

لینک‌های شکسته، هایپرلینک‌هایی هستن که به صفحه‌ای منتهی میشن که دیگه وجود نداره یا پیدا نمیشه. وقتی یک کاربر یا موتور جستجو روی لینک کلیک می‌کنه، به یک صفحه خطا (404 Not Found) هدایت میشه.

مثال: یک پست وبلاگ به آدرس yourwebsite.com/ebook لینک داده، اما اون صفحه حذف یا اسمش عوض شده.

راه‌حل: از یک ابزار خزشگر (Crawler) استفاده کنید تا به طور منظم لینک‌های شکسته رو بررسی و در صورت نیاز اون‌ها رو به‌روزرسانی یا حذف کنید.

صفحات یتیم (Orphan Pages)

این‌ها صفحاتی هستن که هیچ لینک داخلی به اون‌ها اشاره نمی‌کنه. اگه هیچ لینکی به یک صفحه وجود نداشته باشه، ممکنه ربات گوگل نتونه اون رو پیدا کنه (مگر اینکه تو نقشه سایت شما لیست شده باشه).

مثال: شما یک لندینگ پیج برای یک رویداد ایجاد می‌کنید اما فراموش می‌کنید که از صفحه اصلی، وبلاگ یا منوی سایت به اون لینک بدید. در نتیجه، ممکنه موتورهای جستجو اصلاً اون رو نبینن و بازدیدکننده‌ها هم پیداش نکنن، که این یعنی ثبت‌نام کمتری برای رویداد شما.

راه‌حل: به صفحات یتیم از محتوای مرتبط یا بخش‌های اصلی سایت (مثل منو) لینک بدید تا مطمئن بشید که پیدا و کراول میشن.

مسدود شدن توسط robots.txt

فایل robots.txt به موتورهای جستجو میگه که کدوم بخش‌های سایت شما رو می‌تونن یا نمی‌تونن کراول کنن. این فایل اغلب برای مسدود کردن صفحاتی استفاده میشه که نیازی به نمایش در نتایج جستجو ندارن، مثل محیط‌های آزمایشی، ابزارهای داخلی یا نسخه‌های تکراری سایت.

با این حال، مسدود کردن اشتباهی بخش‌های مهم، مثل وبلاگ یا صفحات محصول، می‌تونه از کراول یا ایندکس شدن اون صفحات جلوگیری کنه.

مثال: در طول فاز تست، فایل robots.txt شامل دستور ‘Disallow: /blog/’ برای مسدود کردن محتوای ناتمامه. اما این دستور هیچ‌وقت حذف نمیشه و در نتیجه کل بخش وبلاگ از کراول شدن محروم می‌مونه.

راه‌حل: با توسعه‌دهنده یا متخصص سئوی خودتون همکاری کنید تا فایل robots.txt رو بررسی کرده و مطمئن بشید که بخش‌های مهم سایت شما رو مسدود نکرده باشه.

استفاده نادرست از تگ‌های noindex یا کنونیکال

تگ noindex به موتورهای جستجویی مثل گوگل میگه که یک صفحه رو در نتایج جستجو نمایش ندن. بازاریاب‌ها اغلب از این تگ برای مسدود کردن صفحات تشکر، داشبوردهای داخلی یا نسخه‌های تکراری یک صفحه استفاده می‌کنن. در حالی که فایل robots.txt جلوی کراول کردن رو می‌گیره، تگ noindex اجازه کراول رو میده اما به موتورهای جستجو میگه که صفحه رو در نتایج جستجو قرار ندن.

تگ کنونیکال (Canonical) به گوگل و سایر موتورهای جستجو میگه که از بین چند محتوای مشابه، کدوم نسخه رو به عنوان نسخه اصلی در نظر بگیرن. این تگ کمک می‌کنه تا سیگنال‌های رتبه‌بندی بین صفحات با محتوای مشابه، مثل چندین صفحه محصول که یک کالا رو با رنگ‌های مختلف یا با پارامترهای ردیابی در URL نمایش میدن، یکپارچه بشه.

هر دو تگ مفید هستن، اما اگه به اشتباه استفاده بشن، می‌تونن صفحاتی رو که می‌خواید تو نتایج جستجو باشن، پنهان کنن.

مثال: صفحه محصول شما یک تگ noindex داره که از زمان تست باقی مونده و حالا تو موتورهای جستجویی مثل گوگل نامرئی شده.

راه‌حل: درست مثل فایل robots.txt، با متخصص سئو یا توسعه‌دهنده خودتون همکاری کنید تا این تگ‌ها رو به طور منظم بررسی کرده و مطمئن بشید که فقط روی صفحاتی استفاده میشن که عمداً می‌خواید از نتایج حذف یا یکپارچه بشن.

صفحاتی که در عمق زیاد سایت قرار دارند

اگه رسیدن به یک صفحه از صفحه اصلی به چهار کلیک یا بیشتر نیاز داشته باشه، پیدا کردنش هم برای کاربران و هم برای موتورهای جستجو سخت‌تر میشه. به این مفهوم «عمق کلیک» (Click Depth) میگن.

یک ساختار سایت کم‌عمق (Shallow)، محتوای مهم رو به صفحه اصلی نزدیک‌تر نگه می‌داره، به طور ایده‌آل در فاصله دو یا سه کلیکی از صفحه اصلی. صفحاتی که خیلی عمیق دفن شدن ممکنه کمتر کراول بشن یا کلاً نادیده گرفته بشن، چون ربات گوگل لینک‌ها رو از صفحه اصلی شما دنبال می‌کنه. هرچقدر مراحل رسیدن به اون‌ها بیشتر باشه، احتمال اینکه در طول یک خزش به عنوان صفحات مهم در نظر گرفته بشن کمتره.

مثال: یک صفحه منابع با پنج کلیک از صفحه اصلی فاصله داره و از منوی اصلی هم بهش لینک داده نشده، که این کار رسیدن ربات گوگل به اون رو سخت‌تر می‌کنه.

راه‌حل: محتوای مهم رو در فاصله دو تا سه کلیکی نگه دارید و از بخش‌های ناوبری کلیدی به اون‌ها لینک بدید.

عوامل فنی که جلوی خزنده‌ها رو می‌گیرن

حتی اگه سایت شما ساختار خوبی داشته باشه و لینک‌هاش هم درست باشن، باز هم مشکلات فنی می‌تونن مانع از کراول شدن صفحات شما توسط موتورهای جستجو بشن. این مشکلات اغلب به تنظیمات سرور، رفتار کدها یا سرعت بارگذاری مربوط میشن و همیشه با یک نگاه ساده به سایت قابل تشخیص نیستن.

اینجا چند مورد از رایج‌ترین موانع فنی رو با هم می‌بینیم.

خطاهای سرور (کدهای 5xx)

وقتی سایت شما از دسترس خارج یا بیش از حد شلوغ میشه، ممکنه خطای سرور برگردونه. اگه ربات گوگل زیاد با این خطاها مواجه بشه، ممکنه تعداد دفعات خزش خودش رو کاهش بده.

مثال: یک صفحه در زمان عرضه محصول و ترافیک بالا، خطای 503 (سرویس در دسترس نیست) برمی‌گردونه.

راه‌حل: با توسعه‌دهنده یا تیم IT خودتون همکاری کنید تا مطمئن بشید که از هاستینگ قابل اعتماد و ابزارهای مانیتورینگ استفاده می‌کنید تا در زمان اوج ترافیک، سایت از دسترس خارج نشه.

سرعت پایین صفحه

صفحاتی که بارگذاری‌شون خیلی طول می‌کشه، ممکنه نادیده گرفته بشن یا کمتر کراول بشن. زمان بارگذاری طولانی، بودجه خزش رو هدر میده و می‌تونه به تجربه کاربری هم آسیب بزنه. دلایل رایج این مشکل شامل فایل‌های تصویری بزرگ، کدهای فشرده‌نشده جاوا اسکریپت یا CSS، اسکریپت‌های سوم شخص زیاد و عملکرد ضعیف سرور هستن.

مثال: تصاویر بزرگ و اسکریپت‌های بهینه‌نشده در صفحه اصلی باعث میشن که بارگذاری اون 10 ثانیه یا بیشتر طول بکشه.

راه‌حل: تصاویر رو با ابزارهایی مثل TinyPNG فشرده کنید، با حذف اسکریپت‌ها یا پلاگین‌های غیرضروری، کدتون رو ساده‌سازی کنید و عملکرد رو با ابزارهایی مثل PageSpeed Insights زیر نظر بگیرید.

مشکلات رندر جاوا اسکریپت

بعضی از وب‌سایت‌ها از جاوا اسکریپت برای بارگذاری پویای محتوا استفاده می‌کنن، مثل نمایش فیلترهای محصول، باز کردن منوها یا نمایش محتوا بدون نیاز به رفرش کردن صفحه. اما اگه اطلاعات کلیدی فقط بعد از اجرای جاوا اسکریپت ظاهر بشن و ربات گوگل نتونه اون رو به درستی رندر کنه، ممکنه اون محتوا در طول کراول شدن نادیده گرفته بشه.

مثال: یک صفحه وبلاگ، بدنه مقاله رو با جاوا اسکریپت بارگذاری می‌کنه، اما ربات گوگل فقط یک قالب خالی می‌بینه.

<div id="blog-post"></div> <script src="load-blog-content.js"></script>

راه‌حل: از رندر سمت سرور (Server-Side Rendering) استفاده کنید تا محتوای مهم در HTML اولیه بارگذاری بشه و ربات‌ها بتونن به اون دسترسی داشته باشن.

<div id="blog-post"> <h1>5 Ways to Improve Your Site’s Crawlability</h1> <p>Search engines need to find your pages to rank them. Here's how to help...</p> </div>

زنجیره یا حلقه ریدایرکت‌ها

زنجیره ریدایرکت زمانی اتفاق میفته که یک URL به URL دیگه‌ای ریدایرکت میشه و اون هم دوباره به یک URL دیگه. حلقه زمانی رخ میده که ریدایرکت‌ها یک الگوی دایره‌ای تشکیل میدن. این الگوها می‌تونن موتورهای جستجو رو گیج کنن و دسترسی به محتوا رو مسدود کنن.

مثال: صفحه A به صفحه B ریدایرکت میشه، که اون هم به صفحه C ریدایرکت میشه. در نهایت صفحه C دوباره به صفحه A ریدایرکت میشه و یک حلقه ایجاد می‌کنه. این کار موتورهای جستجو رو گیج می‌کنه و می‌تونه مانع رسیدن اون‌ها به محتوای شما بشه.

راه‌حل: ریدایرکت‌ها رو مستقیم و به حداقل برسونید. از یک ابزار خزش یا آنالیز سایت برای بررسی زنجیره‌ها یا حلقه‌های ریدایرکت استفاده کنید و اون‌ها رو طوری به‌روزرسانی کنید که هر ریدایرکت به یک مقصد نهایی اشاره کنه.

نکته حرفه‌ای: برای هر صفحه جدید یک چک‌لیست سریع درست کنید. آیا بهش لینک داخلی داده شده، به نقشه سایت اضافه شده و هیچ مانعی مثل noindex یا disallow نداره؟

چطور کراولابیلیتی رو تست و مانیتور کنیم؟

لازم نیست حدس بزنید که آیا سایت شما قابل کراول هست یا نه. با ابزارهای مناسب، می‌تونید دقیقاً ببینید که موتورهای جستجو چطور با صفحات شما تعامل دارن. این ابزارها بررسی‌های منظم، پیدا کردن سریع مشکلات و اطمینان از پیدا شدن محتوای شما رو آسون‌تر می‌کنن.

گوگل سرچ کنسول (Google Search Console)

گوگل سرچ کنسول یک ابزار رایگانه که نشون میده کدوم صفحات ایندکس شدن و کدوم نه. از گزارش Pages استفاده کنید تا URLهایی که از نتایج جستجو حذف شدن و دلایلش رو ببینید.

مثال: اگه یک صفحه کلیدی وضعیت «Crawled – currently not indexed» رو نشون میده، ممکنه خیلی شبیه به یک صفحه دیگه باشه یا لینک داخلی نداشته باشه.

ابزار URL Inspection (در گوگل سرچ کنسول)

شما می‌تونید هر URLی رو وارد کنید تا ببینید آیا کراول و ایندکس میشه یا نه. این ابزار همچنین نشون میده که آیا صفحه مسدود شده، تگ noindex داره یا با مشکلات فنی مواجهه.

مثال: یک لندینگ پیج وضعیت «Discovered – currently not indexed» رو برمی‌گردونه چون از هیچ‌جا بهش لینک داده نشده.

تحلیل لاگ‌های سرور (Server log analysis)

لاگ‌های سرور دقیقاً نشون میدن که ربات گوگل به کدوم صفحات و هر چند وقت یک‌بار سر زده. با اینکه این روش فنی‌تره، اما برای سایت‌های بزرگ یا زمانی که می‌خواید الگوهای خزش و صفحات از دست رفته رو تشخیص بدید، خیلی مفیده. معمولاً می‌تونید از طریق شرکت هاستینگ، شبکه توزیع محتوا (CDN) یا تیم عملیات وب‌سایت به لاگ‌های سرور دسترسی پیدا کنید.

مثال: یک صفحه دسته‌بندی محصول ماه گذشته اصلاً کراول نشده، احتمالاً به خاطر یک خطای ریدایرکت. موقع بررسی لاگ‌های سرور، متوجه میشید که ربات گوگل هفته‌هاست به صفحه /products/shoes/ شما سر نزده. یک ریدایرکت شکسته باعث میشه ربات قبل از رسیدن به این صفحه، مسیر رو رها کنه و در نتیجه صفحه ایندکس یا در نتایج جستجو آپدیت نمیشه.

ابزار Site Audit سمراش (Semrush)

ابزار Site Audit سمراش یک گزارش کراولابیلیتی ارائه میده که لینک‌های شکسته، تگ‌های noindex و مشکلات نقشه سایت رو شناسایی می‌کنه. همچنین برای رفع اون‌ها پیشنهادهایی ارائه میده.

مثال: یک هشدار کراولابیلیتی نشون میده که فایل robots.txt شما بخش /products/ رو مسدود کرده و مانع رسیدن ربات گوگل به اون صفحات میشه.

ابزارهای گزارش خزش

ابزارهایی مثل Screaming Frog می‌تونن نحوه کراول شدن سایت شما توسط موتورهای جستجو رو شبیه‌سازی کنن و مشکلات کراولابیلیتی مثل لینک‌های شکسته، زنجیره ریدایرکت‌ها، متادیتای ناقص و صفحات یتیم رو مشخص کنن. این گزارش‌ها به شما کمک می‌کنن تا بفهمید ربات‌ها چطور در سایت شما حرکت می‌کنن و کجاها ممکنه با مشکل مواجه بشن.

مثال: یک گزارش خزش نشون میده که چندین صفحه در وبلاگ شما فاقد لینک داخلی هستن، که این باعث میشه کشف اون‌ها برای موتورهای جستجو سخت‌تر بشه.

بهینه‌سازی مسیرهای خزش و لینک‌دهی داخلی

حتی اگه محتوای شما عالی باشه، موتورهای جستجو هنوز برای پیدا کردن مسیرهای درست در سایت شما به کمک نیاز دارن. نحوه لینک‌دهی صفحات شما به طور مستقیم روی کراولابیلیتی، ایندکس شدن و رتبه‌بندی تأثیر می‌ذاره.

اینجا چهار راه برای بهبود لینک‌دهی داخلی رو بررسی می‌کنیم تا خزنده‌ها (و کاربران) بتونن به راحتی در سایت شما حرکت کنن.

از ساختار سایت مسطح (Flat) استفاده کنید

ساختار سایت مسطح یک روش استراتژیک برای سازماندهی صفحات شماست، طوری که بیشتر اون‌ها فقط چند کلیک با صفحه اصلی فاصله داشته باشن. این کار به موتورهای جستجو کمک می‌کنه تا محتوای بیشتری رو به طور بهینه کراول کنن و از دفن شدن صفحات مهم جلوگیری می‌کنه.

مثال: صفحه اصلی وبلاگ مستقیماً به دسته‌بندی‌های کلیدی لینک میده و هر پست هم به اون دسته‌بندی‌ها لینک برگشتی داره.

لینک‌های متنی (Contextual) داخل محتوا اضافه کنید

لینک‌های داخلی که به طور طبیعی در پست‌های وبلاگ، صفحات محصول یا لندینگ پیج‌ها قرار می‌گیرن، به موتورهای جستجو کمک می‌کنن تا بفهمن محتواها چطور به هم مرتبط هستن. این لینک‌ها همچنین کاربران رو برای مدت طولانی‌تری درگیر نگه می‌دارن.

مثال: یک پست وبلاگ درباره استراتژی شبکه‌های اجتماعی، در پاراگرافی که به بازاریابی ایمیلی اشاره می‌کنه، به راهنمای بازاریابی ایمیلی شما لینک میده.

به صفحات باارزش زیاد لینک بدید

صفحاتی که لینک‌های داخلی بیشتری دریافت می‌کنن، معمولاً بیشتر کراول میشن و مهم‌تر به نظر میان. به صفحات باارزش خودتون مثل صفحات محصول، قیمت‌گذاری یا جذب لید، توجه بیشتری کنید و به طور منظم به اون‌ها لینک بدید.

یک قانون کلی خوب اینه که حداقل 3 تا 10 لینک داخلی به هر صفحه با اولویت بالا بدید که در پست‌های وبلاگ مرتبط، منوهای ناوبری و سایر صفحات اصلی پخش شده باشن.

مثال: صفحه «قیمت‌گذاری» شما از صفحه اصلی، فوتر و صفحات محصول مرتبط لینک گرفته.

از لینک دادن به صفحات کم‌اهمیت خودداری کنید

لینک‌های زیاد یا لینک به صفحات قدیمی می‌تونه بودجه خزش شما رو هدر بده و موتورهای جستجو رو در مورد اینکه کدوم صفحات ارزش ایندکس شدن دارن، گیج کنه.

مثال: یک وبلاگ ده‌ها لینک به آرشیوهای تگ خالی داره، که ممکنه به جای محتوای همیشه سبز و پربازده شما کراول بشن.

نکته حرفه‌ای: به طور منظم لینک‌های داخلی خودتون رو آنالیز کنید و لینک دادن به صفحات تأثیرگذاری که ترافیک، تبدیل یا اعتبار ایجاد می‌کنن رو در اولویت قرار بدید.

کراولابیلیتی در مقابل ایندکس‌ابیلیتی: تفاوت این دو رو بفهمیم

تا الان دیگه می‌دونید که کراولابیلیتی به این مربوط میشه که آیا موتورهای جستجو می‌تونن به یک صفحه دسترسی داشته باشن یا نه. اما دسترسی به تنهایی کافی نیست. برای اینکه یک صفحه در نتایج جستجو ظاهر بشه، باید قابل ایندکس (Indexable) هم باشه، یعنی موتورهای جستجو اجازه داشته باشن اون رو در ایندکس خودشون ذخیره و نمایش بدن.

کراولابیلیتی = کشف شدن (آیا ربات گوگل می‌تونه صفحه رو پیدا کنه؟)
ایندکس‌ابیلیتی = قرار گرفتن در نتایج (آیا صفحه می‌تونه تو نتایج جستجو نمایش داده بشه؟)

یک صفحه می‌تونه قابل کراول باشه، اما اگه سیگنال‌های خاصی به موتورهای جستجویی مثل گوگل بگن که ازش صرف‌نظر کنن، ایندکس نمیشه.

چه چیزی یک صفحه رو غیرقابل ایندکس می‌کنه؟

حتی اگه یک صفحه کشف و کراول بشه، در موارد زیر ایندکس نمیشه:

شامل تگ noindex باشه. این تگ به موتورهای جستجو میگه: «این صفحه رو ایندکس نکن». این تگ برای صفحات خصوصی، صفحات تشکر یا محیط‌های آزمایشی مفیده.
یک تگ کنونیکال به جای دیگه‌ای اشاره کنه. اگه صفحه شامل تگ rel=”canonical” باشه که به یک URL دیگه ارجاع میده، گوگل و سایر موتورهای جستجو ممکنه اون رو به عنوان یک نسخه تکراری در نظر بگیرن و ایندکسش نکنن.
محتوا بی‌کیفیت یا تکراری باشه. صفحاتی با محتوای ضعیف، تکراری یا تولید شده توسط ربات، اغلب استانداردهای کیفی موتورهای جستجویی مثل گوگل برای ایندکس شدن رو ندارن.
از طریق متاتگ‌ها یا هدرهای HTTP مسدود شده باشه. دستورات فنی – مثل X-Robots-Tag: noindex – می‌تونن از ایندکس شدن جلوگیری کنن، حتی اگه صفحه قابل دسترسی باشه.

چطور مشکلات کراولابیلیتی و ایندکس‌ابیلیتی رو عیب‌یابی کنیم؟

کراولابیلیتی رو بررسی کنید؛ با استفاده از ابزارهایی مثل URL Inspection Tool گوگل سرچ کنسول یا Screaming Frog ببینید آیا صفحه قابل دسترسیه و توسط robots.txt مسدود نشده.

برای بررسی ایندکس‌ابیلیتی، به دنبال تگ‌های noindex، لینک‌های کنونیکال که به جای دیگه‌ای اشاره می‌کنن یا محتوای بی‌کیفیت بگردید. همچنین می‌تونید از URL Inspection Tool استفاده کنید تا تأیید کنید که آیا صفحه ایندکس شده و اگه نه، دلیلش چیه.

فرض کنیم شما یک پست وبلاگ جدید منتشر می‌کنید و از صفحه اصلی بهش لینک میدید. ربات گوگل لینک رو دنبال می‌کنه و صفحه رو کراول می‌کنه. اما اگه پست شامل یک متاتگ noindex در HTML باشه، گوگل و سایر موتورهای جستجو اون رو به نتایج جستجو اضافه نمی‌کنن.

این تگ ممکنه عمداً اونجا باشه (مثلاً برای صفحات تشکر یا پیش‌نویس‌ها) یا به اشتباه اضافه شده باشه. در هر صورت، به موتورهای جستجویی مثل گوگل گفته شده که اون رو ایندکس نکنن.

اگه صفحه باید ایندکس بشه، وجود تگ noindex رو با استفاده از URL Inspection Tool گوگل سرچ کنسول بررسی کنید. تگ رو بردارید و درخواست ایندکس مجدد بدید تا به نتایج جستجو برگرده.

کراولابیلیتی رو اولین بخش از چک‌لیست انتشار محتوای خودتون قرار بدید

اگه محتوای شما قابل کراول یا ایندکس نباشه، مهم نیست چقدر مفید یا خوب نوشته شده، تو نتایج جستجو ظاهر نمیشه. به همین دلیله که کراولابیلیتی باید اولین اولویت شما در فرآیند سئو باشه.

این سؤالات رو از خودتون بپرسید تا ارزیابی کنید موتورهای جستجو چقدر خوب می‌تونن سایت شما رو کراول کنن:

آیا این صفحه حداقل از یک صفحه دیگه لینک گرفته؟

لینک‌های داخلی به ربات گوگل کمک می‌کنن تا محتوای جدید رو کشف کنه. اگه هیچ صفحه دیگه‌ای بهش اشاره نکنه، این احتمال وجود داره که پیدا نشه.

آیا در نقشه سایت شما قرار داره؟

اضافه کردن صفحات مهم به نقشه سایت تضمین می‌کنه که اون‌ها مستقیماً به موتورهای جستجو ارسال میشن و در طول خزش از قلم نمیفتن.

آیا سریع بارگذاری میشه و یک پاسخ معتبر برمی‌گردونه؟

صفحاتی که کند هستن یا خطاهای سرور برمی‌گردونن، ممکنه نادیده گرفته بشن. یک صفحه سالم باید سریع بارگذاری بشه و کد وضعیتی مثل 200 (OK) رو برگردونه.

آیا عاری از هرگونه اشتباه در تگ‌های noindex یا کنونیکال هست؟

تأیید کنید که صفحه شما به طور ناخواسته توسط یک تگ noindex حذف نشده یا از طریق یک تگ کنونیکال به نسخه دیگه‌ای هدایت نشده باشه.

برای آشنایی با راه‌های بیشتر برای بهبود عملکرد سایت، راهنمای ما در مورد سئوی تکنیکال رو بررسی کنید.