موجودیت‌ها در سئو: چی هستن و چرا اینقدر مهمن؟

از یادگیری تاریخچه جستجو گرفته تا تشخیص تفاوت بین انتیتی و کلمه کلیدی، باید واقعاً بفهمید که انتیتی‌ها چی هستند تا بتونید ترافیک جستجوی هدفمندتری رو به دست بیارید.

کلی سردرگمی در مورد اینکه کارشناس‌های سئو چطور باید «انتیتی» (Entity) رو در سئو درک کنن و از اون مهم‌تر، چطور ازش استفاده کنن، وجود داره.

من می‌دونم که این سردرگمی از کجا میاد، مخصوصاً با توجه به اینکه رویکرد سنتی سئو حول محور کلمات و عبارات می‌چرخیده.

راستش رو بخواید، اکثر الگوریتم‌هایی که نسل اول متخصصان سئو (مثل خود من) باهاشون بزرگ شدن، اصلاً مفهومی به اسم «انتیتی» در جستجو نداشتن. اصول سئو – از تولید محتوا گرفته تا انکر تکست در لینک‌ها و ردیابی نتایج جستجو – همگی بر پایه کلمات کلیدی بودن (و تا حد زیادی هنوز هم هستن) و برای خیلی‌ها هنوز سخته که بفهمن چی تغییر کرده.

اما در دهه گذشته، کل دنیای جستجو به سمت درک جهان، نه فقط به عنوان رشته‌ای از کلمات، بلکه به عنوان مجموعه‌ای از انتیتی‌های به هم پیوسته حرکت کرده.

کار کردن با انتیتی‌ها در سئو، پایه و اساس یک استراتژی سئوی آینده‌نگرانه است.

انتیتی‌ها برای آینده‌ای که با هوش مصنوعی مولد و چت‌جی‌پی‌تی گره خورده هم اهمیت زیادی دارن.

این مقاله دقیقاً به همین موضوع می‌پردازه و این موارد رو پوشش میده:

  • انتیتی‌ها چی هستن؟
  • گراف دانش (Knowledge Graph) چیه؟
  • تاریخچه مختصری از انتیتی‌ها در جستجو: Freebase، Wikidata و انتیتی‌ها.
  • انتیتی‌ها چطور کار می‌کنن و چطور برای رتبه‌بندی استفاده میشن.
  • مثال‌هایی از انتیتی‌ها در گوگل.
  • چطور برای انتیتی‌ها بهینه‌سازی کنیم.
  • استفاده از اسکیما برای کمک به تعریف انتیتی‌ها.

انتیتی‌ها چی هستن؟

متخصصان سئو اغلب انتیتی‌ها رو با کلمات کلیدی اشتباه می‌گیرن.

یک انتیتی (در دنیای جستجو) یک رکورد در یک پایگاه داده است. هر انتیتی معمولاً یک شناسه رکورد مشخص داره.

توی گوگل، این شناسه می‌تونه چیزی شبیه به این باشه: «MREID=/m/23456» یا «KGMID=/g/121y50m4».

پس قطعاً یک «کلمه» یا «عبارت» نیست. به نظرم این اشتباه گرفتن انتیتی با کلمه کلیدی، دو تا دلیل اصلی داره:

  1. اول اینکه متخصصان سئو، کارشون رو قبل از سال ۲۰۱۰ بر اساس کلمات و عبارات یاد گرفتن و خیلی‌ها هنوز همون رویه رو ادامه میدن.
  2. دوم اینکه هر انتیتی یک برچسب (label) داره که معمولاً یک کلمه کلیدی یا یک توصیف‌کننده است.

بنابراین، در حالی که «برج ایفل» برای ما به عنوان انسان یک «انتیتی» کاملاً قابل تشخیصه، گوگل اون رو به صورت «KGMID=/m/02j81» می‌بینه و واقعاً براش فرقی نمی‌کنه که شما اون رو «Eiffel Tower»، «Torre Eiffel» یا «ایفل بورجو» (معادل آذربایجانی «برج ایفل») بنامید. گوگل می‌دونه که شما به احتمال زیاد دارید به همون انتیتی اصلی در گراف دانش اشاره می‌کنید.

این ما رو به نکته بعدی می‌رسونه:

«گراف دانش» چیه؟

تفاوت‌های ظریف اما مهمی بین «یک گراف دانش»، «گراف دانش گوگل» و «پنل دانش» وجود داره.

  • یک گراف دانش (a knowledge graph)، یک پایگاه داده نیمه‌ساختاریافته است که شامل انتیتی‌ها میشه.
  • گراف دانش گوگل (The Knowledge Graph) معمولاً اسمیه که به گراف دانش خود گوگل داده شده، هرچند هزاران گراف دانش دیگه هم وجود داره. Wikidata (که خودش یک گراف دانشه) سعی می‌کنه شناسه‌های منابع داده معتبر مختلف رو با هم تطبیق بده.
  • پنل دانش (The Knowledge Panel) یک نمایش خاص از نتایج گراف دانش گوگله. این همون کادریه که اغلب در سمت راست نتایج جستجو (SERP) در دسکتاپ نمایش داده میشه و جزئیات بیشتری در مورد یک شخص، مکان، رویداد یا انتیتی دیگه ارائه میده.

تاریخچه مختصری از انتیتی‌ها در جستجو

متاوب (Metaweb)

در سال ۲۰۰۵، شرکتی به نام متاوب شروع به ساخت یک پایگاه داده کرد که بعدها Freebase نام گرفت. خودشون اون رو «یک پایگاه داده باز و اشتراکی از دانش جهان» توصیف می‌کردن.

من خودم اون رو به عنوان یک دایرة‌المعارف نیمه‌ساختاریافته توصیف می‌کنم.

این سیستم به هر «انتیتی» (یا اگه بخوایم استعاره رو ادامه بدیم، به هر مقاله) یک شماره شناسه منحصربه‌فرد می‌داد. بعد، به جای یک مقاله سنتی که با کلمات نوشته شده، سعی می‌کرد مقاله‌ها رو از طریق روابطشون با شناسه‌های دیگه در سیستم به هم وصل کنه.

بعد از حدود ۵۰ میلیون دلار سرمایه‌گذاری و ۵ سال کار، این پروژه به گوگل فروخته شد.

هیچ‌وقت محصول تجاری ازش ساخته نشد، اما پایه‌ای شد برای یک گذار ۱۰ ساله برای گوگل؛ گذار از یک موتور جستجوی مبتنی بر کلمه کلیدی به یک موتور جستجوی مبتنی بر انتیتی.

ویکی‌دیتا (Wikidata)

در سال ۲۰۱۶ – حدود شش سال بعد از خرید – گوگل رسماً Freebase رو تعطیل کرد، چون ایده‌های اون رو به «گراف دانش» خودش منتقل و توسعه داده بود؛ اصطلاح مدرنی که برای این نوع پایگاه‌های داده به کار میره.

در اون زمان، جالبه بدونید که گوگل به طور عمومی اعلام کرد که بخش زیادی از داده‌های انتیتی خودش رو با ویکی‌دیتا همگام‌سازی کرده و از اون به بعد، ویکی‌دیتا (که زیربنای داده‌های مورد استفاده در ویکی‌پدیاست) یکی از راه‌های ارتباطی گراف دانش گوگل با دنیای بیرون خواهد بود.

انتیتی‌ها چطور کار می‌کنن و برای رتبه‌بندی چطور استفاده میشن؟

انتیتی‌ها در الگوریتم اصلی

کاربرد اصلی انتیتی‌ها برای رفع ابهام از مفاهیمه، نه برای رتبه‌بندی صفحاتی که ایده‌های یکسانی دارن.

البته این به اون معنا نیست که استفاده هوشمندانه از انتیتی‌ها نمی‌تونه به رتبه بهتر محتوای سایت شما کمک کنه. حتماً می‌تونه! اما وقتی گوگل می‌خواد نتایجی رو برای جستجوی کاربر نمایش بده، اول از همه دنبال یک جواب دقیق می‌گرده.

نه لزوماً بهترین یا شایسته‌ترین جواب.

به همین خاطر، گوگل زمان قابل توجهی رو صرف تبدیل متن‌ها به انتیتی‌های زیربنایی اون‌ها می‌کنه. این فرآیند هم موقع ایندکس کردن سایت شما و هم موقع تحلیل کوئری کاربر اتفاق میفته.

مثلاً اگه من تایپ کنم «اسم رستوران‌های زیر برج ایفل»، گوگل می‌دونه که کاربر دنبال «اسم» یا خود «برج ایفل» نیست.

اون دنبال رستورانه. نه هر رستورانی، بلکه رستوران‌هایی در یک مکان خاص. دو انتیتی مرتبط در این جستجو، «رستوران» در چارچوب «Champ de Mars, 5 Av. Anatole France, Paris» (آدرس برج ایفل) هستن.

این به گوگل کمک می‌کنه تا تصمیم بگیره چطور نتایج جستجوی مختلفش – مثل تصاویر، نقشه، کسب‌وکارهای گوگل، تبلیغات و صفحات وب ارگانیک – رو با هم ترکیب کنه.

و مهم‌تر از همه برای یک متخصص سئو اینه که بدونه مثلاً سایت رستوران ژول ورن (Jules Verne) اگه می‌خواد گوگل صفحه‌اش رو برای این کوئری مرتبط تشخیص بده، حتماً باید در مورد منظره فوق‌العاده‌اش از برج ایفل صحبت کنه.

این کار ممکنه کمی چالش‌برانگیز باشه، چون رستوران ژول ورن دقیقاً داخل برج ایفل قرار داره.

مستقل از زبان

انتیتی‌ها برای موتورهای جستجو عالین، چون مستقل از زبان هستن. علاوه بر این، این ایده به این معنیه که یک انتیتی رو میشه از طریق رسانه‌های مختلف توصیف کرد.

یک تصویر راه خیلی خوبی برای توصیف برج ایفل به حساب میاد، چون خیلی نمادینه. یک فایل صوتی یا صفحه رسمی برج هم می‌تونن همین کار رو بکنن.

همه این‌ها برچسب‌های معتبری برای اون انتیتی هستن و در بعضی موارد، حتی شناسه‌های معتبری در گراف‌های دانش دیگه به حساب میان.

ارتباط بین انتیتی‌ها

تعامل و ارتباط بین انتیتی‌ها به یک متخصص سئو اجازه میده تا استراتژی‌های منسجمی برای جذب ترافیک ارگانیک مرتبط ایجاد کنه.

طبیعتاً، «معتبرترین» صفحه برای برج ایفل، احتمالاً صفحه رسمی خود برج یا صفحه ویکی‌پدیاست. تا وقتی که شما واقعاً مسئول سئوی برج ایفل نباشید، کار زیادی برای به چالش کشیدن این واقعیت از دستتون برنمیاد.

اما، همین تعامل بین انتیتی‌هاست که به شما اجازه میده محتوایی بنویسید که رتبه بگیره. ما قبلاً به «رستوران‌ها» و «برج ایفل» اشاره کردیم. اما نظرتون در مورد «مترو» و «برج ایفل»، یا «تخفیف» و «برج ایفل» چیه؟

به محض اینکه دو انتیتی وارد بازی میشن، تعداد نتایج جستجوی مرتبط به شدت کاهش پیدا می‌کنه. وقتی به عبارتی مثل «تخفیف بلیط برج ایفل با استفاده از مترو» می‌رسید، شما یکی از معدود صفحاتی می‌شید که روی ارتباط بین بلیط مترو، بلیط برج ایفل و تخفیف‌ها تمرکز کرده.

شاید افراد خیلی کمتری این عبارت رو جستجو کنن، اما نرخ تبدیل خیلی بالاتر خواهد بود.

تازه ممکنه به یک ایده پول‌سازتر هم برای شما تبدیل بشه! (این فقط یک مثاله برای توضیح اصل مطلب. من نمی‌دونم اصلاً چنین تخفیف‌هایی وجود داره یا نه. ولی باید وجود داشته باشه!)

این مفهوم رو میشه گسترش داد و صفحات فوق‌العاده قوی ایجاد کرد. چطوری؟ اول تمام صفحات رقیب برای یک عبارت جستجو رو تحلیل کنید و انتیتی‌های اصلی اون‌ها و اهمیت نسبی‌شون نسبت به کوئری اصلی رو در یک جدول بیارید.

این جدول می‌تونه به عنوان یک نقشه راه محتوا برای نویسنده عمل کنه تا یک محتوای جدید و معتبرتر از همه رقبای دیگه بسازه.

بنابراین، با اینکه یک موتور جستجو ممکنه ادعا کنه انتیتی‌ها یک فاکتور رتبه‌بندی نیستن، این استراتژی دقیقاً به قلب این فلسفه می‌زنه که «اگه محتوای خوب بنویسی، خودشون میان سراغت».

مثال‌هایی از انتیتی‌ها در گوگل

انتیتی‌ها در جستجوی تصویر

انتیتی‌ها می‌تونن در بهینه‌سازی تصاویر هم خیلی مفید باشن.

گوگل خیلی تلاش کرده تا با استفاده از یادگیری ماشین، تصاویر رو تحلیل کنه. برای همین، معمولاً می‌دونه که موضوع اصلی اکثر عکس‌ها چیه.

پس عبارت [a dog on a skateboard] (یک سگ روی اسکیت‌برد) رو به عنوان یک عبارت جستجو در نظر بگیرید… اگه مطمئن بشید که محتوای شما کاملاً از تصویرتون پشتیبانی می‌کنه، می‌تونه به دیده شدن بیشتر محتواتون کمک کنه؛ درست در همون لحظه‌ای که کاربر دنبالش می‌گرده.

انتیتی‌ها در گوگل دیسکاور

یکی از منابع ترافیکی که متخصصان سئو کمتر بهش توجه می‌کنن، گوگل دیسکاور است.

گوگل یک فید از صفحات جالب رو به کاربران نشون میده، حتی وقتی که فعالانه دنبال چیزی نمی‌گردن.

این اتفاق در گوشی‌های اندروید و همچنین در اپلیکیشن گوگل روی آیفون‌ها میفته. با اینکه اخبار تأثیر زیادی روی این فید دارن، سایت‌های غیرخبری هم می‌تونن از «دیسکاور» ترافیک بگیرن.

چطوری؟ خب، به نظر من انتیتی‌ها نقش بزرگی در این موضوع دارن!

اگه تب «Discover» رو در سرچ کنسول گوگل خودتون نمی‌بینید، ناامید نشید. اما وقتی پیداش شد، می‌تونه نشونه خوبی باشه از اینکه حداقل یکی از صفحات وب شما اونقدر با انتیتی‌ها همسو شده که با علایق حداقل یک نفر انطباق پیدا کرده و در فید مخصوص اون کاربر نمایش داده شده.

در مثال بالا، با اینکه نتایج «دیسکاور» دقیقاً در زمان جستجوی کاربر نمایش داده نمیشن، باز هم نرخ کلیک ۴.۲٪ وجود داره.

دلیلش اینه که گوگل می‌تونه با نگاشت انتیتی‌ها، علایق و عادات بسیاری از کاربرانش رو با محتوای موجود در اینترنت هماهنگ کنه.

هرجا که یک همبستگی قوی پیدا بشه، گوگل می‌تونه یک صفحه رو به کاربر پیشنهاد بده.

چطور برای انتیتی‌ها بهینه‌سازی کنیم؟

تحقیقی از یک کارمند گوگل

در سال ۲۰۱۴، مقاله‌ای منتشر شد که به نظرم خیلی خوب نشون میده که گوگل (یا حداقل، محققانش) مشتاق بودن تا ایده استفاده از کلمات کلیدی برای درک موضوعات رو از ایده استفاده از انتیتی‌ها جدا کنن.

در این مقاله، Dunietz و Gillick اشاره می‌کنن که چطور سیستم‌های پردازش زبان طبیعی (NLP) به سمت پردازش مبتنی بر انتیتی حرکت کردن. اون‌ها نشون میدن که چطور میشه از یک سیستم «برجستگی» (salience) باینری (صفر و یک) روی مجموعه داده‌های بزرگ استفاده کرد تا انتیتی‌های یک سند (صفحه وب) رو تعریف کرد.

یک «سیستم امتیازدهی باینری» یعنی گوگل ممکنه تصمیم بگیره که یک سند یا در مورد یک انتیتی خاص هست یا نیست.

شواهد بعدی نشون میده که «برجستگی» حالا توسط گوگل در یک مقیاس پیوسته از ۰ تا ۱ اندازه‌گیری میشه (مثلاً امتیازی که در NLP API گوگل داده میشه).

با این حال، به نظرم این مقاله هنوز هم خیلی مفیده تا بفهمیم تحقیقات گوگل فکر می‌کنه «انتیتی‌ها» باید در کجای یک صفحه ظاهر بشن تا «برجسته» به حساب بیان.

برای تحقیق جدی، خوندن خود مقاله رو توصیه می‌کنم، اما اون‌ها توضیح دادن که چطور «برجستگی» رو بر اساس مطالعه مقالات «نیویورک تایمز» طبقه‌بندی کردن.

به طور مشخص، به این موارد اشاره کردن:

مکان اولین اشاره (1st-loc)

این اولین جمله‌ایه که در اون برای اولین بار به یک انتیتی اشاره میشه.

نکته اینجاست که اشاره زودهنگام به انتیتی در صفحه وب شما ممکنه شانس «برجسته» دیده شدن اون انتیتی رو برای مقاله افزایش بده.

تعداد کلمه اصلی (Head-count)

این اساساً تعداد دفعاتیه که کلمه «اصلی» (head) اولین اشاره به انتیتی، تکرار میشه.

«کلمه اصلی» به طور مشخص در مقاله تعریف نشده، اما برداشت من اینه که منظور، ساده‌ترین شکل کلمه است.

اشاره‌ها (Mentions)

این فقط به کلمات/برچسب‌های انتیتی اشاره نداره، بلکه به عوامل دیگه‌ای مثل ضمایر ارجاعی به انتیتی (او/آن) هم مربوط میشه.

تیتر (Headline)

زمانی که یک انتیتی در تیتر ظاهر میشه.

کلمه اصلی کوچک‌شده (Head-lex)

به شکل لغوی کلمه اصلی در اولین اشاره به انتیتی اشاره داره.

مرکزیت انتیتی (Entity Centrality)

این مقاله همچنین در مورد استفاده از نسخه‌ای تغییر یافته از پیج‌رنک صحبت می‌کنه – جایی که اون‌ها به جای صفحات وب، از مقالات Freebase استفاده کردن!

مثالی که به اشتراک گذاشتن، یک مناظره در سنا با حضور FEMA، حزب جمهوری‌خواه، (پرزیدنت) اوباما و یک سناتور جمهوری‌خواه بود.

بعد از اعمال یک الگوریتم تکرارشونده شبیه پیج‌رنک روی این انتیتی‌ها و نزدیکی اون‌ها به یکدیگر در گراف دانش، تونستن وزن‌ اهمیت اون انتیتی‌ها رو در سند تغییر بدن.

چطور این سیگنال‌های انتیتی رو در سئو کنار هم بچینیم؟

بدون اینکه بخوایم به طور خاص در مورد گوگل صحبت کنیم، یک الگوریتم برای تمام متغیرهای بالا و برای هر انتیتی که یک برنامه NLP یا برنامه استخراج انتیتی‌های نام‌گذاری‌شده (NEEP) در یک صفحه متنی پیدا می‌کنه (و حتی برای همه انتیتی‌های شناسایی‌شده در یک تصویر)، مقادیری رو ایجاد می‌کنه.

بعد، به هر متغیر یک وزن اختصاص داده میشه تا یک امتیاز به دست بیاد. در مقاله‌ای که بررسی کردیم، این امتیاز به ۱ یا ۰ (برجسته یا غیربرجسته) تبدیل میشه، اما به احتمال زیاد، این مقدار یک عدد بین ۰ تا ۱ است.

گوگل هیچ‌وقت جزئیات این وزن‌دهی‌ها رو به اشتراک نمی‌ذاره، اما چیزی که اون مقاله نشون میده اینه که این وزن‌ها فقط بعد از «خونده شدن» صدها میلیون صفحه تعیین میشن.

این طبیعت مدل‌های یادگیری زبان بزرگه.

اما اینجا چند تا نکته کلیدی برای متخصصان سئو که می‌خوان محتوایی رو حول دو یا چند انتیتی رتبه‌بندی کنن، آوردیم. برگردیم به مثال «رستوران‌های نزدیک برج ایفل»:

  • برای هر انتیتی یک عبارت «اصلی» انتخاب کنید. من ممکنه «رستوران»، «برج ایفل» و «فاصله» رو انتخاب کنم، چون فاصله یک معنی و مقاله معتبر در ویکی‌پدیا داره. «کافه» می‌تونه مترادف مناسبی برای رستوران باشه، همینطور شکل جمع اون یعنی «رستوران‌ها».
  • سعی کنید هر سه انتیتی رو در تیتر و جمله اول بیارید. مثلاً: «رستوران‌ها در فاصله کمی از برج ایفل».
  • در متن، سعی کنید در مورد ارتباط متقابل بین این انتیتی‌ها صحبت کنید. مثلاً: «رستوران ژول ورن دقیقاً داخل آن قرار دارد.» با فرض اینکه «آن» به وضوح به برج ایفل در متن اشاره داره، نیازی نیست هر بار اسم کاملش رو بنویسید. زبان متن رو طبیعی نگه دارید.

آیا این برای سئوی انتیتی کافیه؟

نه. احتمالاً نه. (می‌تونید کتاب من رو بخونید!) با این حال، همه عوامل به عنوان یک نویسنده یا صاحب وب‌سایت در کنترل شما نیستن.

اما دو ایده که به نظر می‌رسه تأثیرگذار باشن، لینک‌دهی به محتوا از صفحات مرتبط دیگه و اضافه کردن اسکیما برای کمک به تعریف انتیتی‌هاست.

استفاده از اسکیما برای کمک به تعریف انتیتی‌ها

با استفاده از اسکیمای «about» و «mentions» میشه شفافیت بیشتری به موتورهای جستجو داد تا بهشون در رفع ابهام محتوا کمک کنیم.

این دو نوع اسکیما کمک می‌کنن تا توصیف کنیم یک صفحه در مورد چه چیزی صحبت می‌کنه.

با تعریف یک صفحه به عنوان «درباره» (about) یک یا دو انتیتی و «اشاره به» (mentions) چند انتیتی دیگه، یک متخصص سئو می‌تونه به سرعت یک محتوای طولانی رو در حوزه‌های کلیدی‌اش خلاصه کنه؛ طوری که برای گراف‌های دانش آماده مصرف باشه.

البته باید توجه داشت که گوگل به صراحت اعلام نکرده که آیا از این اسکیما در الگوریتم‌های اصلی خودش استفاده می‌کنه یا نه.

من احتمالاً این اسکیما رو به مقاله‌ام اضافه می‌کنم:

<script type=”application/ld+json”> {
“@context”: “https://schema.org”,
“@type”: “WebPage”,
“@id”: “https://www.yoursite.com/yourURL#ContentSchema”,
“headline”: “Restaurants a small distance from the Eiffel Tower”,
“url”: “https://www.yoursite.com/yourURL”,
“about”: [
   {“@type”: “Thing”, “name”: “Restaurant”, “sameAs”: “https://en.wikipedia.org/wiki/Restaurant”},
   {“@type”: “Place”, “name”: “Eiffel Tower”, “sameAs”: “https://en.wikipedia.org/wiki/Eiffel_Tower”}
],
“mentions”: [
   {“@type”: “Thing”, “name”: “distance”, “sameAs”: “https://en.wikipedia.org/wiki/Distance”},
   {“@type”: “Place”, “name”: “Paris”, “sameAs”: “https://en.wikipedia.org/wiki/Paris”}
]
} </script>

انتخاب دقیق اسکیما، به همون اندازه که یک سؤال سئویی هست، یک سؤال فلسفی هم هست.

اما به اسکیمایی که استفاده می‌کنید به چشم «رفع ابهام از محتوا» نگاه کنید، نه «بهینه‌سازی محتوا». اینطوری امیدوارم در نهایت به ترافیک جستجوی هدفمندتری برسید.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *