موجودیتها در سئو: چی هستن و چرا اینقدر مهمن؟
از یادگیری تاریخچه جستجو گرفته تا تشخیص تفاوت بین انتیتی و کلمه کلیدی، باید واقعاً بفهمید که انتیتیها چی هستند تا بتونید ترافیک جستجوی هدفمندتری رو به دست بیارید.
کلی سردرگمی در مورد اینکه کارشناسهای سئو چطور باید «انتیتی» (Entity) رو در سئو درک کنن و از اون مهمتر، چطور ازش استفاده کنن، وجود داره.
من میدونم که این سردرگمی از کجا میاد، مخصوصاً با توجه به اینکه رویکرد سنتی سئو حول محور کلمات و عبارات میچرخیده.
راستش رو بخواید، اکثر الگوریتمهایی که نسل اول متخصصان سئو (مثل خود من) باهاشون بزرگ شدن، اصلاً مفهومی به اسم «انتیتی» در جستجو نداشتن. اصول سئو – از تولید محتوا گرفته تا انکر تکست در لینکها و ردیابی نتایج جستجو – همگی بر پایه کلمات کلیدی بودن (و تا حد زیادی هنوز هم هستن) و برای خیلیها هنوز سخته که بفهمن چی تغییر کرده.
اما در دهه گذشته، کل دنیای جستجو به سمت درک جهان، نه فقط به عنوان رشتهای از کلمات، بلکه به عنوان مجموعهای از انتیتیهای به هم پیوسته حرکت کرده.
کار کردن با انتیتیها در سئو، پایه و اساس یک استراتژی سئوی آیندهنگرانه است.
انتیتیها برای آیندهای که با هوش مصنوعی مولد و چتجیپیتی گره خورده هم اهمیت زیادی دارن.
این مقاله دقیقاً به همین موضوع میپردازه و این موارد رو پوشش میده:
- انتیتیها چی هستن؟
- گراف دانش (Knowledge Graph) چیه؟
- تاریخچه مختصری از انتیتیها در جستجو: Freebase، Wikidata و انتیتیها.
- انتیتیها چطور کار میکنن و چطور برای رتبهبندی استفاده میشن.
- مثالهایی از انتیتیها در گوگل.
- چطور برای انتیتیها بهینهسازی کنیم.
- استفاده از اسکیما برای کمک به تعریف انتیتیها.
انتیتیها چی هستن؟
متخصصان سئو اغلب انتیتیها رو با کلمات کلیدی اشتباه میگیرن.
یک انتیتی (در دنیای جستجو) یک رکورد در یک پایگاه داده است. هر انتیتی معمولاً یک شناسه رکورد مشخص داره.
توی گوگل، این شناسه میتونه چیزی شبیه به این باشه: «MREID=/m/23456» یا «KGMID=/g/121y50m4».
پس قطعاً یک «کلمه» یا «عبارت» نیست. به نظرم این اشتباه گرفتن انتیتی با کلمه کلیدی، دو تا دلیل اصلی داره:
- اول اینکه متخصصان سئو، کارشون رو قبل از سال ۲۰۱۰ بر اساس کلمات و عبارات یاد گرفتن و خیلیها هنوز همون رویه رو ادامه میدن.
- دوم اینکه هر انتیتی یک برچسب (label) داره که معمولاً یک کلمه کلیدی یا یک توصیفکننده است.
بنابراین، در حالی که «برج ایفل» برای ما به عنوان انسان یک «انتیتی» کاملاً قابل تشخیصه، گوگل اون رو به صورت «KGMID=/m/02j81» میبینه و واقعاً براش فرقی نمیکنه که شما اون رو «Eiffel Tower»، «Torre Eiffel» یا «ایفل بورجو» (معادل آذربایجانی «برج ایفل») بنامید. گوگل میدونه که شما به احتمال زیاد دارید به همون انتیتی اصلی در گراف دانش اشاره میکنید.
این ما رو به نکته بعدی میرسونه:
«گراف دانش» چیه؟
تفاوتهای ظریف اما مهمی بین «یک گراف دانش»، «گراف دانش گوگل» و «پنل دانش» وجود داره.
- یک گراف دانش (a knowledge graph)، یک پایگاه داده نیمهساختاریافته است که شامل انتیتیها میشه.
- گراف دانش گوگل (The Knowledge Graph) معمولاً اسمیه که به گراف دانش خود گوگل داده شده، هرچند هزاران گراف دانش دیگه هم وجود داره. Wikidata (که خودش یک گراف دانشه) سعی میکنه شناسههای منابع داده معتبر مختلف رو با هم تطبیق بده.
- پنل دانش (The Knowledge Panel) یک نمایش خاص از نتایج گراف دانش گوگله. این همون کادریه که اغلب در سمت راست نتایج جستجو (SERP) در دسکتاپ نمایش داده میشه و جزئیات بیشتری در مورد یک شخص، مکان، رویداد یا انتیتی دیگه ارائه میده.
تاریخچه مختصری از انتیتیها در جستجو
متاوب (Metaweb)
در سال ۲۰۰۵، شرکتی به نام متاوب شروع به ساخت یک پایگاه داده کرد که بعدها Freebase نام گرفت. خودشون اون رو «یک پایگاه داده باز و اشتراکی از دانش جهان» توصیف میکردن.
من خودم اون رو به عنوان یک دایرةالمعارف نیمهساختاریافته توصیف میکنم.
این سیستم به هر «انتیتی» (یا اگه بخوایم استعاره رو ادامه بدیم، به هر مقاله) یک شماره شناسه منحصربهفرد میداد. بعد، به جای یک مقاله سنتی که با کلمات نوشته شده، سعی میکرد مقالهها رو از طریق روابطشون با شناسههای دیگه در سیستم به هم وصل کنه.
بعد از حدود ۵۰ میلیون دلار سرمایهگذاری و ۵ سال کار، این پروژه به گوگل فروخته شد.
هیچوقت محصول تجاری ازش ساخته نشد، اما پایهای شد برای یک گذار ۱۰ ساله برای گوگل؛ گذار از یک موتور جستجوی مبتنی بر کلمه کلیدی به یک موتور جستجوی مبتنی بر انتیتی.
ویکیدیتا (Wikidata)
در سال ۲۰۱۶ – حدود شش سال بعد از خرید – گوگل رسماً Freebase رو تعطیل کرد، چون ایدههای اون رو به «گراف دانش» خودش منتقل و توسعه داده بود؛ اصطلاح مدرنی که برای این نوع پایگاههای داده به کار میره.
در اون زمان، جالبه بدونید که گوگل به طور عمومی اعلام کرد که بخش زیادی از دادههای انتیتی خودش رو با ویکیدیتا همگامسازی کرده و از اون به بعد، ویکیدیتا (که زیربنای دادههای مورد استفاده در ویکیپدیاست) یکی از راههای ارتباطی گراف دانش گوگل با دنیای بیرون خواهد بود.
انتیتیها چطور کار میکنن و برای رتبهبندی چطور استفاده میشن؟
انتیتیها در الگوریتم اصلی
کاربرد اصلی انتیتیها برای رفع ابهام از مفاهیمه، نه برای رتبهبندی صفحاتی که ایدههای یکسانی دارن.
البته این به اون معنا نیست که استفاده هوشمندانه از انتیتیها نمیتونه به رتبه بهتر محتوای سایت شما کمک کنه. حتماً میتونه! اما وقتی گوگل میخواد نتایجی رو برای جستجوی کاربر نمایش بده، اول از همه دنبال یک جواب دقیق میگرده.
نه لزوماً بهترین یا شایستهترین جواب.
به همین خاطر، گوگل زمان قابل توجهی رو صرف تبدیل متنها به انتیتیهای زیربنایی اونها میکنه. این فرآیند هم موقع ایندکس کردن سایت شما و هم موقع تحلیل کوئری کاربر اتفاق میفته.
مثلاً اگه من تایپ کنم «اسم رستورانهای زیر برج ایفل»، گوگل میدونه که کاربر دنبال «اسم» یا خود «برج ایفل» نیست.
اون دنبال رستورانه. نه هر رستورانی، بلکه رستورانهایی در یک مکان خاص. دو انتیتی مرتبط در این جستجو، «رستوران» در چارچوب «Champ de Mars, 5 Av. Anatole France, Paris» (آدرس برج ایفل) هستن.
این به گوگل کمک میکنه تا تصمیم بگیره چطور نتایج جستجوی مختلفش – مثل تصاویر، نقشه، کسبوکارهای گوگل، تبلیغات و صفحات وب ارگانیک – رو با هم ترکیب کنه.
و مهمتر از همه برای یک متخصص سئو اینه که بدونه مثلاً سایت رستوران ژول ورن (Jules Verne) اگه میخواد گوگل صفحهاش رو برای این کوئری مرتبط تشخیص بده، حتماً باید در مورد منظره فوقالعادهاش از برج ایفل صحبت کنه.
این کار ممکنه کمی چالشبرانگیز باشه، چون رستوران ژول ورن دقیقاً داخل برج ایفل قرار داره.
مستقل از زبان
انتیتیها برای موتورهای جستجو عالین، چون مستقل از زبان هستن. علاوه بر این، این ایده به این معنیه که یک انتیتی رو میشه از طریق رسانههای مختلف توصیف کرد.
یک تصویر راه خیلی خوبی برای توصیف برج ایفل به حساب میاد، چون خیلی نمادینه. یک فایل صوتی یا صفحه رسمی برج هم میتونن همین کار رو بکنن.
همه اینها برچسبهای معتبری برای اون انتیتی هستن و در بعضی موارد، حتی شناسههای معتبری در گرافهای دانش دیگه به حساب میان.
ارتباط بین انتیتیها
تعامل و ارتباط بین انتیتیها به یک متخصص سئو اجازه میده تا استراتژیهای منسجمی برای جذب ترافیک ارگانیک مرتبط ایجاد کنه.
طبیعتاً، «معتبرترین» صفحه برای برج ایفل، احتمالاً صفحه رسمی خود برج یا صفحه ویکیپدیاست. تا وقتی که شما واقعاً مسئول سئوی برج ایفل نباشید، کار زیادی برای به چالش کشیدن این واقعیت از دستتون برنمیاد.
اما، همین تعامل بین انتیتیهاست که به شما اجازه میده محتوایی بنویسید که رتبه بگیره. ما قبلاً به «رستورانها» و «برج ایفل» اشاره کردیم. اما نظرتون در مورد «مترو» و «برج ایفل»، یا «تخفیف» و «برج ایفل» چیه؟
به محض اینکه دو انتیتی وارد بازی میشن، تعداد نتایج جستجوی مرتبط به شدت کاهش پیدا میکنه. وقتی به عبارتی مثل «تخفیف بلیط برج ایفل با استفاده از مترو» میرسید، شما یکی از معدود صفحاتی میشید که روی ارتباط بین بلیط مترو، بلیط برج ایفل و تخفیفها تمرکز کرده.
شاید افراد خیلی کمتری این عبارت رو جستجو کنن، اما نرخ تبدیل خیلی بالاتر خواهد بود.
تازه ممکنه به یک ایده پولسازتر هم برای شما تبدیل بشه! (این فقط یک مثاله برای توضیح اصل مطلب. من نمیدونم اصلاً چنین تخفیفهایی وجود داره یا نه. ولی باید وجود داشته باشه!)
این مفهوم رو میشه گسترش داد و صفحات فوقالعاده قوی ایجاد کرد. چطوری؟ اول تمام صفحات رقیب برای یک عبارت جستجو رو تحلیل کنید و انتیتیهای اصلی اونها و اهمیت نسبیشون نسبت به کوئری اصلی رو در یک جدول بیارید.
این جدول میتونه به عنوان یک نقشه راه محتوا برای نویسنده عمل کنه تا یک محتوای جدید و معتبرتر از همه رقبای دیگه بسازه.
بنابراین، با اینکه یک موتور جستجو ممکنه ادعا کنه انتیتیها یک فاکتور رتبهبندی نیستن، این استراتژی دقیقاً به قلب این فلسفه میزنه که «اگه محتوای خوب بنویسی، خودشون میان سراغت».
مثالهایی از انتیتیها در گوگل
انتیتیها در جستجوی تصویر
انتیتیها میتونن در بهینهسازی تصاویر هم خیلی مفید باشن.
گوگل خیلی تلاش کرده تا با استفاده از یادگیری ماشین، تصاویر رو تحلیل کنه. برای همین، معمولاً میدونه که موضوع اصلی اکثر عکسها چیه.
پس عبارت [a dog on a skateboard] (یک سگ روی اسکیتبرد) رو به عنوان یک عبارت جستجو در نظر بگیرید… اگه مطمئن بشید که محتوای شما کاملاً از تصویرتون پشتیبانی میکنه، میتونه به دیده شدن بیشتر محتواتون کمک کنه؛ درست در همون لحظهای که کاربر دنبالش میگرده.
انتیتیها در گوگل دیسکاور
یکی از منابع ترافیکی که متخصصان سئو کمتر بهش توجه میکنن، گوگل دیسکاور است.
گوگل یک فید از صفحات جالب رو به کاربران نشون میده، حتی وقتی که فعالانه دنبال چیزی نمیگردن.
این اتفاق در گوشیهای اندروید و همچنین در اپلیکیشن گوگل روی آیفونها میفته. با اینکه اخبار تأثیر زیادی روی این فید دارن، سایتهای غیرخبری هم میتونن از «دیسکاور» ترافیک بگیرن.
چطوری؟ خب، به نظر من انتیتیها نقش بزرگی در این موضوع دارن!
اگه تب «Discover» رو در سرچ کنسول گوگل خودتون نمیبینید، ناامید نشید. اما وقتی پیداش شد، میتونه نشونه خوبی باشه از اینکه حداقل یکی از صفحات وب شما اونقدر با انتیتیها همسو شده که با علایق حداقل یک نفر انطباق پیدا کرده و در فید مخصوص اون کاربر نمایش داده شده.
در مثال بالا، با اینکه نتایج «دیسکاور» دقیقاً در زمان جستجوی کاربر نمایش داده نمیشن، باز هم نرخ کلیک ۴.۲٪ وجود داره.
دلیلش اینه که گوگل میتونه با نگاشت انتیتیها، علایق و عادات بسیاری از کاربرانش رو با محتوای موجود در اینترنت هماهنگ کنه.
هرجا که یک همبستگی قوی پیدا بشه، گوگل میتونه یک صفحه رو به کاربر پیشنهاد بده.
چطور برای انتیتیها بهینهسازی کنیم؟
تحقیقی از یک کارمند گوگل
در سال ۲۰۱۴، مقالهای منتشر شد که به نظرم خیلی خوب نشون میده که گوگل (یا حداقل، محققانش) مشتاق بودن تا ایده استفاده از کلمات کلیدی برای درک موضوعات رو از ایده استفاده از انتیتیها جدا کنن.
در این مقاله، Dunietz و Gillick اشاره میکنن که چطور سیستمهای پردازش زبان طبیعی (NLP) به سمت پردازش مبتنی بر انتیتی حرکت کردن. اونها نشون میدن که چطور میشه از یک سیستم «برجستگی» (salience) باینری (صفر و یک) روی مجموعه دادههای بزرگ استفاده کرد تا انتیتیهای یک سند (صفحه وب) رو تعریف کرد.
یک «سیستم امتیازدهی باینری» یعنی گوگل ممکنه تصمیم بگیره که یک سند یا در مورد یک انتیتی خاص هست یا نیست.
شواهد بعدی نشون میده که «برجستگی» حالا توسط گوگل در یک مقیاس پیوسته از ۰ تا ۱ اندازهگیری میشه (مثلاً امتیازی که در NLP API گوگل داده میشه).
با این حال، به نظرم این مقاله هنوز هم خیلی مفیده تا بفهمیم تحقیقات گوگل فکر میکنه «انتیتیها» باید در کجای یک صفحه ظاهر بشن تا «برجسته» به حساب بیان.
برای تحقیق جدی، خوندن خود مقاله رو توصیه میکنم، اما اونها توضیح دادن که چطور «برجستگی» رو بر اساس مطالعه مقالات «نیویورک تایمز» طبقهبندی کردن.
به طور مشخص، به این موارد اشاره کردن:
مکان اولین اشاره (1st-loc)
این اولین جملهایه که در اون برای اولین بار به یک انتیتی اشاره میشه.
نکته اینجاست که اشاره زودهنگام به انتیتی در صفحه وب شما ممکنه شانس «برجسته» دیده شدن اون انتیتی رو برای مقاله افزایش بده.
تعداد کلمه اصلی (Head-count)
این اساساً تعداد دفعاتیه که کلمه «اصلی» (head) اولین اشاره به انتیتی، تکرار میشه.
«کلمه اصلی» به طور مشخص در مقاله تعریف نشده، اما برداشت من اینه که منظور، سادهترین شکل کلمه است.
اشارهها (Mentions)
این فقط به کلمات/برچسبهای انتیتی اشاره نداره، بلکه به عوامل دیگهای مثل ضمایر ارجاعی به انتیتی (او/آن) هم مربوط میشه.
تیتر (Headline)
زمانی که یک انتیتی در تیتر ظاهر میشه.
کلمه اصلی کوچکشده (Head-lex)
به شکل لغوی کلمه اصلی در اولین اشاره به انتیتی اشاره داره.
مرکزیت انتیتی (Entity Centrality)
این مقاله همچنین در مورد استفاده از نسخهای تغییر یافته از پیجرنک صحبت میکنه – جایی که اونها به جای صفحات وب، از مقالات Freebase استفاده کردن!
مثالی که به اشتراک گذاشتن، یک مناظره در سنا با حضور FEMA، حزب جمهوریخواه، (پرزیدنت) اوباما و یک سناتور جمهوریخواه بود.
بعد از اعمال یک الگوریتم تکرارشونده شبیه پیجرنک روی این انتیتیها و نزدیکی اونها به یکدیگر در گراف دانش، تونستن وزن اهمیت اون انتیتیها رو در سند تغییر بدن.
چطور این سیگنالهای انتیتی رو در سئو کنار هم بچینیم؟
بدون اینکه بخوایم به طور خاص در مورد گوگل صحبت کنیم، یک الگوریتم برای تمام متغیرهای بالا و برای هر انتیتی که یک برنامه NLP یا برنامه استخراج انتیتیهای نامگذاریشده (NEEP) در یک صفحه متنی پیدا میکنه (و حتی برای همه انتیتیهای شناساییشده در یک تصویر)، مقادیری رو ایجاد میکنه.
بعد، به هر متغیر یک وزن اختصاص داده میشه تا یک امتیاز به دست بیاد. در مقالهای که بررسی کردیم، این امتیاز به ۱ یا ۰ (برجسته یا غیربرجسته) تبدیل میشه، اما به احتمال زیاد، این مقدار یک عدد بین ۰ تا ۱ است.
گوگل هیچوقت جزئیات این وزندهیها رو به اشتراک نمیذاره، اما چیزی که اون مقاله نشون میده اینه که این وزنها فقط بعد از «خونده شدن» صدها میلیون صفحه تعیین میشن.
این طبیعت مدلهای یادگیری زبان بزرگه.
اما اینجا چند تا نکته کلیدی برای متخصصان سئو که میخوان محتوایی رو حول دو یا چند انتیتی رتبهبندی کنن، آوردیم. برگردیم به مثال «رستورانهای نزدیک برج ایفل»:
- برای هر انتیتی یک عبارت «اصلی» انتخاب کنید. من ممکنه «رستوران»، «برج ایفل» و «فاصله» رو انتخاب کنم، چون فاصله یک معنی و مقاله معتبر در ویکیپدیا داره. «کافه» میتونه مترادف مناسبی برای رستوران باشه، همینطور شکل جمع اون یعنی «رستورانها».
- سعی کنید هر سه انتیتی رو در تیتر و جمله اول بیارید. مثلاً: «رستورانها در فاصله کمی از برج ایفل».
- در متن، سعی کنید در مورد ارتباط متقابل بین این انتیتیها صحبت کنید. مثلاً: «رستوران ژول ورن دقیقاً داخل آن قرار دارد.» با فرض اینکه «آن» به وضوح به برج ایفل در متن اشاره داره، نیازی نیست هر بار اسم کاملش رو بنویسید. زبان متن رو طبیعی نگه دارید.
آیا این برای سئوی انتیتی کافیه؟
نه. احتمالاً نه. (میتونید کتاب من رو بخونید!) با این حال، همه عوامل به عنوان یک نویسنده یا صاحب وبسایت در کنترل شما نیستن.
اما دو ایده که به نظر میرسه تأثیرگذار باشن، لینکدهی به محتوا از صفحات مرتبط دیگه و اضافه کردن اسکیما برای کمک به تعریف انتیتیهاست.
استفاده از اسکیما برای کمک به تعریف انتیتیها
با استفاده از اسکیمای «about» و «mentions» میشه شفافیت بیشتری به موتورهای جستجو داد تا بهشون در رفع ابهام محتوا کمک کنیم.
این دو نوع اسکیما کمک میکنن تا توصیف کنیم یک صفحه در مورد چه چیزی صحبت میکنه.
با تعریف یک صفحه به عنوان «درباره» (about) یک یا دو انتیتی و «اشاره به» (mentions) چند انتیتی دیگه، یک متخصص سئو میتونه به سرعت یک محتوای طولانی رو در حوزههای کلیدیاش خلاصه کنه؛ طوری که برای گرافهای دانش آماده مصرف باشه.
البته باید توجه داشت که گوگل به صراحت اعلام نکرده که آیا از این اسکیما در الگوریتمهای اصلی خودش استفاده میکنه یا نه.
من احتمالاً این اسکیما رو به مقالهام اضافه میکنم:
<script type=”application/ld+json”> {
“@context”: “https://schema.org”,
“@type”: “WebPage”,
“@id”: “https://www.yoursite.com/yourURL#ContentSchema”,
“headline”: “Restaurants a small distance from the Eiffel Tower”,
“url”: “https://www.yoursite.com/yourURL”,
“about”: [
{“@type”: “Thing”, “name”: “Restaurant”, “sameAs”: “https://en.wikipedia.org/wiki/Restaurant”},
{“@type”: “Place”, “name”: “Eiffel Tower”, “sameAs”: “https://en.wikipedia.org/wiki/Eiffel_Tower”}
],
“mentions”: [
{“@type”: “Thing”, “name”: “distance”, “sameAs”: “https://en.wikipedia.org/wiki/Distance”},
{“@type”: “Place”, “name”: “Paris”, “sameAs”: “https://en.wikipedia.org/wiki/Paris”}
]
} </script>
انتخاب دقیق اسکیما، به همون اندازه که یک سؤال سئویی هست، یک سؤال فلسفی هم هست.
اما به اسکیمایی که استفاده میکنید به چشم «رفع ابهام از محتوا» نگاه کنید، نه «بهینهسازی محتوا». اینطوری امیدوارم در نهایت به ترافیک جستجوی هدفمندتری برسید.
پاسخی بگذارید