گراف دانش گوگل چیست و چطور کار میکنه؟

11 شهریور 1403

اگه می‌خوای به گوگل کمک کنی تا محتوات رو بهتر بفهمه، باید بدونی چطور روی موضوعات توی نالج گراف یا گراف دانش (Google Knowledge Graph) تأثیر بذاری. بذار بهت بگم چطوری:

گراف‌های دانش به موتورهای جستجو مثل گوگل کمک می‌کنن تا از داده‌های ساختاریافته درباره موضوعات مختلف استفاده کنن. داده‌های معنایی و نشانه‌گذاری‌ها هم به نوبه خودشون کمک می‌کنن مفاهیم و ایده‌ها به هم وصل بشن و راحت‌تر به داده‌های ساختاریافته تبدیل بشن تا گراف دانش گوگل رو پر کنن.

متخصص‌های سئو باید بدونن چطور روی موضوعات توی این گراف تأثیر بذارن تا بتونن تغییر مهمی توی درک گوگل از محتواشون ایجاد کنن.

گراف دانش گوگل چیه؟

من دوست دارم گراف دانش رو یه چیزی بین دایرةالمعارف و پایگاه داده در نظر بگیرم. توسعه‌دهنده‌ها به هر مقاله می‌گن “موجودیت (Entity)”، ولی گوگل توی مقاله‌هایی که برای مشتری‌هاش می‌نویسه بهش می‌گه “موضوع (Topic)”.

یه موضوع می‌تونه درباره هر چیزی باشه. مثل اکثر پایگاه‌های داده، یه شناسه منحصر به فرد داره که گاهی می‌تونی توی URL‌های گوگل ببینیش. چیزی شبیه [kgmid=/g/11f0vfyswk&hl]، هرچند اسم پارامتر “kgmid” ممکنه بسته به نوع موضوع تغییر کنه.

معمولاً چند تا گزاره درباره موضوع وجود داره:

یه اسم یا برچسب (مثل “الویس پریسلی”)
یه نوع یا چند تا نوع (مثل “شخص”)
یه توصیف (مثلاً “خواننده”)
یه لیست از URL‌های تصاویر (معمولاً با حقوق استفاده مربوطه)
یه توصیف مفصل (معمولاً یه متن با URL منبع)

البته گوگل می‌گه که اگرچه اطلاعات لیست بالا ممکنه مستقیماً توی API جستجوشون در دسترس باشه، ولی داخلی این داده‌ها رو خیلی بیشتر تکمیل می‌کنن.

پس موضوع، در این مورد، ممکنه تاریخ تولد و مرگ الویس رو هم داشته باشه. ممکنه بگه که با پریسیلا پریسلی ازدواج کرده. آثار هنریش ممکنه شامل “Hound Dog” باشه. این لیست می‌تونه ادامه پیدا کنه.

می‌بینی که این خیلی با یه مقاله دایرةالمعارف فرق نداره، ولی چون همه حقایق توی فیلدهایی مثل “ازدواج کرده با” هستن، برای ماشین راحت‌تر می‌شه که ارتباط بین موضوعات رو پیدا کنه. همچنین به ماشین کمک می‌کنه وقتی یه نفر می‌پرسه (مثلاً) “چه کسی با الویس پریسلی ازدواج کرد؟” اطلاعات درست رو در زمان مناسب پیدا کنه.

یه نکته مهم درباره رفع ابهام

گراف‌های دانش زیادی توی دنیا وجود دارن. گراف دانش گوگل فقط یکی از اوناست. بقیه شامل dbpedia.com، Wikidata.org و Inlinks.net هستن.

در واقع، هر داده نیمه‌ساختاریافته‌ای می‌تونه یه گراف دانش توصیف بشه، از جمله دایرةالمعارف‌ها یا پایگاه‌های داده مثل IMDB.

گفته میشه که گوگل در ابتدا گراف دانشش رو از مجموعه‌های داده دیگه مثل ویکی‌پدیا و CIA Factbook ساخته.

یه اشتباه رایج هم اینه که فکر می‌کنن پنل دانش گوگ (گوگل نالج پنل) همون گراف دانش گوگله. این درست نیست، هرچند پنل دانش ممکنه یه زیرمجموعه از داده‌های توی گراف رو نشون بده.

پنل دانش یه نمایش بصری از اقلام داده‌ای هست که از طریق گراف دانش گوگل به هم متصل شدن، ولی گراف دانش گوگل یه سابقه کمتر بصری درباره موضوعاته.

یه ابهام‌زدایی آخر هم توی اصطلاحاته. معمولاً می‌گن یه گراف دانش از “موجودیت‌ها” تشکیل شده ولی گوگل توی مستندات عمومیش به موجودیت‌ها می‌گه “موضوعات”.

این یه کلمه “کاربرپسندتر” برای استفادهست ولی می‌تونه تشخیص اینکه گوگل دقیقاً به موجودیت‌ها اشاره می‌کنه یا نه رو سخت کنه. این مقاله از این عبارت‌ها به جای هم استفاده می‌کنه.

انواع موضوعات موجودیت

به هر موجودیت معمولاً یه نوع موضوع داده می‌شه. ممکنه شخص باشه؛ سازمان؛ رویداد؛ مکان یا کشور.

اگه هیچ کدوم از این‌ها نباشه، معمولاً فقط بهش می‌گن “چیز (Thing)”، هرچند ممکنه گوگل انواع موجودیت‌ها رو همچنان توسعه بده.

API پردازش زبان طبیعی گوگل نشونه‌هایی می‌ده که نشون می‌ده انواع موجودیت‌های زیادی در حال استفاده‌ان، مثل “اثر هنری” و “کالای مصرفی”.

خیلی‌های دیگه توی صفحه توسعه‌دهنده‌های API جستجوی گراف دانششون لیست شدن، ولی در حال حاضر به نظر می‌رسه گوگل توی دسته‌بندی درست خیلی از موجودیت‌ها ضعیف عمل می‌کنه.

علاوه بر این، تحقیقات اولیه‌ای که انجام شده نشون می‌ده که کمتر از ۲۰٪ موجودیت‌هایی که توی الگوریتم پردازش زبان طبیعی خود گوگل شناسایی می‌شن، توی ارائه عمومیشون برگردونده می‌شن.

بعضی مزایای گراف دانش (برای گوگل)

با سازماندهی اطلاعات دنیا بر اساس موضوع، به جای خزش و ایندکس کردن ساده صفحات وب و وبسایت‌ها، یه موتور جستجو می‌تونه از چند تا مزیت استفاده کنه. این‌ها شامل مقیاس‌پذیری، تنوع، یکپارچگی اطلاعات، و سرعت می‌شن.

مزیت مقیاس‌پذیری

تعداد صفحات وب یه موضوع بحث‌برانگیزه و در حالی که خیلی‌ها می‌گن بی‌شمارن، مطمئناً در حد تریلیون‌ها هستن و هر روز با سرعت زیادی افزایش پیدا می‌کنن.

در مقابل، تعداد موضوعاتی که بشر می‌فهمه خیلی کمتره (شاید در حد صدها میلیارد) و با سرعت خیلی کمتری رشد می‌کنه.

این یعنی تکرار بی‌اندازه‌ای از ایده‌ها توی محتوای وب وجود داره.

با ذخیره اطلاعات درباره یه موضوع به صورت نیمه‌ساختاریافته، اطلاعات دنیا فضای خیلی کمتری می‌گیره و تکرار خیلی کمتری داره.

مزیت تنوع منابع داده

ذخیره اطلاعات درباره یه موضوع به گوگل اجازه می‌ده از چند تا منبع داده استفاده کنه، به جای اینکه همیشه کاربر رو به یه صفحه وب خاص بفرسته.

این یعنی گوگل می‌تونه حقایق مهم درباره یه موضوع رو جمع‌آوری کنه و اونا رو روی صفحه یا از طریق رسانه‌های دیگه به شکلی که برای کاربر یا جستجوی کاربر مناسب‌تره نمایش بده.

علاوه بر این، اطلاعات درباره یه موضوع می‌تونه در تئوری از منابع دیگه‌ای غیر از اینترنت هم به دست بیاد.

مزیت یکپارچگی اطلاعات

اگرچه گراف دانش گوگل هنوز می‌تونه شامل اشتباهات و خطاهای واقعی باشه و ممکنه در معرض دستکاری توسط متخصصان سئو یا افراد بدخواه قرار بگیره، این رویکرد مزیت ارائه یه “نقطه واحد حقیقت” رو حداقل برای موضوعات غیر بحث‌برانگیز به گوگل می‌ده.

یه حقیقت جدید درباره یه موضوع ممکنه قبل از اضافه شدن به گراف دانش مجبور باشه از یه آستانه کیفیت رد بشه، ولی بعید به نظر می‌رسه گوگل درباره این آستانه‌ها آشکارا صحبت کنه.

از طرف منفی، یه نقطه واحد حقیقت می‌تونه تنوع اطلاعات رو کم کنه و اگه منابع داده زیربنایی خودشون جهت‌دار باشن، می‌تونه مستعد سوگیری باشه.

مزایای بازیابی اطلاعات (سرعت)

با سازماندهی اطلاعات بر اساس موضوع، بازیابی اطلاعات خیلی سریع‌تر می‌شه – هم برای گوگل و هم برای کاربری که دنبال سوزن توی انبار کاهه.

نحوه کار: کجا از گراف دانش گوگل استفاده می‌شه

با اینکه توضیح دادم پنل دانش همون گراف دانش نیست، ولی برای اکثر متخصص‌های سئو آشکارترین استفاده از گراف دانشه.

با این حال، برای خیلی از کاربرهای گوشی‌های اندروید، رایج‌ترین استفاده از گراف دانش در واقع در ویژگی “Discover” روی صفحه اصلی گوشیشونه که هر روز می‌بینن.

گوگل می‌تونه از اطلاعات مربوط به رفتارت استفاده کنه تا بفهمه چه موضوعاتی برات مهمن و می‌تونه موضوعات مرتبط رو بر اساس تاریخچه کاربر نشون بده.

موضوعات رو می‌شه توی گوگل ترندز هم دید. از اینجا، گوگل همچنین نشون می‌ده که چه موضوعاتی ممکنه به هم نزدیک باشن، هرچند به نظر می‌رسه این داده‌ها فعلاً از جمع‌آوری جستجوهای دیگه توسط همون کاربرها به دست میاد، که گاهی اوقات می‌تونه به لیست‌های موضوعات مرتبط غیرمنتظره‌ای منجر بشه.

گوگل همچنین یه API جستجوی گراف دانش ارائه می‌ده که بالاتر نشون دادیم، و موجودیت‌ها رو توی خروجی API پردازش زبان طبیعیش نمایش می‌ده.

جستجوی گوگل: علاوه بر پنل دانش، وقتی یه سوال رو توی جستجوی گوگل تایپ می‌کنی که می‌تونه با استفاده از گراف دانش جواب بده، یه نمایش غنی هم توی نتایج جستجو می‌گیری. این اغلب به قیمت نتایج اصلی جستجو تموم می‌شه و لینک‌های وبسایت‌ها رو خیلی پایین‌تر می‌بره.

این جواب‌ها همچنین در قالبی هستن که گوگل می‌تونه توی جستجوی صوتی ازشون استفاده کنه. اسکرین‌شات از جستجوی پریسیلا یه نمونه از اینه:

موجودیت‌ها توی جستجوی تصویر هم خیلی قابل مشاهده‌ان، اغلب تصاویر رو به خصوص حول یه شخص یا مکان مشهور گروه‌بندی می‌کنن.

این یه مثال عالیه از اینکه چطور گراف دانش می‌تونه به عنوان یه مخزن برای منابع داده دیگه‌ای غیر از صفحات وب استفاده بشه.