Regex برای سئو: زبان ساده‌ای که هوش مصنوعی و تحلیل داده را قدرتمند می‌کند

از گوگل سرچ کنسول گرفته تا مدل‌های زبان بزرگ (LLM)، رجکس به ما کمک می‌کنه تا داده‌های متنی رو به شکلی کارآمد ساختاربندی و تفسیر کنیم. بیایید ببینیم این ابزار چطور سئو و هوش مصنوعی رو به هم وصل می‌کنه.

رجکس (Regex) یه ابزار قدرتمند و در عین حال نادیده گرفته شده تو دنیای جستجو و تحلیل داده‌هاست.

فقط با یه خط دستور، می‌تونید کاری رو خودکار کنید که در حالت عادی به ده‌ها خط کدنویسی احتیاج داره.

رجکس که مخفف عبارت «regular expression» هست، در واقع دنباله‌ای از کاراکترهاست که برای تعریف یه الگو (pattern) و پیدا کردن اون الگو تو متن استفاده می‌شه.

این همون چیزیه که به شما اجازه می‌ده رشته‌های خاصی از داده‌ها رو با دقت بالا پیدا کنید، استخراج کنید یا جایگزینشون کنید.

تو دنیای سئو، رجکس بهتون کمک می‌کنه اطلاعات رو خیلی سریع و کارآمد استخراج و فیلتر کنید؛ از تحلیل شکل‌های مختلف یه کلمه کلیدی گرفته تا تمیزکاری داده‌های درهم‌ریخته کوئری‌ها.

اما ارزشش خیلی فراتر از سئو میره.

رجکس یکی از پایه‌های اصلی پردازش زبان طبیعی (NLP) هم هست و به ما نشون می‌ده که ماشین‌ها چطور متن رو می‌خونن، تجزیه و پردازش می‌کنن. حتی به ما کمک می‌کنه بفهمیم چطور مدل‌های زبان بزرگ (LLM) پشت پرده، زبان رو به واحدهای کوچیک‌تر (توکن) تقسیم می‌کنن.

کاربردهای رجکس در سئو و جستجوی هوش مصنوعی

قبل از اینکه بریم سراغ اصول اولیه رجکس، می‌خوام چندتا از کاربردهاش تو کارهای روزمره‌مون رو بهتون نشون بدم.

گوگل سرچ کنسول یه قابلیت فیلتر با رجکس داره که می‌تونید باهاش انواع خاصی از کوئری‌ها رو جدا کنید.

یکی از ساده‌ترین و پرکاربردترین دستورات رجکس، رجکسِ برنده. مثلاً brandname1|brandname2|brandname3. این دستور وقتی خیلی به درد می‌خوره که کاربرا اسم برند شما رو به شکل‌های مختلفی می‌نویسن.

گوگل آنالیتیکس هم از رجکس برای تعریف فیلترها، ایونت‌های کلیدی (key events)، سگمنت‌ها، مخاطبان (audiences) و گروه‌های محتوایی پشتیبانی می‌کنه.

لوکر استودیو (گوگل دیتا استودیو سابق) به شما اجازه می‌ده با رجکس، فیلتر، فیلدهای محاسباتی (calculated fields) و قوانین اعتبارسنجی بسازید.

ابزار اسکریمینگ فراگ (Screaming Frog) هم از رجکس برای فیلتر کردن و استخراج داده‌ها موقع کراول کردن سایت پشتیبانی می‌کنه. حتی می‌تونید باهاش یه سری URL خاص رو از کراول شدن مستثنی کنید.

تو گوگل شیت (Google Sheets) می‌تونید با استفاده از تابع REGEXMATCH (text, regular_expression) چک کنید که محتوای یه سلول با یه الگوی رجکس خاص مطابقت داره یا نه.

تو دنیای سئو، ما با کلی ابزار و ویژگی طرفیم که منتظرن با یه دستور رجکس درست و حسابی، پتانسیل کاملشون آزاد بشه.

رجکس در پردازش زبان طبیعی (NLP)

اگه دارید ابزارهای سئو می‌سازید، مخصوصاً ابزارهایی که با پردازش محتوا سروکار دارن، رجکس حکم سلاح مخفی شما رو داره.

این ابزار به شما قدرت جستجو، اعتبارسنجی و جایگزینی متن بر اساس الگوهای پیشرفته و سفارشی رو می‌ده.

اینجا یه فایل گوگل کولب (Google Colab) هست که یه نمونه اسکریپت پایتون داخلشه. این اسکریپت یه لیست از کوئری‌ها رو می‌گیره و شکل‌های مختلف اسم برند من رو از توش استخراج می‌کنه.

شما می‌تونید به راحتی این کد رو با اسم برند خودتون توی ابزارهایی مثل ChatGPT یا Claude سفارشی‌سازی کنید.

یه نکته جالب: موقع ساختن این کد، اتفاقی یه فرصت بهینه‌سازی خوب برای برند شخصی خودم پیدا کردم.

چطور رجکس بنویسیم؟

من طرفدار کدنویسی شهودی (vibe coding) هستم، اما نه از اون مدلی که اصول اولیه رو نادیده بگیری و کاملاً به مدل‌های زبان بزرگ (LLM) تکیه کنی.

بالاخره، شما نمی‌تونید از ماشین‌حساب درست استفاده کنید، اگه اعداد یا نحوه کارکرد جمع، ضرب، تقسیم و تفریق رو بلد نباشید.

من از اون نوع کدنویسی شهودی حمایت می‌کنم که روی یه دانش حداقلی از کدنویسی بنا شده؛ در حدی که بتونید از LLMها به طور مؤثر استفاده کنید، خروجی‌شون رو تست کنید و در صورت نیاز، عیب‌یابی (troubleshoot) انجام بدید.

به همین شکل، یادگیری اصول اولیه رجکس به شما کمک می‌کنه تا با استفاده از LLMها، دستورات پیشرفته‌تری بسازید.

تقلب‌نامه ساده رجکس

نمادمعنی
.با هر کاراکتر تکی مطابقت داره.
^با ابتدای یک رشته مطابقت داره.
$با انتهای یک رشته مطابقت داره.
*با صفر یا تعداد بیشتری از کاراکتر قبلی خودش مطابقت داره.
+با یک یا تعداد بیشتری از کاراکتر قبلی خودش مطابقت داره.
?کاراکتر قبلی خودش رو اختیاری می‌کنه (صفر یا یک بار تکرار).
{}با تعداد مشخصی از کاراکتر قبلی خودش مطابقت داره.
[]با هر کدوم از کاراکترهای داخل براکت مطابقت داره.
\کاراکترهای ویژه رو خنثی می‌کنه یا سیگنال توالی‌های خاص مثل \d رو می‌ده.
`با خودِ کاراکتر بک‌تیک (backtick) مطابقت داره.
()کاراکترها رو برای اعمال عملگرها یا کپچر کردن، گروه‌بندی می‌کنه.

مثال‌های کاربردی

اینجا یه لیست از ۱۰ کلمه کلیدی طولانی (long-tail) داریم. بیایید با استفاده از ابزار Regex101 ببینیم که الگوهای مختلف رجکس چطور اون‌ها رو فیلتر می‌کنن.

  • “Best vegan recipes for beginners.”
  • “Affordable solar panels for home.”
  • “How to train for a marathon.”
  • “Electric cars with longest battery range.”
  • “Meditation apps for stress relief.”
  • “Sustainable fashion brands for women.”
  • “DIY home workout routines without equipment.”
  • “Travel insurance for adventure trips.”
  • “AI writing software for SEO content.”
  • “Coffee brewing techniques for espresso lovers.”

مثال ۱: استخراج هر دنباله دو کاراکتری که با حرف «a» شروع می‌شه. کاراکتر دوم می‌تونه هر چیزی باشه (یعنی اول a، بعدش هرچیزی).

  • رجکس: a.
  • خروجی: (تمام کلمات هایلایت‌شده در تصویر زیر.)

مثال ۲: استخراج هر رشته‌ای که با حرف «a» شروع می‌شه (یعنی a در ابتدای رشته قرار داره و بعدش هر چیزی میاد).

  • رجکس: ^a.
  • خروجی: (تمام کلمات هایلایت‌شده در تصویر زیر.)

مثال ۳: استخراج هر رشته‌ای که با «a» شروع و به «e» ختم می‌شه (یعنی هر خطی که با a شروع بشه، بعدش هرچیزی بیاد و با e تموم بشه).

  • رجکس: ^a.*e$
  • خروجی: (تمام کلمات هایلایت‌شده در تصویر زیر.)

مثال ۴: استخراج هر رشته‌ای که دو حرف «s» پشت سر هم داشته باشه.

  • رجکس: s{2}
  • خروجی: (تمام کلمات هایلایت‌شده در تصویر زیر.)

مثال ۵: استخراج هر رشته‌ای که شامل کلمه «for» یا «with» باشه.

  • رجکس: for|with
  • خروجی: (تمام کلمات هایلایت‌شده در تصویر زیر.)

من یه نمونه گوگل شیت رجکس هم ساختم تا بتونید باهاش کار کنید، تست کنید و این قابلیت رو توی گوگل شیت هم تجربه کنید. از اینجا می‌تونید ببینیدش.

نکته: سلول‌هایی که تو ستون Extracted Text عبارت #N/A رو نشون می‌دن، یعنی رجکس الگوی منطبقی پیدا نکرده.

با یاد گرفتن رجکس، درهای جدیدی برای تحلیل و سازماندهی داده‌های جستجو به روی خودتون باز می‌کنید.

این یکی از اون مهارت‌هاییه که بی‌سروصدا شما رو سریع‌تر و دقیق‌تر می‌کنه؛ چه موقعی که دارید کلمات کلیدی رو دسته‌بندی می‌کنید، چه وقتی که کوئری‌های به‌هم‌ریخته رو تمیز می‌کنید یا فیلترهای پیشرفته‌ای تو سرچ کنسول یا لوکر استودیو می‌سازید.

وقتی با اصول اولیه‌اش راحت شدید، شروع کنید به پیدا کردن جاهایی که رجکس می‌تونه تو وقتتون صرفه‌جویی کنه.

ازش برای تشخیص جستجوهای برند از غیربرند، گروه‌بندی URLها بر اساس الگو، یا اعتبارسنجی مجموعه داده‌های متنی بزرگ قبل از اینکه وارد گزارش‌هاتون بشن، استفاده کنید.

با دستورات مختلف تو ابزارهایی مثل Regex101 یا گوگل شیت آزمایش کنید تا ببینید تغییرات کوچیک تو نوشتار (syntax) چطور روی نتایج تأثیر می‌ذاره.

هرچی بیشتر تمرین کنید، تشخیص الگوها هم تو داده‌ها و هم تو حل مسئله براتون راحت‌تر می‌شه.

اینجاست که رجکس واقعاً جایگاه خودش رو تو جعبه‌ابزار سئوی شما پیدا می‌کنه.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *