
Regex برای سئو: زبان سادهای که هوش مصنوعی و تحلیل داده را قدرتمند میکند
از گوگل سرچ کنسول گرفته تا مدلهای زبان بزرگ (LLM)، رجکس به ما کمک میکنه تا دادههای متنی رو به شکلی کارآمد ساختاربندی و تفسیر کنیم. بیایید ببینیم این ابزار چطور سئو و هوش مصنوعی رو به هم وصل میکنه.
رجکس (Regex) یه ابزار قدرتمند و در عین حال نادیده گرفته شده تو دنیای جستجو و تحلیل دادههاست.
فقط با یه خط دستور، میتونید کاری رو خودکار کنید که در حالت عادی به دهها خط کدنویسی احتیاج داره.
رجکس که مخفف عبارت «regular expression» هست، در واقع دنبالهای از کاراکترهاست که برای تعریف یه الگو (pattern) و پیدا کردن اون الگو تو متن استفاده میشه.
این همون چیزیه که به شما اجازه میده رشتههای خاصی از دادهها رو با دقت بالا پیدا کنید، استخراج کنید یا جایگزینشون کنید.
تو دنیای سئو، رجکس بهتون کمک میکنه اطلاعات رو خیلی سریع و کارآمد استخراج و فیلتر کنید؛ از تحلیل شکلهای مختلف یه کلمه کلیدی گرفته تا تمیزکاری دادههای درهمریخته کوئریها.
اما ارزشش خیلی فراتر از سئو میره.
رجکس یکی از پایههای اصلی پردازش زبان طبیعی (NLP) هم هست و به ما نشون میده که ماشینها چطور متن رو میخونن، تجزیه و پردازش میکنن. حتی به ما کمک میکنه بفهمیم چطور مدلهای زبان بزرگ (LLM) پشت پرده، زبان رو به واحدهای کوچیکتر (توکن) تقسیم میکنن.
کاربردهای رجکس در سئو و جستجوی هوش مصنوعی
قبل از اینکه بریم سراغ اصول اولیه رجکس، میخوام چندتا از کاربردهاش تو کارهای روزمرهمون رو بهتون نشون بدم.
گوگل سرچ کنسول یه قابلیت فیلتر با رجکس داره که میتونید باهاش انواع خاصی از کوئریها رو جدا کنید.
یکی از سادهترین و پرکاربردترین دستورات رجکس، رجکسِ برنده. مثلاً brandname1|brandname2|brandname3. این دستور وقتی خیلی به درد میخوره که کاربرا اسم برند شما رو به شکلهای مختلفی مینویسن.

گوگل آنالیتیکس هم از رجکس برای تعریف فیلترها، ایونتهای کلیدی (key events)، سگمنتها، مخاطبان (audiences) و گروههای محتوایی پشتیبانی میکنه.
لوکر استودیو (گوگل دیتا استودیو سابق) به شما اجازه میده با رجکس، فیلتر، فیلدهای محاسباتی (calculated fields) و قوانین اعتبارسنجی بسازید.
ابزار اسکریمینگ فراگ (Screaming Frog) هم از رجکس برای فیلتر کردن و استخراج دادهها موقع کراول کردن سایت پشتیبانی میکنه. حتی میتونید باهاش یه سری URL خاص رو از کراول شدن مستثنی کنید.

تو گوگل شیت (Google Sheets) میتونید با استفاده از تابع REGEXMATCH (text, regular_expression) چک کنید که محتوای یه سلول با یه الگوی رجکس خاص مطابقت داره یا نه.
تو دنیای سئو، ما با کلی ابزار و ویژگی طرفیم که منتظرن با یه دستور رجکس درست و حسابی، پتانسیل کاملشون آزاد بشه.
رجکس در پردازش زبان طبیعی (NLP)
اگه دارید ابزارهای سئو میسازید، مخصوصاً ابزارهایی که با پردازش محتوا سروکار دارن، رجکس حکم سلاح مخفی شما رو داره.
این ابزار به شما قدرت جستجو، اعتبارسنجی و جایگزینی متن بر اساس الگوهای پیشرفته و سفارشی رو میده.
اینجا یه فایل گوگل کولب (Google Colab) هست که یه نمونه اسکریپت پایتون داخلشه. این اسکریپت یه لیست از کوئریها رو میگیره و شکلهای مختلف اسم برند من رو از توش استخراج میکنه.
شما میتونید به راحتی این کد رو با اسم برند خودتون توی ابزارهایی مثل ChatGPT یا Claude سفارشیسازی کنید.

چطور رجکس بنویسیم؟
من طرفدار کدنویسی شهودی (vibe coding) هستم، اما نه از اون مدلی که اصول اولیه رو نادیده بگیری و کاملاً به مدلهای زبان بزرگ (LLM) تکیه کنی.
بالاخره، شما نمیتونید از ماشینحساب درست استفاده کنید، اگه اعداد یا نحوه کارکرد جمع، ضرب، تقسیم و تفریق رو بلد نباشید.
من از اون نوع کدنویسی شهودی حمایت میکنم که روی یه دانش حداقلی از کدنویسی بنا شده؛ در حدی که بتونید از LLMها به طور مؤثر استفاده کنید، خروجیشون رو تست کنید و در صورت نیاز، عیبیابی (troubleshoot) انجام بدید.
به همین شکل، یادگیری اصول اولیه رجکس به شما کمک میکنه تا با استفاده از LLMها، دستورات پیشرفتهتری بسازید.
تقلبنامه ساده رجکس
| نماد | معنی |
. | با هر کاراکتر تکی مطابقت داره. |
^ | با ابتدای یک رشته مطابقت داره. |
$ | با انتهای یک رشته مطابقت داره. |
* | با صفر یا تعداد بیشتری از کاراکتر قبلی خودش مطابقت داره. |
+ | با یک یا تعداد بیشتری از کاراکتر قبلی خودش مطابقت داره. |
? | کاراکتر قبلی خودش رو اختیاری میکنه (صفر یا یک بار تکرار). |
{} | با تعداد مشخصی از کاراکتر قبلی خودش مطابقت داره. |
[] | با هر کدوم از کاراکترهای داخل براکت مطابقت داره. |
\ | کاراکترهای ویژه رو خنثی میکنه یا سیگنال توالیهای خاص مثل \d رو میده. |
` | با خودِ کاراکتر بکتیک (backtick) مطابقت داره. |
() | کاراکترها رو برای اعمال عملگرها یا کپچر کردن، گروهبندی میکنه. |
مثالهای کاربردی
اینجا یه لیست از ۱۰ کلمه کلیدی طولانی (long-tail) داریم. بیایید با استفاده از ابزار Regex101 ببینیم که الگوهای مختلف رجکس چطور اونها رو فیلتر میکنن.
- “Best vegan recipes for beginners.”
- “Affordable solar panels for home.”
- “How to train for a marathon.”
- “Electric cars with longest battery range.”
- “Meditation apps for stress relief.”
- “Sustainable fashion brands for women.”
- “DIY home workout routines without equipment.”
- “Travel insurance for adventure trips.”
- “AI writing software for SEO content.”
- “Coffee brewing techniques for espresso lovers.”
مثال ۱: استخراج هر دنباله دو کاراکتری که با حرف «a» شروع میشه. کاراکتر دوم میتونه هر چیزی باشه (یعنی اول a، بعدش هرچیزی).
- رجکس:
a. - خروجی: (تمام کلمات هایلایتشده در تصویر زیر.)

مثال ۲: استخراج هر رشتهای که با حرف «a» شروع میشه (یعنی a در ابتدای رشته قرار داره و بعدش هر چیزی میاد).
- رجکس:
^a. - خروجی: (تمام کلمات هایلایتشده در تصویر زیر.)

مثال ۳: استخراج هر رشتهای که با «a» شروع و به «e» ختم میشه (یعنی هر خطی که با a شروع بشه، بعدش هرچیزی بیاد و با e تموم بشه).
- رجکس:
^a.*e$ - خروجی: (تمام کلمات هایلایتشده در تصویر زیر.)

مثال ۴: استخراج هر رشتهای که دو حرف «s» پشت سر هم داشته باشه.
- رجکس:
s{2} - خروجی: (تمام کلمات هایلایتشده در تصویر زیر.)

مثال ۵: استخراج هر رشتهای که شامل کلمه «for» یا «with» باشه.
- رجکس:
for|with - خروجی: (تمام کلمات هایلایتشده در تصویر زیر.)

من یه نمونه گوگل شیت رجکس هم ساختم تا بتونید باهاش کار کنید، تست کنید و این قابلیت رو توی گوگل شیت هم تجربه کنید. از اینجا میتونید ببینیدش.

نکته: سلولهایی که تو ستون Extracted Text عبارت #N/A رو نشون میدن، یعنی رجکس الگوی منطبقی پیدا نکرده.
با یاد گرفتن رجکس، درهای جدیدی برای تحلیل و سازماندهی دادههای جستجو به روی خودتون باز میکنید.
این یکی از اون مهارتهاییه که بیسروصدا شما رو سریعتر و دقیقتر میکنه؛ چه موقعی که دارید کلمات کلیدی رو دستهبندی میکنید، چه وقتی که کوئریهای بههمریخته رو تمیز میکنید یا فیلترهای پیشرفتهای تو سرچ کنسول یا لوکر استودیو میسازید.
وقتی با اصول اولیهاش راحت شدید، شروع کنید به پیدا کردن جاهایی که رجکس میتونه تو وقتتون صرفهجویی کنه.
ازش برای تشخیص جستجوهای برند از غیربرند، گروهبندی URLها بر اساس الگو، یا اعتبارسنجی مجموعه دادههای متنی بزرگ قبل از اینکه وارد گزارشهاتون بشن، استفاده کنید.
با دستورات مختلف تو ابزارهایی مثل Regex101 یا گوگل شیت آزمایش کنید تا ببینید تغییرات کوچیک تو نوشتار (syntax) چطور روی نتایج تأثیر میذاره.
هرچی بیشتر تمرین کنید، تشخیص الگوها هم تو دادهها و هم تو حل مسئله براتون راحتتر میشه.
اینجاست که رجکس واقعاً جایگاه خودش رو تو جعبهابزار سئوی شما پیدا میکنه.

پاسخی بگذارید