موتورهای هوش مصنوعی چطور جواب می‌سازن و رفرنس می‌دن؟

6 آبان 1404

بیاین ببینیم تفاوت‌های ChatGPT، Perplexity، Gemini، Claude و DeepSeek تو منابع داده، استفاده از اینترنت زنده، قوانین ارجاع‌دهی و چیزای دیگه چیه.

هوش مصنوعی مولد دیگه یه چیز واحد و یکپارچه نیست.

کافیه ازشون بپرسین «بهترین ابزار هوش مصنوعی مولد برای نوشتن محتوای روابط عمومی چیه؟» یا «آیا هدف‌گذاری کلمات کلیدی واقعاً کار غیرممکنیه؟»، اونوقت می‌بینین که هر کدوم از این ابزارها یه مسیر کاملاً متفاوت رو از سوال (prompt) شما تا رسیدن به جواب طی می‌کنن.

برای ما نویسنده‌ها، ویراستارها، متخصص‌های روابط عمومی و استراتژیست‌های محتوا، این مسیرها خیلی مهمن. هر سیستم هوش مصنوعی نقاط قوت، شفافیت و انتظارات خاص خودش رو برای بررسی، ویرایش و ارجاع‌دهی به محتوایی که تولید می‌کنه، داره.

تو این مقاله، می‌خوایم پلتفرم‌های برتر هوش مصنوعی یعنی ChatGPT (از OpenAI)، Perplexity، Gemini (از گوگل)، DeepSeek و Claude (از Anthropic) رو زیر ذره‌بین ببریم و ببینیم که چطوری:

اطلاعات رو پیدا و جمع‌بندی می‌کنن.
از داده‌ها برای آموزش و به‌عنوان منبع استفاده می‌کنن.
از اینترنت زنده استفاده می‌کنن یا نه.
با ارجاع‌دهی و نمایش منابع برای تولیدکنندگان محتوا برخورد می‌کنن.

سازوکار پشت هر جواب هوش مصنوعی

موتورهای هوش مصنوعی مولد بر پایه دو معماری اصلی ساخته شدن: «سنتز مبتنی بر مدل» (model-native synthesis) و «تولید افزوده با بازیابی» (retrieval-augmented generation) یا همون RAG.

هر پلتفرمی از ترکیب متفاوتی از این دو رویکرد استفاده می‌کنه و همین توضیح می‌ده که چرا بعضی از موتورها به منابع ارجاع می‌دن، در حالی که بقیه صرفاً از حافظه و دانش داخلی خودشون متن تولید می‌کنن.

سنتز مبتنی بر مدل (Model-native synthesis)

تو این روش، موتور هوش مصنوعی جواب‌ها رو از چیزهایی که «درون» مدل وجود داره تولید می‌کنه؛ یعنی الگوهایی که در طول فرآیند آموزشش یاد گرفته (مثل مجموعه‌های متنی، کتاب‌ها، وب‌سایت‌ها و دیتاست‌های خریداری شده).

این روش سریع و منسجمه، اما ممکنه دچار توهم (hallucination) بشه و اطلاعات غلط بده، چون مدل به‌جای نقل‌قول از منابع زنده، داره بر اساس دانش احتمالی خودش متن می‌سازه.

تولید افزوده با بازیابی (Retrieval-augmented generation)

تو این روش، موتور:

اول یک مرحله بازیابی زنده انجام می‌ده (یعنی تو یه مجموعه داده یا در وب جستجو می‌کنه).
بعد اسناد یا بخش‌های مرتبط رو بیرون می‌کشه.
و در نهایت، جوابی رو بر اساس اطلاعاتی که پیدا کرده، جمع‌بندی می‌کنه.

روش RAG شاید یه کم سرعت رو فدا کنه، اما در عوض قابلیت ردیابی و ارجاع‌دهی بهتری داره.

ابزارهای مختلف، در نقاط متفاوتی از این طیف قرار می‌گیرن.

این تفاوت‌ها توضیح می‌ده که چرا بعضی جواب‌ها با منبع و لینک همراهن و بعضی‌های دیگه مثل یه توضیح مطمئن اما بدون هیچ منبعی به نظر می‌رسن.

ChatGPT (OpenAI): اولویت با مدل، وب‌گردی زنده در صورت فعال‌سازی

چطوری ساخته شده؟

خانواده ChatGPT (مدل‌های GPT) روی مجموعه داده‌های متنی عظیمی آموزش دیدن – متن‌های عمومی وب، کتاب‌ها، محتوای خریداری شده و بازخورد انسانی – بنابراین مدل پایه، جواب‌ها رو از الگوهای ذخیره‌شده‌ی خودش تولید می‌کنه.

خود OpenAI هم مستند کرده که این فرآیند مبتنی بر مدل، رفتار اصلی ChatGPT رو تشکیل می‌ده.

وب‌گردی زنده و پلاگین‌ها

به‌طور پیش‌فرض، ChatGPT از داده‌های آموزشی خودش جواب می‌ده و به‌طور مداوم وب رو نمی‌گرده.

اما OpenAI راه‌های مشخصی برای دسترسی به داده‌های زنده اضافه کرده – مثل پلاگین‌ها و قابلیت‌های وب‌گردی – که به مدل اجازه می‌ده به منابع یا ابزارهای زنده (مثل جستجوی وب، پایگاه داده یا ماشین‌حساب) دسترسی پیدا کنه.

وقتی این قابلیت‌ها فعال باشن، ChatGPT می‌تونه مثل یه سیستم RAG عمل کنه و جواب‌هایی بر اساس محتوای به‌روز وب به شما بده.

ارجاع‌دهی و نمایش منابع

بدون پلاگین‌ها، ChatGPT معمولاً لینک منبع ارائه نمی‌ده.

اما وقتی قابلیت بازیابی اطلاعات یا پلاگین‌ها فعال باشن، بسته به نوع ابزار، می‌تونه ارجاعات یا منابع رو هم شامل بشه.

نکته برای نویسنده‌ها: انتظار داشته باشین که جواب‌های مبتنی بر مدل، قبل از انتشار نیاز به بررسی دقیق اطلاعات و پیدا کردن منبع داشته باشن.

Perplexity: طراحی‌شده بر پایه بازیابی زنده از وب و ارجاع‌دهی

چطوری ساخته شده؟

Perplexity خودش رو به‌عنوان یک «موتور پاسخ» (answer engine) معرفی می‌کنه که به‌صورت لحظه‌ای در وب جستجو می‌کنه و جواب‌های خلاصه‌ای رو بر اساس اسنادی که پیدا کرده، ارائه می‌ده.

رفتار پیش‌فرضش اینه: اول بازیابی اطلاعات، بعد تولید جواب. یعنی: کوئری ← جستجوی زنده ← جمع‌بندی ← ارجاع.

وب‌گردی زنده و ارجاع‌دهی

Perplexity به‌طور فعال از نتایج زنده وب استفاده می‌کنه و معمولاً ارجاعات درون‌خطی به منابعی که استفاده کرده رو نمایش می‌ده.

این ویژگی، Perplexity رو برای کارهایی که ردیابی منبع و مدرک مهمه، خیلی جذاب می‌کنه – مثل خلاصه‌نویسی تحقیقات، تحلیل رقبا یا بررسی سریع اطلاعات.

از اونجایی که هر بار از وب اطلاعات می‌گیره، جواب‌هاش می‌تونن به‌روزتر باشن و ارجاعاتش به ویراستارها یه جای مستقیم برای تأیید ادعاها می‌ده.

یه نکته مهم برای تولیدکنندگان محتوا

انتخاب منابع توسط Perplexity از الگوریتم‌های بازیابی اطلاعات خودش پیروی می‌کنه.

اینکه Perplexity به شما ارجاع بده، مثل این نیست که در گوگل رتبه خوبی داشته باشین.

با این حال، ارجاعات واضح Perplexity کار رو برای نویسنده‌ها راحت‌تر می‌کنه تا یه پیش‌نویس رو کپی کنن و بعد هر ادعا رو با صفحات ارجاع داده‌شده قبل از انتشار، چک کنن.

Google Gemini: مدل‌های چندوجهی متصل به جستجوی گوگل و گراف دانش

چطوری ساخته شده؟

Gemini (خانواده جانشین مدل‌های قبلی گوگل) یک مدل زبانی بزرگ چندوجهی (multimodal LLM) است که توسط Google/DeepMind توسعه داده شده.

این مدل برای زبان، استدلال و ورودی‌های چندوجهی (متن، تصویر، صدا) بهینه‌سازی شده.

گوگل به‌طور واضح قابلیت‌های هوش مصنوعی مولد رو در جستجو و AI Overviews خودش ادغام کرده تا به کوئری‌های پیچیده جواب بده.

وب‌گردی زنده و یکپارچگی

از اونجایی که گوگل هم ایندکس زنده وب و هم گراف دانش (Knowledge Graph) رو در اختیار داره، تجربه‌های مبتنی بر Gemini معمولاً مستقیماً با جستجوی زنده یکپارچه شدن.

در عمل، این یعنی Gemini می‌تونه جواب‌های به‌روزی بده و اغلب لینک‌ها یا خلاصه‌هایی از صفحات ایندکس‌شده رو نشون می‌ده.

مرز بین «نتیجه جستجو» و «خلاصه تولیدشده با هوش مصنوعی» در محصولات گوگل روز به روز کمرنگ‌تر می‌شه.

ارجاع‌دهی و نمایش منابع

جواب‌های تولیدشده توسط هوش مصنوعی گوگل معمولاً لینک‌های منبع رو نشون می‌دن (یا حداقل در رابط کاربری به صفحات منبع اشاره می‌کنن).

برای ناشران، این موضوع هم یه فرصته (محتوای شما می‌تونه در یک خلاصه هوش مصنوعی نقل‌قول بشه) و هم یه ریسک (ممکنه کاربرا جواب خلاصه‌شده رو بگیرن و دیگه روی لینک شما کلیک نکنن).

این موضوع باعث می‌شه که داشتن عنوان‌های واضح، مختصر و محتوای واقعی که به راحتی توسط ماشین قابل‌فهمه، ارزش بیشتری پیدا کنه.

Claude (Anthropic): مدل‌های با اولویت ایمنی، با جستجوی وب انتخابی

چطوری ساخته شده؟

مدل‌های Claude از شرکت Anthropic روی مجموعه‌های داده بزرگ آموزش دیدن و با تمرکز بر ایمنی و مفید بودن تنظیم شدن.

مدل‌های اخیر Claude (خانواده Claude 3) برای سرعت بالا و کارهایی با زمینه (context) طولانی طراحی شدن.

وب‌گردی زنده

شرکت Anthropic اخیراً قابلیت‌های جستجوی وب رو به Claude اضافه کرده که بهش اجازه می‌ده در صورت نیاز به اطلاعات زنده دسترسی پیدا کنه.

با راه‌اندازی جستجوی وب در سال ۲۰۲۵، Claude حالا می‌تونه بسته به نوع کوئری، در دو حالت کار کنه: مبتنی بر مدل یا با کمک بازیابی اطلاعات.

حریم خصوصی و داده‌های آموزشی

سیاست‌های Anthropic در مورد استفاده از مکالمات مشتریان برای آموزش، در طول زمان تغییر کرده.

تولیدکنندگان محتوا و کسب‌وکارها باید تنظیمات حریم خصوصی فعلی رو بررسی کنن تا ببینن با داده‌های مکالماتشون چطور برخورد می‌شه (گزینه‌های انصراف بسته به نوع حساب کاربری متفاوته).

این موضوع روی این مسئله تأثیر می‌ذاره که آیا ویرایش‌ها یا اطلاعات اختصاصی که شما به Claude می‌دین، ممکنه برای بهبود مدل اصلی استفاده بشه یا نه.

DeepSeek: بازیگر نوظهور با زیرساخت‌های منطقه‌ای

چطوری ساخته شده؟

DeepSeek (و شرکت‌های جدید مشابه) مدل‌های زبانی بزرگی رو ارائه می‌دن که روی دیتاست‌های بزرگ آموزش دیدن و اغلب با انتخاب‌های مهندسی خاصی برای سخت‌افزارها یا زبان‌های مشخصی بهینه‌سازی شدن.

به‌طور خاص، DeepSeek روی بهینه‌سازی برای شتاب‌دهنده‌های غیر NVIDIA و توسعه سریع خانواده‌های مدل خودش تمرکز کرده.

مدل‌هاشون عمدتاً به‌صورت آفلاین روی مجموعه‌های داده بزرگ آموزش می‌بینن، اما می‌تونن با لایه‌های بازیابی اطلاعات هم پیاده‌سازی بشن.

وب‌گردی زنده و پیاده‌سازی

اینکه یک برنامه مبتنی بر DeepSeek از بازیابی زنده وب استفاده کنه یا نه، به نحوه پیاده‌سازی اون بستگی داره.

بعضی از پیاده‌سازی‌ها کاملاً مبتنی بر مدل هستن، در حالی که بقیه لایه‌های RAG رو اضافه می‌کنن که از منابع داخلی یا خارجی اطلاعات می‌گیرن.

از اونجایی که DeepSeek نسبت به گوگل یا OpenAI بازیگر کوچکتر و جدیدتریه، پیاده‌سازی‌ها بسته به مشتری و منطقه بسیار متفاوته.

برای تولیدکنندگان محتوا

حواستون به تفاوت‌ها در کیفیت زبان، رفتار ارجاع‌دهی و اولویت‌های محتوایی منطقه‌ای باشه.

مدل‌های جدیدتر گاهی روی زبان‌های خاص، پوشش حوزه‌های مشخص یا عملکرد بهینه‌شده برای سخت‌افزار تمرکز دارن که این موضوع روی پاسخ‌دهی برای اسناد با زمینه طولانی تأثیر می‌ذاره.

تفاوت‌های کاربردی که برای نویسنده‌ها و ویراستارها مهمه

حتی با پرامپت‌های مشابه، موتورهای هوش مصنوعی جواب‌های یکسانی تولید نمی‌کنن و پیامدهای ویرایشی یکسانی هم ندارن.

چهار عامل برای نویسنده‌ها، ویراستارها و تیم‌های محتوا بیشترین اهمیت رو دارن:

به‌روز بودن

موتورهایی که از وب زنده اطلاعات می‌گیرن – مثل Perplexity، Gemini و Claude با جستجوی فعال – اطلاعات به‌روزتری رو ارائه می‌دن.

سیستم‌های مبتنی بر مدل مثل ChatGPT بدون وب‌گردی، به داده‌های آموزشی تکیه می‌کنن که ممکنه از رویدادهای دنیای واقعی عقب باشن.

اگه دقت یا تازگی اطلاعات براتون حیاتیه، از ابزارهای مجهز به بازیابی اطلاعات استفاده کنین یا هر ادعا رو با یه منبع اصلی چک کنین.

قابلیت ردیابی و راستی‌آزمایی

موتورهایی که اولویتشون با بازیابی اطلاعاته، ارجاعات رو نمایش می‌دن و تأیید کردن اطلاعات رو آسون‌تر می‌کنن.

سیستم‌های مبتنی بر مدل اغلب متنی روان اما بدون منبع ارائه می‌دن که نیاز به بررسی دستی اطلاعات داره.

ویراستارها باید برای هر پیش‌نویس تولیدشده با هوش مصنوعی که ارجاع مشخصی نداره، زمان بیشتری برای بازبینی در نظر بگیرن.

ارجاع‌دهی و دیده‌شدن

بعضی رابط‌های کاربری ارجاعات درون‌خطی یا لیست منابع رو نشون می‌دن؛ بقیه هیچی نشون نمی‌دن مگه اینکه کاربر پلاگین‌ها رو فعال کنه.

این ناهماهنگی روی میزان راستی‌آزمایی و ویرایشی که یه تیم باید قبل از انتشار انجام بده تأثیر می‌ذاره – و همچنین روی اینکه چقدر احتمال داره یه سایت وقتی توسط پلتفرم‌های هوش مصنوعی بهش ارجاع داده می‌شه، اعتبار کسب کنه.

حریم خصوصی و استفاده مجدد از داده‌ها برای آموزش

هر ارائه‌دهنده‌ای با داده‌های کاربر به شکل متفاوتی برخورد می‌کنه.

بعضی‌ها به شما اجازه می‌دن از شرکت در فرآیند آموزش مدل انصراف بدین. بقیه به‌طور پیش‌فرض داده‌های مکالمه رو نگه می‌دارن.

نویسنده‌ها باید از وارد کردن اطلاعات محرمانه یا اختصاصی در نسخه‌های عمومی این ابزارها خودداری کنن و در صورت امکان از نسخه‌های سازمانی استفاده کنن.

چطور از این تفاوت‌ها در کارمون استفاده کنیم؟

درک این تفاوت‌ها به تیم‌ها کمک می‌کنه تا گردش کارهای مسئولانه‌ای طراحی کنن:

ابزار رو متناسب با کار انتخاب کنین – ابزارهای بازیابی اطلاعات برای تحقیق، ابزارهای مبتنی بر مدل برای پیش‌نویس یا سبک‌دهی.
اهمیت بهداشت ارجاع‌دهی رو دست‌کم نگیرین. قبل از انتشار، همه چیز رو تأیید کنین.
خروجی هوش مصنوعی رو به‌عنوان یک نقطه شروع در نظر بگیرین، نه یک محصول نهایی.

درک موتورهای هوش مصنوعی برای دیده‌شدن مهمه

موتورهای مختلف هوش مصنوعی مسیرهای متفاوتی رو از پرامپت تا جواب طی می‌کنن.

بعضی به دانش ذخیره‌شده خودشون تکیه می‌کنن، بعضی‌ها داده‌های زنده رو بیرون می‌کشن و خیلی‌ها هم حالا هر دو رو با هم ترکیب می‌کنن.

برای نویسنده‌ها و تیم‌های محتوا، این تفاوت مهمه – چون نحوه بازیابی، ارجاع‌دهی و در نهایت نمایش اطلاعات به مخاطبان رو شکل می‌ده.

انتخاب ابزار متناسب با کار، تأیید خروجی‌ها با منابع اصلی و اضافه کردن لایه‌ای از تخصص انسانی، همچنان اصول غیرقابل‌مذاکره هستن.

اصول بنیادی ویراستاری تغییر نکرده. فقط در این چشم‌انداز مبتنی بر هوش مصنوعی، اهمیتشون بیشتر به چشم میاد.

همونطور که رند فیشکین (اخیراً اشاره کرد)، دیگه کافی نیست چیزی بسازین که مردم بخوان بخونن – باید چیزی بسازین که مردم بخوان در موردش حرف بزنن.

در دنیایی که پلتفرم‌های هوش مصنوعی در مقیاس وسیع محتوا رو خلاصه و جمع‌بندی می‌کنن، «توجه» تبدیل به موتور توزیع جدید می‌شه.

برای متخصصان سئو و بازاریابی، این یعنی دیده‌شدن به چیزی بیشتر از اصالت یا E-E-A-T بستگی داره.

حالا این موضوع شامل این هم می‌شه که ایده‌های شما چقدر واضح می‌تونن توسط مخاطبان انسانی و ماشینی بازیابی، ارجاع و به اشتراک گذاشته بشن.

موتورهای هوش مصنوعی چطور جواب می‌سازن و رفرنس می‌دن؟

سازوکار پشت هر جواب هوش مصنوعی

سنتز مبتنی بر مدل (Model-native synthesis)

تولید افزوده با بازیابی (Retrieval-augmented generation)

ChatGPT (OpenAI): اولویت با مدل، وب‌گردی زنده در صورت فعال‌سازی

چطوری ساخته شده؟

وب‌گردی زنده و پلاگین‌ها

ارجاع‌دهی و نمایش منابع

Perplexity: طراحی‌شده بر پایه بازیابی زنده از وب و ارجاع‌دهی

چطوری ساخته شده؟

وب‌گردی زنده و ارجاع‌دهی

یه نکته مهم برای تولیدکنندگان محتوا

Google Gemini: مدل‌های چندوجهی متصل به جستجوی گوگل و گراف دانش

چطوری ساخته شده؟

وب‌گردی زنده و یکپارچگی

ارجاع‌دهی و نمایش منابع

Claude (Anthropic): مدل‌های با اولویت ایمنی، با جستجوی وب انتخابی

چطوری ساخته شده؟

وب‌گردی زنده

حریم خصوصی و داده‌های آموزشی

DeepSeek: بازیگر نوظهور با زیرساخت‌های منطقه‌ای

چطوری ساخته شده؟

وب‌گردی زنده و پیاده‌سازی

برای تولیدکنندگان محتوا

تفاوت‌های کاربردی که برای نویسنده‌ها و ویراستارها مهمه

به‌روز بودن

قابلیت ردیابی و راستی‌آزمایی

ارجاع‌دهی و دیده‌شدن

حریم خصوصی و استفاده مجدد از داده‌ها برای آموزش

چطور از این تفاوت‌ها در کارمون استفاده کنیم؟

درک موتورهای هوش مصنوعی برای دیده‌شدن مهمه

پاسخی بگذاریدانصراف از پاسخ