درک مدل‌های RAG: پیوند دادن مدل‌های زبانی بزرگ با دانش دنیای واقعی

تصویرسازی معماری RAG

مدل‌های زبانی بزرگ (LLM) مانند GPT-4 یا Gemini به طرز باورنکردنی قدرتمند هستند، اما چند نقطه ضعف حیاتی دارند: آن‌ها دچار توهم می‌شوند (اطلاعات نادرست تولید می‌کنند)، از اطلاعات پس از تاریخ پایان آموزش خود بی‌خبرند و به داده‌های دامنه خصوصی و شرکتی شما دسترسی ندارند.

برای حل این محدودیت‌ها، توسعه‌دهندگان از تکنیک تولید افزوده بازیابی (Retrieval-Augmented Generation - RAG) استفاده می‌کنند. RAG چارچوبی است که اطلاعات مرتبط را از یک پایگاه داده خارجی بازیابی کرده و آن را در اختیار LLM قرار می‌دهد تا پاسخ‌های دقیق و متناسب با متن تولید کند.

این یک راهنمای جامع برای درک مدل‌های RAG، نحوه کارکرد آن‌ها و چرایی ضرورت آن‌ها برای هوش مصنوعی سازمانی است.


۱. تولید افزوده بازیابی (RAG) چیست؟

در هسته خود، RAG دو فرآیند مجزا را ترکیب می‌کند: ۱. بازیابی (Retrieval): یافتن اسناد یا بخش‌های متنی مرتبط از یک پایگاه دانش بر اساس پرس‌وجوی کاربر. ۲. تولید (Generation): تغذیه اسناد بازیابی شده همراه با پرس‌وجوی کاربر به یک LLM تا بتواند پاسخ دقیقی تولید کند.

آن را مانند یک امتحان با کتاب باز تصور کنید. مدل به جای اینکه فقط به آنچه در طول آموزش حفظ کرده است تکیه کند (امتحان کتاب بسته)، اجازه دارد قبل از پاسخ دادن، یک کتاب مرجع (پایگاه دانش) را جستجو کند.


۲. خط لوله RAG گام به گام

یک خط لوله استاندارد RAG از سه مرحله اصلی تشکیل شده است: آماده‌سازی داده‌ها (Ingestion)، بازیابی (Retrieval) و تولید (Generation).

مرحله ۱: آماده‌سازی داده‌ها (Ingestion)

قبل از اینکه سیستم بتواند اطلاعات را بازیابی کند، داده‌های خام باید پردازش شوند:

  • بارگذاری: اسناد (PDFها، فایل‌های Markdown، صفحات وب و غیره) جمع‌آوری می‌شوند.
  • تکه‌تکه کردن (Chunking): فایل‌های بزرگ به تکه‌های متنی کوچک‌تر و قابل مدیریت (مثلاً ۵۰۰ کاراکتر) تقسیم می‌شوند.
  • جاسازی (Embedding): یک مدل جاسازی، این تکه‌های متنی را به بردارهای ریاضی متراکم تبدیل می‌کند که نشان‌دهنده معنای معنایی آن‌ها است.
  • ذخیره‌سازی: این بردارهای ریاضی در یک پایگاه داده برداری تخصصی (مانند Milvus، Pinecone یا Qdrant) ذخیره می‌شوند.

مرحله ۲: بازیابی (Retrieval)

وقتی کاربر سوالی می‌پرسد: ۱. پرس‌وجوی کاربر با استفاده از همان مدل جاسازی به بردار تبدیل می‌شود. ۲. سیستم برای یافتن مرتبط‌ترین تکه‌های متنی، یک جستجوی شباهت برداری (مانند شباهت کسینوسی) را در پایگاه داده برداری انجام می‌دهد. ۳. تکه‌هایی که بیشترین شباهت را دارند بازیابی می‌شوند.

مرحله ۳: تولید (Generation)

۱. تکه‌های متنی بازیابی شده با پرس‌وجوی اصلی کاربر در یک قالب پرامپت دقیق ترکیب می‌شوند. ۲. این پرامپت به LLM ارسال می‌شود. ۳. مدل LLM متن را می‌خواند، حقایق مرتبط را استخراج می‌کند و پاسخ دقیقی به زبان طبیعی بر اساس اسناد ارائه شده تولید می‌کند.


۳. جاسازی‌ها (Embeddings) چگونه ساخته می‌شوند؟

جاسازی‌ها ستون فقرات ریاضی RAG هستند. آن‌ها زبان انسان را به بردارهای عددی متراکم تبدیل می‌کنند که معنای معنایی را ثبت می‌کنند.

  • فرآیند جاسازی:
    1. توکن‌سازی (Tokenization): تکه متنی به بخش‌های کوچک‌تری به نام توکن تقسیم می‌شود.
    2. مدل رمزگذار (Encoder): یک رمزگذار تخصصی مبتنی بر ترانسفورمر (مانند BERT یا text-embedding-3 شرکت OpenAI) توکن‌ها را پردازش می‌کند.
    3. بردار چندبعدی: مدل لیستی از اعداد را خروجی می‌دهد (معمولاً ۳۸۴، ۷۶۸ یا ۱۵۳۶ بعد). هر بعد نشان‌دهنده یک ویژگی معنایی یا مفهوم متفاوت است.
  • نگاشت معنایی: در این فضای برداری، کلمات یا عبارات با معانی مشابه در نزدیکی یکدیگر قرار می‌گیرند. به عنوان مثال، بردار “گربه” به “بچه گربه” نزدیک‌تر خواهد بود تا به “ماشین”.
  • معیارهای فاصله: پایگاه‌های داده برداری با اندازه‌گیری فاصله بین بردارهای پرس‌وجو و سند با استفاده از فرمول‌های ریاضی مانند شباهت کسینوسی (زاویه بین بردارها)، ضرب نقطه‌ای یا فاصله اقلیدسی، زمینه مرتبط را پیدا می‌کنند.

۴. راهنمای کامل جریان کار RAG

در اینجا راهنمای گام به گام نحوه حرکت یک درخواست در یک سیستم RAG آمده است:

[پرس‌وجوی کاربر] ──> [مدل جاسازی] ──> [بردار پرس‌وجو]
[پاسخ LLM] <── [LLM] <── [پرامپت] <── [جستجوی پایگاه داده برداری]
                          (زمینه + پرس‌وجو)

۱. ورودی کاربر: کاربر یک پرس‌وجو ارسال می‌کند (به عنوان مثال، “درآمد ما در سه ماهه سوم چقدر بود؟”). ۲. برداری‌سازی پرس‌وجو: پرس‌وجو توسط مدل جاسازی به بردار تبدیل می‌شود. ۳. جستجوی پایگاه داده: پایگاه داده برداری بردار پرس‌وجو را با تمام بردارهای سند مقایسه می‌کند و K تکه متنی نزدیک را بازیابی می‌کند. ۴. ادغام زمینه: تکه‌های بازیابی شده در کنار پرس‌وجوی اصلی کاربر در قالب یک پرامپت دقیق تزریق می‌شوند. ۵. استنتاج LLM: مدل زبانی بزرگ پرامپت غنی‌شده با زمینه را می‌خواند و پاسخ طبیعی و از نظر واقعی دقیقی بر اساس اسناد ارائه شده تولید می‌کند.


۵. RAG در مقابل Fine-Tuning: کدام بهتر است؟

هنگام تطبیق یک LLM با داده‌های سفارشی، توسعه‌دهندگان اغلب بین RAG و Fine-Tuning یکی را انتخاب می‌کنند. در اینجا مقایسه آن‌ها آمده است:

ویژگی RAG (تولید افزوده بازیابی) Fine-Tuning (تنظیم دقیق)
هدف اصلی پیوند دادن با دانش واقعی خارجی تطبیق رفتار، سبک یا قالب کار خاص
هزینه راه‌اندازی کم تا متوسط بالا (نیاز به پردازنده‌های گرافیکی و لوله‌های آموزش)
به‌روزرسانی آنی بالا (کافی است اسناد را در پایگاه داده برداری اضافه/ویرایش کنید) کم (نیاز به آموزش مجدد یا تنظیم دقیق مداوم دارد)
خطر توهم بسیار کم (پاسخ‌ها بر اساس اسناد منبع هستند) متوسط تا بالا (مدل همچنان می‌تواند حقایق را جعل کند)
حریم خصوصی داده‌ها آسان (کنترل دسترسی در سطح پایگاه داده مدیریت می‌شود) دشوار (محدود کردن دسترسی پس از آموزش داده‌ها در مدل سخت است)

۶. تکنیک‌های پیشرفته RAG

ساخت یک سیستم RAG پایه آسان است، اما RAG در سطح تجاری برای مدیریت پرس‌وجوهای پیچیده نیاز به تکنیک‌های پیشرفته دارد:

  • بازنویسی پرس‌وجو (Query Rewriting): بازنویسی پرس‌وجوی کاربر برای بهبود دقت جستجوی برداری.
  • رتبه‌بندی مجدد (Re-ranking): استفاده از یک مدل ثانویه (مانند cross-encoder) برای ارزیابی مجدد و مرتب‌سازی اسناد بازیابی شده، جهت اطمینان از اینکه مرتبط‌ترین‌ها در ابتدا قرار می‌گیرند.
  • جستجوی ترکیبی (Hybrid Search): ترکیب جستجوی کلیدواژه‌ای (BM25) با جستجوی برداری برای ثبت تطابق‌های دقیق و معانی معنایی با هم.
  • تکه‌تکه کردن سلسله‌مراتبی: ذخیره تکه‌های کوچک برای بازیابی دقیق اما پیوند دادن آن‌ها به تکه‌های والد بزرگ‌تر برای ارائه زمینه وسیع‌تر به LLM.

نتیجه‌گیری

تکنیک RAG به استاندارد صنعت برای ساخت برنامه‌های کاربردی هوش مصنوعی در محیط عملیاتی تبدیل شده است. با پیوند دادن مدل‌های زبانی بزرگ با دانش دنیای واقعی، این روش شکاف بین وزن‌های ثابت مدل و داده‌های پویا و خاص دامنه را پر می‌کند. چه در حال ساخت یک دستیار wiki داخلی شرکت باشید و چه یک بات پشتیبانی مشتری خودکار، مدل‌های RAG تضمین می‌کنند که هوش مصنوعی شما دقیق، به‌روز و امن باقی می‌ماند.


کشف بینش‌های بیشتر هوش مصنوعی در وبلاگ Ghaznix →