توضیح هوش مصنوعی مولد: ماشین‌ها چگونه خلق کردن را یاد می‌گیرند

هوش مصنوعی مولد - ماشین‌ها چگونه خلق کردن را یاد می‌گیرند

هوش مصنوعی مولد یکی از دگرگون‌کننده‌ترین تغییرات تکنولوژیکی قرن بیست و یکم است. برخلاف سیستم‌های هوش مصنوعی سنتی که طبقه‌بندی، پیش‌بینی یا شناسایی می‌کنند، هوش مصنوعی مولد ایجاد می‌کند - متن، تصاویر، صدا، ویدئو، کد و حتی ساختارهای سه‌بعدی. این فناوری پشت مقاله نوشتن ChatGPT، نقاشی هنر فوتورئالیستی Midjourney، و GitHub Copilot است که تمام عملکردها را از یک نظر تکمیل می کند.

این راهنما توضیح می‌دهد که هوش مصنوعی Generative چیست، چگونه در زیر کاپوت کار می‌کند، مدل‌های اصلی معماری آن و به کجا می‌رود.


1. هوش مصنوعی مولد چیست؟

هوش مصنوعی مولد به دسته‌ای از مدل‌های هوش مصنوعی اشاره دارد که توزیع آماری داده‌های آموزشی را یاد می‌گیرند و سپس محتوای جدیدی تولید می‌کنند که از همان توزیع پیروی می‌کند.

به عبارت ساده‌تر: اگر یک مدل را روی میلیون‌ها عکس از چهره انسان آموزش دهید، الگوهای ظاهری یک چهره را می‌آموزد - محل قرارگیری چشم‌ها، شکل بینی، بافت پوست - و سپس می‌تواند چهره کاملا جدیدی ایجاد کند که قبلاً وجود نداشته است.

تمایز کلیدی بین مدل‌های تبعیض‌آمیز و تولیدکننده:

هوش مصنوعی تبعیض آمیز هوش مصنوعی مولد
مرز بین کلاس ها را یاد می گیرد توزیع کامل اطلاعات
ورودی → برچسب / دسته اعلان ورودی → محتوای جدید (متن، تصویر، صدا)
مثال: طبقه بندی کننده تصویر، فیلتر هرزنامه مثال: GPT-4، Stable Diffusion، Gemini
پاسخ: این گربه است؟ → بله/خیر پاسخ: “تولید نقاشی گربه با لباس فضایی”

2. معماری های اصلی پشت هوش مصنوعی مولد

هوش مصنوعی مولد مدرن یک فناوری واحد نیست - خانواده ای از معماری های متمایز است که هر کدام برای حوزه های مختلف مناسب هستند.

2.1 مدل های زبان مبتنی بر ترانسفورماتور (LLM)

معماری Transformer، که در مقاله برجسته 2017 “توجه فقط نیاز دارید” توسط Vaswani و همکاران معرفی شد، پایه و اساس هر مدل زبان اصلی امروزی از جمله GPT-4، Gemini، Claude و Llama است.

چگونه کار می کند:

  1. **Tokenization **: متن ورودی به نشانه ها (واحدهای زیر کلمه) تقسیم می شود. «هوش مصنوعی مولد» ممکن است به ["Genera", "tive", " AI"] تبدیل شود.
  2. Embedding: هر نشانه به یک بردار عددی با ابعاد بالا تبدیل می شود که معنای آن را نشان می دهد.
  3. مکانیسم توجه به خود: هر نشانه روابط (امتیازات توجه) را با هر نشانه دیگری در دنباله محاسبه می کند. این به مدل اجازه می دهد تا بفهمد که “بانک” در “کرانه رودخانه” با “بانک” در “حساب بانکی” متفاوت است.
  4. **لایه‌های پیش‌خور **: هر موقعیت برای استخراج ویژگی‌های پیچیده از یک شبکه پیش‌خور غیرخطی عبور می‌کند.
  5. پیش‌بینی رمز بعدی: مدل‌های خودرگرسیون مانند GPT برای پیش‌بینی احتمال‌ترین توکن بعدی آموزش داده می‌شوند و این فرآیند را تا زمانی که خروجی کامل شود تکرار می‌کنند.

مقیاس LLM های مدرن خیره کننده است:

  • GPT-4: حدود 1.8 تریلیون پارامتر برآورد شده است
  • Google Gemini Ultra: تریلیون‌ها پارامتر در معماری Mixture-of-Experts
  • Llama 3.1 405B: 405 میلیارد پارامتر، منبع باز

2.2 مدل های انتشار (تصاویر و صدا)

Diffusion ابزارهای برقی مانند Stable Diffusion، DALL-E 3 و Midjourney را مدل می کند. آنها یاد می گیرند که تصاویر را از طریق یک فرآیند دو مرحله ای تولید کنند:

فرآیند پیش رو (آموزش):

  • یک تصویر واقعی به تدریج با اضافه کردن نویز گاوسی در بسیاری از مراحل (مثلاً 1000 مرحله) خراب می شود.
  • در مرحله آخر، تصویر یک نویز تصادفی خالص است.
  • مدل یاد می گیرد که نویز اضافه شده در هر مرحله را پیش بینی کند.

فرآیند معکوس (نسل):

  • از نویز تصادفی خالص شروع کنید.
  • به صورت تکراری تصویر را حذف کنید، که توسط یک پیام متنی کدگذاری شده توسط یک مدل زبان (مانند CLIP) هدایت می شود.
  • پس از 20 تا 50 مرحله حذف نویز، یک تصویر واقع گرایانه مطابق با درخواست ظاهر می شود.

شرطی‌سازی متن از طریق لایه‌های توجه متقابل داخل ستون فقرات U-Net (یا DiT — Diffusion Transformer) به دست می‌آید، که به پیش‌بینی‌کننده نویز اجازه می‌دهد تا با معنای معنایی دستور هدایت شود.

2.3 شبکه های متخاصم مولد (GAN)

قبل از اینکه مدل‌های انتشار به تسلط برسند، GANs (که توسط ایان گودفلو در سال 2014 معرفی شد) استاندارد طلایی برای سنتز تصویر بود.

GAN ها شامل دو شبکه عصبی رقیب هستند که به طور همزمان آموزش داده شده اند:

  • Generator (G): نویز تصادفی را به عنوان ورودی دریافت می کند و یک تصویر جعلی تولید می کند و سعی می کند متمایز کننده را فریب دهد.
  • تمایز کننده (D): هم تصاویر واقعی و هم جعلی را می گیرد و سعی می کند آنها را تشخیص دهد.

از طریق این حلقه آموزشی متخاصم، Generator به تدریج یاد می گیرد که تصاویر واقعی تری تولید کند. هدف آموزشی یک بازی مینی مکس است:

min_G max_D [E[log D(x)] + E[log(1 - D(G(z)))]]

محدودیت‌های GAN: بی‌ثباتی آموزشی (فروپاشی حالت، ناپدید شدن شیب‌ها) و مشکل در تولید خروجی‌های بسیار متنوع، آنها را نسبت به مدل‌های انتشار برای تولید دامنه باز مناسب‌تر کرد.

2.4 رمزگذارهای خودکار متغیر (VAE)

VAEها یک چارچوب احتمالی برای یادگیری فضای پنهان فشرده ارائه می دهند که ساختار زیربنایی داده ها را به تصویر می کشد. آنها عبارتند از:

  • رمزگذار: داده های ورودی را به بردار میانگین (μ) و واریانس (σ) در فضای پنهان کم بعدی فشرده می کند.
  • رمزگشا: داده ها را از یک نقطه نمونه برداری شده از توزیع پنهان بازسازی می کند.

VAEها به طور گسترده ای به عنوان یک جزء در سیستم های بزرگتر مورد استفاده قرار می گیرند - برای مثال، Stable Diffusion فرآیند انتشار خود را در فضای پنهان فشرده یک VAE (به نام مدل های انتشار پنهان) اجرا می کند، که این فرآیند را به طور چشمگیری سریعتر می کند.


3. چگونه LLM ها آموزش می بینند: خط لوله سه مرحله ای

مدل های مدرن زبان بزرگ قبل از اینکه به کاربران برسند، سه مرحله آموزشی مجزا را طی می کنند:

مرحله 1: پیش آموزش (یادگیری از جهان)

این مدل بر روی مجموعه عظیمی از متن (تریلیون‌ها نشانه از کتاب‌ها، وب‌سایت‌ها، کدها و مقالات علمی) با استفاده از آموزش خود نظارتی آموزش داده شده است. کار ساده است: رمز بعدی را پیش بینی کنید. هیچ برچسب انسانی لازم نیست. این دانش، گرامر، الگوهای استدلال و توانایی کدنویسی را به مدل جهان می آموزد.

مرحله 2: تنظیم دقیق نظارت شده (SFT)

مربیان انسانی هزاران جفت پاسخ سریع با کیفیت بالا ایجاد می کنند که رفتار هوش مصنوعی ایده آل را نشان می دهد. سپس مدل از پیش آموزش‌دیده شده روی این داده‌ها تنظیم می‌شود تا قالب و لحن مورد انتظار برای کمک مکالمه را یاد بگیرد.

مرحله 3: یادگیری تقویتی از بازخورد انسانی (RLHF)

  • ارزیاب‌های انسانی جفت‌هایی از پاسخ‌های مدل را با هم مقایسه می‌کنند و کدام یک بهتر است.
  • این رتبه‌بندی‌ها یک مدل پاداش (RM) را آموزش می‌دهند که کیفیت پاسخ را به دست می‌آورد.
  • سپس مدل زبان با استفاده از بهینه‌سازی خط مشی نزدیک (PPO) بهینه‌سازی می‌شود تا پاسخ‌هایی ایجاد کند که امتیاز مدل پاداش را به حداکثر برساند.
  • این مرحله همان چیزی است که خروجی های مدل را با ترجیحات انسانی همسو می کند - آن را مفید، بی ضرر و صادق می کند.

4. قابلیت های کلیدی مولد هوش مصنوعی

تولید متن

LLM ها مانند GPT-4 و Gemini می توانند مقاله بنویسند، اسناد را خلاصه کنند، به سؤالات پاسخ دهند، زبان ها را ترجمه کنند، کد بنویسند و از طریق مسائل پیچیده چند مرحله ای استدلال کنند. مدل‌های پیشرفته از زنجیره فکر (CoT) برای نشان دادن استدلال خود استفاده می‌کنند که دقت در تکالیف منطقی و ریاضی را به میزان قابل توجهی بهبود می‌بخشد.

تولید تصویر و ویدئو

مدل‌های انتشار می‌توانند تصاویر واقع‌گرایانه، تصاویر هنری، و اکنون توالی‌های ویدیویی کامل (مانند Google Veo، OpenAI Sora) تولید کنند. مدل‌های تبدیل متن به ویدیو بر روی فضاهای پنهان مکانی-زمانی عمل می‌کنند و فرآیند حذف نویز را در طول زمان و مکان گسترش می‌دهند.

تولید کد

مدل‌هایی که روی کد تنظیم شده‌اند (مانند GitHub Copilot با کدکس، Gemini Code Assist) می‌توانند توابع را تکمیل کنند، کل ماژول‌ها را از توضیحات زبان طبیعی تولید کنند، تست‌های واحد بنویسند، و کدهای موجود را توضیح دهند.

تولید صدا و موسیقی

مدل‌هایی مانند Whisper OpenAI (گفتار به متن) و MusicGen (موسیقی از پیام‌های متنی) نشان می‌دهند که پارادایم مولد به‌طور سیال به حوزه صوتی گسترش می‌یابد و بر روی طیف‌نگارها یا نشانه‌های صوتی کار می‌کند.

نسل چندوجهی

مرز هوش مصنوعی مولد مدل های چند وجهی است - سیستم هایی که می توانند متن، تصویر، صدا و ویدئو را به طور همزمان پردازش و تولید کنند. مدل‌هایی مانند Gemini 1.5 Pro می‌توانند بیش از یک ویدیوی 2 ساعته، یک پایگاه کد، و یک سند PDF در یک پنجره متنی با 1 میلیون توکن استدلال کنند.


5. مهندسی سریع: قابلیت مدل باز کردن قفل

کیفیت خروجی یک مدل مولد به نحوه ساختار اعلان ورودی بسیار حساس است. مهندسی سریع عمل ایجاد ورودی هایی است که بهترین پاسخ ها را ایجاد می کند:

  • اعلام صفر شات: مستقیماً از مدل بخواهید یک کار را بدون مثال انجام دهد.
  • Few-Shot Prompting: 2-5 نمونه از فرمت ورودی-خروجی دلخواه را در داخل خود فرمان ارائه دهید. مدل الگو را استنباط می کند و آن را در ورودی جدید اعمال می کند.
  • زنجیره فکر (CoT): “بیایید گام به گام بیندیشیم” را اضافه کنید تا مدل را تشویق کنید تا قبل از دادن پاسخ، در مورد مسئله استدلال کند.
  • دستورالعمل‌های سیستم: مدل را با یک محدودیت شخصیتی یا رفتاری (به عنوان مثال، “شما یک مهندس ارشد امنیت هستید. دقیق و مختصر باشید.”).

6. هوش مصنوعی مولد در مقابل هوش مصنوعی سنتی: مقایسه

ابعاد هوش مصنوعی سنتی هوش مصنوعی مولد
وظیفه اولیه طبقه بندی، رگرسیون، تشخیص تولید محتوا، سنتز، استدلال
نوع خروجی برچسب، احتمال، جعبه مرزی متن، تصویر، صدا، کد، ویدئو
پارادایم آموزشی یادگیری نظارت شده (مجموعه داده های دارای برچسب) خود نظارت + RLHF (داده های عظیم بدون برچسب)
انعطاف پذیری باریک (یک کار در هر مدل) گسترده (یک مدل، وظایف متعدد)
مقیاس پارامترها هزار تا میلیون میلیاردها به تریلیون ها
ریسک های کلیدی تعصب در پیش بینی ها توهم، سوء استفاده، نگرانی های کپی رایت

7. چالش ها و محدودیت ها

علیرغم قابلیت های قابل توجه، هوش مصنوعی مولد محدودیت های قابل توجهی دارد که مهندسان باید بدانند:

  • توهم: LLMها با اطمینان می توانند اطلاعات نادرست واقعی تولید کنند، زیرا آنها برای احتمال نشانه بهینه می شوند، نه حقیقت واقعی. راه حل ها عبارتند از RAG (Retrieval-Augmented Generation) و اتصال زمین با منابع تایید شده.
  • محدودیت‌های پنجره زمینه: اگرچه مدل‌هایی مانند Gemini 1.5 Pro اکنون از زمینه‌های توکن +1M پشتیبانی می‌کنند، اکثر مدل‌های تولیدی دارای محدودیت‌هایی هستند که نیازمند خرد کردن دقیق اسناد طولانی هستند.
  • سوگیری و ایمنی: مدل ها سوگیری های موجود در داده های آموزشی آنها را منعکس می کنند. تکنیک های تراز (RLHF، Constitutional AI) کمک می کند، اما مشکل به طور کامل حل نشده است.
  • هزینه استنتاج: اجرای یک مدل تریلیون پارامتری به زیرساخت قابل توجه GPU نیاز دارد. تکنیک هایی مانند کوانتیزاسیون، رمزگشایی حدسی و تقطیر مدل این هزینه را کاهش می دهد.
  • حق نسخه‌برداری و IP: زمانی که مدل‌ها در مورد داده‌های دارای حق نسخه‌برداری آموزش می‌بینند، ممکن است محتوای محافظت‌شده را بازتولید کنند و سؤالات حقوقی حل‌نشده‌ای در مورد مالکیت معنوی ایجاد کنند.

8. آینده هوش مصنوعی مولد

خط سیر هوش مصنوعی مولد به چند پیشرفت عمده اشاره دارد:

  • هوش مصنوعی عامل: LLM های مجهز به ابزار (جستجوی وب، اجرای کد، دسترسی به فایل) در حال تبدیل شدن به عوامل مستقلی هستند که وظایف چند مرحله ای را در مدت زمان طولانی برنامه ریزی و اجرا می کنند. چارچوب‌هایی مانند LangGraph، AutoGen و کیت توسعه عامل Google (ADK) این امکان را فراهم می‌کنند.
  • **مدل‌های جهانی **: مدل‌های نسل بعدی که نمایشی فشرده و پیش‌بینی‌کننده از واقعیت فیزیکی را یاد می‌گیرند - به ربات‌ها این امکان را می‌دهند تا درباره دنیای فیزیکی استدلال کنند و با آن تعامل داشته باشند.
  • شخصی‌سازی در مقیاس: مدل‌های زبان کوچک روی دستگاه (SLM) که روی تلفن‌ها و لپ‌تاپ‌ها اجرا می‌شوند، دستیارهای هوش مصنوعی شخصی و خصوصی را بدون وابستگی به ابر فعال می‌کنند.
  • کشف علمی: مدل های مولد در حال حاضر برای طراحی پروتئین های جدید (AlphaFold 3)، پیشنهاد مولکول های دارویی جدید و تسریع تحقیقات علم مواد استفاده می شود.

نتیجه گیری

هوش مصنوعی مولد یک محصول نیست - یک الگوی محاسباتی جدید است. با یادگیری مدل‌سازی توزیع محتوای خلق‌شده توسط انسان، این سیستم‌ها می‌توانند به‌عنوان همکاران خلاق، کدگذاران خستگی‌ناپذیر، محققان پزشکی و حل‌کننده‌های مستقل عمل کنند. درک معماری و خطوط لوله آموزشی پشت این مدل‌ها دیگر برای مهندسان و فن‌آوران اختیاری نیست - دانش ضروری برای ساخت نسل بعدی نرم‌افزارهای هوشمند است.


بیشتر بینش های هوش مصنوعی را در وبلاگ غزنیکس کاوش کنید →