شرح الذكاء الاصطناعي التوليدي: كيف تتعلم الآلات كيفية الإنشاء

الذكاء الاصطناعي التوليدي – كيف تتعلم الآلات كيفية الإبداع

يعد الذكاء الاصطناعي التوليدي أحد أكثر التحولات التكنولوجية التحويلية في القرن الحادي والعشرين. على عكس أنظمة الذكاء الاصطناعي التقليدية التي تقوم بالتصنيف أو التنبؤ أو الكشف، ينشئ الذكاء الاصطناعي التوليدي — النصوص والصور والصوت والفيديو والتعليمات البرمجية، وحتى الهياكل ثلاثية الأبعاد. إنها التقنية التي تكمن وراء كتابة مقالات ChatGPT، ورسم Midjourney للفن الواقعي، وGitHub Copilot الذي يكمل وظائف كاملة من تعليق.

يشرح هذا الدليل ما هو الذكاء الاصطناعي التوليدي، وكيف يعمل تحت الغطاء، والبنى النموذجية الرئيسية التي تدعمه، وإلى أين يتجه.


1. ما هو الذكاء الاصطناعي التوليدي؟

يشير الذكاء الاصطناعي التوليدي إلى فئة من نماذج الذكاء الاصطناعي التي تتعلم التوزيع الإحصائي لبيانات التدريب ثم تنشئ محتوى جديدًا يتبع نفس التوزيع.

بعبارات أبسط: إذا قمت بتدريب نموذج على ملايين الصور الفوتوغرافية للوجوه البشرية، فإنه يتعلم أنماط شكل الوجه - موضع العيون، وشكل الأنف، وملمس الجلد - ويمكنه بعد ذلك إنشاء وجه جديد تمامًا لم يكن موجودًا من قبل.

الفرق الرئيسي بين النماذج التمييزية والتوليدية:

الذكاء الاصطناعي التمييزي الذكاء الاصطناعي التوليدي
يتعلم الحدود بين الطبقات يتعلم توزيع البيانات الكاملة
الإدخال → التسمية / الفئة موجه الإدخال → محتوى جديد (نص، صورة، صوت)
مثال: مصنف الصور، مرشح البريد العشوائي مثال: GPT-4، الانتشار المستقر، الجوزاء
الجواب: “هل هذه قطة؟” → نعم/لا الإجابة: “إنشاء لوحة لقطة ترتدي بدلة فضائية”

2. البنى الأساسية وراء الذكاء الاصطناعي التوليدي

الذكاء الاصطناعي التوليدي الحديث ليس تقنية واحدة، بل هو مجموعة من البنى المتميزة، كل منها مناسب لمجالات مختلفة.

2.1 نماذج اللغة المعتمدة على المحولات (LLMs)

تُعد بنية Transformer، التي تم تقديمها في ورقة بحثية مميزة لعام 2017 “الانتباه هو كل ما تحتاجه” بقلم Vaswani وآخرون، أساس كل نموذج لغة رئيسي اليوم بما في ذلك GPT-4 وGemini وClaude وLlama.

كيفية العمل:

  1. الترميز: يتم تقسيم نص الإدخال إلى رموز مميزة (وحدات كلمات فرعية). قد يصبح “الذكاء الاصطناعي التوليدي” ["Genera", "tive", " AI"].
  2. التضمين: يتم تحويل كل رمز مميز إلى متجه رقمي عالي الأبعاد يلتقط معناه.
  3. آلية الانتباه الذاتي: يحسب كل رمز العلاقات (درجات الانتباه) مع كل رمز مميز آخر في التسلسل. يتيح ذلك للنموذج فهم أن “البنك” في “ضفة النهر” يختلف عن “البنك” في “الحساب البنكي”.
  4. طبقات التغذية الأمامية: يمر كل موضع عبر شبكة تغذية للأمام غير خطية لاستخراج الميزات المعقدة.
  5. التنبؤ بالرمز التالي: يتم تدريب نماذج الانحدار التلقائي مثل GPT للتنبؤ بالرمز المميز التالي الأكثر احتمالاً، وتكرار هذه العملية حتى اكتمال الإخراج.

حجم LLMs الحديث مذهل:

  • GPT-4: يقدر بحوالي 1.8 تريليون معلمة
  • Google Gemini Ultra: تريليونات من المعلمات عبر بنية مزيج من الخبراء
  • اللاما 3.1 405B: 405 مليار معلمة، مفتوحة المصدر

2.2 نماذج الانتشار (الصور والصوت)

نماذج Diffusion للأدوات الكهربائية مثل Stable Diffusion وDALL-E 3 وMidjourney. يتعلمون كيفية إنشاء الصور من خلال عملية من مرحلتين:

** العملية المستقبلية (التدريب):**

  • يتم إتلاف الصورة الحقيقية تدريجيًا عن طريق إضافة تشويش غاوسي عبر العديد من الخطوات (على سبيل المثال، 1000 خطوة).
  • في الخطوة الأخيرة، تكون الصورة عبارة عن ضوضاء عشوائية خالصة.
  • يتعلم النموذج التنبؤ بالضوضاء المضافة في كل خطوة.

** العملية العكسية (الجيل): **

  • البدء من الضوضاء العشوائية النقية.
  • تقليل الضوضاء من الصورة بشكل متكرر، مسترشدًا بمطالبة نصية مشفرة بواسطة نموذج لغة (مثل CLIP).
  • بعد 20-50 خطوة لتقليل الضوضاء، تظهر صورة واقعية مطابقة للموجه.

يتم تحقيق تكييف النص عبر طبقات Cross-Attention داخل العمود الفقري لـ U-Net (أو DiT — Diffusion Transformer)، والتي تسمح بتوجيه أداة التنبؤ بالضوضاء من خلال المعنى الدلالي للموجه.

2.3 شبكات الخصومة التوليدية (GANs)

قبل أن تصبح نماذج الانتشار هي المهيمنة، كانت شبكات GAN (التي قدمها إيان جودفيلو في عام 2014) هي المعيار الذهبي لتركيب الصور.

تتكون شبكات GAN من شبكتين عصبيتين متنافستين تم تدريبهما في وقت واحد:

  • المولد (G): يأخذ ضوضاء عشوائية كمدخل وينتج صورة مزيفة، في محاولة لخداع أداة التمييز.
  • Discriminator (D): يلتقط الصور الحقيقية والمزيفة ويحاول التمييز بينها.

من خلال حلقة التدريب العدائية هذه، يتعلم المولد تدريجيًا كيفية إنتاج صور أكثر واقعية. الهدف التدريبي هو لعبة minimax:

min_G max_D [E[log D(x)] + E[log(1 - D(G(z)))]]

حدود شبكات GAN: عدم استقرار التدريب (انهيار الوضع، واختفاء التدرجات) وصعوبة توليد مخرجات شديدة التنوع جعلتها أقل ملاءمة من نماذج الانتشار لتوليد المجال المفتوح.

2.4 أجهزة التشفير التلقائي المتغيرة (VAEs)

توفر VAEs إطارًا احتماليًا لتعلم مساحة كامنة مضغوطة تلتقط البنية الأساسية للبيانات. وهي تتكون من:

  • جهاز التشفير: يضغط بيانات الإدخال في متجه المتوسط (μ) والتباين (σ) في مساحة كامنة منخفضة الأبعاد.
  • وحدة فك التشفير: تعيد بناء البيانات من نقطة تم أخذ عينات منها من التوزيع الكامن.

تُستخدم VAEs على نطاق واسع كمكون ضمن أنظمة أكبر - على سبيل المثال، يدير Stable Diffusion عملية الانتشار الخاصة به داخل المساحة الكامنة المضغوطة لـ VAE (تسمى نماذج الانتشار الكامنة)، مما يجعل العملية أسرع بشكل كبير.


3. كيف يتم تدريب طلاب ماجستير القانون: خط الأنابيب ثلاثي المراحل

تمر نماذج اللغات الكبيرة الحديثة بثلاث مراحل تدريب متميزة قبل أن تصل إلى المستخدمين:

المرحلة الأولى: التدريب المسبق (التعلم من العالم)

يتم تدريب النموذج على مجموعة ضخمة من النصوص (تريليونات الرموز المميزة المستخرجة من الكتب ومواقع الويب والأكواد والأوراق العلمية) باستخدام التعلم الخاضع للإشراف الذاتي. المهمة بسيطة: التنبؤ بالرمز التالي. ليست هناك حاجة إلى تسميات بشرية. وهذا يعلم نموذج المعرفة العالمية والقواعد وأنماط التفكير والقدرة على الترميز.

المرحلة الثانية: الضبط الدقيق تحت الإشراف (SFT)

يقوم المدربون البشريون بإنشاء الآلاف من أزواج الاستجابة السريعة عالية الجودة التي توضح سلوك الذكاء الاصطناعي المثالي. يتم بعد ذلك ضبط النموذج المُدرب مسبقًا على هذه البيانات لمعرفة التنسيق والنبرة المتوقعين للمساعدة في المحادثة.

المرحلة 3: تعزيز التعلم من الملاحظات الإنسانية (RLHF)

  • يقوم المقيمون البشريون بمقارنة أزواج من الاستجابات النموذجية وترتيب أيهما أفضل.
  • تقوم هذه التصنيفات بتدريب نموذج المكافأة (RM) الذي يسجل جودة الاستجابة.
  • يتم بعد ذلك تحسين نموذج اللغة باستخدام تحسين السياسة القريبة (PPO) لإنشاء استجابات تعمل على زيادة درجة نموذج المكافأة إلى الحد الأقصى.
  • هذه المرحلة هي التي تجعل مخرجات النموذج متوافقة مع التفضيلات البشرية، مما يجعلها مفيدة وغير ضارة وصادقة.

4. قدرات الذكاء الاصطناعي التوليدية الرئيسية

إنشاء النص

يمكن لحاملي LLM مثل GPT-4 وGemini كتابة المقالات وتلخيص المستندات والإجابة على الأسئلة وترجمة اللغات وكتابة التعليمات البرمجية والتفكير من خلال مشكلات معقدة متعددة الخطوات. تستخدم النماذج المتقدمة سلسلة الأفكار (CoT) التي تطالب بإظهار أسبابها، مما يؤدي إلى تحسين الدقة بشكل كبير في المهام المنطقية والرياضية.

إنشاء الصور والفيديو

يمكن لنماذج الانتشار إنشاء صور واقعية، ورسوم توضيحية فنية، والآن تسلسلات فيديو كاملة (على سبيل المثال، Google Veo، وOpenAI Sora). تعمل نماذج تحويل النص إلى فيديو على مساحات كامنة مكانية وزمانية، مما يؤدي إلى توسيع عملية تقليل الضوضاء عبر الزمان والمكان.

توليد الكود

يمكن للنماذج التي تم ضبطها بدقة على التعليمات البرمجية (على سبيل المثال، GitHub Copilot المدعوم من Codex، وGemini Code Assist) إكمال الوظائف تلقائيًا، وإنشاء وحدات كاملة من أوصاف اللغة الطبيعية، وكتابة اختبارات الوحدة، وشرح التعليمات البرمجية الموجودة.

توليد الصوت والموسيقى

تُظهر نماذج مثل Whisper من OpenAI (تحويل الكلام إلى نص) وMusicGen (مطالبات الموسيقى من النص) أن النموذج التوليدي يمتد بسلاسة إلى المجال الصوتي، ويعمل على المخططات الطيفية أو الرموز الصوتية.

جيل متعدد الوسائط

تتمثل حدود الذكاء الاصطناعي التوليدي في نماذج متعددة الوسائط — وهي أنظمة يمكنها معالجة وإنشاء النصوص والصور والصوت والفيديو في وقت واحد. يمكن لنماذج مثل Gemini 1.5 Pro التفكير في مقطع فيديو مدته ساعتان وقاعدة تعليمات برمجية ومستند PDF في نافذة سياق واحدة تضم مليون رمز مميز.


5. الهندسة السريعة: إطلاق العنان لقدرات النموذج

تعد جودة مخرجات النموذج التوليدي حساسة للغاية لكيفية تنظيم موجه الإدخال. الهندسة السريعة هي ممارسة صياغة المدخلات التي تثير أفضل الاستجابات:

  • مطالبة Zero-Shot: اطلب مباشرةً من النموذج تنفيذ مهمة بدون أمثلة.
  • مطالبة قليلة اللقطات: قدم من 2 إلى 5 أمثلة لتنسيق الإدخال والإخراج المطلوب داخل الموجه نفسه. يستنتج النموذج النمط ويطبقه على مدخلات جديدة.
  • سلسلة الأفكار (CoT): أضف عبارة “دعونا نفكر خطوة بخطوة” لتشجيع النموذج على التفكير في المشكلة قبل تقديم إجابة.
  • تعليمات النظام: قم بإعداد النموذج باستخدام قيود شخصية أو سلوكية (على سبيل المثال، “أنت مهندس أمني كبير. كن دقيقًا ومختصرًا.”).

6. الذكاء الاصطناعي التوليدي مقابل الذكاء الاصطناعي التقليدي: مقارنة

البعد الذكاء الاصطناعي التقليدي الذكاء الاصطناعي التوليدي
المهمة الأساسية التصنيف والانحدار والكشف توليد المحتوى، التوليف، الاستدلال
نوع الإخراج التسمية، الاحتمالية، المربع المحيط نص، صورة، صوت، كود، فيديو
نموذج التدريب التعلم الخاضع للإشراف (مجموعات البيانات المسماة) الإشراف الذاتي + RLHF (بيانات ضخمة غير مسماة)
المرونة ضيق (مهمة واحدة لكل نموذج) واسع (نموذج واحد، مهام متعددة)
مقياس المعلمات الآلاف إلى الملايين مليارات إلى تريليونات
المخاطر الرئيسية التحيز في التوقعات الهلوسة وسوء الاستخدام ومخاوف حقوق النشر

7. التحديات والقيود

على الرغم من القدرات الرائعة، فإن الذكاء الاصطناعي التوليدي له حدود كبيرة يجب على المهندسين فهمها:

  • الهلوسة: يستطيع حاملو شهادة الماجستير في القانون توليد معلومات غير صحيحة من الناحية الواقعية بثقة، نظرًا لأنهم يقومون بتحسين الاحتمالية الرمزية، وليس الحقيقة الواقعية. تشمل الحلول RAG (جيل الاسترجاع المعزز) والتأريض بمصادر تم التحقق منها.
  • حدود نافذة السياق: على الرغم من أن نماذج مثل Gemini 1.5 Pro تدعم الآن أكثر من مليون سياق رمزي، إلا أن معظم نماذج الإنتاج لها حدود تتطلب تقسيمًا دقيقًا للمستندات الطويلة.
  • التحيز والسلامة: تعكس النماذج التحيزات الموجودة في بيانات التدريب الخاصة بها. تساعد تقنيات المحاذاة (RLHF، والذكاء الاصطناعي الدستوري)، لكن المشكلة لم يتم حلها بالكامل.
  • تكلفة الاستدلال: يتطلب تشغيل نموذج تريليون معلمة بنية تحتية كبيرة لوحدة معالجة الرسومات. تقنيات مثل التكميم، وفك التشفير التأملي، والتقطير النموذجي تقلل من هذه التكلفة.
  • حقوق الطبع والنشر والملكية الفكرية: عند التدريب على البيانات المحمية بحقوق الطبع والنشر، قد تقوم النماذج بإعادة إنتاج محتوى محمي، مما يثير أسئلة قانونية لم يتم حلها حول الملكية الفكرية.

8. مستقبل الذكاء الاصطناعي التوليدي

يشير مسار الذكاء الاصطناعي التوليدي نحو عدة تطورات رئيسية:

  • الذكاء الاصطناعي الوكيل: تتطور برامج LLM المجهزة بالأدوات (البحث على الويب، وتنفيذ التعليمات البرمجية، والوصول إلى الملفات) إلى وكلاء مستقلين يخططون وينفذون مهام متعددة الخطوات على مدى فترات طويلة. تعمل أطر العمل مثل LangGraph وAutoGen وGoogle’s Agent Development Kit (ADK) على تمكين ذلك.
  • النماذج العالمية: نماذج من الجيل التالي تتعلم التمثيل المضغوط والتنبؤي للواقع المادي، مما يمكّن الروبوتات من التفكير في العالم المادي والتفاعل معه.
  • التخصيص على نطاق واسع: تعمل نماذج اللغات الصغيرة (SLM) الموجودة على الجهاز والتي تعمل على الهواتف وأجهزة الكمبيوتر المحمولة على تمكين مساعدي الذكاء الاصطناعي الخاصين والمخصصين دون الاعتماد على السحابة.
  • الاكتشاف العلمي: يتم حاليًا استخدام النماذج التوليدية لتصميم بروتينات جديدة (AlphaFold 3)، واقتراح جزيئات دوائية جديدة، وتسريع أبحاث علوم المواد.

خاتمة

الذكاء الاصطناعي التوليدي ليس منتجًا، بل هو نموذج حوسبة جديد. ومن خلال تعلم كيفية تصميم نموذج لتوزيع المحتوى الذي ينشئه الإنسان، أصبحت هذه الأنظمة قادرة على العمل كمتعاونين مبدعين، ومبرمجين لا يكلون، وباحثين طبيين، وحلالين مستقلين للمشكلات. لم يعد فهم البنية التحتية وخطوط التدريب وراء هذه النماذج أمرًا اختياريًا للمهندسين والتقنيين، بل أصبح بمثابة معرفة أساسية لبناء الجيل التالي من البرامج الذكية.


استكشف المزيد من رؤى الذكاء الاصطناعي على مدونة غازنيكس →