تعرف الكيانات المسمى (NER): من معالجة اللغة الطبيعية الكلاسيكية إلى الاستخراج المدعوم بالذكاء الاصطناعي
يعد تعرف الكيانات المسمى (Named Entity Recognition - NER) حجر الزاوية في معالجة اللغة الطبيعية (NLP). وهو عملية تحديد وتصنيف العناصر الرئيسية في النصوص غير المهيكلة تلقائيًا إلى فئات محددة مسبقًا - مثل أسماء الأشخاص، والمنظمات، والمواقع، والتواريخ، والقيم النقدية، وأسماء المنتجات.
بدون NER، ستواجه محركات البحث، ومحركات التوصية، وأنظمة تحليل المستندات المؤتمتة صعوبة في فهم “من، وماذا، وأين، ومتى” داخل النص.
فيما يلي دليل شامل لفهم NER، وكيف تطورت هذه التكنولوجيا، ولماذا أحدث الذكاء الاصطناعي التوليدي الحديث ثورة كاملة في استخراج الكيانات.
1. تطور تقنيات NER
لفهم سبب كون NER المعتمد على الذكاء الاصطناعي ثوريًا للغاية، يجب أن ننظر إلى كيفية تطور استخراج الكيانات على مدار العقود القليلة الماضية.
المرحلة الأولى: الأنظمة القائمة على القواعد والقواميس
اعتمدت أنظمة NER المبكرة على التعبيرات المنتظمة (regex) والقواميس المنسقة (gazetteers).
- كيف كانت تعمل: إذا كانت الكلمة موجودة في قاعدة بيانات المواقع، أو تطابق نمطًا مثل رقم الهاتف، يتم استخراجها.
- العيوب: غير مرنة للغاية. لم تتمكن من التقاط الكلمات التي بها أخطاء إملائية، أو الكيانات الجديدة، أو فهم السياق. على سبيل المثال، لم تتمكن من التمييز بين ما إذا كانت كلمة “تفاحة” تشير إلى الفاكهة أو إلى شركة التقنية.
المرحلة الثانية: تعلم الآلة الكلاسيكي (CRF و SVM)
في العقد الأول من القرن الحادي والعشرين، أصبحت نماذج تعلم الآلة الإحصائية مثل الحقول العشوائية الشرطية (CRFs) وآلات ناقلات الدعم (SVMs) هي المعيار.
- كيف كانت تعمل: يقوم المهندسون بصياغة الميزات يدويًا (مثل البادئة، اللاحقة، وأنماط الحروف الكبيرة) وتدريب النماذج على البيانات المصنفة للتنبؤ باحتمالية أن يكون جزء من النص كيانًا.
- العيوب: تطلبت مجموعات بيانات ضخمة مصنفة وهندسة يدوية مضنية للميزات.
المرحلة الثالثة: التعلم العميق (BiLSTM-CRF و BERT)
مع ظهور التعلم العميق، أحدثت شبكات الذاكرة الطويلة قصيرة المدى ثنائية الاتجاه (BiLSTM) المقترنة بـ CRF، ونماذج المحولات (Transformers) اللاحقة مثل BERT، ثورة في معالجة اللغة الطبيعية.
- كيف كانت تعمل: التضمينات اللغوية (embeddings) تلتقط المعنى الدلالي، والشبكات العصبية العميقة تفهم السياق. يمكن للنماذج المستندة إلى BERT تحديد “Apple” كمنظمة في جملة “أطلقت Apple هاتف iPhone جديدًا” بناءً على السياق المحيط.
- العيوب: كانت لا تزال تتطلب ضبطًا دقيقًا (fine-tuning) تحت الإشراف على مجموعات بيانات خاصة بالمجال، وافتقرت إلى المرونة لاستخراج فئات جديدة غير محددة دون إعادة التدريب.
المرحلة الرابعة: الذكاء الاصطناعي التوليدي و NER القائم على LLM
اليوم، تتعامل النماذج اللغوية الكبيرة (LLMs) مثل Gemini و GPT-4 و Llama 3 مع NER باستخدام الفهم الدلالي واتباع التعليمات.
- كيف تعمل: باستخدام التوجيه الفوري (prompting) بلقطة واحدة أو دون لقطات (Zero-shot / Few-shot)، يمكن للمستخدم توجيه النموذج اللغوي لاستخراج أي نوع كيان عشوائي وإعادته بتنسيق مهيكل (مثل JSON).
- لماذا تتفوق: تفهم بناء الجملة المعقد، وتتعامل مع الأخطاء الإملائية، وتستنتج من خلال السياق الغامض، ولا تتطلب أي بيانات تدريب للبدء.
2. مقارنة بين NER القائم على الذكاء الاصطناعي و NER الكلاسيكي
| الميزة | NER الكلاسيكي (BERT / CRF) | NER القائم على الذكاء الاصطناعي (LLMs) |
|---|---|---|
| بيانات التدريب المطلوبة | عالية (آلاف الأمثلة المصنفة) | صفرية إلى منخفضة جدًا (Zero-shot / Few-shot) |
| المرونة | جامدة (تستخرج فقط الفئات المدربة مسبقًا) | عالية للغاية (تحديد أي كيان في التوجيه) |
| فهم السياق | متوسط (نافذة سياق محلية) | عميق (يفهم السياق العام للمستند والقصد) |
| التعامل مع الكلمات خارج القاموس (OOV) | ضعيف (يواجه صعوبة مع الكلمات الجديدة) | ممتاز (يستخدم الاستدلال الدلالي) |
| زمن استجابة التنفيذ والتكلفة | سريع ورخيص (يعمل محليًا على معالجات صغيرة) | أبطأ وتكلفة أعلى (يتطلب تشغيل نماذج ضخمة) |
3. التطبيقات الرئيسية لـ NER القائم على الذكاء الاصطناعي
يتجاوز تعرف الكيانات المسمى القائم على الذكاء الاصطناعي مجرد إبراز النص البسيط. من خلال تحويل النص غير المهيكل إلى بيانات JSON مهيكلة وقابلة للتنفيذ، فإنه يتيح أتمتة قوية:
تحليل المستندات واستخراج المعلومات
تعالج المؤسسات آلاف الفواتير، والسير الذاتية، والعقود، وطلبات تقديم العروض (RFPs) يوميًا. يمكن لـ NER القائم على الذكاء الاصطناعي استخراج:
- الفواتير: المعرفات الضريبية، البنود، المبالغ الإجمالية، عناوين الفواتير.
- السير الذاتية: أسماء المرشحين، سنوات الخبرة، المهارات المحددة، الجامعات.
- العقود: تواريخ الإنهاء، حدود المسؤولية، القوانين الحاكمة، أسماء الموقعين.
بناء الرسوم البيانية للمعرفة (Knowledge Graphs)
من خلال استخراج الكيانات والعلاقات بينها (مثل، [Jennifer Lee] -> [تعمل في] -> [Acme Innovations])، يعمل NER كمنحرك إدخال أساسي لرسوم المعرفة البيانية، والتي يتم إقرانها بشكل متزايد مع GraphRAG للبحث المتقدم في المؤسسات.
تحسين RAG وتوسيم البيانات الوصفية (Metadata)
في أنظمة التوليد المعزز بالاسترجاع (RAG)، تؤدي فهرسة المستندات باستخدام علامات البيانات الوصفية (مثل المؤلف، وإصدار المنتج، والبلد، والتقنية) إلى تحسين دقة الاسترجاع بشكل كبير. يقوم NER القائم على الذكاء الاصطناعي بإنشاء هذه العلامات تلقائيًا على نطاق واسع أثناء إدخال المستندات.
معالجة اللغة الطبيعية السريرية والطبية
يستخدم مقدمو الرعاية الصحية NER لاستخراج أعراض المرضى، وجرعات الأدوية، والتاريخ الطبي، والتشخيصات من ملاحظات الأطباء مع تنقيح معلومات الصحة الشخصية (PHI) تلقائيًا للامتثال للوائح الخصوصية.
4. كيف يعمل NER القائم على الذكاء الاصطناعي (سير العمل)
يعتمد NER الحديث القائم على الذكاء الاصطناعي على توجيه النموذج اللغوي بتعليمات النظام ومخطط مستهدف لفرض مخرجات مهيكلة.
[نص غير مهيكل] ──> [النموذج اللغوي + تعليمات النظام + مخطط JSON] ──> [مخرجات JSON مهيكلة]
- النص المدخل: النص الخام المراد معالجته.
- التوجيه والمخطط: نحدد الكيانات التي نريد استخراجها (مثل الاسم، الشركة، التاريخ) والتنسيق الدقيق الذي نحتاجه (مثل JSON).
- استخراج النموذج: يقوم النموذج بالتحليل الدلالي، وتحديد الكيانات، وحل الغموض، وتنسيق المخرجات.
- JSON المهيكل: المخرجات جاهزة للتخزين مباشرة في قاعدة بيانات أو تمريرها إلى واجهة برمجة التطبيقات (API).
5. مثال على التنفيذ: NER القائم على الذكاء الاصطناعي في Python
فيما يلي مثال بسيط بلغة python لكيفية إجراء NER قائم على الذكاء الاصطناعي باستخدام مخططات مخرجات JSON المهيكلة:
import json
from google import genai
from google.genai import types
from pydantic import BaseModel
# تهيئة عميل Gemini
client = genai.Client()
# تحديد الهيكل المستهدف باستخدام Pydantic
class EntityExtraction(BaseModel):
people: list[str]
organizations: list[str]
locations: list[str]
dates: list[str]
text_content = """
في 14 مارس 2024، تم تعيين جينيفر لي كنائب رئيس جديد للهندسة في
شركة Acme Innovations Inc.، الواقعة في كيوتو، اليابان. وستخلف ديفيد ميلر.
"""
# طلب مخرجات مهيكلة من Gemini
response = client.models.generate_content(
model='gemini-2.5-flash',
contents=text_content,
config=types.GenerateContentConfig(
system_instruction="استخرج جميع الأشخاص والمؤسسات والمواقع والتواريخ من النص.",
response_mime_type="application/json",
response_schema=EntityExtraction,
),
)
# تحليل وطباعة نتيجة JSON النظيفة
entities = json.loads(response.text)
print(json.dumps(entities, indent=2))
المخرجات:
{
"people": ["Jennifer Lee", "David Miller"],
"organizations": ["Acme Innovations Inc."],
"locations": ["Kyoto", "Japan"],
"dates": ["March 14, 2024"]
}
خاتمة
تطور تعرف الكيانات المسمى من عمليات البحث في القواميس الثابتة إلى قدرة دلالية ديناميكية مدعومة بالذكاء الاصطناعي. اليوم، يمكن للمؤسسات استخراج كيانات معقدة خاصة بالمجال من المستندات غير المنظمة دون الحاجة لبيانات تدريب. من خلال دمج NER القائم على الذكاء الاصطناعي في سير عملك، يمكنك تحويل ملفات النصوص غير المهيكلة إلى إدخالات قاعدة بيانات مهيكلة، مما يفتح مستويات جديدة من الأتمتة وذكاء الأعمال.