זיהוי ישויות נקובות (NER): מ-NLP קלאסי לחילוץ מבוסס בינה מלאכותית

איור של זיהוי ישויות נקובות (NER) וחילוץ נתונים באמצעות בינה מלאכותית

זיהוי ישויות נקובות (Named Entity Recognition - NER) הוא אבן יסוד בעיבוד שפה טבעית (NLP). זהו התהליך של זיהוי וסיווג אוטומטי של אלמנטים מרכזיים בטקסט לא מובנה לקטגוריות מוגדרות מראש - כגון שמות של אנשים, ארגונים, מיקומים, תאריכים, ערכים כספיים ושמות מוצרים.

ללא NER, מנועי חיפוש, מנועי המלצות ומערכות אוטומטיות לניתוח מסמכים יתקשו להבין מי, מה, איפה ומתי בתוך טקסט.

להלן מדריך מקיף להבנת NER, כיצד הטכנולוגיה התפתחה, ומדוע הבינה המלאכותית היוצרת (Generative AI) המודרנית שינתה לחלוטין את חילוץ הישויות.


1. האבולוציה של טכניקות NER

כדי להבין מדוע NER מבוסס בינה מלאכותית הוא כה מהפכני, עלינו להסתכל על האופן שבו חילוץ הישויות התפתח במהלך העשורים האחרונים.

שלב 1: מערכות מבוססות חוקים ומילונים

מערכות NER מוקדמות הסתמכו על ביטויים רגולריים (regex) ומילונים מנוהלים (gazetteers).

  • איך זה עבד: אם מילה הייתה קיימת במסד נתונים של מיקומים, או התאימה לתבנית כמו מספר טלפון, היא חולצה.
  • מגבלות: שביר מאוד. לא יכל לקלוט מילים עם שגיאות כתיב, ישויות חדשות או להבין את ההקשר. לדוגמה, המערכת לא יכלה להבחין אם “Apple” מתייחס לפרי או לחברת הטכנולוגיה.

שלב 2: למידת מכונה קלאסית (CRF ו-SVM)

בשנות ה-2000, מודלים סטטיסטיים של למידת מכונה כמו שדות אקראיים מותנים (CRFs) ומכונות וקטורים תומכים (SVMs) הפכו לתקן.

  • איך זה עבד: מהנדסים הגדירו מאפיינים באופן ידני (למשל, קידומת, סיומת, תבניות של אותיות גדולות) ואימנו מודלים על נתונים מתויגים כדי לחזות את ההסתברות של תת-מחרוזת להיות חלק מישות.
  • מגבלות: נדרשו מאגרי נתונים מתויגים עצומים והנדסת מאפיינים ידנית מייגעת.

שלב 3: למידה עמוקה (BiLSTM-CRF ו-BERT)

עם עליית הלמידה העמוקה, רשתות זיכרון ארוך-טווח קצר-טווח דו-כיווניות (BiLSTM) בשילוב עם CRF, ומאוחר יותר מודלים של Transformer כמו BERT, חוללו מהפכה ב-NLP.

  • איך זה עבד: ייצוגים וקטוריים של מילים (embeddings) קלטו משמעות סמנטית, ורשתות עצביות עמוקות הבינו את ההקשר. מודלים מבוססי BERT יכלו לזהות את “Apple” כארגון במשפט “Apple השיקה אייפון חדש” על סמך ההקשר שמסביב.
  • מגבלות: עדיין נדרש כוונון עדין (fine-tuning) תחת פיקוח על נתונים ספציפיים לתחום, והיה חסר גמישות לחילוץ קטגוריות חדשות ולא מוגדרות ללא אימון מחדש.

שלב 4: בינה מלאכותית יוצרת ו-NER מבוסס LLM

כיום, מודלי שפה גדולים (LLMs) כמו Gemini, GPT-4 ו-Llama 3 מטפלים ב-NER באמצעות הבנה סמנטית ומעקב אחר הוראות.

  • איך זה עובד: באמצעות הנחיות Zero-shot או Few-shot, משתמש יכול להורות ל-LLM לחלץ כל סוג ישות שרירותי ולהחזיר אותו בפורמט מובנה (כמו JSON).
  • מדוע זה מנצח: המודל מבין תחביר מורכב, מתמודד עם שגיאות כתיב, מסיק מסקנות מהקשרים מעורפלים, ואינו דורש נתוני אימון כלל כדי להתחיל.

2. השוואה: NER מבוסס בינה מלאכותית לעומת NER קלאסי

תכונה NER קלאסי (BERT / CRF) NER מבוסס בינה מלאכותית (LLMs)
נתוני אימון נדרשים גבוה (אלפי דוגמאות מתויגות) אפס עד נמוך מאוד (Zero-shot / Few-shot)
גמישות נוקשה (מחלץ רק קטגוריות שעבר עליהן אימון מראש) גבוהה ביותר (הגדרת כל ישות בתוך ההנחיה)
הבנת הקשר בינונית (חלון הקשר מקומי) עמוקה (מבין את הקשר המסמך הגלובלי והכוונה)
טיפול במילים מחוץ למילון (OOV) חלש (מתקשה עם מילים חדשות שלא נראו) מצוין (משתמש בחשיבה סמנטית)
זמן תגובה ועלות מהיר וזול (רץ מקומית על מעבדים קטנים) איטי יותר ועלות גבוהה יותר (דורש חישוב במודלים גדולים)

3. יישומים מרכזיים של NER מבוסס בינה מלאכותית

זיהוי ישויות נקובות מבוסס בינה מלאכותית חורג מעבר להדגשת טקסט פשוטה. על ידי המרת טקסט לא מובנה לנתוני JSON מובנים ושימושיים, הוא מאפשר אוטומציה עוצמתית:

ניתוח מסמכים וחילוץ מידע

ארגונים מעבדים אלפי חשבוניות, קורות חיים, חוזים ומסמכי בקשה להצעות מחיר (RFPs) מדי יום. NER מבוסס בינה מלאכותית יכול לחלץ:

  • חשבוניות: מספרי עוסק מורשה, פריטים, סכומים כוללים, כתובות לחיוב.
  • קורות חיים: שמות מועמדים, שנות ניסיון, כישורים ספציפיים, אוניברסיטאות.
  • חוזים: תאריכי סיום, גבולות אחריות, חוקים חלים, שמות החותמים.

בניית גרפי ידע (Knowledge Graphs)

על ידי חילוץ ישויות והקשרים ביניהן (למשל, [Jennifer Lee] -> [עובדת ב] -> [Acme Innovations]), NER מבוסס בינה מלאכותית משמש כמנוע הקליטה הבסיסי עבור גרפי ידע, אשר משולבים יותר ויותר עם GraphRAG לחיפוש ארגוני מתקדם.

RAG משופר ותיוג מטא-נתונים (Metadata)

במערכות Retrieval-Augmented Generation (RAG), אינדוקס מסמכים עם תגי מטא-נתונים (כמו מחבר, גרסת מוצר, מדינה וטכנולוגיה) משפר משמעותית את דיוק השליפה. NER מבוסس בינה מלאכותית מייצר את התגים הללו באופן אוטומטי בקנה מידה רחב במהלך קליטת המסמכים.

NLP קליני ורפואי

ספקי שירותי בריאות משתמשים ב-NER כדי לחלץ תסמיני מטופלים, מינוני תרופות, היסטוריה רפואית ואבחנות מתוך סיכומי רופאים תוך הסתרה אוטומטית של מידע בריאותי אישי (PHI) כדי לעמוד בתקנות הפרטיות.


4. כיצד פועל NER מבוסס בינה מלאכותית (זרימת העבודה)

NER מודרני מבוסס בינה מלאכותית מסתמך על הנחיית LLM עם הוראות מערכת וסכמת יעד לאכיפת פלט מובנה.

[טקסט לא מובנה] ──> [LLM + הוראות מערכת + סכמת JSON] ──> [פלט JSON מובנה]
  1. טקסט קלט: הטקסט הגולמי לעיבוד.
  2. הנחיית מערכת וסכמה: אנו מגדירים את הישויות שאנו רוצים לחלץ (למשל, שם, חברה, תאריך) ואת הפורמ트 המדויק שאנו צריכים (כמו JSON).
  3. חילוץ ע"י ה-LLM: המודל מבצע ניתוח סמנטי, מזהה את הישויות, פותר עמימות ומעצב את הפלט.
  4. JSON מובנה: הפלט מוכן לאחסון ישירות במסד נתונים או להעברה ל-API.

5. דוגמת מימוש: NER מבוסס בינה מלאכותית בפייתון

להלן דוגמה פשוטה בפייתון לביצוע NER מבוסס בינה מלאכותית באמצעות סכמת פלט JSON מובנית:

import json
from google import genai
from google.genai import types
from pydantic import BaseModel

# אתחול לקוח Gemini
client = genai.Client()

# הגדרת מבנה היעד באמצעות Pydantic
class EntityExtraction(BaseModel):
    people: list[str]
    organizations: list[str]
    locations: list[str]
    dates: list[str]

text_content = """
ב-14 במרץ 2024, ג'ניפר לי מונתה לסגנית נשיא חדשה להנדסה ב-
Acme Innovations Inc., הממוקמת בקיוטו, יפן. היא תחליף את דוד מילר.
"""

# בקשת פלט מובנה מ-Gemini
response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=text_content,
    config=types.GenerateContentConfig(
        system_instruction="חלץ את כל האנשים, הארגונים, המיקומים והתאריכים מהטקסט.",
        response_mime_type="application/json",
        response_schema=EntityExtraction,
    ),
)

# ניתוח והדפסת תוצאת ה-JSON הנקייה
entities = json.loads(response.text)
print(json.dumps(entities, indent=2))

פלט:

{
  "people": ["Jennifer Lee", "David Miller"],
  "organizations": ["Acme Innovations Inc."],
  "locations": ["Kyoto", "Japan"],
  "dates": ["March 14, 2024"]
}

סיכום

זיהוי ישויות נקובות התפתח מחיפושי מילים במילונים סטטיים ליכולת סמנטית דינמית המונעת על ידי בינה מלאכותית. כיום, ארגונים יכולים לחלץ ישויות מורכבות ספציפיות לתחום מתוך מסמכים מבולגנים ללא נתוני אימון כלל. על ידי שילוב NER מבוסס בינה מלאכותית בתהליכי העבודה שלכם, תוכלו להפוך קובצי טקסט לא מובנים לרשומות מסד נתונים מובנות, ולפתוח רמות חדשות של אוטומציה ובינה עסקית.


חקרו תובנות בינה מלאכותית נוספות בבלוג של Ghaznix →