생성적 AI 설명: 기계가 창조하는 법을 배우는 방법
생성적 AI(Generative AI)는 21세기 가장 혁신적인 기술 변화 중 하나입니다. 분류, 예측, 감지하는 기존 AI 시스템과 달리 제너레이티브 AI는 텍스트, 이미지, 오디오, 비디오, 코드는 물론 3차원 구조까지 생성합니다. ChatGPT의 기사 작성, Midjourney의 사실적인 예술 그림, GitHub Copilot이 댓글을 통해 전체 기능을 완성하는 기술입니다.
이 가이드에서는 Generative AI가 무엇인지, 내부적으로 어떻게 작동하는지, 이를 지원하는 주요 모델 아키텍처 및 향하고 있는 방향에 대해 설명합니다.
1. 생성 AI란?
생성적 AI는 훈련 데이터의 통계적 분포를 학습한 다음 동일한 분포를 따르는 새로운 콘텐츠를 생성하는 인공 지능 모델 클래스를 의미합니다.
간단히 말해서, 수백만 장의 인간 얼굴 사진으로 모델을 훈련시키면 눈의 위치, 코의 모양, 피부 질감 등 얼굴의 패턴을 학습한 다음 이전에는 존재하지 않았던 완전히 새로운 얼굴을 생성할 수 있습니다.
차별 모델과 생성 모델의 주요 차이점은 다음과 같습니다.
| 차별적 AI | 생성적 AI |
|---|---|
| 클래스 간의 경계를 학습합니다 | 전체 데이터 분포를 학습합니다 |
| 입력 → 라벨/카테고리 | 입력 프롬프트 → 새 콘텐츠(텍스트, 이미지, 오디오) |
| 예: 이미지 분류기, 스팸 필터 | 예: GPT-4, 안정 확산, Gemini |
| 답: “이것은 고양이인가요?” → 예/아니요 | 답변: “우주복을 입은 고양이 그림을 생성하세요” |
2. 생성적 AI의 핵심 아키텍처
현대 제너레이티브 AI는 단일 기술이 아닙니다. 서로 다른 도메인에 적합한 고유한 아키텍처 제품군입니다.
2.1 변환기 기반 언어 모델(LLM)
Vaswani 등의 획기적인 2017년 논문 *“Attention is All You Need”*에 소개된 Transformer 아키텍처는 GPT-4, Gemini, Claude 및 Llama를 포함한 오늘날 모든 주요 언어 모델의 기초입니다.
작동 방식:
- 토큰화: 입력 텍스트가 토큰(하위 단어 단위)으로 구분됩니다. “생성 AI"는
["Genera", "tive", " AI"]이 될 수 있습니다. - 임베딩: 각 토큰은 해당 의미를 포착하는 고차원 수치 벡터로 변환됩니다.
- Self-Attention 메커니즘: 각 토큰은 시퀀스의 다른 모든 토큰과의 관계(주의 점수)를 계산합니다. 이를 통해 모델은 “강둑"의 “은행"이 “은행 계좌"의 “은행"과 다르다는 것을 이해할 수 있습니다.
- 피드포워드 레이어: 각 위치는 비선형 피드포워드 네트워크를 통과하여 복잡한 특징을 추출합니다.
- 다음 토큰 예측: GPT와 같은 자동 회귀 모델은 가능성이 가장 높은 다음 토큰을 예측하도록 훈련되어 출력이 완료될 때까지 이 프로세스를 반복합니다.
현대 LLM의 규모는 엄청납니다.
- GPT-4: 약 1조 8천억 개의 매개변수 추정
- Google Gemini Ultra: 전문가 혼합 아키텍처를 통한 수조 개의 매개변수
- Llama 3.1 405B: 4,050억 개의 매개변수, 오픈 소스
2.2 확산 모델(이미지 및 오디오)
확산 모델은 Stable Diffusion, DALL-E 3 및 Midjourney와 같은 강력한 도구입니다. 학생들은 2단계 프로세스를 통해 이미지를 생성하는 방법을 배웁니다.
전달 프로세스(교육):
- 실제 이미지는 여러 단계(예: 1,000단계)에 걸쳐 가우스 노이즈를 추가하여 점진적으로 손상됩니다.
- 마지막 단계에서 이미지는 순수한 랜덤 노이즈입니다.
- 모델은 각 단계에서 추가되는 노이즈를 예측하는 방법을 학습합니다.
역방향 프로세스(생성):
- 순수한 무작위 노이즈에서 시작합니다.
- 언어 모델(예: CLIP)에 의해 인코딩된 텍스트 프롬프트에 따라 반복적으로 이미지의 노이즈를 제거합니다.
- 20~50단계의 노이즈 제거 단계를 거치면 프롬프트에 맞는 사실적인 이미지가 나타납니다.
텍스트 조건화는 U-Net(또는 DiT — 확산 변환기) 백본 내부의 Cross-Attention 레이어를 통해 이루어지며, 이를 통해 프롬프트의 의미론적 의미에 따라 노이즈 예측기를 조정할 수 있습니다.
2.3 생성적 적대 신경망(GAN)
확산 모델이 주류를 이루기 전에는 GANs(2014년 Ian Goodfellow가 도입)이 이미지 합성의 표준이었습니다.
GAN은 동시에 훈련된 두 개의 경쟁 신경망으로 구성됩니다.
- 생성기(G): 임의의 노이즈를 입력으로 받아 가짜 이미지를 생성하여 판별자를 속이려고 합니다.
- 판별기(D): 실제 이미지와 가짜 이미지를 모두 촬영하여 구별하려고 합니다.
이러한 적대적 훈련 루프를 통해 생성기는 보다 사실적인 이미지를 생성하는 방법을 점진적으로 학습합니다. 훈련 목표는 미니맥스 게임입니다:
min_G max_D [E[log D(x)] + E[log(1 - D(G(z)))]]
GAN의 한계: 훈련 불안정성(모드 붕괴, 경사 소멸)과 매우 다양한 출력 생성의 어려움으로 인해 개방형 도메인 생성을 위한 확산 모델보다 적합하지 않았습니다.
2.4 변형 자동 인코더(VAE)
VAE는 데이터의 기본 구조를 캡처하는 압축된 잠재 공간을 학습하기 위한 확률적 프레임워크를 제공합니다. 그것들은 다음으로 구성됩니다:
- 인코더: 입력 데이터를 저차원 잠재 공간에서 평균(μ) 및 분산(σ) 벡터로 압축합니다.
- 디코더: 잠재 분포에서 샘플링된 지점에서 데이터를 재구성합니다.
VAE는 대규모 시스템 내의 구성 요소로 널리 사용됩니다. 예를 들어 Stable Diffusion은 VAE의 압축된 잠재 공간(잠재 확산 모델이라고 함) 내에서 확산 프로세스를 실행하여 프로세스를 대폭 빠르게 만듭니다.
3. LLM 교육 방법: 3단계 파이프라인
최신 대형 언어 모델은 사용자에게 도달하기 전에 세 가지 별도의 교육 단계를 거칩니다.
1단계: 사전 교육(세상에서 배우기)
이 모델은 자기 지도 학습을 사용하여 방대한 텍스트 모음(책, 웹사이트, 코드, 과학 논문에서 스크랩한 수조 개의 토큰)에 대해 학습되었습니다. 작업은 간단합니다. 다음 토큰을 예측하는 것입니다. 인간의 라벨은 필요하지 않습니다. 이를 통해 모델 세계 지식, 문법, 추론 패턴, 코딩 능력을 가르칩니다.
2단계: 지도형 미세 조정(SFT)
인간 트레이너는 이상적인 AI 동작을 보여주는 수천 개의 고품질 즉각적인 응답 쌍을 만듭니다. 사전 훈련된 모델은 이 데이터를 바탕으로 미세 조정되어 대화 지원에 필요한 형식과 어조를 학습합니다.
3단계: 인간 피드백을 통한 강화 학습(RLHF)
- 인간 평가자는 모델 응답 쌍과 더 나은 순위를 비교합니다.
- 이 순위는 응답 품질에 점수를 매기는 보상 모델(RM)을 교육합니다.
- 그런 다음 **PPO(Proximal Policy Optimization)**를 사용하여 언어 모델을 최적화하여 보상 모델 점수를 최대화하는 응답을 생성합니다.
- 이 단계에서는 모델의 출력을 인간의 선호도에 맞춰 조정하여 유용하고 무해하며 정직하게 만듭니다.
4. 주요 생성 AI 기능
텍스트 생성
GPT-4 및 Gemini와 같은 LLM은 에세이 작성, 문서 요약, 질문에 답변, 언어 번역, 코드 작성 및 복잡한 다단계 문제를 통해 추론할 수 있습니다. 고급 모델은 **CoT(사고 사슬)**를 사용하여 추론을 보여줌으로써 논리적 및 수학적 작업의 정확성을 크게 향상시킵니다.
이미지 및 비디오 생성
확산 모델은 사실적인 이미지, 예술적 일러스트레이션은 물론 전체 비디오 시퀀스(예: Google Veo, OpenAI Sora)를 생성할 수 있습니다. 텍스트-비디오 모델은 시공간 잠재 공간에서 작동하여 시간과 공간에 걸쳐 노이즈 제거 프로세스를 확장합니다.
코드 생성
코드에 대해 미세 조정된 모델(예: Codex에서 제공하는 GitHub Copilot, Gemini Code Assist)은 기능을 자동 완성하고, 자연어 설명에서 전체 모듈을 생성하고, 단위 테스트를 작성하고, 기존 코드를 설명할 수 있습니다.
오디오 및 음악 생성
OpenAI의 Whisper(음성-텍스트) 및 MusicGen(텍스트 프롬프트의 음악)과 같은 모델은 생성 패러다임이 스펙트로그램 또는 오디오 토큰에서 작동하여 오디오 도메인으로 유연하게 확장된다는 것을 보여줍니다.
다중 모드 생성
Generative AI의 최전선은 텍스트, 이미지, 오디오, 비디오를 동시에 처리하고 생성할 수 있는 시스템인 다중 모드 모델입니다. Gemini 1.5 Pro와 같은 모델은 100만 개 토큰의 단일 컨텍스트 창에서 2시간 분량의 비디오, 코드베이스 및 PDF 문서를 추론할 수 있습니다.
5. 신속한 엔지니어링: 모델 기능 잠금 해제
생성 모델의 출력 품질은 입력 프롬프트의 구조에 따라 매우 민감합니다. 신속한 엔지니어링은 최상의 응답을 이끌어내는 입력을 만드는 방식입니다.
- 제로샷 프롬프트: 예시가 없는 작업을 모델에게 직접 요청합니다.
- Few-Shot Prompting: 프롬프트 자체 내에 원하는 입출력 형식의 예를 2~5개 제공합니다. 모델은 패턴을 추론하고 이를 새로운 입력에 적용합니다.
- CoT(사고 사슬): “단계적으로 생각해보자"를 추가하여 모델이 답변을 제공하기 전에 문제를 추론하도록 장려합니다.
- 시스템 지침: 페르소나 또는 행동 제약 조건으로 모델을 준비합니다(예: “당신은 수석 보안 엔지니어입니다. 정확하고 간결하십시오.”).
6. 생성적 AI와 기존 AI: 비교
| 차원 | 전통적인 AI | 생성적 AI |
|---|---|---|
| 주요 작업 | 분류, 회귀, 탐지 | 콘텐츠 생성, 합성, 추론 |
| 출력 유형 | 레이블, 확률, 경계 상자 | 텍스트, 이미지, 오디오, 코드, 비디오 |
| 훈련 패러다임 | 지도 학습(레이블이 지정된 데이터 세트) | 자체 감독 + RLHF(레이블이 지정되지 않은 대규모 데이터) |
| 유연성 | 좁음(모델당 하나의 작업) | 광범위함(하나의 모델, 많은 작업) |
| 매개변수의 규모 | 수천에서 수백만으로 | 수십억에서 수조 |
| 주요 위험 | 예측의 편향 | 환각, 오용, 저작권 문제 |
7. 과제와 한계
뛰어난 기능에도 불구하고 Generative AI에는 엔지니어가 이해해야 하는 중요한 제한 사항이 있습니다.
- 환각: LLM은 사실적 진실이 아닌 토큰 확률에 맞춰 최적화하므로 사실적으로 잘못된 정보를 자신있게 생성할 수 있습니다. 솔루션에는 RAG(Retrieval-Augmented Generation) 및 검증된 소스를 사용한 접지가 포함됩니다.
- 컨텍스트 창 제한: Gemini 1.5 Pro와 같은 모델은 이제 100만 개 이상의 토큰 컨텍스트를 지원하지만 대부분의 프로덕션 모델에는 긴 문서를 주의 깊게 청킹해야 하는 제한이 있습니다.
- 편향 및 안전성: 모델은 훈련 데이터에 존재하는 편향을 반영합니다. 정렬 기술(RLHF, Constitutional AI)이 도움이 되지만 문제가 완전히 해결되지는 않습니다.
- 추론 비용: 1조 개의 매개변수 모델을 실행하려면 상당한 GPU 인프라가 필요합니다. 양자화, 추측적 디코딩, 모델 증류와 같은 기술을 사용하면 이러한 비용이 절감됩니다.
- 저작권 및 IP: 저작권이 있는 데이터에 대한 교육을 받은 모델은 보호된 콘텐츠를 재현할 수 있으며 지적 재산과 관련해 해결되지 않은 법적 문제를 제기할 수 있습니다.
8. 생성 AI의 미래
Generative AI의 궤적은 몇 가지 주요 발전을 향하고 있습니다.
- 에이전트 AI: 도구(웹 검색, 코드 실행, 파일 액세스)를 갖춘 LLM은 장기간에 걸쳐 다단계 작업을 계획하고 실행하는 자율 에이전트로 진화하고 있습니다. LangGraph, AutoGen 및 Google의 ADK(에이전트 개발 키트)와 같은 프레임워크가 이를 가능하게 합니다.
- 세계 모델: 물리적 현실의 압축된 예측 표현을 학습하는 차세대 모델로 로봇이 물리적 세계에 대해 추론하고 상호 작용할 수 있습니다.
- 규모에 따른 개인화: 휴대폰과 노트북에서 실행되는 온디바이스 소규모 언어 모델(SLM)을 통해 클라우드에 의존하지 않고 개인 맞춤형 AI 도우미를 사용할 수 있습니다.
- 과학적 발견: 생성 모델은 이미 새로운 단백질(AlphaFold 3)을 설계하고, 새로운 약물 분자를 제안하고, 재료 과학 연구를 가속화하는 데 사용되고 있습니다.
결론
생성적 AI는 제품이 아니라 새로운 컴퓨팅 패러다임입니다. 인간이 만든 콘텐츠의 배포를 모델링하는 방법을 학습함으로써 이러한 시스템은 창의적인 협력자, 지칠 줄 모르는 코더, 의학 연구원 및 자율적인 문제 해결사 역할을 할 수 있게 되었습니다. 이러한 모델 뒤에 있는 아키텍처와 교육 파이프라인을 이해하는 것은 더 이상 엔지니어와 기술자에게 선택 사항이 아닙니다. 이는 차세대 지능형 소프트웨어를 구축하는 데 필수적인 지식입니다.