huny.log

기술 포스트 · AI·LLM

LLM 환각이 일어나는 이유 — 자신 있게 틀린 답을 하는 자리의 이해

LLM은 모르는 자리에서 "모릅니다" 대신 그럴듯한 거짓을 만들어냅니다. 이 환각(hallucination)의 원인은 LLM이 통계적 토큰 예측기라는 본질에 있습니다. 왜 일어나는지·언제 가장 자주 발생하는지·어떻게 줄이는지를 마케터 시각으로 정리.

“이 책의 ISBN을 알려주세요.” LLM이 그럴듯한 13자리 숫자를 답합니다. 검증해보면 가짜. “당신네 회사 환불 정책은?” 그럴듯한 답이지만 실제 정책과 다름. 이 자리가 환각(hallucination) — LLM의 가장 큰 운영 리스크입니다. 환각이 왜 일어나는지·언제 가장 자주 발생하는지·운영적으로 어떻게 줄이는지를 마케터 시각으로 정리합니다.

1. 환각의 한 줄 정의

LLM 환각의 한 줄 정의:

모델이 사실이 아닌 정보를 사실인 것처럼 자신 있게 출력.

세 가지 유형으로 나뉩니다.

  • 완전 거짓 (fabrication) — 존재하지 않는 사실 만들어냄 (가짜 ISBN·가짜 인용)
  • 사실 왜곡 (factual error) — 비슷한 사실인데 디테일 틀림 (잘못된 연도·잘못된 수치)
  • 맥락 무시 (contextual) — 컨텍스트와 다른 답 (회사 정책 무시한 일반 답)

운영적 위험은 모두 같음 — 그럴듯해서 사람이 검증 안 하면 거짓이 그대로 노출됩니다.

LLM 환각의 3가지 유형과 원인 다이어그램
LLM은 다음 토큰을 통계적으로 예측한다. 학습 데이터에 정확한 답이 없거나 약하면 그럴듯한 패턴으로 답을 만들어낸다. 그게 환각.

2. 환각이 일어나는 본질적 이유

LLM 기초 글에서 본 LLM의 작동 원리를 다시 한 줄:

LLM은 다음 토큰의 확률을 예측하는 통계적 도구이지 진실 검증기가 아니다.

이 한 줄에서 환각이 모두 흘러나옵니다.

2-1. “모름” 토큰의 확률이 낮다

학습 데이터에서 “모르겠습니다·확실하지 않습니다”가 일반적 답보다 적게 나옵니다. 모델은 자연스럽게 그럴듯한 답을 더 자주 예측. “모름” 답하는 능력이 약하게 학습됨.

2-2. 비슷한 패턴에서 채워 넣음

학습 시점에 본 비슷한 패턴을 보고 모델이 빈자리를 채워 넣음. ISBN 형식(13자리 숫자)을 알기 때문에 형식상 그럴듯한 가짜 ISBN 생성. 정확한 ISBN은 모름.

2-3. 컨텍스트보다 사전 학습이 강할 때

회사 정책을 컨텍스트에 줘도 모델이 학습 시점에 본 일반적 정책 패턴이 더 강하면 그쪽으로 답이 흐름. 컨텍스트 무시 환각.

2-4. 일관성보다 그럴듯함

LLM은 “모르겠다”보다 “한 답”을 선호하도록 학습됐습니다 (RLHF). 답을 했을 때 사용자가 더 만족하기 때문. 결과적으로 모르는 자리에도 답을 만들어냄.

3. 환각이 가장 자주 일어나는 자리

운영 환경에서 환각이 자주 일어나는 자리들:

3-1. 정확한 사실·숫자

  • ISBN·전화번호·정확한 가격
  • 회사 정책의 미세 디테일
  • 통계 수치·연구 인용

LLM은 형식은 맞고 디테일은 틀린 답을 자주 생성.

3-2. 학습 이후 정보

  • 모델 학습 시점 이후 사건·정책 변경
  • 신규 인물·신규 회사·신규 제품

학습 시점에 없던 정보를 모르지만 비슷한 패턴으로 추론해 답.

3-3. 도메인 특화·전문 지식

  • 의료·법률·재무의 미세 디테일
  • 한국 도메인 특화 (한국 법규·한국 광고 정책)
  • 업계 신조어·약어

학습 데이터에 약하게 노출된 도메인.

3-4. 명확한 답이 없는 자리

  • “이 카피의 CTR은?”
  • “다음 분기 매출 예측은?”

모델이 답을 모르는 자리에도 그럴듯한 숫자를 만들어냄.

3-5. 긴 컨텍스트의 중간 정보

트랜스포머 직관 글의 lost-in-the-middle. 긴 컨텍스트의 중간 정보가 모델 attention에 약하게 잡혀 무시되거나 왜곡됨.

4. 운영적 완화 도구 — 5가지

4-1. RAG로 외부 지식 보강

가장 강력한 도구. 회사 내부 정보·최신 정보가 필요한 자리는 RAG로 외부 문서를 컨텍스트에 추가. 모델이 “기억”해서 답하는 게 아니라 “이 문서를 보고” 답.

다만 RAG도 검색이 잘못되면 잘못된 컨텍스트 → 환각. 검색 정확도가 답 정확도의 토대.

4-2. Prompting으로 “모름” 허용

시스템 프롬프트에:

“확실하지 않은 자리는 ‘확실하지 않습니다’로 답하세요. 추측해서 답하지 마세요.”

이런 한 줄이 환각을 30~50% 줄입니다 (Anthropic·OpenAI 보고). 모델이 “모름” 답하는 것을 사회적으로 허용해주는 효과.

4-3. 출력 검증·도구 사용

모델 출력을 코드로 검증:

  • 숫자 답이면 외부 DB와 대조
  • 인용이면 진짜 출처 확인
  • 정책 답이면 회사 정책 DB 매칭

도구 사용(function calling) 패턴 — 모델이 직접 답하지 말고 도구를 호출해 정확 답 가져오게 함.

4-4. Temperature 낮추기

Temperature 높으면 분포 평탄화 → 비주류 토큰 가능성 증가 → 환각 가능성 증가. 사실 답변은 temperature 0~0.3.

4-5. LLM-as-judge로 사후 검증

LLM-as-judge로 답의 일관성·정확성을 다른 모델이 평가. 평가 점수 낮으면 사람 검토 또는 자동 거부.

# 환각 완화의 한 패턴
system_prompt = """
당신은 마케팅 정책 전문가입니다.
- 컨텍스트에 명시된 사실만 답하세요.
- 컨텍스트에 없는 정보는 "확실하지 않습니다"로 답하세요.
- 추측·가정으로 답하지 마세요.
"""
r = client.chat.completions.create(
model='gpt-4o',
messages=[{'role': 'system', 'content': system_prompt},
{'role': 'user', 'content': f'컨텍스트: {context}\n질문: {question}'}],
temperature=0.0,
seed=42,
)

이게 본문에 박는 유일한 코드입니다. 시스템 프롬프트의 “모름 허용” + temperature 0 + seed 고정. 가장 단순한 환각 완화 패턴.

5. 마케팅 운영의 환각 위험 자리

5-1. 고객 문의 자동 응답

회사 정책·반품·환불 답변에서 환각이 일어나면 직접적 비즈니스 위험. RAG + “모름 허용” prompting + 사후 검증의 결합 필수.

5-2. 광고 카피 생성

상품 사양·가격을 LLM이 만들어내면 잘못된 정보가 광고로. 카피의 사실 부분은 외부 DB에서 가져오고, LLM은 표현만 만들게 분리.

5-3. 마케팅 리포트 자동 생성

데이터를 직접 LLM이 다루면 숫자 환각. 도구 사용으로 BI 쿼리는 직접 호출, LLM은 결과 해석·narrative만. LLM 에이전트 글 참조.

5-4. 외부 데이터 인용

논문·연구 인용을 LLM이 만들어내면 가짜 인용. 실제 인용은 외부 검색 도구로, LLM은 요약만.

6. 환각을 0으로 못 만들지만

환각을 완전히 없애는 건 현재 LLM 기술로 불가능합니다. 통계적 토큰 예측의 본질이라 그렇습니다. 하지만 운영에서 위험을 통제 가능한 수준으로 줄이는 건 가능.

운영 표준 흐름:

  1. 고위험 자리 — 환각 = 비즈니스 손실 (의료·법률·재무·정책)
    • RAG + 도구 사용 + 사람 최종 검토
  2. 중위험 자리 — 환각 = 신뢰 손실 (FAQ·고객 응답)
    • RAG + LLM-as-judge + 일별 모니터링
  3. 저위험 자리 — 환각 = 작은 운영 부담 (카피 생성·아이디어 생성)
    • 사람 검토만으로 충분

자리의 위험 수준에 맞춘 완화 도구의 결합이 운영 결정.

7. 환각의 미래 — 줄어드는 추세

LLM 환각은 시간에 따라 줄어드는 추세입니다.

  • GPT-3 (2020) — 환각 매우 흔함
  • GPT-4 (2023) — 30~50% 감소
  • GPT-4o (2024) — 추가 감소, 도구 사용 표준화
  • 향후 — RAG·도구 통합·“모름” 답하기 능력 강화

다만 0으로 가지는 않을 것. 통계적 본질이 그대로이기 때문. 운영자는 “환각이 줄어들지만 0은 아니다”의 전제 위에 운영 인프라 구축.

8. 마치며 — AI 기초 5편의 마지막

이 시리즈 5편 (LLM 기초·임베딩·트랜스포머·도구 분기·환각)을 통해 마케터의 AI 기초 체력을 정리했습니다.

LLM은 토큰을 통계적으로 예측하는 도구. 임베딩은 의미를 벡터로. 트랜스포머의 attention이 모든 단어가 모든 단어를 본다. 도구 선택은 prompting → RAG → fine-tuning. 환각은 통계적 본질이라 완전히 못 없앤다.

이 5가지 직관이 huny.log의 모든 LLM·AI 글들의 토대입니다. 이 위에 시리즈 1·2·3의 도구들이 자연스럽게 얹힙니다.

다음 글에서는 같은 자리의 또 다른 기초 — 머신러닝 기초 체력 시리즈로 넘어갑니다. 회귀·분류·손실 함수·overfitting의 직관.

참고

AI·LLM 카테고리의 다른 글

전체 보기 →