SEO·GEO 학계 자료 6편 — GEO 논문부터 LLM 인용 연구·E-E-A-T 근거까지

“ChatGPT가 우리 브랜드를 답변에 끼워주게 하려면 뭘 해야 하나요?” 작년까지는 이 질문에 감으로 답했다. 콘텐츠를 더 쓰고, 권위 있어 보이게 만들고, 출처를 달자는 식이었다. 그런데 그 “권위 있어 보이게”가 정확히 무엇을 의미하는지, 측정 가능한 형태로 답한 자료는 드물었다. 이 글은 GEO라는 단어를 만든 논문 한 편부터, 2026년 현재 ChatGPT·Perplexity가 실제로 무엇을 인용하는지 추적한 연구들까지 6편을 골라 마케터 시선으로 해부한다. 핵심은 하나다. 인용은 운이 아니라 설계의 문제다.

왜 논문을 읽어야 하나, 마케터에게도

GEO를 다루는 블로그 글은 이미 넘친다. 대부분 “이렇게 하면 LLM에 인용됩니다” 류의 체크리스트다. 문제는 그 체크리스트들이 서로 모순된다는 점이다. 어떤 글은 키워드를 늘리라 하고, 어떤 글은 줄이라 한다.

이럴 때 원전을 보면 정리가 된다. GEO라는 개념을 학술적으로 처음 정의하고, 9가지 최적화 기법을 1만 개 쿼리로 실측한 논문이 있다. 거기서 “키워드 채우기는 오히려 가시성을 떨어뜨린다”는 숫자가 나온다. 블로그 체크리스트 100개를 읽는 것보다 이 한 줄이 더 강하다.

마케터가 논문을 끝까지 읽을 필요는 없다. 결론 표와 방법론 한 단락이면 충분하다. 이 글이 그 발췌를 대신한다.

GEO 논문·LLM 인용 연구·E-E-A-T 근거를 묶은 자료 지도 — GEO 원전(정의)→인용 패턴 연구(현황)→E-E-A-T 근거(신호)→한국어 GEO(현지화). 이 네 갈래가 오늘 다룰 6편의 좌표다.

1편 · GEO 원전: 인용을 만드는 9가지 기법 (Aggarwal et al.)

GEO라는 용어를 학술적으로 처음 못 박은 논문이다. Pranjal Aggarwal과 공저자들이 2023년 발표하고 이후 KDD 2024에 채택됐다. 핵심 기여는 두 가지다. 하나는 GEO-bench라는 1만 개 쿼리 벤치마크(학습 8천·검증 1천·테스트 1천)를 만든 것, 다른 하나는 콘텐츠를 어떻게 손보면 생성형 엔진 답변에서 더 자주·더 눈에 띄게 인용되는지를 9가지 기법으로 비교한 것이다.

논문은 가시성을 단순 “인용됐다/안 됐다”로 보지 않는다. 답변 안에서 우리 출처가 얼마나 앞에, 얼마나 많은 분량으로 등장하는지를 반영한 위치 보정 지표(Position-Adjusted Word Count)를 쓴다. 답변 맨 끝에 한 줄 인용되는 것과 앞머리에서 길게 인용되는 것은 가치가 다르기 때문이다. 이 측정 설계 자체가 마케터에게 시사점이다. “인용 횟수”만 KPI로 잡으면 절반만 보는 것이다.

결과는 명확했다. 9가지 기법 중 상위 3개가 압도적이었다.

순위	기법	상대 가시성 개선	마케터 해석
1	인용 추가(Quotation Addition)	+27.8%	전문가·당사자 직접 인용을 본문에 박기
2	통계 추가(Statistics Addition)	+25.9%	정성 서술을 수치로 바꾸기
3	출처 인용(Cite Sources)	+24.9%	신뢰 가능한 출처 링크·각주 달기
…	권위적 어조·쉬운 설명·유창성 등	중간	도메인에 따라 효과 편차
최하	키워드 채우기(Keyword Stuffing)	17.8% (기준선 19.5%보다 낮음)	전통 SEO 습관, 오히려 역효과

논문이 보고한 헤드라인 수치는 “최적화 시 가시성 최대 +40%“다. 다만 개별 기법 하나로는 최대 약 28%였고, 40%는 도메인·기법 조합 효과로 봐야 한다. 여기서 가장 실무적인 한 줄은 키워드 채우기다. 전통 검색에서 통하던 키워드 반복이 생성형 엔진에서는 기준선보다도 가시성을 떨어뜨렸다.

2편 · 후속 GEO 연구: 신뢰 감쇠와 에이전트형 검색

GEO 원전이 “무엇이 통하는가”를 봤다면, 2026년 들어 나온 후속 연구들은 “왜 통하는가, 그리고 언제 무너지는가”로 질문을 옮긴다. arXiv에 올라온 후속 작업들(예: 신뢰 감쇠 모델링·결정론적 에이전트 플랫폼 다루는 계열)은 검색이 단발 RAG에서 여러 단계를 거치는 에이전트형으로 바뀔 때 인용 신호가 어떻게 달라지는지를 본다.

마케터가 알아야 할 골자는 이렇다. 에이전트가 여러 번 검색하고 자료를 추리는 과정에서, 한 번 신뢰를 얻은 출처가 다음 단계로 갈수록 신뢰가 감쇠(decay)할 수 있다는 것이다. 즉 단발 답변에서 인용되는 것과 다단계 리서치에서 끝까지 살아남는 것은 다른 게임이다.

이게 왜 중요한가. 퍼플렉서티의 “Deep Research”나 ChatGPT의 에이전트형 리서치처럼 여러 단계를 거치는 모드가 늘어나면, 표면적 최적화로 첫 단계를 통과해도 검증 단계에서 탈락할 수 있다. 결국 다시 사실성·일관성으로 돌아온다.

3편 · LLM 인용 패턴 연구: ChatGPT와 Perplexity는 다른 곳을 본다

2026년 들어 가장 실무적인 자료는 학술 논문보다 대규모 인용 로그를 뜯어본 산업 연구들이다. 수억 건의 AI 인용을 분석한 여러 보고서가 일관되게 가리키는 사실이 몇 개 있다.

첫째, 엔진마다 출처 취향이 완전히 다르다. 한 분석에서 ChatGPT와 Perplexity가 공유하는 인용 출처는 11%에 불과했다. 같은 질문에 두 엔진이 거의 다른 자료를 본다는 뜻이다. Perplexity는 커뮤니티·경험 기반 출처에 크게 의존해서 상위 인용의 절반 가까이가 Reddit, 그다음이 YouTube였다. ChatGPT Search는 LinkedIn 같은 직업 네트워크 비중이 상대적으로 높았다.

둘째, 위치가 인용을 가른다. 전체 LLM 인용의 44.2%가 페이지 콘텐츠의 첫 30% 구간에서 나왔다. 핵심 답을 글 뒤에 숨겨두면 인용 기회를 절반 가까이 버리는 셈이다.

셋째, 주제에 따라 출처 성격이 갈린다. 건강·금융·법률 같은 YMYL(Your Money or Your Life) 주제에서는 AI가 학술 연구·정부 데이터·검증된 저자 콘텐츠에 확실히 더 기댄다. 가벼운 주제는 Reddit, 무거운 주제는 권위 출처라는 구도다.

관찰	숫자	마케터 행동
ChatGPT·Perplexity 출처 중첩	11%	엔진별로 노출 전략을 따로 짠다
첫 30% 구간에서 나온 인용	44.2%	결론·핵심 수치를 글 앞에 배치
Perplexity의 Reddit 의존	상위 인용의 약 절반	커뮤니티 평판·UGC도 GEO 자산
YMYL 주제의 권위 출처 의존	뚜렷이 높음	금융·헬스 분야는 저자 자격 표기 필수

마케터에게 이 표의 메시지는 단순하다. “LLM에 노출되자”는 한 덩어리가 아니다. ChatGPT를 노릴지 Perplexity를 노릴지부터 정해야 한다. 우리 카테고리가 무거운 주제라면 권위 신호에, 가벼운 주제라면 커뮤니티 존재감에 자원을 쏟는 게 맞다.

4편 · E-E-A-T 근거: Google 품질 평가 가이드라인 원문

GEO 이야기를 하다 보면 늘 E-E-A-T가 등장한다. 그런데 이걸 마케팅 블로그가 아니라 Google이 직접 공개한 품질 평가자 가이드라인(Search Quality Rater Guidelines) 원문으로 읽으면 오해 두 개가 풀린다.

첫째, E-E-A-T의 앞 E는 2022년 12월에 추가됐다. 원래 E-A-T(전문성·권위·신뢰)에 경험(Experience)이 붙어 E-E-A-T가 됐다. 가이드라인은 평가자에게 “저자가 이 주제에 필요한 직접 경험 또는 실제 체험이 있는가”를 묻는다. 제품을 실제로 써본 사람의 리뷰가 더 무겁게 평가된다는 것이다. huny.log About 페이지에 광고 6년차 데이터팀 경력을 명시한 것도 이 경험 신호를 채우려는 설계다.

둘째, 그리고 이게 핵심인데, E-E-A-T는 직접적인 랭킹 요소가 아니다. 가이드라인 자체가 명시한다. 평가자의 점수는 알고리즘에 직접 투입되지 않는다. 평가자는 검색 시스템이 잘 작동하는지 진단하는 피드백을 줄 뿐이다. 즉 “E-E-A-T 점수를 올린다”는 표현은 엄밀히 틀렸다. 우리가 할 수 있는 건 E-E-A-T가 높다고 판정될 신호(저자 자격·1차 경험·출처·평판)를 콘텐츠에 심는 것이고, 그게 간접적으로 랭킹 시스템에 반영되기를 기대하는 것이다.

이 구분이 왜 마케터에게 중요한가. “E-E-A-T를 올려달라”는 요구를 받았을 때, 그게 토글 스위치가 아니라 신호의 누적이라는 걸 알아야 일정과 기대치를 제대로 잡는다. 저자 약력 한 줄 넣는다고 다음 주에 순위가 오르지 않는다.

5편 · 한국어 GEO: 네이버 Cue와 ClovaX라는 별도 전장

지금까지 다룬 자료는 전부 영어권 생성형 엔진 기준이다. 한국 시장은 변수가 하나 더 있다. 네이버다.

네이버는 생성형 검색 Cue와 자체 LLM ClovaX를 운영한다. 영어권 GEO 연구의 결론이 그대로 적용되지 않는 지점이 여기다. ChatGPT가 Bing 인덱스를, Perplexity가 자체 크롤러를 쓰듯, 네이버 생성형 검색은 네이버 생태계 안의 신호(블로그·카페·지식iN·플레이스)를 강하게 본다. 영어권에서 Reddit이 차지하던 자리를 한국에서는 네이버 블로그·카페가 차지하는 구조에 가깝다.

여기서 솔직한 한계를 적자면, 한국어 GEO는 아직 영어권만큼 정량 연구가 쌓이지 않았다. 네이버가 Cue·ClovaX의 인용 로직을 공개하지 않기 때문이다. 그래서 이 영역은 논문보다 발표 자료·공식 블로그·실측 관찰에 의존할 수밖에 없다.

6편 · 구조화 데이터와 grounding: 인용을 돕는 기술적 토대

마지막 갈래는 schema.org 구조화 데이터와 grounding(근거 연결)이다. 이 둘은 콘텐츠 내용이 아니라 기계가 콘텐츠를 이해하는 토대에 관한 것이다.

구조화 데이터는 페이지에 “이 글의 저자는 누구, 발행일은 언제, 주제는 무엇”을 기계가 읽을 형식(JSON-LD)으로 명시하는 것이다. LLM이 출처의 신뢰도를 판단할 때 이런 명시적 메타데이터는 추론 부담을 덜어준다. huny.log가 About 페이지에 Person JSON-LD(jobTitle·knowsAbout)를 박아둔 것도 같은 맥락이다. 저자가 누구이고 무엇을 아는지를 기계가 추측하지 않게 명시한 것이다.

grounding은 모델이 답변을 지어내지 않고 실제 출처에 묶도록(ground) 하는 기법이다. 생성형 엔진이 hallucination(환각)을 줄이려고 검색 결과에 답을 묶을 때, 우리 콘텐츠가 그 묶임의 대상이 되면 인용된다. 사실 밀도가 높고 출처가 명확한 콘텐츠가 grounding 대상으로 선택되기 쉽다는 게 1편 결과(통계·인용·출처가 상위 3위)와 정확히 맞물린다.

정리하면 기술적 토대와 콘텐츠 패턴은 따로 노는 게 아니다. 구조화 데이터로 기계가 우리를 신뢰할 토대를 깔고, 통계·인용·출처로 콘텐츠를 채우면, 두 신호가 같은 방향을 가리킨다.

6편을 한 장으로 압축한 실행 우선순위

자료 6편을 다 읽을 시간이 없다면, 행동 순서는 이렇게 압축된다.

핵심 답·수치를 글 앞 30% 안에 배치한다 (인용의 44.2%가 여기서 나온다).
정성 문장을 통계로, 주장에 출처를 단다 (GEO 원전 상위 3위 기법).
키워드 반복은 줄인다 (기준선보다 가시성이 떨어졌다).
노릴 엔진을 정한다. ChatGPT인가 Perplexity인가, 무거운 주제인가 가벼운 주제인가.
한국 시장이면 네이버를 별도 전장으로 따로 측정한다.
저자 자격·발행 메타를 JSON-LD로 명시해 기계가 신뢰할 토대를 깐다.

이 여섯 줄이 6편의 결론이다. 나머지는 측정과 반복이다.

마치며

GEO는 마케팅 용어처럼 들리지만 뿌리는 측정 가능한 연구다. “인용되게 만들자”는 막연한 목표를, 통계 추가 +25.9% 같은 숫자로 바꿔 말할 수 있을 때 비로소 일이 된다. 오늘 6편이 그 번역기 역할을 했으면 한다.

다음 마케팅 리서치 글에서는 이 GEO 신호들을 실제 측정 가능한 KPI로 어떻게 추적하는지, 색인 회복 이후의 GSC·LLM 노출 데이터를 어떻게 읽는지로 이어가려 한다.