합성 소비자 분석은 얼마나 정확하며, 제품 검증의 속도를 어디까지 끌어올리는가
CONTENTS
지난 글에서 우리는 "묻지 말고 관찰하라"는 원칙을 다뤘습니다. 고객의 입과 지갑이 서로 다른 말을 하기 때문이었죠. 그런데 초기 창업가에게는 더 근본적인 벽이 하나 더 있습니다. 관찰할 고객도, 인터뷰할 고객도, 아직 한 명도 없다는 사실입니다.
전통적인 소비자 조사는 느리고 비쌉니다. 표본을 모집하고, 설문을 설계하고, 응답을 회수하고, 데이터를 정제하는 데 보통 몇 주에서 몇 달이 걸립니다. 전 세계 시장 조사 산업의 규모가 연 1,400억 달러에 달하는 데는 이유가 있습니다[1]. 정밀한 고객 이해는 원래 돈과 시간을 크게 잡아먹는 일이었습니다.
그런데 2022년 이후, 학계에서 조용히 검증되어 온 한 가지 방법론이 이 전제를 흔들고 있습니다. 바로 거대 언어 모델(LLM)에게 특정 인구 집단의 소비자를 '연기'하게 만들어, 진짜 사람 대신 그 응답을 수집하는 방식입니다. 이것을 합성 소비자 분석(Synthetic Consumer Analysis), 또는 실리콘 표본(Silicon Sample)이라고 부릅니다.
여기서 모든 창업가가 즉시 떠올리는 두 가지 질문이 있습니다. 그리고 이 글은 정확히 그 두 질문에 답합니다.
① 정확도: 가짜 고객의 답이 진짜 고객의 답을 얼마나 닮았는가?
② 속도: 그 정확도를 어떻게 제품 출시와 검증의 속도로 전환할 것인가?
결론부터 말하면, 합성 소비자는 '진짜 고객을 대체하는 도구'가 아니라 '진짜 고객을 만나기 전에 가설을 압축하는 도구'입니다. 이 차이를 이해하는 사람과 이해하지 못하는 사람의 결과물은 완전히 갈립니다.
거대 언어 모델은 인류가 남긴 방대한 텍스트, 즉 수많은 사람의 생각과 말과 행동의 기록을 학습했습니다. 그래서 "당신은 40대 초반, 서울에 거주하는 두 아이의 워킹맘입니다"처럼 구체적인 배경을 부여하면, 모델은 그 집단이 통계적으로 보일 법한 응답 패턴을 흉내 냅니다. 한 사람의 모델 안에서 수많은 사람을 불러낼 수 있다는 뜻입니다.
이 현상에 처음으로 이름을 붙인 것이 2023년 정치학 학술지 Political Analysis에 실린 아가일(Argyle) 연구진의 논문입니다[2]. 이들은 미국의 대규모 선거 조사(ANES)에 참여한 실제 응답자들의 인구통계학적 배경을 GPT-3에 입력해 '실리콘 표본'을 만들었고, 모델이 만들어 낸 응답 분포가 실제 인간 집단의 분포와 놀라울 만큼 결이 같다는 사실을 발견했습니다.
연구진은 이 성질을 '알고리즘적 충실도(Algorithmic Fidelity)'라고 명명했습니다. 모델의 편향이 무작위가 아니라, 인간 집단의 실제 인구통계학적 차이와 정교하게 상관되어 있다는 의미입니다. 한마디로, AI가 단순히 평균적인 답을 뱉는 게 아니라 "보수 성향 60대 남성"과 "진보 성향 20대 여성"을 서로 다르게 연기할 줄 안다는 것입니다.
비슷한 시기에 경제학자 호턴(Horton)은 LLM을 '호모 실리쿠스(Homo Silicus)', 즉 실리콘으로 만든 경제적 행위자라 불렀습니다[3]. 그는 행동경제학의 고전적 실험들을 LLM에게 그대로 시켰을 때, 인간 피험자와 유사한 행동 패턴이 재현된다는 것을 보였습니다.
여기서 두 가지 사용 방식을 구분하는 것이 중요합니다.
방식 A — 집단 분포 시뮬레이션 (실리콘 표본)
수백~수천 개의 가상 인구통계 프로필에 같은 질문을 던져 전체 응답 '분포'를 본다.
예) "이 가격이면 살 의향이 있다"는 응답이 몇 %인가.
방식 B — 개별 페르소나 에이전트
특정 고객 한 명을 깊이 연기하는 에이전트를 만들어, 인터뷰하듯 '왜'를 캔다.
예) "왜 그 제품을 안 쓰세요?"라고 물으며 니즈의 맥락을 캔다.
두 방식은 목적이 다릅니다. A는 '얼마나 많은 사람이'를 묻고, B는 '왜'를 캡니다. 좋은 합성 소비자 분석은 이 둘을 단계적으로 결합합니다.
"그럴듯해 보인다"와 "실제로 맞다"는 전혀 다른 말입니다. 합성 소비자의 정확도는 막연한 기대가 아니라, 지난 3년간 누적된 실증 연구로 따져야 합니다. 서로 다른 다섯 갈래의 증거를 차례로 보겠습니다.
앞서 소개한 아가일 연구진의 결과가 첫 번째 증거입니다[2]. GPT-3가 만든 실리콘 표본의 응답 분포는 실제 인간 표본의 분포와 단순한 표면적 유사성을 넘어, 집단 간 미세한 차이까지 재현했습니다. 특히 인구통계 집단별로 응답이 갈라지는 양상이 실제 데이터와 일치했습니다.
마케팅 관점에서 가장 직접적인 증거는 하버드 경영대학원의 브랜드·이스라엘리·응웨(Brand, Israeli, Ngwe) 연구입니다[4]. 이들은 GPT에게 제품과 기능에 대한 지불 의향(WTP)을 물었고, 그 결과가 다음을 만족한다는 것을 확인했습니다.
가격 민감도 같은 정량 지표조차, 합성 소비자가 경제학의 기본 법칙을 거스르지 않고 재현했다는 뜻입니다.
아헤르·아리아가·칼라이(Aher, Arriaga, Kalai)는 이를 '튜링 실험(Turing Experiments)'이라 부르며, 사회과학의 유명한 인간 실험들을 LLM으로 재현했습니다[5]. 최후통첩 게임, 집단 지성(평균의 지혜), 밀그램 복종 실험, 문장 해석 실험 등에서 인간 실험과 유사한 효과가 나타났습니다.
다만 이들은 중요한 단서를 달았습니다. 모델이 학습 데이터의 시점을 넘어선 새로운 상황에서는 재현력이 떨어지고, 일부 실험에서는 인간보다 과장된 결과가 나오기도 했다는 것입니다. 이 단서는 4장에서 다시 다룹니다.
가장 강력하면서도 논쟁적인 증거는 2024년 스탠퍼드와 구글 딥마인드 연구진의 '1,000명 생성 에이전트' 연구입니다[6]. 이들은 실제 사람 1,052명을 각각 2시간씩 심층 인터뷰한 뒤, 그 인터뷰 기록을 바탕으로 각 개인을 모사하는 AI 에이전트를 만들었습니다.
이 에이전트들은 일반사회조사(GSS) 응답을,
실제 본인이 2주 뒤에 같은 설문에 다시 답할 때의 일관성 대비
85% 수준으로 재현했습니다.
쉽게 말해, AI가 만든 '당신의 복제본'이 2주 뒤의 진짜 당신만큼이나 당신처럼 답했다는 뜻입니다.
게다가 이 방식(실제 인터뷰 기반)은 단순히 인구통계만 입력한 에이전트보다 인종·이념 집단 간 정확도 편차를 더 줄였습니다. 즉, 합성 소비자의 정확도는 "어떤 정보로 페르소나를 정박시키느냐"에 크게 좌우된다는 것을 보여 줍니다. 이 점은 실무에서 결정적입니다.
딜런(Dillion) 연구진은 LLM이 내린 도덕적 판단이 인간 참가자의 평가와 약 0.95의 상관을 보였다고 보고했습니다[7]. 거의 일치하는 수준입니다. 그러면서도 이들은 "AI가 인간 참가자를 완전히 대체할 수 있는가?"라는 질문에 신중한 태도를 유지했습니다. 평균적 경향은 잘 맞지만, 인간 응답의 다양성과 맥락 의존성까지 담아내지는 못한다는 이유에서입니다.
마지막 한 줄이 다음 장의 주제입니다. 정확도의 빛만 보고 그림자를 못 보면, 합성 소비자는 가장 위험한 도구가 됩니다.
합성 소비자를 신뢰할 수 있는 도구로 쓰려면, 정확도 못지않게 그 한계를 정확히 아는 것이 중요합니다. 네 가지 구조적 함정이 있습니다.
함정 1 ─ 분산 붕괴: 평균은 맞히고, 다양성은 죽인다
가장 본질적인 함정입니다. LLM은 가장 그럴듯한 답으로 수렴하려는 경향이 있어, 응답이 평균값 주변으로 쏠립니다. 비스비(Bisbee) 연구진은 합성 설문 데이터가 실제 인간 데이터보다 분산이 작고, 프롬프트의 사소한 변화에 크게 흔들리며, 시간적으로 불안정하다는 점을 경고했습니다[8].
함정 2 ─ 인구 편향: 모두를 똑같이 잘 연기하지 못한다
산투르카(Santurkar) 연구진의 OpinionQA 연구는 LLM이 60개 미국 인구 집단의 의견을 얼마나 잘 반영하는지 측정했습니다[9]. 인간 피드백으로 정교화된 최신 모델일수록 진보적·고학력·고소득 관점으로 기울었고, 65세 이상이나 사별한 사람 같은 일부 집단의 의견은 잘 반영하지 못했습니다. 게다가 페르소나 정보가 모호하면 모델은 '문화적으로 지배적인 관점'을 기본값으로 잡아 버렸습니다.
함정 3 ─ 아첨 편향: AI는 당신의 아이디어를 칭찬하고 싶어 한다
『The Mom Test』가 경고한 인간의 사회적 바람직성 편향을, AI는 또 다른 방식으로 반복합니다. 인간 피드백으로 학습된 모델은 사용자에게 동조하려는 경향, 즉 아첨(Sycophancy) 편향을 가집니다[10]. "제 아이디어 어떤가요?"라고 물으면, AI 역시 지인처럼 좋게 말해 주려 합니다.
함정 4 ─ 시점·문화의 지체: 모델은 과거에 멈춰 있다
모델은 학습 시점까지의 세계만 압니다. 최신 트렌드, 어제 출시된 경쟁 제품, 지역 고유의 맥락은 모릅니다. 또한 학습 데이터가 영어권·미국 중심이라 한국 소비자 특유의 정서나 구매 맥락은 옅게 반영됩니다. 합성 소비자가 자신만만하게 만들어 내는 '구체적인 디테일'이 사실은 그럴듯한 환각일 수 있습니다.
합성 소비자는 지도(map)가 아니라 나침반(compass)입니다.
방향을 잡는 데는 탁월하지만, 정확한 좌표로 착각하는 순간 길을 잃습니다.
이제 핵심 질문입니다. 이 도구로 어떻게 제품 출시와 검증을 빠르게 할 것인가.
답의 본질은 단순합니다. 에릭 리스의 '만들기-측정-학습' 순환에서, 가장 느리고 비싼 구간이 바로 '측정'입니다[11]. 합성 소비자는 이 측정 구간을 몇 주에서 몇 시간으로 압축합니다. 진짜 고객을 만나기 전에, 명백히 틀린 가설들을 값싸게 미리 걸러 내는 것입니다.
핵심 원칙: 합성으로 좁히고, 실제로 확정한다.
합성 소비자는 진짜 검증의 '대체재'가 아니라 '사전 필터'입니다. 이 필터를 거치면, 정작 진짜 고객에게 던지는 질문이 10배 더 날카로워집니다.
다음은 비즈니어스에서 활용하는 합성 소비자 검증 7단계입니다.
STEP 0. 실제 데이터로 정박 (Grounding)
백지에서 시작하지 않습니다. 가진 모든 실제 흔적 — 리뷰, 커뮤니티 글, 검색어, 경쟁사 불만, 단 몇 건의 고객 인터뷰 — 을 페르소나 설계에 먼저 주입합니다. (정확도는 정박의 질에 좌우됩니다.)
STEP 1. 다양성을 강제한 페르소나 패널 구성
평균적 고객 한 명이 아니라, 의도적으로 이질적인 5~7개 페르소나를 만듭니다. 열성 지지자, 무관심층, 격렬한 거절자, 니치 리드 유저를 반드시 포함합니다. (분산 붕괴를 인위적으로 되돌리는 장치입니다.)
STEP 2. 니즈 발굴 (개방형 인터뷰)
각 페르소나에게 평가가 아니라 행동을 묻습니다. "이 문제를 지금까지 어떻게 해결해 왔나요? 거기에 시간과 돈을 얼마나 쓰나요?" '해결하려는 일(Job to Be Done)'을 기능적·정서적·사회적 측면으로 분해합니다.
STEP 3. 콘셉트 반응 및 메시지 테스트
같은 제품 콘셉트를 여러 문구로 제시하고 페르소나별 반응을 비교합니다. 절댓값("몇 점인가")이 아니라 상대 비교("A와 B 중 무엇이, 왜 더 끌리는가")에 집중합니다.
STEP 4. 가격 민감도 측정
반 베스텐도르프 4문항(너무 싸다/싸다/비싸다/너무 비싸다)을 합성 패널에 던져 초기 가격 가설의 범위를 좁힙니다. (단, 절대 가격이 아니라 가격대 '구간' 추정용입니다.)
STEP 5. 레드팀 — 거절 이유 채굴
"당신이라면 이 제품을 절대 사지 않을 이유 5가지를 대세요." 아첨 편향을 깨고, 출시 전에 가장 치명적인 반대 논리를 미리 수집합니다.
STEP 6. 우선순위화
합성 패널이 공통으로 가리킨 강한 니즈와 강한 거절 이유를 우선순위로 정렬합니다. 여기까지가 '합성으로 좁히기'입니다. 통상 며칠이 아니라 몇 시간 안에 끝납니다.
STEP 7. 실제 고객으로 확정 (Closing the Loop)
합성 분석이 가리킨 1~2개의 핵심 가설만, 진짜 고객 대상의 값싸고 빠른 실험으로 검증합니다. 페이크 도어 테스트, 사전 판매, 랜딩 페이지 전환율 — 즉, 말이 아닌 '행동' 데이터로 확정합니다.
이 흐름의 위력은 '대체'가 아니라 '집중'에 있습니다. 합성 소비자가 20개의 가설 중 17개를 값싸게 걸러 주면, 창업가는 남은 3개에 진짜 자원을 쏟을 수 있습니다. 한 달에 한 번 돌리던 실험 사이클을 일주일에 여러 번 돌릴 수 있게 되는 것입니다. 그것이 합성 소비자가 만드는 진짜 속도입니다.
이 글의 모든 논의가 수렴하는 하나의 원칙이 있습니다.
"합성 소비자는 진짜 고객을 대체하지 않는다.
진짜 고객을 만나기 전, 당신이 던질 질문을 날카롭게 벼리는 도구다."
하나. 실제 데이터로 정박시켜라
백지 상태의 페르소나는 '문화적 평균값'으로 수렴해 버립니다. 단 몇 건의 리뷰, 검색어, 인터뷰라도 먼저 주입하세요. 1,052명 연구가 증명했듯, 정확도는 정박의 질에 정비례합니다.
둘. 절댓값이 아니라 상대 비교에 써라
"고객 만족도 7.8점" 같은 절대 수치는 신뢰하지 마세요. 합성 소비자가 강한 것은 "A안과 B안 중 무엇이 더 끌리는가", "어느 집단이 더 민감한가" 같은 방향과 순위입니다.
셋. 분산을 직접 복원하라
AI는 다양성을 죽입니다. 그래서 의도적으로 극단적인 페르소나 — 열성 팬과 격렬한 안티 — 를 패널에 끼워 넣어야 합니다. 평균이 아니라 양 끝단에서 제품의 진실이 드러납니다.
넷. 평가가 아니라 거절을 물어라
"이거 좋나요?"가 아니라 "절대 안 살 이유를 대세요"라고 물으세요. 아첨 편향을 깨는 가장 빠른 방법은, AI에게 비판자의 역할을 명시적으로 부여하는 것입니다.
다섯. 합성으로 좁히고, 실제로 확정하라
합성 소비자의 결론은 언제나 '검증 가능한 가설' 형태여야 합니다. 마지막 판정은 변하지 않습니다. 실제 고객이, 실제로 지갑을 여는가. 합성은 그 순간을 앞당기는 도구이지, 그 순간을 대신하는 도구가 아닙니다.
모든 위대한 제품은 고객에 대한 깊은 이해에서 출발합니다.
합성 소비자는 그 이해의 출발점을 한 달에서 한 시간으로 당겨 줍니다.
하지만 결승선까지 당겨 주지는 못합니다.
AI에게 1,000명의 고객을 연기시키는 진짜 이유는,
진짜 고객 한 명을 만났을 때 던질 질문을
그 누구보다 날카롭게 준비하기 위해서입니다.
아래 프롬프트를 ChatGPT, Claude, Gemini 등에 입력하고, [ ] 부분을 자신의 아이템 정보로 바꿔 사용해 보세요. 이 프롬프트는 4장의 함정(분산 붕괴·아첨 편향)을 의도적으로 상쇄하도록 설계되어 있습니다.
당신은 신제품 검증을 위한 '합성 소비자 패널'을 운영하는 진행자입니다. 아래 지침에 따라 의도적으로 이질적인 5명의 가상 소비자를 생성하고, 각자의 독립적인 시각에서 아래 아이템에 반응하게 한 뒤, 결과를 종합하세요. [아이템 정보] • 아이템 이름: [ 여기에 입력 ] • 한 줄 설명: [ 어떤 문제를, 어떻게 해결하는 제품/서비스인지 ] • 가설 타깃: [ 누구를 위한 것인지 — 구체적일수록 좋음 ] • 가설 가격: [ 고객이 지불할 것이라 예상하는 금액 ] • 기존 대안: [ 고객이 현재 쓰는 방법 3가지 이상 ] • 확보된 실제 단서: [ 리뷰·검색어·인터뷰 등 실제 데이터가 있으면 입력 ] [패널 구성 규칙 — 다양성 강제] 다음 5개 유형을 반드시 포함해 서로 다른 인물로 구체화하라. ① 열성 얼리어답터 ② 가격에 민감한 실속형 ③ 이 제품에 무관심한 대중 ④ 강하게 거절하는 회의론자 ⑤ 시장을 앞서가는 니치 리드 유저 (인구통계·생활 맥락·현재 쓰는 대안을 각자 다르게 부여하라.) [각 페르소나가 답할 항목] 1. 현재 이 문제를 어떻게 해결하고 있으며, 거기에 쓰는 시간·돈은 얼마인가? (행동 기반) 2. 이 제품을 처음 봤을 때의 솔직한 첫 반응 한 문장. 3. 내가 이 제품을 '절대 사지 않을' 이유 2가지. (반드시 비판적으로) 4. 그럼에도 산다면, 진짜 '고용 목적(해결하려는 일)'은 무엇인가? 5. 제시된 가격에 대한 반응: 너무 비싸다 / 적당하다 / 너무 싸서 의심된다 중 하나와 이유. [진행자의 종합 분석] 1. 5명의 반응에서 공통으로 드러난 '강한 니즈' 1가지. 2. 공통으로 드러난 '치명적 거절 이유' 1가지. 3. 페르소나 간 반응이 가장 크게 갈린 지점과 그 이유. 4. 가격대 추정: 수용 가능한 가격 '구간'(절대 수치 단정 금지). 5. 이 분석의 신뢰도가 낮은 부분(타깃이 모델 학습 분포의 소수자인지 등)을 정직하게 밝혀라. 6. 다음 7일 안에 '진짜 고객'을 대상으로 검증할 실험 3가지. (각각 가설 / 측정 지표 / 성공 기준 / 실행 액션) 주의: 각 페르소나는 사용자에게 아첨하지 말고, 비판자 역할을 충실히 수행하라. 긍정적 미사여구가 아니라, 구체적 행동과 거절 이유를 출력하라.
사용 방법
[ ] 부분을 자신의 아이템 정보로 교체합니다.[1] ESOMAR, Global Market Research Report 2023. Amsterdam, The Netherlands: ESOMAR, 2023.
[2] L. P. Argyle, E. C. Busby, N. Fulda, J. R. Gubler, C. Rytting, and D. Wingate, "Out of One, Many: Using Language Models to Simulate Human Samples," Political Analysis, vol. 31, no. 3, pp. 337–351, Jul. 2023.
[3] J. J. Horton, "Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?," National Bureau of Economic Research, Cambridge, MA, USA, Working Paper 31122, Apr. 2023.
[4] J. Brand, A. Israeli, and D. Ngwe, "Using GPT for Market Research," Harvard Business School Marketing Unit, Boston, MA, USA, Working Paper 23-062, 2023.
[5] G. V. Aher, R. I. Arriaga, and A. T. Kalai, "Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies," in Proc. 40th Int. Conf. Machine Learning (ICML), Honolulu, HI, USA, 2023, pp. 337–371.
[6] J. S. Park, C. Q. Zou, A. Shaw, B. M. Hill, C. Cai, M. R. Morris, R. Willer, P. Liang, and M. S. Bernstein, "Generative Agent Simulations of 1,000 People," arXiv:2411.10109, Nov. 2024.
[7] D. Dillion, N. Tandon, Y. Gu, and K. Gray, "Can AI Language Models Replace Human Participants?," Trends in Cognitive Sciences, vol. 27, no. 7, pp. 597–600, Jul. 2023.
[8] J. Bisbee, J. D. Clinton, C. Dorff, B. Kenkel, and J. M. Larson, "Synthetic Replacements for Human Survey Data? The Perils of Large Language Models," Political Analysis, vol. 32, no. 4, pp. 401–416, 2024.
[9] S. Santurkar, E. Durmus, F. Ladhak, C. Lee, P. Liang, and T. Hashimoto, "Whose Opinions Do Language Models Reflect?," in Proc. 40th Int. Conf. Machine Learning (ICML), Honolulu, HI, USA, 2023, pp. 29971–30004.
[10] M. Sharma et al., "Towards Understanding Sycophancy in Language Models," in Proc. 12th Int. Conf. Learning Representations (ICLR), Vienna, Austria, 2024.
[11] E. Ries, The Lean Startup. New York, NY, USA: Crown Business, 2011.
© 2026 Demian Park. All rights reserved. 벤처랩스