디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI 페르소나로 진행한 연구들, 믿을 수 있을까?... “10건 중 6건이 부실”

aimatters갤로그로 이동합니다. 2025.12.11 15:17:21
조회 53 추천 0 댓글 0
														


대형 언어 모델(LLM) 연구에서 가상의 사용자를 만들어 실험하는 방법이 주요 연구 기법으로 자리 잡고 있다. 하지만 이렇게 만들어진 가상 사용자들이 실제 사람들을 얼마나 잘 대표하는지는 연구마다 천차만별인 것으로 나타났다. 독일 바이젠바움연구소와 미국 컬럼비아대학교 공동 연구팀이 2023년부터 2025년까지 주요 AI 학회에서 발표된 63편의 논문을 분석한 결과, 가상 사용자 기반 실험에서 '누구를 대상으로, 무엇을 평가하는지'가 명확하지 않은 경우가 많았다. 연구팀은 이 문제를 해결하기 위한 투명성 체크리스트를 제시했다.



가상 사용자 프로필, 겉으로만 다양해 보였다

합성 페르소나는 나이, 성별, 인종 같은 개인 특성과 가치관, 행동 패턴을 조합해 만든 가상의 사용자 프로필이다. 실제 사람을 본떠 만들 수도 있고 완전히 가상의 인물을 만들 수도 있다. "나는 여성이고 두 명의 자녀가 있다"같은 간단한 설명부터 "아이들에게 무언가 가르치는 것을 좋아한다"는 선호도, "디즈니월드에 가는 것을 즐긴다"같은 구체적인 표현까지 다양한 형태로 만들어진다.

LLM이 우리의 정보 환경을 만들고 의사결정을 돕는 도구로 사용되면서, 이런 가상 사용자 기반 평가는 필수적인 연구 방법이 되었다. AI에게 특정 사용자 역할을 부여하는 프롬프트를 통해 개인 맞춤형 서비스를 제공하거나, 더 매력적인 AI 대화 상대를 만들거나, 모델 성능을 평가하는 등 다양하게 활용된다.

실제로 쓸 수 있는 가상 사용자를 만들려면 두 가지를 분명히 해야 한다. 바로 '어떤 작업'을 위한 것인지, '어떤 사람들'을 대상으로 하는지다. 작업 범위가 불명확하면 지나치게 일반화된 주장과 평가로 이어질 수 있다. 따라서 데이터가 얼마나 다양한지를 나타내는 점수만으로는 '무엇을 위한, 누구를 위한' 연구인지 알 수 없다. 다양한 사람들의 의견을 하나의 모델로 합치려는 시도는 문제가 될 수 있다. 특히 "평균적인 관점이 암묵적으로 도덕적으로 올바른 것과 같다고 여겨질 때" 실제로 누구의 관점을 대표하는지 모호해진다.

연구팀 분석 결과, 검토된 논문의 65%가 본문에서 가상 사용자의 대표성에 대해 명확히 설명하지 않았다. 또한 60%의 연구는 실제 사용자가 LLM과 자연스럽게 대화하는 방식과는 동떨어진 실험 환경을 사용했다. 흔한 예로, 연구자들이 "정치적으로 진보적이고 군사 확장 증가에 반대하는 사람이 있다고 가정하자"처럼 설문조사 결과를 그대로 AI에게 입력하는 경우가 있다. 이런 방식으로 AI가 특정 성향을 가진 사용자처럼 행동하는지 관찰할 수 있지만, 실제 사용자들은 이런 식으로 자신을 소개하지 않는다.





연구 대상의 43%가 막연한 '일반 대중'... 구체적 집단 외면

연구팀 분석은 대상 집단을 구체적으로 밝히지 않는 문제도 드러냈다. 검토된 논문의 43%가 구체적이지 않은 "일반 대중"을 대상으로 했고, 특정 직업군(8%)이나 의료 환경의 환자(5%) 같은 명확한 집단은 훨씬 적은 관심을 받았다. 이는 앞서 지적한 작업 정의 문제와도 연결된다. 대상 집단이 명확하지 않으면 가상 사용자가 실제로 누구를 대표하는지 평가할 수 없다. 막연하게 일반 대중을 대상으로 하는 접근법은 실제로 어떤 사람들의 관점을 반영하는지 알 수 없게 만든다.

연구팀은 가상 사용자 연구에서 가장 자주 사용되는 개인 특성도 확인했다. 성별(25건), 나이(19건), 인종 및 민족(17건)이 가장 많이 나타났고, 교육 수준(14건)과 종교(12건)가 그 뒤를 이었다. 반면 플랫폼 콘텐츠 관리 가이드라인에서 일반적으로 다루는 장애 여부(5건), 성적 지향(3건), 참전 용사 여부(1건) 같은 특성은 훨씬 적게 포함되었다. 이런 특성들은 메타(Meta)가 2025년 기준으로 제시한 민감한 개인정보 범주이자, EU 개인정보보호법(GDPR)에서 정의한 내용과도 일치한다. 특히 논문의 절반(30건)은 본문에서 개인 특성을 전혀 언급하지 않았다.



다른 연구자가 똑같이 실험하기 어렵다... 완전한 데이터 공개 드물어

다른 연구자들이 똑같은 실험을 할 수 있는지를 평가하는 것도 중요하다. 이 평가가 필요해진 이유는 연구팀이 논문들을 검토하면서 문서화가 제대로 안 된 경우를 많이 발견했기 때문이다. 검토된 논문의 78%가 추가 자료 링크를 포함했고 대부분은 GitHub 코드 저장소(70%)였지만, 나머지 논문들은 가상 사용자 데이터에 대한 링크를 아예 제공하지 않았다.

데이터 링크를 포함한 논문들도 여러 한계가 있었다. 완전한 데이터 대신 몇 가지 예시만 포함하거나, 데이터를 만드는 코드가 불완전하거나, 설명이 부족한 경우가 많았다. 이렇게 투명하지 않으면 다른 연구자들이 연구 결과를 검증하거나 종합 분석을 하기 어렵다. 또한 가상 사용자가 실제 사람들을 얼마나 잘 대표하는지 평가하는 데도 큰 어려움이 생긴다. 연구팀은 이런 문제 때문에 실제 가상 사용자 데이터를 직접 모으거나 비교하는 대신, 전문가가 논문을 직접 검토하는 방식을 선택했다.

데이터를 어떻게 만들었는지 살펴본 결과, 기존 자료에 크게 의존하는 것으로 나타났다. 연구의 33%는 PersonaChat 같은 기존 데이터를 그대로 사용했고, 추가로 16%는 SyntheticPersonaChat 같은 기존 가상 사용자 모음에 약간만 수정을 가했다.



6단계 점검표로 투명한 연구 기준 제시

연구팀은 문헌 검토와 반복적인 분석을 바탕으로 가상 사용자 기반 LLM 연구를 위한 점검표를 만들었다. 이 점검표는 6가지 주요 평가 항목으로 구성된다.

첫째, 활용 분야에서는 무엇을 측정하려는지 명확히 정의되었는지, 어떤 능력을 평가하는지, 구체적으로 어떤 분야에서 쓰이는지, 실제 사용 사례가 설명되었는지를 확인한다. 연구팀 분석에 따르면 가상 사용자 연구의 작업 분포는 개인 맞춤화(44%), 안정성(22%), 편향성과 공정성(18%), 특정 분야(16%)로 나타났다. 명확하게 정의된 작업 없이는 개인 맞춤화나 다른 능력에 대한 주장이 불완전할 수밖에 없다. 구체적으로 무엇을 위한 것인지 정의하지 않으면 무엇을 개인화하는지 제대로 평가할 수 없다.

둘째, 대상 집단에서는 어떤 사람들을 대표하려는지, 어떤 개인 특성을 포함했는지, 가상 사용자를 어떻게 구성하고 제시했는지를 평가한다. 셋째, 데이터 출처에서는 기존 데이터를 그대로 쓰거나 수정했는지, 기존 데이터를 참조했는지, 가상 사용자를 어떻게 설계하고 만들었는지를 살펴본다.

넷째, 실제 환경 반영도에서는 실제 사용자 분포를 반영하는지, 사회과학 연구나 실제 사용자 데이터 같은 근거가 있는지, 실험이 실제 사람과 AI의 상호작용을 반영하는지를 검토한다. 다섯째, 재현 가능성에서는 실험 코드가 공개되었는지, 완전한 가상 사용자 데이터가 제공되었는지, 다른 연구자가 똑같이 실험할 수 있을 만큼 설명이 충분한지를 확인한다.

마지막으로 적용 범위는 기준선과 투명성으로 나뉜다. 기준선 평가는 연구자들이 기존 방법이나 다른 인구집단과 비교했는지를 검토한다. 투명성 평가는 연구 자금 출처가 명확히 공개되었는지, 가상 사용자 설계의 윤리적 고려사항이 포함되었는지, 저자들의 지리적 배경, 저자가 자신의 입장을 밝혔는지, 가상 사용자의 한계가 명확히 논의되었는지를 조사한다.

검토된 63개 논문 중 어느 것도 저자가 자신의 배경을 명시적으로 밝힌 경우가 없었다. 검토 대상 논문들은 특정 지역에 집중되어 있었는데, 저자의 34%가 미국 소속 기관에, 18%가 중국 소속 기관에 있었다. 특히 검토된 논문의 40%는 최소 한 명 이상의 미국 기반 공동 저자가 있었고, 중국은 19%였다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 합성 페르소나란 무엇이며 왜 LLM 연구에서 중요한가요?

A. 합성 페르소나는 나이, 성별, 인종 같은 개인 특성과 가치관, 행동 패턴을 조합해 만든 가상의 사용자 프로필입니다. LLM이 의료, 교육 등 중요한 분야에 활용되면서 다양한 사용자 집단에 맞춰 모델 성능을 평가하고 개선하는 필수적인 연구 방법이 되었습니다.

Q. 현재 가상 사용자 기반 연구의 가장 큰 문제점은 무엇인가요?

A. '무엇을 위한, 누구를 위한' 연구인지가 명확하지 않다는 점입니다. 개인 맞춤화가 이 두 가지에 근본적으로 의존함에도 불구하고 이를 명확히 밝히지 않습니다. 연구의 65%가 가상 사용자의 대표성을 논의하지 않았고, 43%가 막연한 일반 대중만을 대상으로 했으며, 60%가 실제 사용자 상호작용을 반영하지 못하는 실험 환경을 사용했습니다.

Q. 연구팀이 제안한 투명성 점검표의 핵심은 무엇인가요?

A. 실제 사람들을 대표하는 샘플링 강조, 실제 데이터에 기반한 명확한 근거, 실제 환경 반영도 향상을 중심으로 6가지 평가 항목(활용 분야, 대상 집단, 데이터 출처, 실제 환경 반영도, 재현 가능성, 적용 범위)을 포함합니다. 이를 통해 언어 모델 연구에서 가상 사용자 기반 평가의 엄격성과 실제 환경 적합성을 개선할 수 있습니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Whose Personae? Synthetic Persona Experiments in LLM Research and Pathways to Transparency

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 관리 맡기고 싶은 재태크 고수 같은 스타는? 운영자 26/01/12 - -
1917 AI 에이전트 마누스, 시밀러웹과 협력... 이제 몇 초 만에 시장 분석 끝 aimatters갤로그로 이동합니다. 01.14 13 0
1916 애플, 월 1만원대 '크리에이터 구독' 출격… AI 편집 기능 대거 탑재 aimatters갤로그로 이동합니다. 01.14 8 0
1915 구글, CT·MRI 읽는 AI 의사 공개… "의사 말 받아쓰기 오류 82% 줄였다" aimatters갤로그로 이동합니다. 01.14 7 0
1914 구글, CT·MRI 읽는 AI 의사 공개… "의사 말 받아쓰기 오류 82% 줄였다" aimatters갤로그로 이동합니다. 01.14 8 0
1913 이미지 한 장으로 3컷 스토리 완성… 런웨이 '스토리 패널' 기능 공개 aimatters갤로그로 이동합니다. 01.14 7 0
1912 나이·직업·취미 알려줬을 뿐인데… AI가 만든 2년 치 카드 내역 봤더니 aimatters갤로그로 이동합니다. 01.14 8 0
1911 멀티모달 AI 시장, 10년 후 138조 규모로 폭발적 성장... 연평균 40% 급증  aimatters갤로그로 이동합니다. 01.14 8 0
1910 구글, ‘비오 3.1’ 대규모 업데이트… 숏폼 비율에 4K 해상도 지원 aimatters갤로그로 이동합니다. 01.14 5 0
1909 주식은 열광, 채권은 냉담… BIS, "미국 빅테크들 부채로 몰려간다" 경고 aimatters갤로그로 이동합니다. 01.14 5 0
1908 [1월 14일 AI 뉴스 브리핑] 대원CTS, 10억 펀딩 받은 ‘AI 폼롤러’ 와디즈 론칭 외 aimatters갤로그로 이동합니다. 01.14 7 0
1907 애플, AI 시리에 구글 제미나이 선택... "가장 뛰어난 기술" aimatters갤로그로 이동합니다. 01.13 40 0
1906 앤트로픽, 일반인용 코딩 AI '코워크' 출시... 일상 업무에 활용 가능 aimatters갤로그로 이동합니다. 01.13 27 0
1905 "회의 끝나자마자 PPT 완성"... 마누스, 대면 회의용 AI 기능 출시 aimatters갤로그로 이동합니다. 01.13 34 0
1904 젠슨 황 "이제 AI 안 쓰면 일자리 뺏긴다" 경고 [33] aimatters갤로그로 이동합니다. 01.13 2516 11
1903 [신간] "최고의 프롬프트는 '나'"... AI 시대 직업인 생존법 담은 『일을 위한 디자인』 aimatters갤로그로 이동합니다. 01.13 62 0
1902 오픈AI, 오디오 기기 '스위트피' 개발 중… 올해 9월 출시 목표 aimatters갤로그로 이동합니다. 01.13 47 0
1901 AI로 공부하면 머리 나빠진다?... OECD가 밝힌 AI 교육의 명암 [20] aimatters갤로그로 이동합니다. 01.13 1923 3
1900 2030년 일자리의 운명... 세계경제포럼이 경고한 AI 시대 네 가지 시나리오 aimatters갤로그로 이동합니다. 01.13 57 0
1899 KAIST, 2년 내 치매 발병 가능성 예측하는 AI 개발... "진료기록만 주면 끝" aimatters갤로그로 이동합니다. 01.13 27 0
1898 [1월 13일 AI 뉴스 브리핑] 오핌디지털, 영상 생성 AI '씬트' 쇼케이스 개최 외 aimatters갤로그로 이동합니다. 01.13 13 0
1897 앤트로픽, 챗GPT이어 건강 관리 AI 서비스 출시… 의료 현장 AI 활용 본격화 aimatters갤로그로 이동합니다. 01.12 34 0
1896 "저 엄지, AI 아냐?"... 닌텐도, 마케팅 사진에 AI 사용 의혹 [15] aimatters갤로그로 이동합니다. 01.12 1904 1
1895 챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 ‘jobs’ 테스트 중 aimatters갤로그로 이동합니다. 01.12 43 0
1894 한국, AI 도입 속도 세계 1위... MS "지브리 스타일 이미지 열풍 영향 커" aimatters갤로그로 이동합니다. 01.12 69 0
1893 "AI 보안 강화했더니 비용은 40분의 1로"… 앤트로픽, 탈옥 방어 신기술 공개 aimatters갤로그로 이동합니다. 01.12 33 0
1892 AI 유머 취향 분석했더니... ‘긴 글’과 ‘은어’ 좋아해 aimatters갤로그로 이동합니다. 01.12 28 0
1891 "불가능할 줄 알았는데"... 대학 최고 난이도 수학 시험, AI가 12문제 완벽 증명 aimatters갤로그로 이동합니다. 01.12 34 0
1890 [1월 12일 AI 뉴스 브리핑] 플래티어, 롯데홈쇼핑 에이전틱 AI 플랫폼 1개월 만에 구축 외 aimatters갤로그로 이동합니다. 01.12 17 0
1889 구글-캐릭터AI, 10대 자살 소송 합의... "챗봇이 죽음 부추겨" aimatters갤로그로 이동합니다. 01.09 71 0
1888 구글 "지메일, AI 비서로 진화"... 제미나이 탑재로 이메일 자동 정리·작성   aimatters갤로그로 이동합니다. 01.09 43 0
1887 일론 머스크 "AI·로봇 때문에 모든 물건 가격 떨어진다… 아니면 국가 파산할 것" aimatters갤로그로 이동합니다. 01.09 57 0
1886 일론 머스크 "지금 대학 갈 이유 모르겠다… AI가 개인 교사될 것" [34] aimatters갤로그로 이동합니다. 01.09 2521 17
1885 지원자는 AI로 자소서 쓰고, 기업은 AI로 평가… 2026년 AI 채용 트렌드 분석 aimatters갤로그로 이동합니다. 01.09 108 0
1884 남성은 쓰고 여성은 망설인다... AI 격차가 만들 새로운 '성별 격차'  aimatters갤로그로 이동합니다. 01.09 85 0
1883 저소득 국가, AI 시대에 낙오 위기... OECD "생산성 격차 2배로 벌어질 것" aimatters갤로그로 이동합니다. 01.09 41 0
1882 [1월 9일 AI 뉴스 브리핑] 레노버, 2026 FIFA 월드컵 AI 솔루션 공개 외 aimatters갤로그로 이동합니다. 01.09 24 0
1881 오픈AI, 건강 관리 AI '챗GPT 헬스' 출시... 개인 맞춤형 의료 상담해준다 [1] aimatters갤로그로 이동합니다. 01.08 586 2
1880 미국 유타주, AI 처방전 발급 허용… 의사 없어도 약 받는다 aimatters갤로그로 이동합니다. 01.08 52 0
1879 AI로 음식에 파리 합성해 환불..? 배달앱 대상 사기 급증 [29] aimatters갤로그로 이동합니다. 01.08 3017 16
1878 일론 머스크 "의대 갈 필요 없어… 3년 안에 로봇이 최고 외과의 능가" aimatters갤로그로 이동합니다. 01.08 87 0
1877 이제 잠만 자도 질병 예측 가능? 스탠퍼드 AI, 하룻밤 수면으로 130가지 병 찾아낸다 [5] aimatters갤로그로 이동합니다. 01.08 1087 5
1876 일론 머스크 "올해 AGI 도달할 것… 현재 AI로 화이트칼라 절반 이상 대체 가능" [1] aimatters갤로그로 이동합니다. 01.08 136 0
1875 AI, 처음으로 일본 변호사 시험 합격... 96점으로 합격선 93점 돌파 aimatters갤로그로 이동합니다. 01.08 81 0
1874 [1월 8일 AI 뉴스 브리핑] 레노버, PC·스마트폰 연동하는 AI 에이전트 공개 외 aimatters갤로그로 이동합니다. 01.08 117 0
1873 AI 시대, 두뇌에 투자하면 6.2조 달러 번다... WEF·맥킨지 보고서 aimatters갤로그로 이동합니다. 01.08 48 0
1872 메타, AI 안경에 텔레프롬프터 기능 추가… 손가락 필기로 메시지 전송까지 [1] aimatters갤로그로 이동합니다. 01.07 1084 3
1871 국내 첫 정부공인 AI 자격증 나왔다… SK AX ‘생성형AI 활용 자격증’ 정부 공인 획득 [20] aimatters갤로그로 이동합니다. 01.07 2558 6
1870 아마존, AI 챗봇 '알렉사+' 웹 버전 공개… 챗GPT처럼 사용 가능 aimatters갤로그로 이동합니다. 01.07 32 0
1869 챗GPT 전체 대화 5%가 건강 상담... 오픈AI, 챗GPT 의료 활용 보고서 공개 aimatters갤로그로 이동합니다. 01.07 83 0
1868 “답변 40% 작성 시점에 오답 예측”… AI 스스로 오류 검증하는 기술 등장 aimatters갤로그로 이동합니다. 01.07 59 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2