챗GPT에 1,000번 물어봐도 비슷한 답변뿐... 베이징대 연구진이 해결책 찾았다

aimatters

2025.11.24 18:02:49

조회 2643 추천 4 댓글 12

대규모 AI 언어모델이 JSON 같은 정해진 형식으로 답변을 만들 때, 문법적으로는 맞지만 비슷비슷한 답변만 반복한다는 문제가 새로운 연구로 확인됐다. 중국 베이징대 연구팀은 이 문제를 해결하기 위해 AI가 답변을 만드는 과정을 추적하고, 덜 사용된 답변 방식을 선택하도록 유도하는 새로운 방법을 개발했다. 이 기술은 답변의 다양성을 크게 높이면서도 처리 속도는 기존의 약 88% 수준을 유지했다.

AI에게 1,000개 답변 요청했더니 전체 가능성의 20%만 사용

해당 논문에 따르면, 연구팀은 현재 가장 많이 쓰이는 '아웃라인스'라는 AI 도구를 테스트했다. 이메일 주소와 웹 색상 코드를 만드는 규칙을 정해주고 각각 1,000개씩 답변을 요청했다. 그 결과 놀라운 사실이 드러났다. 이메일 주소의 경우 AI가 사용할 수 있는 전체 답변 방식 중 겨우 18.60%만 활용했고, 웹 색상 코드는 더 심각해서 16.96%만 사용했다.

쉽게 말해 AI는 문법상 만들 수 있는 다양한 형태의 답변 중 극히 일부만 반복해서 생성했다는 의미다. 예를 들어 이메일 주소에서 큰따옴표를 사용하는 특별한 형식이나, 웹 색상에서 HSL이라는 표현 방식은 전혀 만들어지지 않았다. 연구팀이 AI의 창의성을 높이는 설정값을 조정해봤지만 상황은 크게 나아지지 않았다. 이메일 주소의 다양성이 23.26%로 약간 올랐을 뿐, 여전히 대부분의 가능한 형태는 사용되지 않았다.

AI가 지나간 길을 기록해서 새로운 답변 방향으로 유도

연구팀이 만든 새로운 방법의 핵심은 AI가 답변을 만드는 과정을 계속 기록하고, 이 기록을 바탕으로 AI가 덜 사용한 방식을 선택하도록 유도하는 것이다. 구체적으로 AI가 답변을 만들 때 거쳐 간 모든 단계를 전체적으로 추적한다. 그리고 상대적으로 덜 사용된 경로에는 가산점을 주어 AI가 새로운 형태의 답변을 탐색하도록 돕는다.

하지만 단순히 가산점만 주면 AI가 같은 곳을 계속 맴돌며 끝없이 반복하는 문제가 생길 수 있다. 이를 막기 위해 연구팀은 한 번의 답변 생성 과정에서 각 단계를 얼마나 방문했는지도 별도로 기록했다. 그리고 자주 방문한 단계로 다시 가려는 선택에는 감점을 부여했다. 또한 상황에 따라 가산점과 감점의 강도를 자동으로 조절하는 장치도 추가해 지나친 조정을 방지했다.

답변 다양성 최대 45% 향상, 처리 속도는 88% 유지

연구팀은 이메일 주소, 웹 색상 코드, JSON 형식 데이터, 그리고 특정 단어를 피하는 답변 등 네 가지 규칙으로 새 방법을 시험했다. 큐웬2.5 모델을 사용해 각 규칙 당 1,000개씩 답변을 만든 결과, 기존 방법과 비교해 평균적으로 AI가 활용하는 답변 단계가 45%, 단계 간 이동 방식이 12%, 전체 답변 경로가 40% 증가했다.

답변 내용의 다양성을 측정하는 '벤디 점수'라는 지표는 평균 90% 올랐다. 이메일 주소의 경우 활용 단계가 18.60%에서 95.35%로, 웹 색상 코드는 16.96%에서 62.49%로 대폭 증가했다. 특히 특정 단어를 피하는 규칙에서는 유효한 모든 답변 단계를 활용하는 데 성공했다. 이렇게 다양성이 크게 향상됐는데도 처리 속도는 기존 방법의 평균 88.8% 수준을 유지했다. 추가 계산 과정이 필요해 약간 느려졌지만, 다양성 향상을 고려하면 충분히 받아들일 만한 수준이다.

창의성 설정값 높여도 새 방법이 여전히 우수, 품질도 유지

연구팀은 AI의 창의성을 높이는 설정값을 더 올린 상태에서도 추가 실험을 진행했다. 기존 방법의 다양성이 조금 나아지긴 했지만, 새 방법은 여전히 모든 측정 항목에서 앞섰다. 흥미롭게도 새 방법의 다양성 지표는 기본 설정 대비 약간 줄었는데, 이는 창의성 설정과 새 방법의 유도 장치가 서로 경쟁하기 때문이다.

답변 품질 측면에서도 중요한 발견이 있었다. 특정 단어를 피하는 규칙으로 만든 답변의 자연스러움을 분석한 결과, 창의성 설정을 높였을 때 기존 방법은 답변이 매우 부자연스러워졌지만, 새 방법은 기본 설정에서 다양성과 자연스러움의 더 나은 균형을 보여줬다.

각 구성 요소의 역할을 분석한 결과, 세 가지 핵심 장치(가산점, 감점, 자동 조절)가 모두 중요한 역할을 했다. 가산점을 제거하자 성능이 기존 방법보다 낮아졌고, 감점을 제거하면 답변 생성 과정이 불안정해져 제대로 된 답변을 거의 만들지 못했다.

실제 소프트웨어 테스트에서 검증 범위 최대 13% 확대

연구팀은 실제 활용 사례로 오픈소스 프로그램 라이브러리를 테스트하는 실험을 진행했다. 이메일 검증 프로그램과 웹 색상 변환 프로그램을 대상으로 생성된 테스트 데이터가 프로그램 코드를 얼마나 검증하는지 측정했다. 새 방법으로 만든 테스트 데이터는 이메일 검증 프로그램에서 46.19%에서 59.08%로 약 13%p 향상됐고, 웹 색상 변환 프로그램에서는 78.04%에서 83.18%로 약 5%p 상승했다.

이는 다양한 형태를 포함하는 테스트 데이터가 소프트웨어의 더 많은 부분을 실행하고 잠재적 오류를 발견하는 데 효과적임을 입증한다. 예를 들어 규칙상으로는 맞지만 프로그램의 기본 설정에서는 허용하지 않는 특별한 이메일 형식을 생성함으로써 예외 처리 기능을 테스트할 수 있었다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 정형화된 답변 생성이란 무엇이며 왜 중요한가요?

A: 정형화된 답변 생성은 AI가 JSON, XML 같은 정해진 형식을 따르는 답변을 만들도록 강제하는 기술입니다. 자율 AI 시스템이나 자동화 프로그램에서 AI 답변을 처리하려면 정확한 형식이 필수적이기 때문에 중요합니다.

Q2. 기존 방법의 답변이 비슷비슷한 이유는 무엇인가요?

A: AI는 학습한 데이터를 바탕으로 단어를 예측하므로 자연어에서 흔한 패턴을 선호합니다. 문법적으로는 맞지만 드문 형태는 학습 데이터에 적게 등장해 거의 생성되지 않습니다. 기존 방법은 문법만 검사할 뿐 다양성을 높이지 않습니다.

Q3. 이 새로운 방법을 실제로 어떻게 활용할 수 있나요?

A: 소프트웨어 테스트에서 다양한 특수 상황을 포함하는 테스트 데이터를 자동으로 만들거나, 자율 AI 시스템이 다양한 행동 계획을 수립하도록 돕는 데 활용할 수 있습니다. 또한 기계학습 학습용 데이터 확보에도 유용합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Automata-Based Steering of Large Language Models for Diverse Structured Generation

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

고정닉 0

원본 첨부파일 1

AI-매터스-기사-썸네일-Diverse-Structured-Generation.jpg

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	치어리딩 가장 잘할 것 같은 스타는?	운영자	26/05/11	-	-
2743	함샤우트 글로벌, 일룸에 AI 검색 최적화(GEO) 통합 컨설팅 제공…'AIBA™'로 브랜드 AI 인식 점검한다	aimatters	11:00	5	0
2742	마키나락스, 우리사주 배정 물량 '전량 완판'…5월 20일 코스닥 상장	aimatters	11:00	6	0
2741	FCC, AT&T·스타링크의 에코스타 지상∙위성 하이브리드 주파수 매입 승인…소형 통신사 반발	aimatters	11:00	6	0
2740	점보제트기 날개폭 태양광 드론, 비행 기록 세운 뒤 추락…개척적 무인기 마지막 비행	aimatters	11:00	4	0
2739	아마존, 검색창에 알렉사 직접 탑재…'AI 쇼핑'으로 검색·구매 한 줄로	aimatters	11:00	6	0
2738	시스코, AI 매출 전망 상향에 시간외 19% 급등…동시에 수천 명 감원 발표	aimatters	11:00	4	0
2737	"AI 챗봇이 실제 내 전화번호를 유출한다"… 제미나이에서 잇따라 노출, 막을 방법 없어 [1]	aimatters	11:00	98	0
2736	머스크 xAI, 미시시피 데이터센터서 가스 터빈 50개 무허가 가동…환경 소송 직면	aimatters	11:00	6	0
2735	노션, 작업공간을 'AI 에이전트 허브'로…개발자 플랫폼 공개로 에이전트 생산성 시장 도전	aimatters	11:00	7	0
2734	머스크 xAI '그록', 월가 입성 시동…아폴로·모건스탠리·Valor 시험 도입	aimatters	11:00	7	0
2733	"MS, 오픈AI에 의존하는 게 두려웠다"…알트만 신문서 경영진 내부메모 공개	aimatters	11:00	5	0
2732	백악관 'AI 안전성 출시 전 검토' 행정명령 좌초…미·중 정상회담 결과 기다린다	aimatters	11:00	7	0
2731	블룸버그 "삼성·SK하이닉스, AI 시대에도 '코리아 디스카운트' 안 풀린다"	aimatters	11:00	12	0
2730	커서, '멀티-리포 에이전트' 정식 출시…백그라운드 에이전트가 여러 코드베이스 동시 작업	aimatters	11:00	5	0
2729	영국 휴머노이드, 2030년 美 IPO 정조준…사전주문 3.4만 대·$24억 매출 약속	aimatters	11:00	6	0
2728	샘 알트만 법정 증언 2일차…"머스크가 오픈AI를 '죽음의 소용돌이'에 방치했다"	aimatters	11:00	8	0
2727	30조 원 '소버린 AI' 합병…독일 알레프 알파, 캐나다 코히어에 흡수	aimatters	11:00	6	0
2726	앤트로픽, '클로드 포 스몰비즈니스' 출시…페이팔·퀵북스 등 7종 끼워 소형 점포 업무 전부 처리	aimatters	11:00	6	0
2725	트럼프, 9년 만에 베이징 국빈방문…에어포스원에 머스크·젠슨 황·팀 쿡과 'AI 콜드워' 정조준	aimatters	11:00	6	0
2724	제미나이 시리, 이렇게 바뀐다…6월 8일WWDC 예상되는 iOS27 8가지 변화	aimatters	11:00	6	0
2723	한국어 음성 AI 5종에 수능 듣기 시켜보니, 가장 똑똑한 모델이 들은 것과 가장 다른 답변을 냈다	aimatters	11:00	7	0
2722	100턴까지 멈추지 않는 AI 검색 에이전트, 비결은 '잘 잊는 법'이었다	aimatters	11:00	8	0
2721	“그림판인 줄 알았는데 AI였다”…챗GPT 이미지 2.0, 그림판 그림 열풍 이끌었다	aimatters	05.13	34	0
2720	극단적 위협 아닌 '막다른 길'이 규칙 위반을 부른다... AI 1,680회 실험에서 드러난 진실 [5]	aimatters	05.13	1417	6
2719	솔트웨어, 31억 규모 반도체 제조 AI 사업 수주… AI 데이터 플랫폼 기업으로 전환 가속	aimatters	05.13	15	0
2718	마키나락스, IPO 일반청약 경쟁률 2,807.8대 1… 13.9조 원으로 2026년 최고 청약 증거금 기록 경신	aimatters	05.13	21	0
2717	최신 AI 붐 아이디어 '집에 미니 데이터센터 들여라'…SPAN·엔비디아·풀테그룹 'XFRA' 공식 가동	aimatters	05.13	587	2
2716	MS 365 코파일럿에 '캘린더 에이전트' 본격 가동…SharePoint도 자연어로 차트 만든다	aimatters	05.13	22	0
2715	메타, Llama 버리고 'Muse Spark'로 갈아탔다…AI 앱 신기능 본격 전개	aimatters	05.13	48	0
2714	소프트뱅크, '엔비디아 대항마' 영국 그래프코어에 4억5천만 달러 추가 투입…AGI 정조준	aimatters	05.13	25	0
2713	법정 선 샘 알트만 "머스크가 OpenAI를 자기 아이들에게 물려주겠다더라" [4]	aimatters	05.13	798	2
2712	구글, AI 노트북 '구글북' 공식 발표…매직 포인터로 'PC의 정의'를 다시 쓴다	aimatters	05.13	82	0
2711	톰슨로이터 CoCounsel, 클로드 위에서 다시 태어났다…Agent SDK로 전면 재설계	aimatters	05.13	12	0
2710	법률 시장 정조준한 앤트로픽, 'Claude for Legal' 공개…12개 변호사 전용 플러그인 동시 출시	aimatters	05.13	21	0
2709	앤트로픽-AWS 동맹 가속화…클라우드 빅3 최초 '클로드 플랫폼' AWS 안에서 정식 출시	aimatters	05.13	23	0
2708	사진 설명을 텍스트 한 줄로 바꾸는 순간 AI 에이전트 인식 정확도가 7.7%로 추락한다	aimatters	05.13	20	0
2707	깃랩(GitLab), ‘에이전틱 시대’ 베팅에 인력 감축… 운영 국가 수 30% 축소·R&D 60팀 재편	aimatters	05.12	39	0
2706	‘우주 데이터센터’ 띄울 로켓이 모자란다… 카우보이 스페이스, 약 4,100억 원 시리즈 B 조달	aimatters	05.12	19	0
2705	엘리스그룹, 고용노동부 ‘K-디지털 트레이닝 AI 캠퍼스’ 운영기관 선정… 실전형 AI 엔지니어 양성	aimatters	05.12	15	0
2704	‘쿨리닉’, 피지컬 AI 기반 스마트 냉동장비 체계 구축… 콜드체인 사후 관리 한계 깬다	aimatters	05.12	15	0
2703	동영상도 자동으로 얼굴 블러...아이엠지베이스 VDIT, ‘AI 얼굴 자동 모자이크’ 탑재	aimatters	05.12	14	0
2702	데이블, 대화형 AI 뉴스 위젯 ‘에이블(AI-ble)’ 출시… 기사 안에서 독자 질문 직접 응답	aimatters	05.12	13	0
2701	다시 살아난 ‘디그(Digg)’… 이번엔 AI 뉴스 어그리게이터로 회귀	aimatters	05.12	12	0
2700	스위스 ‘픽테’ 35억 달러 펀드, 현금 비중 30% 아시아·미국 AI 주식으로 옮겼다	aimatters	05.12	20	0
2699	브린욜프슨 “AI 일자리 충격 대비 부족하다”… 美 노동생산성 연 1.8% 성장 베팅	aimatters	05.12	37	0
2698	아시아 증시, AI 낙관론에 중동 불안 압도… 한국 코스피 5% 폭등 사상 최고	aimatters	05.12	16	0
2697	맥 미니가 ‘AI 에이전트 호스트’로… 클로드 수요에 애플 인상·품귀 사태	aimatters	05.12	16	0
2696	알파벳, 첫 엔화 채권 발행 추진… AI 인프라 260조 원 캐펙스 자금 조달 목표	aimatters	05.12	15	0
2695	한국 대기업이 베팅한 컨피그(Config), 370억 원 시드… ‘로봇 데이터의 TSMC’ 노린다	aimatters	05.12	68	0
2694	IBM 보고서 “글로벌 기업 76%가 CAIO 신설”… 1년 만에 26%→76% 폭증	aimatters	05.12	47	0