디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을

aimatters갤로그로 이동합니다. 2026.03.04 14:09:08
조회 50 추천 0 댓글 0


인공지능(AI)이 인간 코더를 대체할 수 있을까. 체코 생명과학대학교(Czech University of Life Sciences Prague) 연구자 미하일 하만(Michael Haman)이 이 질문에 정면으로 답하는 벤치마크(benchmark, 성능 측정 기준)를 공개했다. 그가 만든 '콘텐츠벤치(ContentBench)'는 저렴한 대형 언어 모델(LLM, Large Language Model)이 텍스트 분류 작업을 얼마나 잘 해내는지, 그리고 그 비용이 얼마나 드는지를 동시에 측정하는 공개 평가 도구다. 결과는 놀라웠다. 최고 성능 모델은 99.8%의 정확도로 텍스트를 분류했고, 5만 건의 게시물을 처리하는 데 5달러(약 7,000원)도 채 들지 않았다.



인간 코더가 하던 일, AI가 초저가로 대체한다

사회과학 연구에서 '내용 분석(content analysis)'은 텍스트에서 의미를 추출하는 핵심 방법론이다. 뉴스 기사, 소셜미디어 게시물, 온라인 댓글을 분석해 어떤 내용인지 분류하는 작업을 말한다. 전통적으로 이 일은 훈련받은 인간 연구자들이 직접 텍스트를 읽고 분류 기준을 적용하며 의견 불일치를 협의하는 방식으로 이루어졌다. 비용이 많이 들고, 느리며, 대규모로 확장하기 어려운 작업이었다.

대형 언어 모델은 분류 한 건당 몇 분의 1센트(cent) 비용으로 인간 코더가 몇 분 걸리는 작업을 단 몇 초 만에 처리할 수 있다. 이 모델들이 해석적 분류 범주에서 충분한 수준의 일치도를 달성한다면, 인간 코딩의 경제적·실용적 근거는 크게 흔들릴 수밖에 없다. 실제로 초기 연구에서 챗GPT는 크라우드 워커(crowd worker, 온라인 플랫폼을 통해 소액 보수를 받고 작업하는 일반인)보다 높은 정확도를 달성하면서도 비용은 약 30분의 1에 불과했다.



59개 모델을 줄 세운 콘텐츠벤치의 탄생

하만 연구자가 만든 콘텐츠벤치는 단순한 성능 비교표가 아니다. 버전 관리가 되는 데이터셋, 고정된 분류 프롬프트, 투명한 평가 기준을 갖춘 공개 벤치마크 모음이다. 누구나 자신의 모델이나 인간 코더를 같은 조건에서 테스트하고 결과를 비교할 수 있다.

첫 번째 평가 트랙인 '콘텐츠벤치-리서치토크 v1.0(ContentBench-ResearchTalk v1.0)'은 학술 연구에 대한 소셜미디어 스타일 게시물 1,000개를 다섯 가지 범주로 분류하는 과제다. 다섯 범주는 칭찬(genuine praise), 비판(genuine critique), 빈정거림(sarcastic critique), 질문(neutral query), 절차적 진술(procedural statement)이다. 여기서 빈정거림이란 겉으로는 긍정적인 언어를 사용하지만 실제로는 비판하는 아이러니한 표현을 말한다.

기준 레이블(reference label, 정답 기준)은 최첨단 추론 모델 세 가지, 즉 GPT-5, 제미나이 2.5 프로(Gemini 2.5 Pro), 클로드 오퍼스 4.1(Claude Opus 4.1)이 만장일치로 동의할 때만 부여된다. 세 모델 모두 동의한 게시물만 데이터셋에 포함시키는 보수적인 기준을 적용한 것이다. 이렇게 선별된 데이터로 59개 저비용 모델의 성능을 측정했다.



구글의 독주, 그리고 빈정거림 앞에서 무너지는 소형 모델

1위는 구글(Google)의 제미나이 2.5 플래시 프리뷰(Gemini 2.5 Flash Preview)로, 99.8%의 일치도를 기록했다. 5만 건 처리 비용은 5.10달러(약 7,200원)다. 2위 역시 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash)로 99.6%를 기록했다. 5위 오픈AI(OpenAI)의 GPT-5 미니(GPT-5 Mini)는 99.0%의 일치도를 보였고, 6위 중국 기업 지푸AI(Zhipu AI)의 GLM 4 32B는 98.7%로 뒤를 이었다. 메타(Meta)의 라마 4 매버릭(Llama 4 Maverick)도 98.4%로 7위에 올랐다.

반면 소형 오픈소스 모델은 특히 빈정거림 탐지에서 처참한 성적을 보였다. 예를 들어 라마 3.2 3B(Llama 3.2 3B)는 어려운 빈정거림 항목에서 4%의 일치도에 그쳤다. 59개 모델 전체의 평균을 봐도 빈정거림 범주의 평균 재현율(recall, 정답을 맞힌 비율)은 0.52에 불과했는데, 이는 다른 네 범주의 평균 재현율이 0.93~0.96인 것과 극명하게 대비된다.

왜 빈정거림이 이렇게 어려울까. 논문에 실린 예시를 보면 이해가 쉽다. "두 분 마음 챙김 명상이 시험 성과를 향상시킨다"는 논문에 대해 "100점 만점 테스트에서 통계적으로 유의미한 0.8점 향상(p=0.049), 효과 크기(effect size, 실험 효과의 크기를 나타내는 지표) d=0.08을 달성한 것은 우리에게 필요한 강력하고 확장 가능한 영향력의 모범 사례"라는 게시물이 있다. 인간이 읽으면 0.8점 향상을 극찬하는 게 명백한 빈정거림임을 바로 알아챈다. 하지만 AI 모델 59개 중 단 11개만이 이를 빈정거림으로 올바르게 분류했다. 나머지는 모두 진심 어린 칭찬으로 잘못 판단했다.



초기 챗GPT 대비 성능 격차, 이제는 비교 자체가 무의미

이번 연구에서 특히 주목할 지점은 초기 챗GPT 기반 모델과의 성능 비교다. GPT-3.5 터보(GPT-3.5 Turbo)는 균형 잡힌 핵심 데이터셋에서 79.6%의 일치도를 기록했다. 반면 현재 최상위 저비용 모델들은 97~99%대의 일치도를 달성했다. 수년 전 GPT-3.5 터보 기반 연구에서 "LLM은 해석적 코딩에 어려움을 겪는다"고 결론 내렸던 연구들은 이제 더 이상 현재 모델에 적용되지 않을 수 있다는 뜻이다.

비용 측면에서의 변화는 더욱 극적이다. 현재 가격 기준으로 상위 모델 여럿이 5만 건의 게시물을 단 몇 달러에 처리할 수 있다. 이는 대규모 해석적 코딩 작업의 실용적 가능성을 완전히 바꿔놓으며, 비용-성능 균형이 방법론적 의사결정의 핵심 요소가 되게 한다. 수백만 건의 소셜미디어 게시물을 의미 있는 범주로 분류하는 작업이 이제는 몇만 원대의 비용으로 가능해진 것이다.



AI 코더가 연구실을 점령하기 전에 남은 과제들

그렇다고 인간 코더의 시대가 당장 끝났다는 뜻은 아니다. 연구자는 여러 중요한 한계를 솔직하게 인정한다. 콘텐츠벤치-리서치토크 v1.0은 영어로 된 짧은 게시물 다섯 가지 범주에 한정된 합성 데이터(실제 소셜미디어 데이터가 아닌 AI가 생성한 모의 데이터)를 사용했다. 다른 언어, 다른 도메인(domain, 특정 분야나 주제 영역), 더 복잡한 해석적 과제에서는 성능이 크게 달라질 수 있다.

또한 이번 연구의 기준 레이블 자체가 AI 모델 배심원단을 통해 만들어졌다는 점도 짚어야 한다. 훈련받은 인간 코딩팀이 만든 기준과 비교한 것이 아니므로, "AI가 인간만큼 잘한다"는 결론을 섣불리 내릴 수 없다. 연구자는 이를 명확히 인정하며 향후 트랙에서 인간 기준 레이블을 포함할 계획이라고 밝혔다.

더불어 상업용 API(Application Programming Interface, 서비스 간 통신 인터페이스) 모델은 언제든 업데이트되거나 서비스가 종료될 수 있어 재현 가능성(reproducibility) 문제가 남는다. 오늘 99.8%를 달성한 모델이 내년에는 전혀 다른 결과를 낼 수도 있다. 이 때문에 연구자는 로컬 환경에서 직접 실행 가능한 오픈소스 모델을 차기 연구 목표로 삼고 있다. 현재로서는 소비자용 컴퓨터에서 실행 가능한 소형 모델이 빈정거림 같은 미묘한 언어 표현에서 여전히 크게 뒤처지는 상황이다.

콘텐츠벤치 프로젝트의 데이터, 리더보드(leaderboard, 성능 순위표), 대화형 퀴즈는 contentbench.github.io에서 누구나 확인하고 참여할 수 있다. 새로운 데이터셋을 보유한 연구자라면 새 트랙을 직접 기여할 수도 있다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 콘텐츠벤치(ContentBench)가 정확히 무엇인가요?

A. 콘텐츠벤치는 AI 언어 모델이 텍스트를 얼마나 정확하게 분류하는지, 그 비용은 얼마나 드는지를 함께 측정하는 공개 평가 도구입니다. 누구나 자신의 모델이나 인간 코더를 동일한 조건에서 테스트하고 결과를 비교할 수 있도록 설계되었습니다.

Q. AI가 빈정거림을 잘 못 잡아낸다는데, 왜 그런가요?

A. 빈정거림은 겉으로는 칭찬하는 말을 쓰면서 실제로는 비판하는 표현 방식입니다. AI는 단어 자체의 의미에 의존하는 경향이 있어서, 긍정적인 단어로 이루어진 문장을 칭찬으로 잘못 분류하기 쉽습니다. 이번 연구에서도 소형 AI 모델은 빈정거림 탐지 정확도가 4%에 불과한 경우도 있었습니다.

Q. AI가 연구자의 텍스트 분류 작업을 완전히 대체할 수 있나요?

A. 아직은 아닙니다. 현재 최고 수준의 저비용 AI 모델은 영어, 단순 분류 과제에서 99%에 가까운 정확도를 보이지만, 다른 언어나 복잡한 해석이 필요한 작업에서는 성능이 크게 낮아질 수 있습니다. 전문가의 검증과 인간의 감수(監修) 과정은 여전히 필수적입니다.


기사에 인용된 리포트 원문은 arXiv에서확인할 수 있다.

논문명: Can Large Language Models Replace Human Coders? Introducing ContentBench

이미지 출처: AI 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 등만 봐도 설레이는 문짝남 스타는? 운영자 26/04/13 - -
2395 [에이-아이랑] 한 우물의 시대가 끝났다
aimatters갤로그로 이동합니다.
04.10 32 0
2394 [AI와 인간 사이] 앤트로픽의 하네스 유출은 코딩의 패러다임을 바꾸고 있다
aimatters갤로그로 이동합니다.
04.10 41 0
2393 "인프라는 우리가 맡는다"…앤트로픽, AI 에이전트 대규모 배포 솔루션과 비용 절감 전략 동시 공개
aimatters갤로그로 이동합니다.
04.10 31 0
2392 LG AI연구원, 최초 오픈웨이트 비전 언어 모델 'EXAONE 4.5' 공개
aimatters갤로그로 이동합니다.
04.10 17 0
2391 오픈AI, 코덱스 헤비 유저 위한 월 100달러 챗GPT 프로 요금제 신설 [1]
aimatters갤로그로 이동합니다.
04.10 1152 1
2390 퀄컴, MassRobotics 합류… AI 로봇 스타트업 생태계 지원 나서
aimatters갤로그로 이동합니다.
04.10 13 0
2389 엑솔(Exol), 소프트뱅크와 심보틱 지원 받아 AI 로봇 물류 서비스 미국 전역 확대
aimatters갤로그로 이동합니다.
04.10 12 0
2388 갤럽 조사: Z세대의 AI 분노·불신 심화… 활용률 정체 속 비판적 시각 급증
aimatters갤로그로 이동합니다.
04.10 24 0
2387 오픈AI, 사이버보안 특화 AI 모델 '아드바크' 출시 초읽기… 제한적 파트너 공개 예정
aimatters갤로그로 이동합니다.
04.10 14 0
2386 '클로드노믹스': 메타 직원 8만 5천 명이 AI 토큰 사용량을 두고 경쟁한 사연
aimatters갤로그로 이동합니다.
04.10 22 0
2385 앤트로픽, '클로드 매니지드 에이전츠' 공개 베타 출시… 코워크도 기업용으로 정식 전환
aimatters갤로그로 이동합니다.
04.10 14 0
2384 플로리다 법무장관, 총기 난사 사건 연루 의혹 제기하며 오픈AI 전격 수사
aimatters갤로그로 이동합니다.
04.10 13 0
2383 같은 복도를 10번 헤맨 AI, 스스로 깨닫고 멈췄다
aimatters갤로그로 이동합니다.
04.10 24 0
2382 AI 최대 수혜자 오픈AI가 스스로 규제를 설계하겠다고 나선 이유
aimatters갤로그로 이동합니다.
04.10 14 0
2381 앤트로픽의 새 모델이 27년 묵은 AI 문제를 풀었다
aimatters갤로그로 이동합니다.
04.10 28 0
2380 게임 속 7명의 캐릭터를 동시에 조종하는 AI가 등장했다 [2]
aimatters갤로그로 이동합니다.
04.09 1105 1
2379 AI 시대, 뒤처지는 기업들의 공통점은 ‘이것’
aimatters갤로그로 이동합니다.
04.09 31 0
2378 젠스파크, 'AI 워크스페이스 4.0' 공개… 워드·엑셀·파워포인트 안에서 AI가 직접 문서 작성
aimatters갤로그로 이동합니다.
04.09 30 0
2377 팀장이 AI를 외면하면 56조원을 써도 무용지물이다
aimatters갤로그로 이동합니다.
04.09 24 0
2376 오픈AI, AI 안전 연구 지원 '세이프티 펠로십' 발표… 외부 연구자에 주당 약 583만 원 지원
aimatters갤로그로 이동합니다.
04.09 18 0
2375 클로드 AI, 이틀 연속 서비스 중단… 수백만 사용자 접속 장애
aimatters갤로그로 이동합니다.
04.09 19 0
2374 오픈AI, 엔터프라이즈 AI '다음 단계' 선언… 박스·노션 앱 업데이트·코덱스 종량제 도입
aimatters갤로그로 이동합니다.
04.09 27 0
2373 AI 시대, 어떤 직업이 가장 위험한가… '사무직 절반 사라질 것'이라는 경고 현실로
aimatters갤로그로 이동합니다.
04.09 24 0
2372 기술업계, 2026년 1분기 8만 명 감원… 감원의 절반이 'AI 자동화' 때문?
aimatters갤로그로 이동합니다.
04.09 16 0
2371 AI 문서화 도구 '스크라이브'가 상세한 기록을 작성하며 의료비 상승 주범으로 지목됐다
aimatters갤로그로 이동합니다.
04.09 16 0
2370 엔비디아, 로봇공학 주간 맞아 '피지컬 AI' 혁신 사례 공개… 태양광 로봇·자율 설치 주목
aimatters갤로그로 이동합니다.
04.09 22 0
2369 오픈AI, AI 기술 악용 아동 착취 막는 '아동 안전 청사진' 발표
aimatters갤로그로 이동합니다.
04.09 17 0
2368 앤트로픽, 기업용 'AI 에이전트 관리 서비스' 공식 출시… 인프라 부담 없이 에이전트 배포
aimatters갤로그로 이동합니다.
04.09 27 0
2367 인텔, 머스크의 250억 달러 테라팹 AI 칩 메가팩토리 프로젝트 합류
aimatters갤로그로 이동합니다.
04.08 24 0
2366 오픈AI·앤트로픽·구글, 중국 AI 모델 무단 복제 차단 공동전선 구축 [11]
aimatters갤로그로 이동합니다.
04.08 1171 6
2365 앤트로픽, 최강 AI 모델 '미토스' 프리뷰 공개…'프로젝트 글래스윙' 사이버보안 이니셔티브 출범
aimatters갤로그로 이동합니다.
04.08 34 0
2364 오픈AI IPO 내홍…CFO '2026년 상장 준비 안 됐다', CEO와 갈등 심화
aimatters갤로그로 이동합니다.
04.08 16 0
2363 중국 스피릿 AI, 레이쥔·마윈 계열 펀드 공동 투자로 30일 만에 4.2억 달러 연속 조달
aimatters갤로그로 이동합니다.
04.08 23 0
2362 오픈AI, AI 시대 경제 전환 위한 20가지 정책 제안…로봇세·주4일 근무제·공공 부 기금
aimatters갤로그로 이동합니다.
04.08 18 0
2361 헤르메우스, 무인 극초음속 전투기 개발 3.5억 달러 유치…유니콘 기업 등극
aimatters갤로그로 이동합니다.
04.08 22 0
2360 메타, AI 모델 일부 폐쇄형 전환 검토…오픈소스 AI 전략에 균열 생기나
aimatters갤로그로 이동합니다.
04.08 24 0
2359 앤트로픽, 연매출 300억 달러 돌파…오픈AI 추월하며 AI 업계 매출 1위 등극
aimatters갤로그로 이동합니다.
04.08 30 0
2358 2D 이미지로 3D 모델 만드는 AI, 데이터 부족 문제를 이렇게 풀었다
aimatters갤로그로 이동합니다.
04.08 44 0
2357 AI 모델 하나로는 부족하다, 질문마다 '최적 모델'이 따로 있다
aimatters갤로그로 이동합니다.
04.08 29 0
2356 AI가 수학 문제는 풀면서 "그래서 어떻게 됐어?"는 모른다
aimatters갤로그로 이동합니다.
04.08 50 0
2355 AI 데이터센터 지역사회 반대 운동 전국 확산... 전기요금·환경 우려 고조
aimatters갤로그로 이동합니다.
04.07 64 0
2354 오픈AI 경영진 전격 개편... CEO 피지 시모 병가, COO 브래드 라이트캡 역할 전환
aimatters갤로그로 이동합니다.
04.07 62 0
2353 앤트로픽, 정치활동위원회 'AnthroPAC' 출범... AI 선거 전선 뛰어든다
aimatters갤로그로 이동합니다.
04.07 65 0
2352 캘리포니아, AI 장난감 챗봇 4년 금지 법안 청문회... 아동 정신건강 우려 반영
aimatters갤로그로 이동합니다.
04.07 60 0
2351 유나이티드헬스 그룹, AI에 30억 달러 투자... 의료 청구 자동화·비용 절감 목표
aimatters갤로그로 이동합니다.
04.07 71 0
2350 구글, 동영상 생성 AI 'Veo 3.1 Fast' 가격 인하... 개발자 접근성 확대
aimatters갤로그로 이동합니다.
04.07 61 0
2349 HumanX 2026 AI 컨퍼런스, 샌프란시스코에서 개막... 6,500명 집결
aimatters갤로그로 이동합니다.
04.07 56 0
2348 앤트로픽, AI 신약 개발 스타트업 코에피션트 바이오 4억 달러에 인수... 신약 개발 뛰어드나
aimatters갤로그로 이동합니다.
04.07 64 0
2347 앤트로픽 클로드, 서비스 장애 발생... 수천 명 사용자 영향
aimatters갤로그로 이동합니다.
04.07 59 0
2346 AI는 군중 속에서 '함께 있는 사람'을 알아볼 수 있을까, 65개국 데이터가 내린 냉정한 결론
aimatters갤로그로 이동합니다.
04.07 62 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2