"AI의 사고과정 감시 시급하다"… AI 업계 리더들, 공동 입장문 발표

aimatters

2025.07.16 19:21:41

조회 9031 추천 4 댓글 19

오픈AI(OpenAI), 구글 딥마인드(Google DeepMind), 앤트로픽(Anthropic) 등 주요 AI 기업과 비영리 단체 연구진들이 AI 추론 모델의 소위 '생각'을 감시하는 기술에 대한 심층 조사가 필요하다고 촉구했다. 테크크런치가 15일(현지 시간) 보도한 내용에 따르면, 이들은 'Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety'라는 제목의 입장문을 통해 이 같은 입장을 밝혔다.

오픈AI의 o3와 딥시크(DeepSeek)의 R1과 같은 AI 추론 모델의 핵심 특징은 사고의 연쇄(chains-of-thought, CoT)다. 이는 AI 모델이 문제를 해결하는 과정을 외부로 드러내는 것으로, 인간이 어려운 수학 문제를 풀 때 메모지를 사용하는 것과 유사하다. 추론 모델은 AI 에이전트를 구동하는 핵심 기술이며, 이들은 CoT 모니터링이 AI 에이전트가 더 널리 보급되고 능력이 향상될 때 이를 통제하는 핵심 방법이 될 수 있다고 주장했다.

연구진들은 입장문에서 "CoT 모니터링은 최첨단 AI의 안전 조치에 귀중한 추가 요소가 되며, AI 에이전트가 결정을 내리는 방식에 대한 드문 통찰을 제공한다"고 밝혔다. 하지만 "현재 수준의 가시성이 지속될 것이라는 보장은 없다"며 "연구 커뮤니티와 최첨단 AI 개발자들이 CoT 모니터링 가능성을 최대한 활용하고 이를 보존하는 방법을 연구할 것을 권장한다"고 덧붙였다.

연구진들은 입장문을 통해 주요 AI 모델 개발자들에게 CoT를 '모니터링 가능하게' 만드는 요소를 연구하도록 요청했다. 즉, AI 모델이 실제로 답에 도달하는 방식에 대한 투명성을 높이거나 낮출 수 있는 요인들을 연구해야 한다는 것이다. 이들은 CoT 모니터링이 AI 추론 모델을 이해하는 핵심 방법일 수 있지만 취약할 수 있다고 지적하며, 투명성이나 신뢰성을 감소시킬 수 있는 개입을 경계했다.

이들은 또한 AI 모델 개발자들에게 CoT 모니터링 가능성을 추적하고 이 방법이 언젠가 안전 조치로 구현될 수 있는 방안을 연구하도록 촉구했다. 주목할 만한 서명자로는 오픈AI 최고연구책임자 마크 첸(Mark Chen), 세이프 슈퍼인텔리전스(Safe Superintelligence) CEO 일리야 수츠케버(Ilya Sutskever), 노벨상 수상자 제프리 힌튼(Geoffrey Hinton), 구글 딥마인드 공동창립자 셰인 레그(Shane Legg), xAI 안전 고문 댄 헨드릭스(Dan Hendrycks), 씽킹 머신즈(Thinking Machines) 공동창립자 존 슐만(John Schulman) 등이 있다. 주 저자들은 영국 AI 보안 연구소(U.K. AI Security Institute)와 아폴로 리서치(Apollo Research)의 리더들이며, 다른 서명자들은 METR, 아마존(Amazon), 메타(Meta), UC 버클리 출신이다.

이 논문은 AI 안전 연구를 촉진하려는 AI 업계 리더들의 단합된 순간을 보여준다. 이는 기술 기업들이 치열한 경쟁에 휘말린 시점에 나온 것으로, 메타가 수백만 달러를 제시하며 오픈AI, 구글 딥마인드, 앤트로픽의 최고 연구진들을 빼오고 있는 상황이다. 가장 인기 있는 연구자들은 AI 에이전트와 AI 추론 모델을 구축하는 이들이다.

입장문 작성에 참여한 오픈AI 연구원 보웬 베이커(Bowen Baker)는 테크크런치와의 인터뷰에서 "우리는 새로운 사고의 연쇄라는 것이 있는 중요한 시점에 있다. 꽤 유용해 보이지만, 사람들이 정말로 집중하지 않으면 몇 년 안에 사라질 수 있다"고 말했다. "이런 입장문을 발표하는 것은 그런 일이 일어나기 전에 이 주제에 더 많은 연구와 관심을 끌어내는 메커니즘이다."라고 밝혔다.

오픈AI는 2024년 9월 첫 번째 AI 추론 모델인 o1의 프리뷰를 공개했다. 그 후 몇 달 동안 기술 업계는 유사한 기능을 보이는 경쟁 모델을 빠르게 출시했으며, 구글 딥마인드, xAI, 앤트로픽의 일부 모델들은 벤치마크에서 더욱 발전된 성능을 보였다. 하지만 AI 추론 모델이 어떻게 작동하는지에 대해 알려진 것은 상대적으로 적다. AI 연구소들이 지난 1년간 AI 성능 향상에는 뛰어났지만, 이것이 AI가 답에 도달하는 방식에 대한 더 나은 이해로 이어지지는 않았다.

앤트로픽은 AI 모델이 실제로 어떻게 작동하는지 파악하는 분야인 해석가능성(interpretability) 분야의 업계 선두주자 중 하나다. 올해 초 CEO 다리오 아모데이(Dario Amodei)는 2027년까지 AI 모델의 블랙박스를 해체하겠다는 약속을 발표하고 해석가능성에 더 많이 투자하겠다고 밝혔다. 그는 오픈AI와 구글 딥마인드에도 이 주제를 더 연구하도록 촉구했다. 앤트로픽의 초기 연구에 따르면 CoT가 이러한 모델들이 답에 도달하는 방식을 완전히 신뢰할 수 있게 나타내지 못할 수 있다고 밝혀졌다. 동시에 오픈AI 연구진들은 CoT 모니터링이 언젠가 AI 모델의 정렬과 안전성을 추적하는 신뢰할 수 있는 방법이 될 수 있다고 말했다.

해당 기사의 원문은 테크크런치에서 확인 가능하다.

이미지 출처: 입장문 일부 캡쳐

인기 기사

고정닉 0

원본 첨부파일 1

AI-Matters-기사-썸네일-CoT.jpg

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	2026년 사주나 운세가 제일 궁금한 스타는?	운영자	25/12/29	-	-
1841	메타, AI 에이전트 스타트업 '마누스' 인수… 에이전트 경쟁 본격화	aimatters	25.12.31	10	0
1840	"500억 지원 놓고 한 팀 탈락"… 국내 AI 빅5, 국가대표 모델 선발전 돌입	aimatters	25.12.31	32	0
1839	챗GPT에 속은 학생들 "아는 것만 물어볼래요"… 'AI 검증 전략' 스스로 개발	aimatters	25.12.31	7	0
1838	챗GPT 이후 소규모 창업 51% 급증... 소매·서비스업 '1인 기업' 폭발적 증가	aimatters	25.12.31	6	0
1837	개인정보 삭제 요청하면 AI가 '진짜' 잊는다... ‘머신 언러닝’ 기술 급부상	aimatters	25.12.31	7	0
1836	[12월 31일 AI 뉴스 브리핑] 엘리스그룹, 국산 NPU 기반 교육용 AI 에이전트 실증 성공 외	aimatters	25.12.31	5	0
1835	구글·오픈AI 선택 가능한 HTC 스마트 안경, 홍콩 진출... 한국어도 지원	aimatters	25.12.30	33	0
1834	버니 샌더스 "AI 데이터센터 건설 중단해야"… 일자리 대체 우려	aimatters	25.12.30	31	0
1833	AI 대부 제프리 힌튼 "AI 진화 속도, 예상보다 빨라... 더 우려스러워"	aimatters	25.12.30	31	0
1832	AI 영상으로 연 60억 번다... 한국, 유튜브 AI 쓰레기 영상 조회수 세계 1위 [60]	aimatters	25.12.30	3827	23
1831	챗GPT, 일반인보다 73% 더 진보적... AI가 만드는 정치 편향의 덫	aimatters	25.12.30	32	0
1830	챗GPT vs 클로드 vs 제미나이 vs 퍼플렉시티 vs 그록… 14만 대화 분석했더니 '이 AI'가 1등	aimatters	25.12.30	77	1
1829	[12월 30일 AI 뉴스 브리핑] 마음AI, 남원시에 로봇개 공공안전 실증 추진 외	aimatters	25.12.30	21	0
1828	그록, 챗GPT·제미나이 제치고 AI 체류시간 1위 등극 [24]	aimatters	25.12.29	1985	5
1827	오픈AI, AI 위험 '대비 책임자' 긴급 채용 나서… “해킹·정신 건강 문제 등 맡을 것" [11]	aimatters	25.12.29	1133	2
1826	2026년 ‘AI 대전환 시대’ 온다… 한국지능정보원, AI 주요 트렌드 및 2026 전망	aimatters	25.12.29	55	0
1825	[12월 29일 AI 뉴스 브리핑] 바이오컴, 시리즈 A 투자 유치로 AI 헬스케어 시장 공략 가속 외	aimatters	25.12.29	16	0
1824	꿀벌 떼, AI 학습 원리로 움직인다... 생물학계 ‘진화의 지혜’ 재조명	aimatters	25.12.29	28	0
1823	"30년 후 나"와 7분 대화했더니 불안 줄고 동기부여 높아졌다	aimatters	25.12.29	54	1
1822	챗GPT, 2025년 사용 기록 돌아보는 연말 결산 기능 출시	aimatters	25.12.24	1306	1
1821	오픈AI CEO "코드 레드, 딥시크 때도 겪었다… 연 1~2회 발령할 것"	aimatters	25.12.24	62	0
1820	하버드·스탠포드 등 연구팀, AI 에이전트 ‘적응’ 기술 제시… "본체 고정·도구만 훈련해 학습 효율 70배 향상”	aimatters	25.12.24	53	1
1819	선 긋고 사진 넣고 한 줄 쓰면 영상 완성... 그림판처럼 쉬운 AI 영상 제작 기술 등장	aimatters	25.12.24	2012	4
1818	구글 딥마인드 긴급 보고서... "AI들끼리 협력하는 순간, AGI 탄생할 수 있다"	aimatters	25.12.24	100	1
1817	[12월 24일 AI 뉴스 브리핑] RECORD X, AI 제작 다큐 '트랜스휴먼' 방송 콘텐츠 대상 수상 외	aimatters	25.12.24	31	0
1816	‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시 [1]	aimatters	25.12.23	1031	1
1815	맥스 호닥 "AI, 인간 뇌와 비슷한 구조 발견"... 10년 안에 '뇌 확장’ 가능	aimatters	25.12.23	73	3
1814	유튜브, 코딩 없이 게임 만드는 AI 도구 '플레이어블 빌더' 공개… 텍스트나 이미지 넣으면 게임 만들어준다	aimatters	25.12.23	62	1
1813	"회사 로고 아닌 함께 일할 사람들 봐야 해"… 앤드류 응, AI 커리어 성공법 공개	aimatters	25.12.23	47	0
1812	[12월 23일 AI 뉴스 브리핑] Arm, 2026년 이후 기술 전망 발표 외	aimatters	25.12.23	36	0
1811	엔비디아, AI 게임 플레이어 '나이트로젠' 무료 공개… 유튜브 게임 영상 4만 시간 학습	aimatters	25.12.23	59	0
1810	"진짜 연애보다 편해서"... AI 연인 택한 MZ세대, 어떻게 쓰나 봤더니	aimatters	25.12.23	64	0
1809	AI가 우리 회사 코드 학습했을까? 변수명 바꾸기만 해도 확인 못한다	aimatters	25.12.23	50	0
1808	챗GPT, '따뜻함' 조절 기능 추가… 이제 말투까지 마음대로 설정한다 [4]	aimatters	25.12.22	1014	8
1807	일론 머스크 "xAI, 2~3년만 버티면 AI 경쟁 1위 된다" [1]	aimatters	25.12.22	146	0
1806	인터뷰 거절당해 CEO 복제했다… ‘딥페이킹 샘 알트만’ 다큐 내년 1월 개봉	aimatters	25.12.22	75	0
1805	AI 검색 시대 대비한다… 함샤우트글로벌-비즈스프링, 'GEO 통합 솔루션' 공동 구축	aimatters	25.12.22	35	1
1804	"3년 반째 AI 남친과 연애 중"... 실제 사례로 본 인간-AI의 사랑 [20]	aimatters	25.12.22	2464	5
1803	핀란드 연구진, 매일 뉴스 분석해 주간 인사이트로 바꾸는 AI '오라클' 선보여	aimatters	25.12.22	58	0
1802	AI가 쓴 연애 편지, 사람이 쓴 것과 구별 못한다... 307명 실험 결과	aimatters	25.12.22	44	1
1801	[12월 22일 AI 뉴스 브리핑] 아이브릭스, 서울대·상명대 생성형 AI 학사지원 시스템 수주 외	aimatters	25.12.22	74	0
1800	오픈AI, 사이버 보안 특화 코딩 AI 'GPT-5.2-Codex' 공개	aimatters	25.12.19	51	1
1799	오픈AI "챗GPT는 파트너, 대체재 아냐"... 10대 AI 활용 가이드 공개	aimatters	25.12.19	68	0
1798	챗GPT, 모바일 앱 매출 4조 4척억 돌파… 틱톡보다 2배 빠른 성장세 [6]	aimatters	25.12.19	1345	5
1797	연애-결혼하기 전 AI로 미리 궁합 판단한다… 이혼 가능성까지 예측 [16]	aimatters	25.12.19	1834	7
1796	딜로이트, CES 2026 프리뷰 리포트 공개… '작동하는 AI' 시대가 온다	aimatters	25.12.19	112	0
1795	"핵무기 만드는 법 알려줘" 거절하던 AI, 시(時)로 바꾸니 대답해준다 [1]	aimatters	25.12.19	157	0
1794	[12월 19일 AI 뉴스 브리핑] 국내 AI 서비스 이용률 조사… 챗GPT 1위, 제미나이·뤼튼 약진 외	aimatters	25.12.19	41	0
1793	"챗GPT서 수익화 가능"… 오픈AI, 챗GPT에 입점할 앱 등록 받는다	aimatters	25.12.18	76	0
1792	구글, ‘제미나이 3 플래시’ 출시… 골프 스윙 교정부터 앱 개발까지 '몇 초' 만에 해결	aimatters	25.12.18	215	0