디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"답할까, 거절할까, 추측할까"…애피어, AI 의사결정 신뢰성 높이는 연구 발표

aimatters갤로그로 이동합니다. 2026.03.11 13:59:25
조회 46 추천 0 댓글 0


애피어(Appier)가 에이전틱 AI 시스템의 신뢰성을 강화하는 새로운 연구 결과를 발표했다. 핵심은 AI가 스스로 판단을 내릴 때 얼마나 믿을 수 있느냐는 문제다.

이번 논문의 제목은 "답할 것인가, 거절할 것인가, 추측할 것인가? 언어모델의 리스크 인지 의사결정(Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models)"이다. 다양한 리스크 조건에서 거대언어모델(LLM)이 어떻게 의사결정을 내리는지 체계적으로 측정할 수 있는 평가 프레임워크를 제시한다.

기업들의 AI 도입이 단순 보조 도구에서 자율형 AI 에이전트로 진화하면서, 신뢰성은 도입을 결정짓는 핵심 장벽이 되고 있다. 2025년 맥킨지(McKinsey) 조사에 따르면 기업의 62%가 이미 AI 에이전트 도입을 시작했지만, '부정확성'은 여전히 엔터프라이즈 AI 도입 시 가장 많이 언급되는 리스크로 꼽힌다.

기존 LLM 평가 방식은 주로 답변의 정답 여부에만 초점을 맞췄다. 그러나 기업 환경에서는 오답에 따른 비용과 답변 거부에 따른 가치가 상황마다 다르다. 애피어는 이를 해결하기 위해 정답 보상, 오답 패널티, 답변 거부 비용 등 구조화된 리스크 파라미터(매개변수)를 도입해 다양한 시나리오를 시뮬레이션했다. 이 프레임워크에서 모델은 답변을 생성하기 전에 자신의 수행 능력, 확신 수준, 리스크 조건을 종합적으로 평가한 뒤 답변, 거부, 추측 중 하나를 선택하도록 설계된다.

연구 결과, 다수의 선도적 LLM들이 리스크 시나리오 전반에서 전략적 불균형을 보이는 것으로 나타났다. 고위험 환경에서는 잠재적 손실이 있음에도 과도하게 추측하는 경향을 보였고, 저위험 환경에서는 반대로 지나치게 보수적으로 작동해 답변을 과하게 거부하는 모습을 보였다. 연구진은 이 문제가 단순한 지식 부족이 아니라, 모델이 여러 역량을 하나의 안정적인 의사결정 전략으로 통합하는 데 어려움을 겪기 때문이라고 분석했다.

애피어는 이를 해결하기 위해 의사결정 과정을 세 단계로 나누는 '스킬 분해(Skill Decomposition)' 접근법을 제안했다. 먼저 문제를 해결해 초기 답변을 생성하는 과업 실행(Task Execution), 이어 해당 답변에 대한 확신 수준을 평가하는 확신도 추정(Confidence Estimation), 마지막으로 리스크 조건에서의 결과를 기반으로 기대값을 추론하는 기대 가치 추론(Expected-Value Reasoning) 단계로 구성된다. 이 구조화된 추론 과정을 통해 모델은 답변을 제시할지, 거부하는 것이 더 나은 결과를 가져오는지를 스스로 판단할 수 있다.

치한 위(Chih-Han Yu) 애피어 최고경영자는 "에이전틱 AI가 기업의 핵심 업무에 도입되기 위해서는 AI를 더 똑똑하게 만드는 것뿐 아니라, 자율적 의사결정의 신뢰도를 높이는 것이 중요하다"며 "LLM의 리스크 인지 능력을 수치화된 방법론으로 구현한 이번 연구는 신뢰할 수 있는 엔터프라이즈 AI의 기반을 강화하고, 에이전틱 AI가 실제 비즈니스 가치와 ROI로 연결되도록 지원할 것"이라고 밝혔다.

이번 연구 결과는 애피어의 에이전틱 AI 기반 플랫폼인 애드 클라우드, 개인화 클라우드, 데이터 클라우드에 통합되어 기업들이 보다 신뢰 가능하고 안정적인 방식으로 자율형 워크플로우를 고도화할 수 있도록 지원하고 있다.

자세한 내용은 애피어 코리아 공식 홈페이지에서 확인할 수 있다.

이미지 출처: 에피어




추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 등만 봐도 설레이는 문짝남 스타는? 운영자 26/04/13 - -
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
13:51 4 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
13:51 2 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
13:51 2 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란
aimatters갤로그로 이동합니다.
13:51 2 0
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
13:51 2 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
13:51 2 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
13:51 2 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
13:51 2 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
13:51 2 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
13:51 4 0
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [1]
aimatters갤로그로 이동합니다.
11:00 298 3
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 12 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 20 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 40 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 15 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 44 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 25 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 15 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 15 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 11 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 12 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 843 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [12]
aimatters갤로그로 이동합니다.
04.16 2409 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 20 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 28 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 26 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 14 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 15 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 46 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 11 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 18 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 17 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 27 0
2427 제약 기업 노바티스 CEO 바스 나라심한 앤트로픽이사회에 합류…의료 AI 전략 강화 신호
aimatters갤로그로 이동합니다.
04.15 11 0
2426 오픈AI, 사이버보안 특화 AI 모델 GPT-5.4-Cyber 제한 출시…앤트로픽 미토스에 맞불
aimatters갤로그로 이동합니다.
04.15 22 0
2425 구글, 인도에 제미나이 '개인화 인텔리전스' 출시…지메일·구글 포토 연동해 맞춤형 AI 비서로
aimatters갤로그로 이동합니다.
04.15 11 0
2424 진격의 앤트로픽, 클로드 코드에 '루틴' 기능 추가 및 UI 전면 재설계…오프라인에서도 자동화 실행
aimatters갤로그로 이동합니다.
04.15 17 0
2423 오픈AI, 개인 금융 AI 스타트업 히로(Hiro) 인수…챗GPT에 재무 계획 기능 탑재 예고
aimatters갤로그로 이동합니다.
04.15 21 0
2422 엔비디아, 양자컴퓨터 가속화 위한 오픈소스 AI 모델 '아이징(Ising)' 공개...비전언어모델까지 추가
aimatters갤로그로 이동합니다.
04.15 20 0
2421 스탠퍼드 AI 인덱스 2026 (6) 일자리 전망에 대한 AI 전문가와 일반인의 전혀 다른 시선
aimatters갤로그로 이동합니다.
04.15 20 0
2420 스탠퍼드 AI 인덱스 2026 (5) AI가 기상 예보를 완전 자동화했지만, 임상 연구 절반은 실제 환자 데이터를 안 쓴다
aimatters갤로그로 이동합니다.
04.15 21 0
2419 스탠퍼드 AI 인덱스 2026 (4) 미국 AI 연구자 1년 만에 80% 감소, 그런데 데이터센터는 왜 세계 1위인가
aimatters갤로그로 이동합니다.
04.15 17 0
2418 스탠퍼드 AI 인덱스 2026 (3) AI 안전 연구는 중국이 미국의 2배인데, 사고 건수는 왜 55% 늘었나
aimatters갤로그로 이동합니다.
04.14 17 0
2417 스탠퍼드 AI 인덱스 2026 (2) AI가 구한 시니어, AI가 밀어낸 주니어 - 세대를 가른 고용 충격
aimatters갤로그로 이동합니다.
04.14 14 0
2416 마이크로소프트, 오픈클로 대체 제품 만든다…상시 작동 AI 에이전트 개발 박차
aimatters갤로그로 이동합니다.
04.14 14 0
2415 뤼튼테크놀로지스, 2025년 매출 471억원…전년 대비 15배 급성장
aimatters갤로그로 이동합니다.
04.14 21 0
2414 스탠퍼드 AI 인덱스 2026 (1) AI는 1년 만에 코딩 시험을 만점 받았지만 아날로그 시계는 못 읽는다
aimatters갤로그로 이동합니다.
04.14 23 0
2413 AI가 소설을 쓰는 시대, 영국 소설가 10명 중 4명은 이미 수입이 줄었다
aimatters갤로그로 이동합니다.
04.14 28 0
2412 AI 벤치마크 점수를 믿지 마라, 버클리 연구팀이 8개를 모두 뚫었다
aimatters갤로그로 이동합니다.
04.14 20 0
2411 TSMC 1분기 매출 35% 급증…AI 반도체 슈퍼사이클 최전선
aimatters갤로그로 이동합니다.
04.14 12 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2