디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

얼굴 하나로 감정, 음주, 졸음까지 읽는다, AI 단일 네트워크의 등장

aimatters갤로그로 이동합니다. 2026.03.16 14:55:51
조회 1034 추천 2 댓글 4


사람의 얼굴에는 생각보다 훨씬 많은 정보가 담겨 있다. 기쁨과 슬픔 같은 감정뿐 아니라 졸음 여부, 심지어 혈중 알코올 농도까지 얼굴 영상만으로 감지할 수 있다는 연구 결과가 나왔다. 에디스 코완 대학교(Edith Cowan University)와 버밍엄 시티 대학교(Birmingham City University) 공동 연구팀이 발표한 논문은 하나의 AI 모델로 표정 인식, 운전자 졸음 감지, 음주 상태 추정을 모두 처리하는 통합 네트워크를 제안하며 각 분야에서 최고 수준의 성능을 기록했다.



기존 AI의 한계, 하나의 모델이 하나의 임무만 수행한다

얼굴 분석 분야의 인공지능 연구는 그동안 각각의 임무에 특화된 별도 모델을 만드는 방식으로 발전해 왔다. 표정 인식용 모델, 졸음 감지용 모델, 음주 탐지용 모델이 따로 존재했으며, 각 모델은 특정 데이터셋에서만 잘 작동하도록 설계됐다. 또한 최근에는 카메라 영상에 음성, 텍스트, 웨어러블 센서 데이터를 결합하는 다중 모달(multimodal, 여러 종류의 입력을 함께 사용하는 방식) 접근법이 성능 향상을 위해 활발히 사용됐다. 그러나 이 방식은 구조가 복잡해지고 특정 환경이나 센서에 의존하게 되는 문제가 있었다. 연구팀은 이 한계를 극복하기 위해 카메라 영상만으로 여러 얼굴 분석 임무를 동시에 처리할 수 있는 단일 3D 시공간 네트워크(3D spatio-temporal network)를 설계했다. 시공간 네트워크란 영상의 각 프레임뿐 아니라 프레임이 시간에 따라 변하는 흐름까지 함께 학습하는 구조를 말한다.



두 가지 핵심 모듈이 얼굴의 세부 정보와 전체 맥락을 동시에 포착한다

연구팀이 제안한 네트워크의 핵심은 두 가지 독자 개발 모듈에 있다. 첫 번째는 콘애드브-이엘씨에이(ConAdv-ELCA, Contrastive Adversarial Efficient Local Channel Attention)로, 눈가의 미세한 떨림이나 입 주변의 근육 움직임처럼 얼굴의 국소적인 세부 특징을 추출하고 정리하는 역할을 한다. 이 모듈은 대립적 학습(adversarial training)과 대조적 학습(contrastive learning)을 결합해 모델이 노이즈에 강하고 다양한 상황에 일반화될 수 있도록 설계됐다. 대립적 학습이란 AI가 의도적으로 방해받은 데이터를 학습해 실제 환경의 불확실성에 강해지는 훈련 방식이다. 두 번째는 이지씨에이(EGCA, Efficient Global Channel Attention)로, 얼굴 전체의 장거리 맥락 관계를 효율적으로 포착한다. 이를테면 눈과 입의 움직임이 어떻게 연관되는지, 얼굴 전체의 전반적인 상태가 어떤지를 파악하는 역할이다. 두 모듈의 협력 덕분에 모델은 세부 정보와 전체 맥락을 균형 있게 학습할 수 있었고, 이것이 다양한 임무에서 높은 성능을 내는 핵심 요인이 됐다.



운전자 졸음 감지 95%, 혈중 알코올 농도 추정 90% 이상 정확도 달성

연구팀은 다섯 개의 공개 벤치마크 데이터셋을 활용해 성능을 검증했다. 운전자 졸음 감지에서는 NTHU-DDD 데이터셋 기준 95.04%의 정확도를 기록하며 기존 최고 성능 모델인 아이소에스에스엘-모코(IsoSSL-MoCo)를 약 1.3%포인트 앞섰다. 혈중 알코올 농도 추정에서는 혈중 알코올 농도 0.08g/dL 기준 이진 분류에서 93%의 수신자 조작 특성 곡선 아래 면적(AUROC, 모델의 분류 능력을 0에서 1 사이로 나타내는 지표)을 달성했다. 표정 인식에서는 DFEW, FERV39K, AFEW 세 개 데이터셋 모두에서 기존 단일 모달 방식을 능가했으며, 특히 DFEW에서는 비가중 평균 재현율(UAR) 60.89%, 가중 평균 재현율(WAR) 71.98%로 최고 성능을 기록했다. 모델의 파라미터 수는 약 2,387만 개로, 최대 8,800만 개에 달하는 경쟁 모델들과 비교해 훨씬 가볍고 빠른 처리 속도를 유지했다.



한 번 학습으로 전혀 다른 임무도 해낸다, 일반화 능력의 증명

이 연구에서 특히 주목할 만한 결과는 교차 임무 일반화 실험이다. 연구팀은 표정 인식 데이터셋인 DFEW만으로 학습한 모델을 졸음 감지와 음주 감지 데이터에 그대로 적용했다. 이 두 임무는 학습 과정에서 전혀 노출되지 않은 완전히 새로운 영역이었다. 그럼에도 티-에스엔이(t-SNE, 고차원 데이터를 2차원으로 시각화하는 기법) 분석 결과, 모델이 졸음 상태와 음주 상태를 의미 있는 군집으로 분류해냈다. 이는 모델이 특정 임무의 정답 레이블에 의존하는 것이 아니라, 얼굴에서 공통으로 나타나는 근본적인 패턴을 학습했음을 의미한다. 연구팀은 이 결과가 단일 모델로 다양한 실세계 응용이 가능함을 보여준다고 강조하며, 향후 더 많은 대형 언어 모델과의 비교 연구 및 다양한 도메인으로의 확장을 계획하고 있다고 밝혔다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 이 기술은 실생활에서 어떻게 활용될 수 있나요? 이 기술은 운전 중 졸음이나 음주 상태를 실시간으로 감지해 교통사고를 예방하거나, 표정 분석을 통한 정신 건강 모니터링, 인간과 로봇 간 상호작용 개선 등 다양한 분야에 활용될 수 있습니다.

Q. 카메라 영상만으로 혈중 알코올 농도를 알 수 있나요? 이 연구는 얼굴 영상에서 포착되는 미세한 생리적 변화를 분석해 혈중 알코올 농도를 추정합니다. 별도의 센서 없이 일반 카메라만으로 90% 이상의 정확도를 달성했으며, 음주 측정 보조 수단으로 활용 가능성이 높습니다.

Q. 기존 AI와 비교해 무엇이 다른가요? 기존 AI는 하나의 임무만 처리하는 별도 모델이 필요했고, 여러 데이터를 함께 사용하는 복잡한 구조가 많았습니다. 이 연구의 모델은 카메라 영상 하나만으로 표정 인식, 졸음 감지, 음주 상태 추정을 동시에 처리하며, 크기도 훨씬 작아 실제 장치에 적용하기 유리합니다.



기사에 인용된 리포트 원문은 Birmingham City University Open Access Repository에서 확인할 수 있다.

리포트명: Jack of many Faces: A Step Towards Facial Expression and Physiological State Analysis with a Single Network

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

2

고정닉 0

10

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 등만 봐도 설레이는 문짝남 스타는? 운영자 26/04/13 - -
이슈 [디시人터뷰] '쪼와요~ 쪼와요~’ 캐릭터에 생명을 불어넣는 성우 박시윤 운영자 26/04/17 - -
2465 루마 AI·원더 프로젝트, AI 하이브리드 영화 제작사 '이노베이티브 드림스' 출범… 사람만 찍으면 배경 자동으로 입힌다
aimatters갤로그로 이동합니다.
04.17 25 0
2464 오픈AI, 생명과학 특화 AI 모델 'GPT-로잘린드' 출시… 신약 개발·유전체 연구 가속화
aimatters갤로그로 이동합니다.
04.17 60 0
2463 베이직인터내셔널, AI가 자녀 목소리로 어르신과 대화하는 '아우라보이스' 출시… 정신의학계와 시니어 돌봄 혁신
aimatters갤로그로 이동합니다.
04.17 13 0
2462 DJI, 1인치 센서 탑재 포켓 짐벌 카메라 'Osmo Pocket 4' 출시… 4K/240fps·14스톱 다이내믹 레인지
aimatters갤로그로 이동합니다.
04.17 30 0
2461 '타노스가 인류 절반을 없앤다면?' 넷플릭스팀 AI가 영상으로 답했다
aimatters갤로그로 이동합니다.
04.17 36 0
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
04.17 33 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
04.17 16 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
04.17 14 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란 [9]
aimatters갤로그로 이동합니다.
04.17 1488 11
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
04.17 16 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
04.17 33 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
04.17 22 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
04.17 32 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
04.17 28 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
04.17 34 1
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [13]
aimatters갤로그로 이동합니다.
04.17 1557 9
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 19 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 30 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 96 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 25 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 58 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 38 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 25 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 22 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 16 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 16 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 859 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [13]
aimatters갤로그로 이동합니다.
04.16 2490 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 26 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 33 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 35 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 18 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 23 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 57 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 20 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 26 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 26 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 38 0
2427 제약 기업 노바티스 CEO 바스 나라심한 앤트로픽이사회에 합류…의료 AI 전략 강화 신호
aimatters갤로그로 이동합니다.
04.15 19 0
2426 오픈AI, 사이버보안 특화 AI 모델 GPT-5.4-Cyber 제한 출시…앤트로픽 미토스에 맞불
aimatters갤로그로 이동합니다.
04.15 30 0
2425 구글, 인도에 제미나이 '개인화 인텔리전스' 출시…지메일·구글 포토 연동해 맞춤형 AI 비서로
aimatters갤로그로 이동합니다.
04.15 19 0
2424 진격의 앤트로픽, 클로드 코드에 '루틴' 기능 추가 및 UI 전면 재설계…오프라인에서도 자동화 실행
aimatters갤로그로 이동합니다.
04.15 25 0
2423 오픈AI, 개인 금융 AI 스타트업 히로(Hiro) 인수…챗GPT에 재무 계획 기능 탑재 예고
aimatters갤로그로 이동합니다.
04.15 30 0
2422 엔비디아, 양자컴퓨터 가속화 위한 오픈소스 AI 모델 '아이징(Ising)' 공개...비전언어모델까지 추가
aimatters갤로그로 이동합니다.
04.15 40 0
2421 스탠퍼드 AI 인덱스 2026 (6) 일자리 전망에 대한 AI 전문가와 일반인의 전혀 다른 시선
aimatters갤로그로 이동합니다.
04.15 29 0
2420 스탠퍼드 AI 인덱스 2026 (5) AI가 기상 예보를 완전 자동화했지만, 임상 연구 절반은 실제 환자 데이터를 안 쓴다
aimatters갤로그로 이동합니다.
04.15 28 0
2419 스탠퍼드 AI 인덱스 2026 (4) 미국 AI 연구자 1년 만에 80% 감소, 그런데 데이터센터는 왜 세계 1위인가
aimatters갤로그로 이동합니다.
04.15 26 0
2418 스탠퍼드 AI 인덱스 2026 (3) AI 안전 연구는 중국이 미국의 2배인데, 사고 건수는 왜 55% 늘었나
aimatters갤로그로 이동합니다.
04.14 26 0
2417 스탠퍼드 AI 인덱스 2026 (2) AI가 구한 시니어, AI가 밀어낸 주니어 - 세대를 가른 고용 충격
aimatters갤로그로 이동합니다.
04.14 22 0
2416 마이크로소프트, 오픈클로 대체 제품 만든다…상시 작동 AI 에이전트 개발 박차
aimatters갤로그로 이동합니다.
04.14 23 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2