디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

얼굴 하나로 감정, 음주, 졸음까지 읽는다, AI 단일 네트워크의 등장

aimatters갤로그로 이동합니다. 2026.03.16 14:55:51
조회 941 추천 2 댓글 4


사람의 얼굴에는 생각보다 훨씬 많은 정보가 담겨 있다. 기쁨과 슬픔 같은 감정뿐 아니라 졸음 여부, 심지어 혈중 알코올 농도까지 얼굴 영상만으로 감지할 수 있다는 연구 결과가 나왔다. 에디스 코완 대학교(Edith Cowan University)와 버밍엄 시티 대학교(Birmingham City University) 공동 연구팀이 발표한 논문은 하나의 AI 모델로 표정 인식, 운전자 졸음 감지, 음주 상태 추정을 모두 처리하는 통합 네트워크를 제안하며 각 분야에서 최고 수준의 성능을 기록했다.



기존 AI의 한계, 하나의 모델이 하나의 임무만 수행한다

얼굴 분석 분야의 인공지능 연구는 그동안 각각의 임무에 특화된 별도 모델을 만드는 방식으로 발전해 왔다. 표정 인식용 모델, 졸음 감지용 모델, 음주 탐지용 모델이 따로 존재했으며, 각 모델은 특정 데이터셋에서만 잘 작동하도록 설계됐다. 또한 최근에는 카메라 영상에 음성, 텍스트, 웨어러블 센서 데이터를 결합하는 다중 모달(multimodal, 여러 종류의 입력을 함께 사용하는 방식) 접근법이 성능 향상을 위해 활발히 사용됐다. 그러나 이 방식은 구조가 복잡해지고 특정 환경이나 센서에 의존하게 되는 문제가 있었다. 연구팀은 이 한계를 극복하기 위해 카메라 영상만으로 여러 얼굴 분석 임무를 동시에 처리할 수 있는 단일 3D 시공간 네트워크(3D spatio-temporal network)를 설계했다. 시공간 네트워크란 영상의 각 프레임뿐 아니라 프레임이 시간에 따라 변하는 흐름까지 함께 학습하는 구조를 말한다.



두 가지 핵심 모듈이 얼굴의 세부 정보와 전체 맥락을 동시에 포착한다

연구팀이 제안한 네트워크의 핵심은 두 가지 독자 개발 모듈에 있다. 첫 번째는 콘애드브-이엘씨에이(ConAdv-ELCA, Contrastive Adversarial Efficient Local Channel Attention)로, 눈가의 미세한 떨림이나 입 주변의 근육 움직임처럼 얼굴의 국소적인 세부 특징을 추출하고 정리하는 역할을 한다. 이 모듈은 대립적 학습(adversarial training)과 대조적 학습(contrastive learning)을 결합해 모델이 노이즈에 강하고 다양한 상황에 일반화될 수 있도록 설계됐다. 대립적 학습이란 AI가 의도적으로 방해받은 데이터를 학습해 실제 환경의 불확실성에 강해지는 훈련 방식이다. 두 번째는 이지씨에이(EGCA, Efficient Global Channel Attention)로, 얼굴 전체의 장거리 맥락 관계를 효율적으로 포착한다. 이를테면 눈과 입의 움직임이 어떻게 연관되는지, 얼굴 전체의 전반적인 상태가 어떤지를 파악하는 역할이다. 두 모듈의 협력 덕분에 모델은 세부 정보와 전체 맥락을 균형 있게 학습할 수 있었고, 이것이 다양한 임무에서 높은 성능을 내는 핵심 요인이 됐다.



운전자 졸음 감지 95%, 혈중 알코올 농도 추정 90% 이상 정확도 달성

연구팀은 다섯 개의 공개 벤치마크 데이터셋을 활용해 성능을 검증했다. 운전자 졸음 감지에서는 NTHU-DDD 데이터셋 기준 95.04%의 정확도를 기록하며 기존 최고 성능 모델인 아이소에스에스엘-모코(IsoSSL-MoCo)를 약 1.3%포인트 앞섰다. 혈중 알코올 농도 추정에서는 혈중 알코올 농도 0.08g/dL 기준 이진 분류에서 93%의 수신자 조작 특성 곡선 아래 면적(AUROC, 모델의 분류 능력을 0에서 1 사이로 나타내는 지표)을 달성했다. 표정 인식에서는 DFEW, FERV39K, AFEW 세 개 데이터셋 모두에서 기존 단일 모달 방식을 능가했으며, 특히 DFEW에서는 비가중 평균 재현율(UAR) 60.89%, 가중 평균 재현율(WAR) 71.98%로 최고 성능을 기록했다. 모델의 파라미터 수는 약 2,387만 개로, 최대 8,800만 개에 달하는 경쟁 모델들과 비교해 훨씬 가볍고 빠른 처리 속도를 유지했다.



한 번 학습으로 전혀 다른 임무도 해낸다, 일반화 능력의 증명

이 연구에서 특히 주목할 만한 결과는 교차 임무 일반화 실험이다. 연구팀은 표정 인식 데이터셋인 DFEW만으로 학습한 모델을 졸음 감지와 음주 감지 데이터에 그대로 적용했다. 이 두 임무는 학습 과정에서 전혀 노출되지 않은 완전히 새로운 영역이었다. 그럼에도 티-에스엔이(t-SNE, 고차원 데이터를 2차원으로 시각화하는 기법) 분석 결과, 모델이 졸음 상태와 음주 상태를 의미 있는 군집으로 분류해냈다. 이는 모델이 특정 임무의 정답 레이블에 의존하는 것이 아니라, 얼굴에서 공통으로 나타나는 근본적인 패턴을 학습했음을 의미한다. 연구팀은 이 결과가 단일 모델로 다양한 실세계 응용이 가능함을 보여준다고 강조하며, 향후 더 많은 대형 언어 모델과의 비교 연구 및 다양한 도메인으로의 확장을 계획하고 있다고 밝혔다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 이 기술은 실생활에서 어떻게 활용될 수 있나요? 이 기술은 운전 중 졸음이나 음주 상태를 실시간으로 감지해 교통사고를 예방하거나, 표정 분석을 통한 정신 건강 모니터링, 인간과 로봇 간 상호작용 개선 등 다양한 분야에 활용될 수 있습니다.

Q. 카메라 영상만으로 혈중 알코올 농도를 알 수 있나요? 이 연구는 얼굴 영상에서 포착되는 미세한 생리적 변화를 분석해 혈중 알코올 농도를 추정합니다. 별도의 센서 없이 일반 카메라만으로 90% 이상의 정확도를 달성했으며, 음주 측정 보조 수단으로 활용 가능성이 높습니다.

Q. 기존 AI와 비교해 무엇이 다른가요? 기존 AI는 하나의 임무만 처리하는 별도 모델이 필요했고, 여러 데이터를 함께 사용하는 복잡한 구조가 많았습니다. 이 연구의 모델은 카메라 영상 하나만으로 표정 인식, 졸음 감지, 음주 상태 추정을 동시에 처리하며, 크기도 훨씬 작아 실제 장치에 적용하기 유리합니다.



기사에 인용된 리포트 원문은 Birmingham City University Open Access Repository에서 확인할 수 있다.

리포트명: Jack of many Faces: A Step Towards Facial Expression and Physiological State Analysis with a Single Network

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

2

고정닉 0

10

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 예능과 잘 맞지 않는 것 같은 스타는? 운영자 26/03/16 - -
2204 "내 얼굴로 AI 아바타를?"…런웨이, 대화형 AI 캐릭터의 빛과 그림자를 직접 고백하다 aimatters갤로그로 이동합니다. 15:27 4 0
2203 뉴스 기사 260만 건을 데이터로…구글, 제미나이로 홍수 예측 정확도 높인다 aimatters갤로그로 이동합니다. 15:27 2 0
2202 BMW, 유럽 공장에 휴머노이드 로봇 첫 투입, 독일 라이프치히가 시험대 됐다 aimatters갤로그로 이동합니다. 15:27 2 0
2201 젠슨 황, SAP 센터 무대 올랐다…GTC 2026, AI 업계 최대 행사 개막 aimatters갤로그로 이동합니다. 15:27 3 0
2200 오픈AI, GPT-5.4 출시…100만 토큰에 툴 서치까지 aimatters갤로그로 이동합니다. 15:26 3 0
2199 알리바바 9B 모델, 오픈AI 120B를 이겼다 aimatters갤로그로 이동합니다. 15:26 2 0
2198 생성형 AI는 어떻게 예술을 집어삼켰나, 모든 건 지나치게 단순해지고 있다 aimatters갤로그로 이동합니다. 15:26 3 0
2197 AI끼리만 대화하면 안전성이 사라진다, 몰트북 커뮤니티의 삼각 딜레마 aimatters갤로그로 이동합니다. 15:26 2 0
2196 이미지 하나로 AI 편집 모델을 해킹한다, 텍스트 없는 탈옥 공격의 등장 aimatters갤로그로 이동합니다. 15:26 2 0
2195 챗GPT가 스스로를 복사하기 시작했다, 인터넷 오염이 부른 AI 자기수렴 현상 aimatters갤로그로 이동합니다. 03.16 99 0
얼굴 하나로 감정, 음주, 졸음까지 읽는다, AI 단일 네트워크의 등장 [4] aimatters갤로그로 이동합니다. 03.16 941 2
2193 AI가 AWS 클라우드 해킹을 탐지, RAG 기술이 보안 정확도를 70% 끌어올렸다 aimatters갤로그로 이동합니다. 03.16 24 0
2192 "AI를 고용하는 시대 왔다"…젠스파크, 워크스페이스 3.0 공개·ARR 2억 달러 돌파 aimatters갤로그로 이동합니다. 03.16 31 0
2191 애피어 "AI가 마케팅을 직접 실행한다" aimatters갤로그로 이동합니다. 03.16 21 0
2190 앤트로픽이 1억 달러를 쏟아붓는 이유, 클로드를 기업 AI 표준으로 만든다 aimatters갤로그로 이동합니다. 03.16 28 0
2189 머스크 "xAI, 애초에 잘못 만들었다"…코딩 툴 폐기하고 커서 임원 영입 [17] aimatters갤로그로 이동합니다. 03.16 2415 4
2188 "AI 활용 거부는 전략적 공백"…팔란티어 CEO, 앤트로픽의 국방부 거부에 직격탄 aimatters갤로그로 이동합니다. 03.16 32 0
2187 "TSMC 70% 수준 생산한다"…테슬라 테라팹, AI 반도체 판을 바꿀까 aimatters갤로그로 이동합니다. 03.16 58 0
2186 "사람을 그려줘"라고 했을 뿐인데, AI는 왜 항상 백인 얼굴을 만들어낼까 [3] aimatters갤로그로 이동합니다. 03.13 132 1
2185 AI가 자신의 실수를 알면서도 고치지 못하는 이유 aimatters갤로그로 이동합니다. 03.13 48 1
2184 컴퓨터공학과 학생들은 챗GPT를 어떻게 쓰고 있을까 [1] aimatters갤로그로 이동합니다. 03.13 59 1
2183 "회의록보다 AI한테 묻는 게 더 편해진 직장인들" aimatters갤로그로 이동합니다. 03.13 82 0
2182 텍스트·이미지·영상·음성을 단일 공간 처리…구글, 제미나이 임베딩 2 출시 aimatters갤로그로 이동합니다. 03.13 30 0
2181 "엔비디아 없어도 돼"…메타(Meta), 2년 안에 자체 AI 칩 4종 쏟아낸다 aimatters갤로그로 이동합니다. 03.13 40 0
2180 메타(Meta), '몰트북(Moltbook)' 전격 인수 aimatters갤로그로 이동합니다. 03.13 39 0
2179 FIFA, 2026 월드컵 AI로 심판·판정·운영 싹 바꾼다 aimatters갤로그로 이동합니다. 03.13 21 0
2178 변호사 5만 명이 선택한 AI 법률 플랫폼, 기업가치 6조 원 돌파 aimatters갤로그로 이동합니다. 03.13 29 0
2177 AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다 aimatters갤로그로 이동합니다. 03.12 27 0
2176 AI가 세계 최고 물리올림피아드에서 처음으로 만점을 받았다 aimatters갤로그로 이동합니다. 03.12 37 0
2175 엔비디아, AI 에이전트용 모델 '네모트론 3 슈퍼' 공개…속도 5배↑ 비용은 줄였다 aimatters갤로그로 이동합니다. 03.12 50 0
2174 "이보다 쉬운 설명, 이보다 깊은 통찰은 없다"… 박태웅의 AI 강의 2026, AI 격변의 현재를 해부하다 aimatters갤로그로 이동합니다. 03.12 24 0
2173 글로벌 기업 83%가 지속가능성 투자를 늘리는 진짜 이유는 AI였다 aimatters갤로그로 이동합니다. 03.12 18 0
2172 "AI 때문에 자를 수밖에 없었다"…아틀라시안, 직원 1,600명 해고 aimatters갤로그로 이동합니다. 03.12 38 0
2171 챗GPT보다 4년 먼저 에이전트 출시…젠데스크, AI 고객 서비스 스타트업 포어소트 인수 aimatters갤로그로 이동합니다. 03.12 19 0
2170 벤 애플렉의 AI 영화 후반 작업 스타트업, 넷플릭스가 6억 달러에 샀다 aimatters갤로그로 이동합니다. 03.12 29 0
2169 미국 10대 64%가 AI 챗봇을 쓰는 시대, 부모 10명 중 3명은 사실조차 모른다 [3] aimatters갤로그로 이동합니다. 03.11 1339 4
2168 챗GPT가 스택 오버플로를 오염시키고 있다, AI가 AI를 잡아낸다 aimatters갤로그로 이동합니다. 03.11 61 0
2167 AI가 해커보다 먼저 움직인다, CISO들이 선택한 생존 전략 aimatters갤로그로 이동합니다. 03.11 36 0
2166 아마존, 헬스케어 AI 어시스턴트 전면 개방…프라임 회원 아니어도 무료 이용 aimatters갤로그로 이동합니다. 03.11 24 0
2165 포켓몬 고가 배달 로봇의 눈이 됐다…나이언틱의 AI 지도 혁명 aimatters갤로그로 이동합니다. 03.11 39 0
2164 "답할까, 거절할까, 추측할까"…애피어, AI 의사결정 신뢰성 높이는 연구 발표 aimatters갤로그로 이동합니다. 03.11 27 0
2163 "이 노래, AI가 만들었나요?"…애플 뮤직, AI 생성 음악 표시 태그 도입 [1] aimatters갤로그로 이동합니다. 03.11 1062 3
2162 벚꽃 사진 한 장으로 개화일 뚝딱…일본 날씨 앱, AI 벚꽃 개화 예측 서비스 시작 aimatters갤로그로 이동합니다. 03.11 37 0
2161 AI 도구 '에코넥스트', 심장 전문의보다 정확하게 구조적 심장질환 잡아냈다 aimatters갤로그로 이동합니다. 03.11 25 0
2160 "병원∙약국 최저가 AI가 챙긴다"…CVS 헬스, 구글 클라우드와 AI 헬스케어 플랫폼 출시 aimatters갤로그로 이동합니다. 03.11 38 0
2159 AI가 만든 영상인지 모르고 봤다, 소라 사용자 254명이 털어놓은 충격 반응 [5] aimatters갤로그로 이동합니다. 03.10 2542 4
2158 사진 한 장으로 내 얼굴·손동작까지 살아 움직이는 AI 영상 만든다... 클링-모션 컨트롤 출시 aimatters갤로그로 이동합니다. 03.10 77 0
2157 챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다 aimatters갤로그로 이동합니다. 03.10 68 0
2156 "경쟁사도 우리 편"…오픈AI·구글 직원들, 앤트로픽 국방부 소송 공개 지지 aimatters갤로그로 이동합니다. 03.10 50 0
2155 AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시 [3] aimatters갤로그로 이동합니다. 03.10 1279 3
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2