디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

얼굴 하나로 감정, 음주, 졸음까지 읽는다, AI 단일 네트워크의 등장

aimatters갤로그로 이동합니다. 2026.03.16 14:55:51
조회 1049 추천 2 댓글 4


사람의 얼굴에는 생각보다 훨씬 많은 정보가 담겨 있다. 기쁨과 슬픔 같은 감정뿐 아니라 졸음 여부, 심지어 혈중 알코올 농도까지 얼굴 영상만으로 감지할 수 있다는 연구 결과가 나왔다. 에디스 코완 대학교(Edith Cowan University)와 버밍엄 시티 대학교(Birmingham City University) 공동 연구팀이 발표한 논문은 하나의 AI 모델로 표정 인식, 운전자 졸음 감지, 음주 상태 추정을 모두 처리하는 통합 네트워크를 제안하며 각 분야에서 최고 수준의 성능을 기록했다.



기존 AI의 한계, 하나의 모델이 하나의 임무만 수행한다

얼굴 분석 분야의 인공지능 연구는 그동안 각각의 임무에 특화된 별도 모델을 만드는 방식으로 발전해 왔다. 표정 인식용 모델, 졸음 감지용 모델, 음주 탐지용 모델이 따로 존재했으며, 각 모델은 특정 데이터셋에서만 잘 작동하도록 설계됐다. 또한 최근에는 카메라 영상에 음성, 텍스트, 웨어러블 센서 데이터를 결합하는 다중 모달(multimodal, 여러 종류의 입력을 함께 사용하는 방식) 접근법이 성능 향상을 위해 활발히 사용됐다. 그러나 이 방식은 구조가 복잡해지고 특정 환경이나 센서에 의존하게 되는 문제가 있었다. 연구팀은 이 한계를 극복하기 위해 카메라 영상만으로 여러 얼굴 분석 임무를 동시에 처리할 수 있는 단일 3D 시공간 네트워크(3D spatio-temporal network)를 설계했다. 시공간 네트워크란 영상의 각 프레임뿐 아니라 프레임이 시간에 따라 변하는 흐름까지 함께 학습하는 구조를 말한다.



두 가지 핵심 모듈이 얼굴의 세부 정보와 전체 맥락을 동시에 포착한다

연구팀이 제안한 네트워크의 핵심은 두 가지 독자 개발 모듈에 있다. 첫 번째는 콘애드브-이엘씨에이(ConAdv-ELCA, Contrastive Adversarial Efficient Local Channel Attention)로, 눈가의 미세한 떨림이나 입 주변의 근육 움직임처럼 얼굴의 국소적인 세부 특징을 추출하고 정리하는 역할을 한다. 이 모듈은 대립적 학습(adversarial training)과 대조적 학습(contrastive learning)을 결합해 모델이 노이즈에 강하고 다양한 상황에 일반화될 수 있도록 설계됐다. 대립적 학습이란 AI가 의도적으로 방해받은 데이터를 학습해 실제 환경의 불확실성에 강해지는 훈련 방식이다. 두 번째는 이지씨에이(EGCA, Efficient Global Channel Attention)로, 얼굴 전체의 장거리 맥락 관계를 효율적으로 포착한다. 이를테면 눈과 입의 움직임이 어떻게 연관되는지, 얼굴 전체의 전반적인 상태가 어떤지를 파악하는 역할이다. 두 모듈의 협력 덕분에 모델은 세부 정보와 전체 맥락을 균형 있게 학습할 수 있었고, 이것이 다양한 임무에서 높은 성능을 내는 핵심 요인이 됐다.



운전자 졸음 감지 95%, 혈중 알코올 농도 추정 90% 이상 정확도 달성

연구팀은 다섯 개의 공개 벤치마크 데이터셋을 활용해 성능을 검증했다. 운전자 졸음 감지에서는 NTHU-DDD 데이터셋 기준 95.04%의 정확도를 기록하며 기존 최고 성능 모델인 아이소에스에스엘-모코(IsoSSL-MoCo)를 약 1.3%포인트 앞섰다. 혈중 알코올 농도 추정에서는 혈중 알코올 농도 0.08g/dL 기준 이진 분류에서 93%의 수신자 조작 특성 곡선 아래 면적(AUROC, 모델의 분류 능력을 0에서 1 사이로 나타내는 지표)을 달성했다. 표정 인식에서는 DFEW, FERV39K, AFEW 세 개 데이터셋 모두에서 기존 단일 모달 방식을 능가했으며, 특히 DFEW에서는 비가중 평균 재현율(UAR) 60.89%, 가중 평균 재현율(WAR) 71.98%로 최고 성능을 기록했다. 모델의 파라미터 수는 약 2,387만 개로, 최대 8,800만 개에 달하는 경쟁 모델들과 비교해 훨씬 가볍고 빠른 처리 속도를 유지했다.



한 번 학습으로 전혀 다른 임무도 해낸다, 일반화 능력의 증명

이 연구에서 특히 주목할 만한 결과는 교차 임무 일반화 실험이다. 연구팀은 표정 인식 데이터셋인 DFEW만으로 학습한 모델을 졸음 감지와 음주 감지 데이터에 그대로 적용했다. 이 두 임무는 학습 과정에서 전혀 노출되지 않은 완전히 새로운 영역이었다. 그럼에도 티-에스엔이(t-SNE, 고차원 데이터를 2차원으로 시각화하는 기법) 분석 결과, 모델이 졸음 상태와 음주 상태를 의미 있는 군집으로 분류해냈다. 이는 모델이 특정 임무의 정답 레이블에 의존하는 것이 아니라, 얼굴에서 공통으로 나타나는 근본적인 패턴을 학습했음을 의미한다. 연구팀은 이 결과가 단일 모델로 다양한 실세계 응용이 가능함을 보여준다고 강조하며, 향후 더 많은 대형 언어 모델과의 비교 연구 및 다양한 도메인으로의 확장을 계획하고 있다고 밝혔다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 이 기술은 실생활에서 어떻게 활용될 수 있나요? 이 기술은 운전 중 졸음이나 음주 상태를 실시간으로 감지해 교통사고를 예방하거나, 표정 분석을 통한 정신 건강 모니터링, 인간과 로봇 간 상호작용 개선 등 다양한 분야에 활용될 수 있습니다.

Q. 카메라 영상만으로 혈중 알코올 농도를 알 수 있나요? 이 연구는 얼굴 영상에서 포착되는 미세한 생리적 변화를 분석해 혈중 알코올 농도를 추정합니다. 별도의 센서 없이 일반 카메라만으로 90% 이상의 정확도를 달성했으며, 음주 측정 보조 수단으로 활용 가능성이 높습니다.

Q. 기존 AI와 비교해 무엇이 다른가요? 기존 AI는 하나의 임무만 처리하는 별도 모델이 필요했고, 여러 데이터를 함께 사용하는 복잡한 구조가 많았습니다. 이 연구의 모델은 카메라 영상 하나만으로 표정 인식, 졸음 감지, 음주 상태 추정을 동시에 처리하며, 크기도 훨씬 작아 실제 장치에 적용하기 유리합니다.



기사에 인용된 리포트 원문은 Birmingham City University Open Access Repository에서 확인할 수 있다.

리포트명: Jack of many Faces: A Step Towards Facial Expression and Physiological State Analysis with a Single Network

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

2

고정닉 0

10

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 팀 탈퇴를 가장 후회할 것 같은 스타는? 운영자 26/05/04 - -
2676 구글 계정 하나로 PPT·웹페이지·팟캐스트 뚝딱…제미나이 무료버전의 진짜 위력
aimatters갤로그로 이동합니다.
05.08 35 0
2675 [에이-아이랑] 매일이 어린이날 같기를 - AI 시대의 또 다른 놀이터
aimatters갤로그로 이동합니다.
05.08 15 1
2674 에이서, 지마켓 '빅스마일데이'서 게이밍·AI 노트북 최대 36% 할인
aimatters갤로그로 이동합니다.
05.08 26 0
2673 AMD, 기존 데이터센터 그대로 쓰는 엔터프라이즈 AI GPU '인스팅트 MI350P PCIe' 출시
aimatters갤로그로 이동합니다.
05.08 86 0
2672 픽스AI, 자연어로 캐릭터·텍스트·배경 수정하는 AI 이미지 편집 모델 'Edit Pro' 공개
aimatters갤로그로 이동합니다.
05.08 13 1
2671 오픈AI, GPT-5.5 기반 사이버 보안 접근 확대… 검증된 방어자에 'TAC·GPT-5.5-Cyber' 프리뷰 제공
aimatters갤로그로 이동합니다.
05.08 12 0
2670 수학 잘하는 GPT와 수학 못하는 LSTM의 차이
aimatters갤로그로 이동합니다.
05.08 32 0
2669 구글,이 AI 이미지 모델을 4분의 1로 줄였다, 같은 부품을 반복해서 쓰는 기술의 비밀
aimatters갤로그로 이동합니다.
05.08 16 0
2668 "AI 정책의 진짜 권력은 워싱턴에 있다"… 오픈AI·앤트로픽, 2026 1분기 로비 지출 사상 최대
aimatters갤로그로 이동합니다.
05.08 17 0
2667 Genesis AI, 'GENE-26.5' 공개… 인간 수준 손 조작 가능한 모델 타사도 쓸 수 있게 한다
aimatters갤로그로 이동합니다.
05.08 17 0
2666 "AI 후퇴인가, 정리인가"… 마이크로소프트, 윈도우 11 코파일럿 버튼 대거 제거
aimatters갤로그로 이동합니다.
05.08 85 0
2665 구글, Fitbit 앱을 'Google Health'로 리브랜드… 제미나이 헬스 코치·화면 없는 'Fitbit Air' 동시 공개
aimatters갤로그로 이동합니다.
05.08 87 0
2664 오픈AI, 자해 위험 감지 시 가족·친구에게 알리는 'Trusted Contact' 기능 출시
aimatters갤로그로 이동합니다.
05.08 12 0
2663 메타코리아·디지털리터러시협회, '2026 미래교육 심포지엄' 성료… 아시아 8개국 'AI 리터러시' 백서 발간
aimatters갤로그로 이동합니다.
05.08 10 0
2662 DJI, 프로급 프레이밍·추적 'Osmo Mobile 8P' 글로벌 출시… ActiveTrack 8.0·Apple DockKit 지원
aimatters갤로그로 이동합니다.
05.08 14 0
2661 오픈AI, '챗GPT 광고 파일럿' 한국 포함 5개국 신규 확대… 무료·고(Go) 요금제 성인 대상
aimatters갤로그로 이동합니다.
05.08 27 0
2660 모질라 "클로드 미토스가 찾은 파이어폭스 취약점 271개, 진짜였다"고 밝혀
aimatters갤로그로 이동합니다.
05.08 16 0
2659 구글 '시간 끌기' 실패… 법원 "검색 데이터 지금 바로 공개하라"
aimatters갤로그로 이동합니다.
05.08 82 0
2658 美 대학용 학습 관리 시스템 'Canvas' 사이버 사고 — "3.65TB·8천여 기관 데이터 탈취" 주장
aimatters갤로그로 이동합니다.
05.08 26 0
2657 미국 AI 시대 전력난에 '발코니 태양광' 허용키로… 콜로라도, 플러그인 솔라 합법화
aimatters갤로그로 이동합니다.
05.08 27 0
2656 "유럽판 오픈AI"… a16z, 스웨덴 AI 스타트업 'Pit'에 234억 원 투자
aimatters갤로그로 이동합니다.
05.08 14 0
2655 오픈AI, 음성 API에 'GPT-Realtime-2' 등 신모델 3종 공개… 70개 언어 동시통역까지
aimatters갤로그로 이동합니다.
05.08 13 0
2654 [AI와 인간 사이] Ontology Again, 왜 온톨로지는 AI와 함께 다시 돌아왔을까?
aimatters갤로그로 이동합니다.
05.07 29 0
2653 오픈AI·데이원컴퍼니, 어버이날 맞아 시니어 '챗GPT 교육' 행사 개최 — 일상·세컨드 커리어까지
aimatters갤로그로 이동합니다.
05.07 19 0
2652 스페이스X, '팰컨 9 시대' 마무리 단계 진입 — 앤트로픽과 우주 컴퓨팅 협력하나
aimatters갤로그로 이동합니다.
05.07 761 3
2651 마이크로소프트, '청정 에너지 약속' 무기한 연기 검토 — AI 데이터센터 붐이 ESG 흔든다 [2]
aimatters갤로그로 이동합니다.
05.07 925 4
2650 스냅, 퍼플렉시티와 4억 달러 통합 계약 '우호적 종료' — AI 검색 직접 결합 백지화
aimatters갤로그로 이동합니다.
05.07 17 0
2649 솔트웨어, 'AI EXPO 2026' 참가 — '사피가디언' 앞세워 생성형 AI 보안 전략 제시
aimatters갤로그로 이동합니다.
05.07 19 0
2648 드롭박스, 사우스베이스 컨스트럭션 디지털 전환 지원 — 'Dropbox Dash'로 건설사 AX 지원한다
aimatters갤로그로 이동합니다.
05.07 28 0
2647 세일즈포스 태블로, '에이전틱 애널리틱스 플랫폼' 공개 — 3,300만 시맨틱 모델로 분석도 에이전트가
aimatters갤로그로 이동합니다.
05.07 16 0
2646 코엑스에 등장한 'AI 신당' — 에이전트 스테이션, AI 무당 '연아' 첫 공개
aimatters갤로그로 이동합니다.
05.07 34 0
2645 Modo AI, 제품 사진 1장으로 스튜디오 사진 무한 생성
aimatters갤로그로 이동합니다.
05.07 36 0
2644 미루웨어, AI EXPO 2026서 기가바이트·인피니틱스 AI 솔루션 대거 공개
aimatters갤로그로 이동합니다.
05.07 28 0
2643 AI 트레이딩 모델 대결 — "최신 모델도 대부분 손실 입어"
aimatters갤로그로 이동합니다.
05.07 40 0
2642 코닝-엔비디아 5억 달러 광섬유 공급 계약 — 광섬유 전송 병목도 해결한다
aimatters갤로그로 이동합니다.
05.07 106 0
2641 NIST CAISI, 딥시크 V4 Pro 평가 결과 발표 — "미국 최신 모델들과 8개월 격차"
aimatters갤로그로 이동합니다.
05.07 24 0
2640 MS, 간호사 주간 맞아 'Dragon Copilot for Nurses' 발표 — 환자와 대화하면 자동으로 차트 작성한다
aimatters갤로그로 이동합니다.
05.07 32 0
2639 삼성전자 시총 1조 달러 돌파 — AI 칩 수요 폭발에 KOSPI 사상 최고
aimatters갤로그로 이동합니다.
05.07 89 0
2638 클로드, MS 365 전면 통합 — 엑셀·파워포인트·워드·아웃룩 앱 간 데이터 공유 클로드에서 가능해
aimatters갤로그로 이동합니다.
05.07 17 0
2637 앤트로픽 'Code with Claude 2026' 키노트... 멀티 에이전트 오케스트레이션·드리밍·아웃컴 공개
aimatters갤로그로 이동합니다.
05.07 17 0
2636 앤트로픽-스페이스X, 콜로서스 1 데이터센터 컴퓨팅 파트너십 체결... 엔비디아 칩 22만장 확보했다
aimatters갤로그로 이동합니다.
05.07 15 0
2635 한국 수출기업 78%가 "AI 필요하다" 인정했지만, 실제로 쓰는 곳은 17%뿐인 이유 [3]
aimatters갤로그로 이동합니다.
05.07 361 0
2634 사람은 100점, 최첨단 AI는 60점, 시야각 회전시키면 못 푸는 비전 LLM 머릿속 들여다보니
aimatters갤로그로 이동합니다.
05.07 22 0
2633 한 번 날리면 끝, 찍고 나서 화각 바꾸는 DJI 아바타 360… '드론 혁명'
aimatters갤로그로 이동합니다.
05.06 26 0
2632 AIWORKX, AI EXPO KOREA 2026 참가... '업무 완결형' AxDC 적용으로 업무 끝낸다
aimatters갤로그로 이동합니다.
05.06 19 0
2631 투비소프트, 5월 27일 코엑스서 'Grand Seminar 2026' 개최 — 차세대 AI 로우코드 'N Pangea' 공개
aimatters갤로그로 이동합니다.
05.06 28 0
2630 펜실베이니아서 Character.AI 첫 제소... 챗봇이 '면허 정신과 의사' 행세
aimatters갤로그로 이동합니다.
05.06 28 0
2629 판탈라사, 1.4억 달러 유치... 태평양에 떠 있는 'AI 데이터센터' 2026년 시범 가동
aimatters갤로그로 이동합니다.
05.06 38 0
2628 AMD '데이터센터 매출 57%↑'에 사상 최고가 근접... 2분기 가이던스도 컨센 상회
aimatters갤로그로 이동합니다.
05.06 19 0
2627 슈퍼마이크로, AI 열풍 타고 수익성까지 잡았다…주가 시간외 급등... 분기 매출 11.2~12.5억
aimatters갤로그로 이동합니다.
05.06 27 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2