디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[위클리AI] 오픈AI, GPT-5.4 출시 '워크플로우 특화 모델' 외

IT동아갤로그로 이동합니다. 2026.03.10 17:17:18
조회 362 추천 0 댓글 0
[IT동아 박귀임 기자] 인공지능(AI)이 세상을 바꾸고 있습니다. AI는 이제 우리 일상에서 떼려야 뗄 수 없는 핵심적인 요소입니다. 한 주간 세계를 들썩이게 만든 글로벌 빅테크 기업부터 우리 일상에 직접 영향을 미칠 새로운 AI 소식까지 핵심만 짚어드립니다.

오픈AI, GPT‑5.2보다 성능 끌어올린 GPT-5.4 출시로 주목



오픈AI가 GPT-5.4를 출시했습니다 / 출처=오픈AI



글로벌 AI 기업 오픈AI(OpenAI)가 3월 5일(이하 현지 시간) 새 기본 모델 GPT-5.4와 추론 특화 모델 GPT‑5.4 Thinking, 그리고 전문가용 고사양 모델 GPT‑5.4 Pro를 출시했습니다. 이 모델은 워크플로우에서 추론, 코딩, 툴 사용 성능을 동시에 끌어올린 이른바 '워크플로우 특화 모델'로 포지셔닝합니다.

오픈AI는 이날 공식 블로그를 통해 이같이 밝히며 "GPT‑5.4는 전문 작업을 위한 모델 가운데 가장 뛰어난 성능과 효율을 갖춘 프런티어 모델입니다"라면서 "GPT‑5.2와 비교하면 문제 해결에 필요한 토큰 사용량은 감소하고 처리 속도는 더 빨라졌습니다"라고 설명했습니다.

GPT‑5.4는 추론, 코딩, 에이전트 기반 워크플로우를 하나의 모델로 통합했습니다. 오픈AI에 따르면 코딩 능력이 뛰어난 GPT‑5.3‑코덱스(Codex⁠)를 기반으로 각종 도구와 소프트웨어 환경, 그리고 문서 작성과 같은 전문 업무 영역에 대한 성능을 한층 끌어올렸습니다. 이에 복잡한 업무를 더욱 정확하고 효과적으로 처리할 수 있습니다. 또 사용자가 여러 번 추가로 요청하지 않아도 원하는 결과를 빠르게 제공합니다.

GPT‑5.4 Thinking은 응답을 생성하기 전에 자신의 추론 계획을 먼저 제시합니다. 사용자는 모델이 작업을 진행하는 도중에 방향을 조정할 수 있어 메시지를 여러 번 주고받지 않아도 요구사항에 더 가까운 결과물을 얻을 수 있습니다. 또 심층 웹 리서치 기능을 개선, 긴 추론이 필요한 질문에서도 더 안정적이고 일관된 답변을 제공합니다.

결과적으로 GPT‑5.4는 빠르고 효율적이라 가성비와 속도가 중요한 작업에 적합하고, GPT‑5.4 Thinking의 경우 심층 웹 리서치 능력이 강화된 만큼 구체적이고 찾기 힘든 정보를 얻을 때 추천합니다. GPT-5.4 Pro는 더 많은 연산 자원을 투입, 정확도의 한계치를 높여 재무부터 법률까지 오차가 허용되지 않는 전문 업무에 강점을 드러냅니다.

뿐만 아니라 오픈AI는 "GPT‑5.4는 오픈AI가 공개한 범용 모델 가운데 처음으로 최신 수준의 컴퓨터 사용(Computer use) 기능을 기본 제공합니다"라고 강조했습니다. 이에 따라 GPT‑5.4는 코덱스와 API 환경에서 에이전트가 사용자 대신 컴퓨터를 직접 조작하고, 여러 애플리케이션에 걸친 복잡한 워크플로우를 수행할 수 있습니다. 최대 100만 토큰의 컨텍스트를 지원해 장시간에 걸쳐 작업을 계획 및 실행하고 검증하는 것 역시 가능합니다. 또 GPT‑5.4에는 도구 검색 기능도 추가, 성능 저하 없이 필요한 도구를 더 효율적으로 찾고 사용할 수 있게 됐습니다.

GPT‑5.4는 AI 모델의 성능 표준화 테스트인 OS월드 벤치마크 결과, 미국 GDP를 많이 차지하는 9개 산업(44개 직종) 중 명확히 정의된 지식 업무 수행 역량을 평가하는 항목 GDPval⁠에서 전체 비교 사례의 83.0% 가운데 업계 전문가와 동등하거나 그 이상의 성과를 기록했습니다. 이는 GPT‑5.2의 71.0%와 비교해 크게 향상된 수치입니다.

이처럼 GPT-5.4의 출시는 '말 잘하는 AI'를 지나 '일 잘하는 AI 에이전트'의 시대가 본격화된 것을 시사합니다. AI가 이전에는 텍스트나 코드를 짜주는 '조언자'였다면 GPT-5.4 이후 직접 마우스를 움직이고 클릭하며 전용 소프트웨어를 다루는 '실행자' 역할을 하게 된 셈입니다.

결국 GPT-5.4는 AI가 결과를 내놓을 때까지 기다렸다가 다시 질문하는 것이 아니라, AI의 생각 흐름을 실시간으로 보며 중간에 개입할 수 있게 된 부분도 의미있습니다. 이를 통해 환각(Hallucination) 문제를 즉시 해결할 수 있기 때문입니다. GPT-5.4는 전문적인 의사결정 도구로서의 신뢰도 역시 높인 셈입니다. 뿐만 아니라 AI를 그럴듯한 말을 하는 기계로 보던 시각에서 검증된 데이터를 기반으로 업무를 수행하는 도구로 인식이 전환될 것이라는 평가도 있습니다.

구글 노트북LM, 시네마틱 비디오 오버뷰 도입···맞춤형 비디오 제작 가능



구글 노트북LM이 시네마틱 비디오 오버뷰를 도입했습니다 / 출처=구글



빅테크 기업 구글(Google)의 AI 도구 노트북LM(NotebookLM)이 AI 기반 비디오 제작 기능을 대폭 개선한 '시네마틱 비디오 오버뷰(Cinematic Video Overviews)' 기능을 도입했습니다. 기존의 정적인 슬라이드 중심 비디오 기능을 넘어 사용자가 업로드한 소스 자료를 한 편의 영화나 다큐멘터리처럼 생동감 있게 재구성하는 데 초점을 맞췄습니다.

구글은 3월 4일 공식 블로그에 시네마틱 비디오 오버뷰를 소개하며 "새로운 이 기능은 기존의 내레이션 슬라이드를 넘어 사용자에게 맞춤화된 독창적이고 몰입감 넘치는 비디오를 제작할 수 있도록 지원합니다"라고 밝혔습니다.

시네마틱 비디오 오버뷰 기능은 구글의 최첨단 AI 모델 3종이 유기적으로 협력하며 작동합니다. 협업을 통해 제작된 영상은 단순한 정보 전달을 넘어, 시청자가 복잡한 주제에 더 깊이 몰입하고 쉽게 이해할 수 있도록 돕습니다.

우선 제미나이3(Gemini3)는 크리에이티브 디렉터로 전체 영상의 서사와 스타일을 결정하는 감독 역할을 수행합니다. 사용자의 소스 자료를 분석해 수백 가지의 구조적·스타일적 의사결정을 내릴 뿐만 아니라 일관성 있는 이야기를 구성하기 위해 스스로의 작업물을 검토하고 다듬습니다.

또 나노 바나나 프로(Nano Banana Pro)는 영상에 생동감을 더하는 고품질의 이미지와 세부적인 시각적 요소를 생성합니다. 비오3(Veo3)의 경우 앞선 모델들이 설계한 스크립트와 이미지를 바탕으로 부드러운 애니메이션과 고화질 영상을 실제로 구현해냅니다.

노트북LM의 철학인 ‘출처 기반 생성’은 시네마틱 비디오 오버뷰 기능에서도 유지됩니다. 생성된 모든 영상은 사용자가 직접 업로드한 PDF, 웹사이트 링크, 구글 문서 등에 근거해 만들어집니다. 사용자는 자신의 학습 목표나 타겟 시청자에 맞춰 영상의 톤과 매너를 자유롭게 설정할 수 있으며, 개인화된 학습 경험을 극대화하는 것도 가능합니다.

피트 에이크로이드(Pete Aykroyd) 구글 소프트웨어 엔지니어는 "시네마틱 비디오 오버뷰는 사용자가 아끼는 주제를 더 깊이 탐구하고 즐길 수 있도록 돕는 혁신적인 도구가 될 것"이라고 전했습니다.

이번 시네마틱 비디오 오버뷰 기능의 도입으로 노트북LM은 텍스트(요약), 오디오(팟캐스트), 비디오(시네마틱)를 아우르는 '멀티모달 지식 플랫폼'으로서의 입지를 더욱 공고히 할 것으로 보입니다.

뿐만 아니라 시네마틱 비디오 오버뷰 기능은 기본 생성형 AI 영상의 고질적인 문제인 환각을 억제하면서도 창의적인 표현이 가능하다는 것을 보여줍니다. 이는 교육, 비즈니스, 법률 등 정확성이 생명인 분야에서 AI 영상 기술이 본격적으로 쓰일 수 있는 발판이 마련됐다는 시각이 지배적입니다. 또 누구나 자신만의 데이터를 바탕으로 고품질의 영상 콘텐츠를 생산할 수 있는 시대도 가속화될 전망입니다.

한편 시네마틱 비디오 오버뷰는 구글 AI 울트라 구독자 가운데 만 18세 이상만 이용할 수 있습니다. 웹 버전과 모바일 애플리케이션 모두 이용 가능합니다. 다만 현재 영어 소스를 기반으로 한 생성만 지원하고 있습니다.

마이크로소프트, 차세대 소형 멀티모달 AI 모델 공개 '에이전트 시대 전환 가속화'



마이크로소프트가 파이-4-리즈닝-비전-15B를 선보였습니다 / 출처=마이크로소프트



글로벌 IT 기업 마이크로소프트(Microsoft)가 시각적 정보와 관련된 단순한 인식을 넘어 복잡한 논리적 추론까지 수행할 수 있는 새로운 소형 언어 모델(SLM) '파이-4-리즈닝-비전-15B(Phi-4-Reasoning-Vision)'을 선보였습니다.

마이크로소프트는 3월 4일 공식 블로그에 이 소식을 전하면서 "파이-4-리즈닝-비전-15B는 개발자에게 수동적 인식을 넘어 시각 정보를 이해하고, 추론하며, 실제로 행동하는 시스템을 구축할 수 있는 핵심 역량을 제공합니다. 마이크로소프트 파운드리와 허깅페이스에 출시했습니다"라고 알렸습니다.

파이-4-리즈닝-비전-15B의 가장 두드러진 특징은 선택적 추론(Selective Reasoning)입니다. 추론이 필요한 경우와 불필요한 경우를 스스로 구분해 처리 방식을 전환할 수 있습니다. 예를 들어 수학 문제 풀이나 과학 다이어그램 분석처럼 깊은 사고가 필요한 작업에는 'think 모드'로 단계별 추론 체인을 가동합니다. 반면, 이미지 설명이나 문자 인식처럼 빠른 응답이 더 중요한 작업에서는 'nothink' 모드로 즉각 답변하는 식입니다. 이에 개발자는 프롬프트를 통해 두 모드를 명시적으로 제어해 응답 속도와 정확도를 실시간으로 조율할 수도 있습니다.

기존 비전 AI 모델 대부분이 이미지를 인식하는 수준에 그쳤다면 파이-4-리즈닝-비전-15B는 그 한계를 넘어선다고 마이크로소프트는 강조했습니다. 파이-4-리즈닝-비전-15B는 이미지, 문서, 다이어그램, 화면(GUI) 등 시각 정보의 구조를 파악하고 텍스트 맥락과 연결해 멀티스텝 추론을 수행한 뒤 실행 가능한 결론을 도출합니다.

마이크로소프트에 따르면 파이-4-리즈닝-비전-15B에도 책임 있는 AI 원칙을 적용했습니다. 이번 모델은 공개 안전 데이터셋과 내부 생성 예시를 혼합해 학습합니다. 허용 범위를 벗어난 요청의 경우 모델이 스스로 거절할 수 있도록 설계했습니다.

과거에는 복잡한 시각적 추론을 하기 위해 매개변수(Parameter)가 수천억 개에 달하는 거대 언어 모델(LLM)이 필요했습니다. 파이-4-리즈닝-비전-15B는 150억 개라는 비교적 작은 체급으로도 고해상도 시각 인식과 논리적 추론을 동시에 구현해냈습니다. 이는 기업들이 더 적은 비용과 컴퓨팅 자원으로도 고성능 시각 AI를 도입할 수 있게 되었음을 의미합니다.

뿐만 아니라 파이-4-리즈닝-비전-15B는 또 다른 면에서도 주목받습니다. AI가 단순히 텍스트를 읽는 단계를 넘어 화면과 세상을 시각적으로 이해하고 논리적으로 판단해 인간 대신 업무를 수행하는 에이전트 시대로의 전환을 가속화하는 중요한 지표라는 평가가 나오는 이유입니다.

IT동아 박귀임 기자(luckyim@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 10년 전 알파고와 겨뤘던 이세돌, 인공지능과 손잡은 이유▶ [투자를IT다] 2026년 3월 1주차 IT기업 주요 소식과 시장 전망▶ 에이블캠퍼스 최혜린 총괄 "AI 도입, 개발 엔지니어의 고차원 교육이 내재화에 큰 역할"



추천 비추천

0

고정닉 0

3

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 등만 봐도 설레이는 문짝남 스타는? 운영자 26/04/13 - -
6911 [투자를IT다] 2026년 4월 2주차 IT기업 주요 소식과 시장 전망
IT동아갤로그로 이동합니다.
04.13 8 0
6910 비싸서 못 산다던 맥북이 가성비? '멤플레이션'이 만든 PC 시장의 아이러니
IT동아갤로그로 이동합니다.
04.13 8 0
6909 [정석희의 기후 에너지 인사이트] 8. 46억 년 균형, 200년 만에 무너지다
IT동아갤로그로 이동합니다.
04.13 385 3
6908 [주간투자동향] 위플로, 55억 원 규모 시리즈A 투자 유치 外
IT동아갤로그로 이동합니다.
04.13 13 0
6907 아이디어 한 줄이면 충분…‘모두의 창업’으로 국가창업시대 연다
IT동아갤로그로 이동합니다.
04.13 628 0
6906 두나무, 영업 정지 취소 소송 승소 ‘제재 요건 불충분’
IT동아갤로그로 이동합니다.
04.10 58 0
6905 구름 뒤 미세먼지까지 잡는 AI 위성 지도, 얼마나 믿을 수 있을까 [16]
IT동아갤로그로 이동합니다.
04.10 1006 13
6904 국토부 ‘드론 실증도시’ 선정…무엇이 달라지나
IT동아갤로그로 이동합니다.
04.10 42 0
6903 "채팅 한 번 없이 팔렸다" 당근 바로구매, 직접 써보니 [15]
IT동아갤로그로 이동합니다.
04.10 3696 2
6902 “날씨 따라 음악 바뀐다”…주거 시장 파고든 AI 오감 마케팅 전략은
IT동아갤로그로 이동합니다.
04.10 121 0
6901 [크립토퀵서치] 단독상장 디지털자산 투자가 왜 위험한가요?
IT동아갤로그로 이동합니다.
04.10 48 0
6900 [AI 써봄] “온-디바이스 AI의 시작?” 구글 젬마 4와의 첫 만남
IT동아갤로그로 이동합니다.
04.09 40 0
6899 챗봇 넘은 AI… 보험 심사에서 공공 행정까지 업무 효율 이끈다
IT동아갤로그로 이동합니다.
04.09 39 0
6898 가장 싼 다이슨? 가장 비싼 손풍기? '99달러 승부수' 눈길
IT동아갤로그로 이동합니다.
04.09 83 0
6897 거래소 2025년 성적표 ‘업비트 실적 감소, 빗썸 2년 연속 흑자’
IT동아갤로그로 이동합니다.
04.09 43 0
6896 [기고] 연간 391만 건 중고차 이전등록…민관 협력으로 여는 비대면 전환
IT동아갤로그로 이동합니다.
04.09 39 0
6895 [AI써봄] "전문가와 영상통화하는 느낌" 구글 서치 라이브, 검색 판도 바꿀까
IT동아갤로그로 이동합니다.
04.09 48 0
6894 파네시아, AI 가속기용 컨트롤러 및 스위치 개발 착수··· 'AI 인프라 구심점 노린다'
IT동아갤로그로 이동합니다.
04.09 39 0
6893 금융당국, 거래소 내부통제 강화··상시 잔고 확인 의무화
IT동아갤로그로 이동합니다.
04.09 44 0
6892 AI 인프라 산업을 송두리째 흔든 중동 전쟁, 향후 방향은?
IT동아갤로그로 이동합니다.
04.08 48 0
6891 [주간스타트업동향] 스텔라비전, 중기부 초격차 스타트업 프로젝트 선정 外
IT동아갤로그로 이동합니다.
04.08 49 0
6890 시스코, ‘인지 인터넷’ 시대 선언…AI·양자 아우르는 차세대 인프라 비전 공개
IT동아갤로그로 이동합니다.
04.08 445 1
6889 세일즈포스 슬랙, 협업 툴 넘어 '에이전틱 엔터프라이즈'의 허브를 꿈꾸다
IT동아갤로그로 이동합니다.
04.08 343 0
6888 [스타트업 브랜딩 가이드] 예쁜 브랜드보다 흔들리지 않는 브랜드가 신뢰를 만든다
IT동아갤로그로 이동합니다.
04.08 83 0
6887 글로벌 스테이블코인 경쟁 가속 “발행·유통·운영 함께 설계해야”
IT동아갤로그로 이동합니다.
04.08 84 0
6886 지자체마다 판매소 정보 천차만별···종량제봉투 대란이 남긴 숙제
IT동아갤로그로 이동합니다.
04.08 41 0
6885 “AI가 3D 데이터를 학습한다” 신경망 텍스처 압축 기술이 주목받는 이유
IT동아갤로그로 이동합니다.
04.07 57 0
6884 SBA, 초격차 스타트업 프로젝트 ‘모두의 챌린지 AX – 버티컬 분야’ 참여기업 모집
IT동아갤로그로 이동합니다.
04.07 51 0
6883 [주간보안동향] 클로드 코드 51만 줄 소스코드 유출 外
IT동아갤로그로 이동합니다.
04.07 59 0
6882 [자동차와 法] 교통사고 소송 시 변호사가 필요한 순간
IT동아갤로그로 이동합니다.
04.07 45 0
6881 환율 1500원 시대, IT 기기·클라우드·구독 모델의 원·달러 요금 지형은? [6]
IT동아갤로그로 이동합니다.
04.07 1264 6
6880 [위클리AI] 미디어 TBPN 인수한 오픈AI vs 구글·브로드컴 손잡은 앤스로픽
IT동아갤로그로 이동합니다.
04.07 45 0
6879 SBA, 제조·콘텐츠·금융AI 초격차 링크업(Link-Up) 도메인 AX 프로그램 모집
IT동아갤로그로 이동합니다.
04.07 50 0
6878 SBA, 초격차 스타트업 프로젝트 ‘모두의 챌린지 AX – LLM 분야’ 참여기업 모집
IT동아갤로그로 이동합니다.
04.07 48 0
6877 경기콘텐츠진흥원 “2026 NRP, 가상융합·신기술 대표 육성 프로그램으로”
IT동아갤로그로 이동합니다.
04.07 42 0
6876 [스타트업-ing] 타이디비 “AI로 브랜딩 전 과정 자동화, AI 에이전트가 목표”
IT동아갤로그로 이동합니다.
04.07 52 0
6875 [기고] 모두의 창업, 지역의 골목에서 대한민국의 미래를 발견하다
IT동아갤로그로 이동합니다.
04.07 64 0
6874 [뉴스줌인] 단순 스펙 넘어 '체감 화질' 중시한 델 에일리언웨어 신제품, 어떤 인증 받았기에?
IT동아갤로그로 이동합니다.
04.06 72 0
6873 [투자를IT다] 2026년 4월 1주차 IT기업 주요 소식과 시장 전망
IT동아갤로그로 이동합니다.
04.06 82 0
6872 [신차공개] BMW ‘4시리즈 컨버터블 2종’·JLR '레인지로버 SV 블랙' 출시
IT동아갤로그로 이동합니다.
04.06 54 0
6871 오픈AI과 앤스로픽의 엇갈린 10년··· '윤리'가 가른 AI 패권의 향방
IT동아갤로그로 이동합니다.
04.06 54 0
6870 수익화 2.0 시대 여는 글로벌 AI 플랫폼, 전략 비교해보니
IT동아갤로그로 이동합니다.
04.06 59 0
6869 [주간투자동향] 리벨리온, 6400억 원 규모 프리IPO 투자 유치 外
IT동아갤로그로 이동합니다.
04.06 48 0
6868 김성민 경기도창업보육센터협의회장 “추경으로 모두의 창업·지역 창업 생태계 활성화”
IT동아갤로그로 이동합니다.
04.06 54 0
6867 산업 안전 관리의 완성… '제도 개선'과 'AI 기술'의 조화에서 찾다
IT동아갤로그로 이동합니다.
04.03 76 0
6866 올스테인리스에 2.2기압까지? 진화하는 전기밥솥, 내게 맞는 제품은?
IT동아갤로그로 이동합니다.
04.03 142 0
6865 차선 유지 보조 기능…어디까지 믿어도 될까 [5]
IT동아갤로그로 이동합니다.
04.03 1551 6
6864 스마트폰 ‘통화 스크리닝’ 기능 유용할까 [1]
IT동아갤로그로 이동합니다.
04.03 1790 2
6863 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다"
IT동아갤로그로 이동합니다.
04.03 114 0
6862 [크립토퀵서치] TWAP 주문 기능이란 무엇인가요?
IT동아갤로그로 이동합니다.
04.03 50 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2