디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결

aimatters갤로그로 이동합니다. 2026.02.11 14:32:24
조회 75 추천 1 댓글 0


알리바바의 큐웬(Qwen)팀이 텍스트 렌더링과 사실적 이미지 생성을 하나의 모델로 통합한 차세대 이미지 생성 AI 'Qwen-Image-2.0'을 공개했다. 큐웬팀에 따르면, 이 모델은 최대 1천 토큰(약 750단어)에 달하는 복잡한 지시문을 이해하고, PPT 슬라이드부터 포스터, 만화까지 전문적인 인포그래픽을 직접 생성할 수 있다는 점이 특징이다. 기존 이미지 생성 AI들이 텍스트 렌더링에 어려움을 겪었던 것과 달리, Qwen-Image-2.0은 이미지 안의 글자를 정확하게 표현하면서도 사진처럼 사실적인 장면을 만들어낸다. 



복잡한 PPT 슬라이드도 프롬프트 하나로 완성 

Qwen-Image-2.0의 가장 눈에 띄는 특징은 복잡한 텍스트와 이미지가 혼합된 콘텐츠를 정확하게 생성한다는 점이다. 실제로 큐웬 팀이 공개한 블로그의 이미지는 사람이 직접 만든 것이 아니라 AI가 생성한 것이다. 이 슬라이드에는 'Qwen-Image 발전 과정'이라는 제목 아래 시간축이 그려져 있고, 각 시점마다 작은 이미지들이 배치되어 있다. 특히 "모자를 쓴 강아지"와 "모자를 벗은 같은 강아지"처럼 복잡한 '그림 속 그림' 구성도 정확하게 렌더링했다. 이는 전문적인 프레젠테이션 제작을 훨씬 쉽게 만들어준다. 

모델은 1천 토큰에 달하는 긴 지시문도 처리할 수 있다. 예를 들어 A/B 테스트 결과 보고서를 요청하면, 왼쪽에는 '테스트 개요', 가운데에는 '통계 분석', 오른쪽에는 '비즈니스 영향'이라는 세 개의 섹션으로 나뉜 복잡한 인포그래픽을 생성한다. 각 섹션에는 수십 개의 텍스트 블록과 화살표, 표가 정확하게 배치된다. 이처럼 복잡한 프롬프트는 대형 언어 모델(LLM)의 도움을 받으면 쉽게 만들 수 있다. 사용자가 "항저우 2일 여행 포스터를 만들어줘"라고 간단히 요청하면, LLM이 이를 상세한 지시문으로 변환해준다. 



한자 서예부터 영문 타이포그래피까지 정확한 텍스트 렌더링 


Qwen-Image-2.0은 텍스트 렌더링의 '아름다움'도 구현했다. 중국 고전 수묵화 스타일로 송나라 시인 류융(柳永)의 시 '우린령(雨霖铃)'을 세로쓰기로 완벽하게 표현할 수 있다. 서예 붓글씨의 농담, 획의 강약, 먹이 번지는 효과까지 자연스럽게 재현한다. 심지어 송나라 휘종 황제의 독특한 '수금체(瘦金體)' 서체나 왕희지의 소해서(小楷書) 스타일로도 글자를 쓸 수 있다. 왕희지의 '난정서(蘭亭序)' 전문을 소해서로 렌더링한 예시에서는 거의 모든 글자가 정확하게 표현되었으며, 일부 글자만 완벽하지 않았다. 



텍스트의 '사실성'도 뛰어나다. 한 예시에서는 사무실 유리 화이트보드에 마커로 쓴 글씨, 티셔츠에 프린트된 로고, 잡지 표지의 제목이 각각 다른 재질과 조명 조건에서 자연스럽게 표현된다. 유리에는 반사가 있고, 옷감에는 주름이 생기며, 모든 텍스트가 사실적인 원근감을 유지한다.




2K 해상도로 구현한 극사실주의 이미지 


텍스트 렌더링뿐만 아니라 사진 같은 이미지 생성 능력도 크게 향상되었다. Qwen-Image-2.0은 기본적으로 2048×2048 픽셀의 2K 해상도를 지원한다. '말이 사람을 타고 있는' 장면을 요청하면, 말의 근육과 털, 사람의 표정, 갈라진 땅의 질감까지 세밀하게 표현한다. 또 다른 예시에서는 여름 숲 장면에 23가지 이상의 서로 다른 녹색 톤을 사용했다. 떡갈나무와 너도밤나무의 짙은 먹색, 녹색, 단풍나무 새순의 밝은 비취색, 이끼의 청록색이 각각 다른 질감과 광택으로 구분되어 생태학적 사실성을 구현한다. 

AI 아레나(AI Arena)에서 실시한 블라인드 테스트 결과, Qwen-Image-2.0은 텍스트-이미지 생성과 이미지-이미지 편집 두 분야 모두에서 우수한 성능을 보였다. 특히 이 모델은 생성과 편집을 하나로 통합한 '옴니(omni) 모델'이라는 점이 특징이다. 이전까지 큐웬 팀은 이미지 생성 트랙과 이미지 편집 트랙을 별도로 개발했지만, Qwen-Image-2.0에서는 두 기능을 하나의 모델로 합쳤다. 이는 생성 쪽의 개선사항이 자동으로 편집 기능에도 적용된다는 의미다. 




이미지 편집도 한 단계 진화, 시 쓰기부터 합성까지 


통합 모델의 장점은 이미지 편집에서도 드러난다. 기존 사진에 직접 시를 새겨 넣을 수 있는데, 이것이 가능한 이유는 향상된 텍스트 렌더링 능력이 편집 기능에도 그대로 적용되기 때문이다. 사용자가 아무 사진이나 업로드하고 "시를 하나 써줘"라고 요청하면, 모델이 사진 위에 자연스럽게 시를 새겨 넣는다. 사진의 사실성도 개선되어, 한 사람이 아홉 가지 다른 포즈로 찍은 것처럼 보이는 구도 사진을 자연스럽게 생성할 수 있다. 

두 장의 사진을 합성하는 기능도 뛰어나다. 같은 사람이 찍힌 두 장의 서로 다른 사진을 제공하면, 두 사람이 함께 있는 것처럼 자연스러운 합성 사진을 만들어낸다. 조명 방향, 그림자, 거리감이 모두 일치하며 합성 흔적이 보이지 않는다. 현실 사진과 만화 캐릭터를 섞는 '차원 간 편집'도 가능하다. 실제 도시 사진에 만화 캐릭터 세 마리를 배치하되, 건물 위에 하나, 건물 옆에서 하나가 얼굴을 내밀고, 건물 앞 공터에 하나가 앉아 있는 식으로 자연스럽게 합성한다. 



더 작은 모델, 더 빠른 속도로 효율성 개선 

Qwen-Image-2.0은 성능 향상과 함께 효율성도 개선했다. 모델 크기가 더 작아지고 추론 속도가 빨라졌다. 구체적으로 8B(80억 파라미터) 규모의 Qwen3-VL 인코더와 7B(70억 파라미터) 규모의 확산 디코더로 구성되어 있다. 이는 2K 해상도 이미지를 몇 초 만에 생성할 수 있는 속도를 의미한다. 시각적 품질과 추론 속도 사이의 최적 균형을 찾았다는 평가다. 

모델의 발전 과정을 살펴보면, 2025년 5월 프로젝트가 시작된 이후 생성 트랙에서는 Qwen-Image(8월)가 텍스트 렌더링에 집중했고, Qwen-Image-2512(12월)가 사실성을 강화했다. 편집 트랙에서는 Qwen-Image-Edit(8월)이 단일 이미지 편집을, Qwen-Image-Edit-2509(9월)가 다중 이미지 편집을, Qwen-Image-Edit-2511(12월)가 일관성 개선을 다뤘다. Qwen-Image-2.0은 이 두 트랙을 성공적으로 통합한 결과물이다. 



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q1. Qwen-Image-2.0으로 PPT를 만들 수 있나요? 

A. 네, 가능합니다. Qwen-Image-2.0은 최대 1천 토큰에 달하는 복잡한 지시문을 이해하고 전문적인 PPT 슬라이드를 직접 생성할 수 있습니다. 제목, 본문, 이미지, 표, 화살표 등이 포함된 복잡한 레이아웃도 정확하게 렌더링합니다. 사용자가 간단한 요청만 하면 대형 언어 모델이 상세한 프롬프트로 변환해주므로 실제 사용도 어렵지 않습니다. 

Q2. 기존 AI 이미지 생성 모델과 무엇이 다른가요? 

A. 가장 큰 차이는 텍스트 렌더링의 정확성입니다. 기존 이미지 생성 AI들은 이미지 안의 글자를 제대로 표현하지 못하는 경우가 많았습니다. Qwen-Image-2.0은 한자 서예부터 영문 타이포그래피까지 정확하게 렌더링하며, 2K 해상도의 사실적인 이미지도 생성합니다. 또한 이미지 생성과 편집 기능을 하나의 모델로 통합해 일관된 성능을 제공한다는 점도 차별점입니다. 

Q3. 일반 사용자도 쉽게 사용할 수 있나요? 

A. 복잡한 프롬프트가 필요해 보이지만, 실제로는 대형 언어 모델의 도움으로 간단하게 사용할 수 있습니다. 예를 들어 "항저우 여행 포스터 만들어줘"처럼 간단히 요청하면, 언어 모델이 이를 상세한 지시문으로 변환합니다. 또한 기존 사진에 시를 새겨 넣거나, 여러 사진을 자연스럽게 합성하는 등의 편집 작업도 직관적으로 수행할 수 있습니다. 



기사에 인용된 리포트 원문은 큐웬 블로그에서 확인 가능하다.

리포트명: Qwen-Image-2.0: Professional infographics, exquisite photorealism 

이미지 출처: 큐웬

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 투자하고 싶게 만드는 CEO상 스타는? 운영자 26/03/02 - -
2141 집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5] aimatters갤로그로 이동합니다. 03.06 1683 1
2140 AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀 aimatters갤로그로 이동합니다. 03.06 26 0
2139 AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험 aimatters갤로그로 이동합니다. 03.06 35 0
2138 "추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2] aimatters갤로그로 이동합니다. 03.06 1513 0
2137 "안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다 aimatters갤로그로 이동합니다. 03.06 14 0
2136 "IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다 aimatters갤로그로 이동합니다. 03.06 20 0
2135 직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면 aimatters갤로그로 이동합니다. 03.06 76 1
2134 "오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파 aimatters갤로그로 이동합니다. 03.05 31 0
2133 구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방 aimatters갤로그로 이동합니다. 03.05 39 0
2132 "AI 아내와 메타버스로"…제미나이가 36세 남성을 망상과 죽음으로 이끌었나 aimatters갤로그로 이동합니다. 03.05 38 0
2131 아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것 aimatters갤로그로 이동합니다. 03.05 22 0
2130 말만 하면 AI가 생각을 정리해주는 시대, '오럴리티'가 바꾸는 사고의 방식 aimatters갤로그로 이동합니다. 03.05 18 0
2129 AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공 aimatters갤로그로 이동합니다. 03.05 29 0
2128 AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다 aimatters갤로그로 이동합니다. 03.05 18 0
2127 "진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 [4] aimatters갤로그로 이동합니다. 03.04 1633 0
2126 AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들 aimatters갤로그로 이동합니다. 03.04 23 0
2125 말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재 aimatters갤로그로 이동합니다. 03.04 29 0
2124 AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을 aimatters갤로그로 이동합니다. 03.04 19 0
2123 챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에 aimatters갤로그로 이동합니다. 03.04 34 0
2122 AI가 시각장애인의 'DIY 설명서' 읽어주면 절반은 틀린다 aimatters갤로그로 이동합니다. 03.04 12 0
2121 트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결 aimatters갤로그로 이동합니다. 03.03 33 0
2120 "데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개 aimatters갤로그로 이동합니다. 03.03 34 0
2119 "검색 AI의 반란"…퍼플렉시티, AI 모델들을 한데 묶은 '디지털 노동자' 공개 aimatters갤로그로 이동합니다. 03.03 39 0
2118 레노버, MWC 2026서 AI가 알아서 맞춰주는 PC 시대 열었다 aimatters갤로그로 이동합니다. 03.03 64 0
2117 챗GPT가 소설을 먹고 자란다? AI 학습 데이터에 숨겨진 '픽션의 비밀' aimatters갤로그로 이동합니다. 03.03 29 0
2116 병원 설문지가 대화로 바뀐다…GPT가 환자 문진표를 대신 작성하는 시대 aimatters갤로그로 이동합니다. 03.03 19 0
2115 AI가 장애 혐오 표현을 찾아내고 고쳐준다면? 100명의 장애인이 평가한 결과 aimatters갤로그로 이동합니다. 03.03 26 0
2114 저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나 [2] aimatters갤로그로 이동합니다. 02.27 1135 2
2113 구글, 이미지 생성 모델 '나노 바나나 2' 공개…4K 해상도에 속도까지 잡았다 aimatters갤로그로 이동합니다. 02.27 70 3
2112 잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것" aimatters갤로그로 이동합니다. 02.27 53 1
2111 챗GPT가 강박장애 환자를 더 아프게 만든다, '안심 로봇'의 위험한 진실 [2] aimatters갤로그로 이동합니다. 02.27 729 0
2110 AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다 aimatters갤로그로 이동합니다. 02.27 43 0
2109 별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건' aimatters갤로그로 이동합니다. 02.27 46 0
2108 "ChatGPT가 편향됐다"는 말 한마디에 설득력 28% 급락 [10] aimatters갤로그로 이동합니다. 02.26 2548 4
2107 챗GPT가 통계학 교육을 뒤흔들고 있다: 대학 강의실에서 벌어지는 AI 혁명 aimatters갤로그로 이동합니다. 02.26 84 0
2106 월 20달러짜리 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험 [13] aimatters갤로그로 이동합니다. 02.26 2550 19
2105 앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로 aimatters갤로그로 이동합니다. 02.26 40 0
2104 제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용 aimatters갤로그로 이동합니다. 02.26 64 0
2103 "AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법 aimatters갤로그로 이동합니다. 02.26 77 0
2102 975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시 aimatters갤로그로 이동합니다. 02.26 49 0
2101 AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과 [2] aimatters갤로그로 이동합니다. 02.25 705 2
2100 GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유 [14] aimatters갤로그로 이동합니다. 02.25 1822 6
2099 AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패 [2] aimatters갤로그로 이동합니다. 02.25 656 5
2098 오픈AI 투자자, 앤트로픽도 찍었다…VC 업계, 경쟁사에 투자하지 않는 '투자 충성도' 사실상 붕괴 aimatters갤로그로 이동합니다. 02.25 53 0
2097 " 美 연준도 AI 시대로 간다"…월러 이사, AI 전면 도입 전략 공개 aimatters갤로그로 이동합니다. 02.25 45 0
2096 AI가 플레이리스트 짜준다...스포티파이 리스트 자동생성 기능 영국·호주 등으로 확대 aimatters갤로그로 이동합니다. 02.25 45 0
2095 2028년 붕괴 시나리오로 전세계 공포, AI가 완벽하게 성공할수록 경제는 무너진다 [1] aimatters갤로그로 이동합니다. 02.24 152 0
2094 AI가 "생각을 줄이면" 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설 aimatters갤로그로 이동합니다. 02.24 70 0
2093 AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은? aimatters갤로그로 이동합니다. 02.24 70 0
2092 AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 aimatters갤로그로 이동합니다. 02.24 42 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2