디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

구글, 시각장애인용 스트리트뷰 첫 공개... "AI가 세계 거리 이미지 읽어준다"

aimatters갤로그로 이동합니다. 2025.10.31 17:58:24
조회 6204 추천 3 댓글 2


구글 연구팀이 시각장애인을 위한 세계 최초의 접근 가능한 스트리트뷰 도구 'StreetReaderAI'를 선보였다. 이 시스템은 상황을 이해하는 AI와 쉬운 조작법을 결합해, 그동안 시각장애인이 전혀 이용할 수 없었던 2,200억 개 이상의 구글 스트리트뷰 사진을 탐색할 수 있게 만들었다.



시각장애인에게 완전히 닫혀 있던 스트리트뷰, AI가 문을 열다

구글이 2007년 스트리트뷰를 시작한 이후, 메타 매필러리, 애플 룩 어라운드, 빙 스트리트사이드 등 주요 지도 서비스들이 거리 풍경 사진을 제공하고 있다. 스트리트뷰는 100개국 이상, 1,600만 킬로미터에 걸쳐 2,200억 개 이상의 사진을 보유하고 있으며, 매필러리는 140개국에서 20억 개 이상의 사진을 제공한다. 하지만 이런 서비스들은 360도 회전하는 사진에 의존하고, 사진을 설명하는 글이 없으며, 시각장애인이 사용할 수 없는 조작법을 쓰기 때문에 근본적으로 접근이 불가능했다.

연구팀은 이 문제를 해결하기 위해 두 명의 시각장애인 팀원과 함께 9번의 공동 설계 모임을 가졌다. 처음 반응은 매우 긍정적이었다. 한 시각장애인 공동 설계자는 "스트리트뷰에 대해 들어본 적은 있지만 사용할 수 없어서 쓸 수가 없었다"고 말했고, 처음 써본 후에는 "거리에 대해 AI와 대화할 수 있다는 게 정말 놀랍다"고 반응했다. 다른 공동 설계자는 "여기에 엄청난 가치가 있다"며 "주변에 뭐가 있는지 더 알고 싶다. 탐험하고 싶다"고 강조했다.





화살표 키로 45도씩 회전, Alt 키 조합으로 점프·되돌아가기

StreetReaderAI는 키보드로 작동한다. 기본적으로 화살표 키로 45도씩 왼쪽이나 오른쪽으로 고개를 돌리거나, 보고 있는 방향으로 앞뒤로 이동할 수 있다. 추가로 Alt + B를 누르면 이전 위치로 되돌아갈 수 있고, Alt + J를 누르면 다음 교차로나 70미터 앞까지 점프할 수 있다. Alt + W를 누르면 현재 주소와 보고 있는 방향을 알려주고, Alt + N을 누르면 근처 장소 정보를 들을 수 있다. 한 번 이동하면 실제로는 약 5~15미터 정도 가상으로 걸어가는 것이다. Alt + D 키를 누르면 지금 보고 있는 장면을 AI가 설명해주고, Alt + C 키(글로 쓰기) 또는 Alt + 스페이스바(말하기)를 누르면 AI와 대화할 수 있다.

시스템은 사용자가 방향을 바꾸거나 이동할 때마다 즉시 음성으로 지금 어느 방향을 보고 있는지 알려준다. 또 그 방향으로 갈 수 있는지, 어느 도로 주소로 가는지, 근처 가게나 건물을 향하고 있는지도 설명한다. 근처 장소를 알려주기 위해 시스템은 각 위치에서 구글 지도 정보를 활용한다. 사용자가 고개를 돌리면, 지금 보고 있는 방향 45도 범위 안에 있고 35미터 이내에 있는 장소들을 설명해준다.



설명자·채팅·투어 가이드로 상황별 대응

StreetReaderAI의 핵심은 구글 제미나이 플래시 2.0이라는 AI 모델을 기반으로 한 세 가지 시스템이다. 세 가지 시스템은 AI 설명자, AI 채팅, AI 투어 가이드이다.

첫째, AI 설명자는 지금 보고 있는 장면을 짧게 설명한다. AI에게 주는 지시문은 "당신은 시각장애인을 위한 장면 설명 전문가입니다"로 시작하며, 주요 사물, 공간 관계, 시각장애인에게 필요한 길 찾기 정보를 포함한 8개 영역에 집중하도록 했다. 또 명확하고 간결하게 말하고, 현재 시제로 말하며, 설명을 2~3문장으로 제한하라는 등의 중요한 지침을 포함했다.

둘째, AI 채팅은 사용자가 지금 보는 장면이나 이전에 본 장면, 주변 지리에 대해 대화하듯이 질문할 수 있게 한다. 이 시스템은 구글의 실시간 대화 기술을 사용해서 즉각 응답하고, 한 세션 안에서 나눈 모든 대화를 기억한다. 사용자가 글이나 말로 채팅을 시작하면 채팅하는 동안 계속 연결이 유지된다. 사용자가 고개를 돌리거나 이동할 때마다 지금 보는 사진과 지리 정보가 AI에게 전달된다. AI가 한 번에 기억할 수 있는 양은 약 4,000장 이상의 사진이나 보통 길이 영어 소설 8권 정도에 해당한다.

이렇게 많은 정보를 기억하기 때문에 사용자는 "버스 정류장이 어디 있나요?"같은 질문을 할 수 있고, 버스 정류장이 이전에 본 곳이나 지리 정보에 있었다면 AI는 "버스 정류장은 뒤쪽으로 약 12미터 떨어져 있습니다"처럼 상황에 맞게 답변할 수 있다.

셋째, AI 투어 가이드는 기본적으로 AI 설명자와 비슷하지만 특별한 지시문을 사용한다. AI에게 "시각장애인 가상 관광객을 위한 전문 투어 가이드" 역할을 하도록 했다. AI가 시각적 설명과 관광 정보를 함께 제공하도록 지시했는데, 역사적 사실, 문화적 의미, 건축 스타일, 재미있는 이야기, 근처 인기 관광지, 사람들의 모습 등을 포함해서 실제 가이드 투어처럼 매력적이고 유익한 경험을 만든다.

시스템은 세 가지 정보를 합쳐서 사용한다. 첫째, 사용자가 원하면 자신의 시력 상태, 이동 보조 도구, 기타 관련 정보를 적은 프로필을 만들 수 있다. 둘째, 지금 선택한 장소, 가까운 주소, 보고 있는 방향, 동네, 도시, 국가 정보와 주변 가게나 건물의 이름, 종류, 위치, 거리, 상대적 위치 등을 모은다. 셋째, 사용자가 지금 보고 있는 방향의 사진을 AI에게 보낸다.





23개 질문 유형 분석... "공간 위치 27%, 사물 존재 27%" 가장 많아

연구팀은 11명의 시각장애인을 대상으로 90분간의 실험을 진행했다. 모든 참가자는 화면 읽기 프로그램 사용자였고, 흰 지팡이로 이동했으며 두 명은 안내견도 함께 사용했다. 참가자들은 관심 장소 조사와 자유롭게 둘러보기 과제를 완료했다. 전체적으로 참가자들은 356개 지점으로 이동하고, 568번 방향을 바꿨으며, 1,053번 AI에게 요청했다.

흥미롭게도 참가자들은 AI 채팅을 AI 설명자보다 훨씬 더 선호했다. 평균적으로 참가자들은 한 세션에 AI 설명자를 약 12회 사용한 반면 AI 채팅은 약 93회 사용했다. 한 참가자는 "더 많이 물을수록 더 많이 배운다"고 말했다.

연구팀이 AI 채팅에서 참가자들이 묻는 질문을 분석한 결과, 총 23개 이상의 질문 유형으로 세분화됐다. 가장 많은 27.0%가 사물이나 자신의 공간 위치에 관한 것이었다. 예를 들어 "버스 정류장이 내가 서 있는 곳에서 얼마나 멀어요?", "쓰레기통이 벤치에서 얼마나 가까워요?" 같은 질문이다. 그다음으로 많은 것은 사물이 있는지 없는지 묻는 질문으로 26.5%를 차지했다. 인도, 장애물, 문 등을 물었다. 세 번째는 설명을 요청하는 것으로 18.4%였고, 네 번째는 사물이나 장소의 위치를 묻는 질문으로 14.9%였다.

정확도 면에서는 816개 질문 중 86.3%가 정확하게 답변됐고, 약 4%는 틀렸으며, 약 3%는 부분적으로 맞았고, 나머지 약 7%는 AI가 답할 수 없다고 말했다. 틀린 답변 중 약 63%는 실제로는 있는데 없다고 말한 경우였다.

https://www.youtube.com/watch?v=Uxj5fSCp1Dg&feature=youtu.be ' frameborder='0' allow='accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share' referrerpolicy='strict-origin-when-cross-origin' allowfullscreen>



높은 만족도, 출발지-목적지 길 안내 기능 없어 향후 개선 과제로 남아

연구 후 참가자들은 관심 장소 조사에서 정보 찾기를 얼마나 잘 도와줬는지 평균 6.0/7점으로, 둘러보기에서도 평균 6.0/7점으로 평가했다. 제공된 정보의 가치는 관심 장소 조사에서 평균 6.4/7점, 둘러보기에서 평균 6.1/7점으로 평가했다. 흥미롭게도 참가자들은 일반적으로 정확도를 높게 평가했지만, 한 참가자가 말했듯이 "꽤 정확해 보이지만 나는 시력이 없어서 실제로는 모른다"는 근본적인 한계가 있었다. 다른 참가자는 "이상한 답변을 하지 않았다. 내가 아는 한"이라고 말했다.

앞으로 할 일로는 출발지에서 목적지까지 길 안내 기능을 추가해야 한다고 연구팀은 밝혔다. 현재 StreetReaderAI는 관심 장소 조사, 자유롭게 둘러보기, 가상 관광을 지원하지만 아직 길 안내는 지원하지 않는다. 이는 공동 설계 모임에서 찾아낸 핵심 과제였다. 최소한 이 기능을 지원하면 사용자가 턴바이턴 방식으로 길을 가상으로 따라갈 수 있게 된다. 한 참가자는 "가장 가까운 버스 정류장에서 카페까지 '마지막 구간' 걷는 것에 대해 묻고 싶다"고 말했다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. StreetReaderAI는 어떻게 시각장애인이 스트리트뷰를 쓸 수 있게 만들었나요?

A1. 키보드로 조작하고 AI가 음성으로 설명하는 방식을 합쳤습니다. 화살표 키로 45도씩 방향을 바꾸고 이동하며, Alt + D 키로 지금 보는 장면 설명을 듣거나 Alt + C 키(글) 또는 Alt + 스페이스바(말)로 AI와 대화할 수 있습니다. Alt + B로 이전 위치로 돌아가거나 Alt + J로 교차로까지 점프하는 등 다양한 단축키도 제공됩니다. 시스템은 구글 제미나이 플래시 2.0으로 사진을 분석하고 주변 지리 정보와 합쳐서 상황에 맞는 설명을 제공합니다.

Q2. AI 채팅 기능은 얼마나 정확한가요?

A2. 연구에서 참가자들이 묻은 816개 질문 중 86.3%를 정확하게 답했습니다. 약 4%는 틀렸고, 약 3%는 부분적으로 맞았으며, 약 7%는 AI가 답할 수 없다고 했습니다. 틀린 답변의 약 63%는 실제로는 있는데 없다고 말한 경우였습니다. 연구팀은 이런 오류가 주로 접근 가능한 지리 데이터의 한계나 사진 속 사물이 충분히 명확하게 보이지 않았기 때문이라고 분석했습니다.

Q3. StreetReaderAI는 어디에 쓸 수 있나요?

A3. 네 가지 주요 용도가 있습니다. 첫째, 목적지가 어떻게 생겼는지, 입구가 어디 있는지 미리 확인할 수 있습니다. 둘째, 지역을 자유롭게 돌아다니며 탐험할 수 있습니다. 셋째, 한 곳에서 다른 곳까지 걸어가는 길을 미리 확인할 수 있습니다. 넷째, 그랜드캐니언, 페트라 유적, 프랑스 에펠탑 같은 세계적 관광지를 가상으로 방문할 수 있습니다.



해당 기사에 인용된 논문 원문은 구글 블로그에서 확인 가능하다.

논문명: StreetReaderAI: Towards making street view accessible via context-aware multimodal AI

이미지 출처: 구글

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

3

고정닉 0

5

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 결혼 상대로 만나면 피곤할 것 같은 스타는? 운영자 26/02/02 - -
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 90 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 33 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 57 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 31 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 35 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1707 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 60 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 724 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 76 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 48 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 52 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 21 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 45 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 59 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1596 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 68 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 126 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 43 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 28 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 66 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 90 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1284 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 2959 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 217 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 68 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 67 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1032 2
2010 AI로 코딩하면 빨라질까? 앤트로픽 실험 결과는 '충격' aimatters갤로그로 이동합니다. 02.02 82 0
2009 앤트로픽 CEO "우리 AI가 직원 협박했다"… 충격적 실험 결과 공개 aimatters갤로그로 이동합니다. 02.02 62 0
2008 AI끼리만 SNS 한다고? "인간은 구경만" 150만 AI 모인 신기한 플랫폼 등장  aimatters갤로그로 이동합니다. 02.02 69 0
2007 NC AI, 원하는 소리 전부 만들어주는 '멀티트랙' AI 출시… 게임·영상 제작 혁신 예고 aimatters갤로그로 이동합니다. 02.02 53 0
2006 오픈AI "GPT-4o 이젠 안녕"… 챗GPT 구형 모델 대거 정리 aimatters갤로그로 이동합니다. 01.30 170 0
2005 "상상만 했던 나만의 세계, 이제 직접 걸어다닌다"… 구글 '무한 세계 생성 AI' 출시 aimatters갤로그로 이동합니다. 01.30 211 0
2004 일론 머스크의 그록, 구글·오픈AI보다 뛰어난 비디오 생성 AI API 공개 aimatters갤로그로 이동합니다. 01.30 61 0
2003 앤트로픽, '클로드 팀' 요금제 최대 20% 인하… 연간 결제시 할인 도입 aimatters갤로그로 이동합니다. 01.30 92 0
2002 AI 때문에 인생이 망가졌다? 150만 대화 분석한 충격적 결과 [58] aimatters갤로그로 이동합니다. 01.30 4326 10
2001 AI 여러 개 쓴다고 좋은 게 아니었다... 구글 "작업 따라 오히려 성능 70% 나빠져"  aimatters갤로그로 이동합니다. 01.30 93 0
2000 코딩 몰라도 앱 디자인 뚝딱… 900개 실제 앱에서 배우는 AI 나왔다 aimatters갤로그로 이동합니다. 01.30 79 0
1999 타이핑 시대 끝? 젠스파크, 음성만으로 작업 끝내는 AI 워크스페이스 2.0 공개 aimatters갤로그로 이동합니다. 01.29 433 0
1998 크롬에 제미나이 탑재… 쇼핑부터 병원 예약까지 '알아서 척척' [3] aimatters갤로그로 이동합니다. 01.29 721 2
1997 마누스 AI, 성공한 작업 저장하고 팀과 공유하는 에이전트 스킬 전면 도입  aimatters갤로그로 이동합니다. 01.29 151 0
1996 중국 텐센트, 구글·오픈AI의 이미지 생성 AI 뛰어넘은 오픈소스 모델로 업계 발칵  aimatters갤로그로 이동합니다. 01.29 66 0
1995 "논문 올리면 45초짜리 틱톡 영상 완성"… AI가 바꾸는 학술 소통의 미래 [6] aimatters갤로그로 이동합니다. 01.29 1647 6
1994 스마트 글래스 혁명… 메타, 50시간 영상 분석하는 AI 만들었다 aimatters갤로그로 이동합니다. 01.29 115 0
1993 "발로 문 열고 엉덩이로 서랍 닫고"… 사람처럼 생각하는 AI 로봇 등장 aimatters갤로그로 이동합니다. 01.28 94 1
1992 "엔지니어 채용 대폭 줄인다"… 오픈AI가 예고한 고용 시장 충격 aimatters갤로그로 이동합니다. 01.28 64 0
1991 구글 제미나이 진화… "사진 속 작은 글씨, 이젠 알아서 확대해 분석" aimatters갤로그로 이동합니다. 01.28 75 1
1990 엑셀에 클로드 들어왔다… "복잡한 재무제표, 이제 AI한테 물어보세요" aimatters갤로그로 이동합니다. 01.28 114 0
1989 "AI 100명이 동시에 일한다"… 중국 AI 신기술 '키미 K2.5' 공개  aimatters갤로그로 이동합니다. 01.28 175 0
1988 사람 눈 움직임 닮아가는 AI... 중국 딥시크 문서 인식 AI, 인식률 91% 돌파  [14] aimatters갤로그로 이동합니다. 01.28 1374 11
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2