구글, LLM 답변을 검색으로 확인하는 'SAFE' 개발 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] 구글, LLM 답변을 검색으로 확인하는 'SAFE' 개발

ㅇㅇ(182.230) 2024.04.02 21:39:51

조회 1716 추천 18 댓글 7

https://www.aitimes.com/news/articleView.html?idxno=158446

구글, LLM 답변을 검색으로 확인하는 'SAFE' 개발

구글이 대형언어모델(LLM)의 답변을 검색으로 확인하는 LLM을 개발했다. 이 방식은 인간이 확인할 때보다 높은 정확도를 기록했다는 설명이다.벤처비트는 28일(현지시간) 구글 딥마인드의 인공지능(AI) 전문가 팀이 'SAFE(검색증강 사실 평가자)'라는 시스템을 개발했다고 보도했다.이 방식은 LLM의 답변이 사실인지 확인하기 위해 인간이 구글 검색 엔진 등을 이용해 응답에 대한 소스를 찾는 방법과 동일하다. 연구진은 별도의 LLM을 구축, 구글 검색을 사용해 정답을 확인했다.시스템을 테스트하기 위해 '롱팩트(LongFact)'라는

www.aitimes.com

7ce88872b18407f739ef82e341ee716a73ba8838823ea935ecb7f85f9aff691fff83fa

구글이 대형언어모델(LLM)의 답변을 검색으로 확인하는 LLM을 개발했다. 이 방식은 인간이 확인할 때보다 높은 정확도를 기록했다는 설명이다.

벤처비트는 28일(현지시간) 구글 딥마인드의 인공지능(AI) 전문가 팀이 'SAFE(검색증강 사실 평가자)'라는 시스템을 개발했다고 보도했다.

이 방식은 LLM의 답변이 사실인지 확인하기 위해 인간이 구글 검색 엔진 등을 이용해 응답에 대한 소스를 찾는 방법과 동일하다. 연구진은 별도의 LLM을 구축, 구글 검색을 사용해 정답을 확인했다.

시스템을 테스트하기 위해 '롱팩트(LongFact)'라는 벤치마크를 통해 '챗GPT'와 '제미나이', '클로드', '팜 2' 등 LLM 4개 제품의 답변에 포함된 약 1만6000개의 사실을 확인했다.

7ce88872b18407f739ef82e34eee71659f75f5286a74bcea40f06a2ca2e5738f39

그 결과 SAFE가 크라우드소싱을 통한 인간 확인 결과와 72% 일치한다는 사실을 발견했다. 특히 SAFE와 인간 체크가 일치하지 않을 경우, SAFE가 76%의 경우에서 올바르다고 밝혔다.

또 큰 모델일수록 일반적으로 사실적 오류가 적지만, 최고 성능을 발휘하는 모델이라고 해도 상당수의 허위 사실을 출력한다고 지적했다.

특히 이 방식의 강점은 비용 문제로 나타났다. SAFE는 인간 체크보다 약 20배 저렴하다는 설명이다. LLM에 의해 생성된 정보의 양이 계속 폭발적으로 증가함에 따라, 이를 검증하는 경제적이고 확장 가능한 방법으로 주목받고 있다고 평이다.

연구진은 깃허브에 SAFE를 공개, 모든 사람이 사용할 수 있도록 개방했다.

https://github.com/google-deepmind/long-form-factuality

GitHub - google-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper

Benchmarking long-form factuality in large language models. Original code for our paper

github.com

고정닉 12

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2856	설문	주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는?	운영자	24/04/29	-	-
456321	일반	ㄹㅇ 나도 현.직자인데 [8]	ㅇㅇ	04.15	954	14
456319	일반	오늘자 얀르쿤 트윗: 25년도까지 AGI 불가능 [12]	ㅇㅇ(112.144)	04.15	840	11
456310	일반	산수문제 하나 풀고 가실게요 (gpt4 재평가) [9]	mahogany	04.15	2085	21
456297	일반	라마3 곧 발표예정이라함 [9]	ㅇㅇ(125.191)	04.15	2166	26
456204	정보	스테이블 디퓨전 만든 CEO 근황 [11]	ㅇㅇ(121.132)	04.15	3314	26
456178	정보	오픈AI, 아시아 최초 사무소인 OpenAI Japan 설립 [28]	월코존버	04.15	2369	22
455877	정보	엔트로픽 CEO, ASL-4는 2025~2028 사이에 일어날 수 있다 [14]	ㅇㅇ(218.52)	04.14	955	11
455701	정보	다트머스 연구진은 현대 AI와 치료 앱을 융합하려고 합니다. [12]	ㅇㅇ	04.14	1401	14
455985	정보	미스트랄 8x22b성능은 오픈소스중최고 mmlu 77.3 [11]	ㅇㅇ(149.88)	04.14	1474	15
456113	정보	2024년 가장 많이 사용되는 AI 플랫폼 20개는 [9]	ㅇㅇ(182.230)	04.15	2434	21
455398	일반	페이팔ceo 시발년아 [16]	ㅇㅇ(14.53)	04.13	2701	20
456112	일반	알트만 스캠이라면 영악한게 , 5~10년안에 올지도 모른다 [2]	ㅇㅇ(118.129)	04.15	526	10
456111	정보	"기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장 [4]	ㅇㅇ(182.230)	04.15	1705	13
456069	일반	와 자율주행 신기하네 [1]	ㅇㅇ	04.15	969	11
455998	일반	알트만 새 트윗 개인적인 해석 [4]	ㅇㅇ(112.144)	04.14	768	10
455964	정보	특이점이 온 미국의 노동시장 [11]	테이리	04.14	979	10
455902	정보	채신논문) 어리석음을 찬양하며: 유연한 목표와 인간의 인지 능력 [6]	ㅇㅇ	04.14	2635	24
455884	정보	구글 삼성결별 2025년부터 TSMC에서 생산 [6]	ㅇㅇ(125.143)	04.14	733	10
455850	일반	데빈 저격영상 떳네 ㅋㅋ [15]	상한포도	04.14	3153	27
455846	일반	devin 걍 사기꾼이였네 [8]	ㅇㅇ(211.36)	04.14	2787	20
455800	일반	샘 알트만 ”agi 개발완료“는 날조임 [10]	ㅇㅇ(116.120)	04.14	3483	44
455774	일반	“韓 연구진이 개발한 뇌 영상 기술 …연이은 검증 실패 [9]	ㅇㅇ(211.234)	04.14	2517	22
455743	일반	이런일 다들 경험해봣을건데 [22]	ㅇㅇ(117.20)	04.14	2844	31
455680	일반	2025년이 7개월남았다는게 어이가없네 [8]	ㅇㅇ(211.197)	04.13	3546	33
455679	정보	AI가 월스트리트에 온다, 은행 분석가 채용 2/3로 줄이는 것을 고려중 [4]	ㅇㅇ(125.191)	04.13	772	10
455648	일반	영상다시봤는데 힌튼이 말을 이상하게했음 [8]	ㅇㅇ(211.197)	04.13	1591	16
455619	일반	특갤에 갈수록 병신새끼들만 남는거같다고? [17]	ㅇㅇ(58.127)	04.13	2852	53
455614	AI창 AI창작	AI야 클레 귀엽게 그려줘 [17]	ㅇㅇ	04.13	2440	24
455604	일반	내 사촌여동생(12살)한테 특이점 설명해줬음 [64]	초존도초	04.13	2729	33
455584	일반	제프리 힌튼 "AI 챗봇은 감각과 주관적 경험을 가지고 있다" [16]	ㅇㅇ(1.237)	04.13	2300	24
455563	정보	빌게이츠가 말하는 AI 시대에 살아남을 직업 3가지 [20]	ㅇㅇ(119.207)	04.13	3833	36
455533	정보	뇌 없이 운동 학습하고 기억하는 메커니즘 찾았다 [4]	ㅇㅇ(182.230)	04.13	1350	14
455520	일반	얀르쿤은 빌라에 사는 성난 아줌마다. [25]	ㅇㅇ	04.13	2053	46
455500	일반	난 왜 얀르쿤 말이 맞아보이지 [21]	ㅇㅇ(39.7)	04.13	2689	45
455452	일반	오늘도 연전연승	ㅇㅇ(58.127)	04.13	1235	27
455447	정보	삼성, 갤럭시 S22·21에도 AI 일부 적용 [2]	ㅇㅇ(182.230)	04.13	2227	24
455442	정보	오픈AI, 기업 시장 확장 위해 MS와 경쟁 불사 [2]	ㅇㅇ(182.230)	04.13	1286	20
455441	정보	오픈AI, 유출 혐의로 연구원 2명 해고..."효과적인 이타주의 연관" [8]	ㅇㅇ(182.230)	04.13	1375	18
455438	정보	메타가 공개한 AGI로 가는 방법, 'V-제파'란 [13]	ㅇㅇ(182.230)	04.13	1994	30
455436	정보	메타, AI의 ‘현실 이해' 돕는 오픈 소스 데이터셋 출시 [2]	ㅇㅇ(182.230)	04.13	788	13
455435	정보	그록 1.5v 발표 [14]	특술람	04.13	1526	28
455434	정보	"로봇이 일자리를 빼앗는다는 것은 '신화'에 불과" [7]	ㅇㅇ(182.230)	04.13	1811	17
455433	정보	아마존 "생성 AI는 인터넷 이후 최고 기술"...앤드류 응 이사회 합류 [4]	ㅇㅇ(182.230)	04.13	1050	13
455432	정보	생추어리, 자동차 부품 생산에 AI 로봇 투입 파트너십 [1]	ㅇㅇ(182.230)	04.13	456	15
455430	정보	애플, AI 강화 위해 'M4' 칩 조기 업그레이드 [3]	ㅇㅇ(182.230)	04.13	1040	18
455428	정보	MS, 군사용 도구로 오픈AI '달리' 판매 시도 [1]	ㅇㅇ(182.230)	04.13	171	10
455415	일반	개발자 근들갑보다 특이쭝이들 조울증이 더 꼴보기 실어여 ㅇㅅㅇ [19]	ㅇㅇ(122.36)	04.13	1367	41
455397	AI창 AI창작	샘 알트만 디스곡 만들어 줘 [5]	ㅇㅇ	04.13	1311	30
455396	정보	Cognition의 Devin으로 알아보는 AI업계의 과대광고 [17]	ㅇㅇ(218.53)	04.13	1536	55
455381	일반	부자들도 역노화 포기한것같다 [10]	ㅇㅇ(125.180)	04.13	1865	14