허깅페이스, LLM '의료 지식' 평가하는 벤치마크 공개

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] 허깅페이스, LLM '의료 지식' 평가하는 벤치마크 공개

ㅇㅇ(182.230) 2024.04.19 19:43:51

허깅페이스, LLM '의료 지식' 평가하는 벤치마크 공개

허깅페이스가 의료 관련 작업에서 생성 인공지능(AI) 모델의 성능을 평가하기 위한 벤치마크를 공개했다. 신뢰성이 중요한 의료 분야에서 생성 AI 모델에 대한 강력한 평가 도구로 자리매김할 것으로 전망된다. 테크크런치는 18일(현지시간) 허깅페이스가 비영리 오픈 라이프 사이언스 AI 및 에든버러 대학교 자연어 처리 그룹 연구진과 협력해 새로운 의료용 AI 벤치마크 테스트인 ‘오픈 메디컬-LM(Open Medical-LLM)’과 리더보드를 공개했다고 보도했다.이에 따르면 오픈 메디컬-LM은 다양한 의료 관련 작업에서 생성 AI 모델의

www.aitimes.com

7ce8887fb38307f739ee87e743ee776901e82de7109b76a19632b0d729f81c92f8

허깅페이스가 의료 관련 작업에서 생성 인공지능(AI) 모델의 성능을 평가하기 위한 벤치마크를 공개했다. 신뢰성이 중요한 의료 분야에서 생성 AI 모델에 대한 강력한 평가 도구로 자리매김할 것으로 전망된다.

테크크런치는 18일(현지시간) 허깅페이스가 비영리 오픈 라이프 사이언스 AI 및 에든버러 대학교 자연어 처리 그룹 연구진과 협력해 새로운 의료용 AI 벤치마크 테스트인 ‘오픈 메디컬-LM(Open Medical-LLM)’과 리더보드를 공개했다고 보도했다.

이에 따르면 오픈 메디컬-LM은 다양한 의료 관련 작업에서 생성 AI 모델의 성능 평가를 표준화하는 것을 목표로 한다.

오픈 메디컬-LLM은 처음부터 새로 만들어진 벤치마크가 아니라 기존의 테스트 세트(MedQA, PubMedQA, MedMCQA 등)를 이어 붙인 것이다.

이런 세트들은 일반 의학 지식과 해부학, 약리학, 유전학, 임상 실무와 같은 관련 분야를 탐색하기 위해 설계됐다. 이 벤치마크에는 의료 추론과 이해를 필요로 하는 객관식 및 개방형 질문이 포함돼 있으며, 미국과 인도 의료 면허 시험 및 대학 생물학 시험 문제 은행 등의 자료를 참고하고 있다.

7ce8887fb38307f739ee87e740ee7769ecfa47f640ec52055113a206b84f7d1766ed

허깅 페이스는 “오픈 메디컬-LM은 연구자와 실무자들이 서로 다른 접근 방식의 장점과 약점을 식별하고 해당 분야에서의 더 나은 발전을 촉진하며, 궁극적으로는 더 나은 환자 치료와 결과에 기여하는 것이 목적”이라고 밝혔다.

이 벤치마크가 의료 분야로 확장하는 생성 AI 모델의 강력한 평가 도구 역할을 할 것으로 기대하고 있다.

그러나 일부 의료 전문가들은 오픈 메디컬-LM을 너무 많이 신뢰하면 잘못된 배포를 유발할 수 있다고 경고했다.

리암 맥코이 알버타 대학 신경학 의사는 X(트위터)에서 의료 질문에 대한 답변의 인위적인 환경과 실제 임상 실무 간의 격차가 상당히 크다는 점을 지적했다.

이에 대해 클레멘틴 푸리에 허깅페이스 연구과학자도 동의했다.

그는 "이 리더보드를 특정 사용 사례에 대해 어떤 생성 AI 모델을 활용할 것인지에 대한 대략적인 지표로만 사용해야 한다"라며 "의료 모델은 환자가 스스로 사용해서는 절대 안 되며, 대신 의사를 위한 지원 도구로 훈련돼야 한다"라고 말했다.

이와 관련, 구글은 당뇨병성 망막증에 대한 AI 검사 도구를 태국의 의료 시스템에 도입하려고 시도했다가 실패한 경험이 있다.

구글은 시력 상실의 주요 원인인 망막병증의 증거를 찾기 위해 눈 이미지를 스캔하는 딥 러닝 시스템을 만들었다. 높은 이론적 정확성에도 불구하고 ,이 도구는 실제 테스트에서는 비현실적인 것으로 판명됐다. 일관되지 않은 결과와 현장 실습과의 전반적인 밸런스 부족으로 결국 폐기됐다.

또 지금까지 미국 식품의약국(FDA)이 승인한 139개의 AI 관련 의료기기 중에는 생성 AI를 사용한 것이 하나도 없다.

그렇다고 오픈 메디컬-LM이 유용하거나 정보를 제공하지 않는다는 의미는 아니다. 적어도 결과 리더보드는 모델이 기본 건강 질문에 얼마나 부적절하게 답하는지를 상기시키는 역할을 한다.

그러나 테크크런치는 "오픈 메디컬-LM이나 다른 어떤 벤치마크도 신중하게 계획된 현실 세계 테스트를 대체할 수 없다"라고 지적했다.

고정닉 1

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2861	설문	어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는?	운영자	24/05/20	-	-
474198	일반	디스토피아 그런거 없다는 것도 정렬을 잘한다는 가정하에서지 [4]	ㅇㅇ(223.38)	05.15	167	3
474197	일반	털드만 최신 인터뷰	디붕이(121.190)	05.15	89	1
474196	일반	일바오야 가지마...	ㅇㅇ	05.15	43	0
474195	일반	구글 전ceo가 승자네 [5]	xdxd333	05.15	354	0
474194	일반	일리야 만약에 엔비디아로 가면 어떻게 되는거냐?	내복맨	05.15	44	0
474193	일반	일본 VPN켜고 챗지피티 켜니까 UI업뎃됐네 [10]	도서관킬러	05.15	366	0
474192	일반	클로드는 한국어를 잘한다	ㅇㅇ(59.26)	05.15	127	0
474191	일반	Agi가 내부에 있을거같진 않은데	ㅇㅇ(121.131)	05.15	92	0
474190	일반	그래서 지금 구글 어시스턴트에 잼민이 넣어준다는거야?	ㅇㅇ(110.145)	05.15	51	0
474189	일반	구글은 애초에 저렴한 모델이 우선순위였네 [2]	ㅇㅇ(221.155)	05.15	173	1
474188	일반	잼민이 병신이네 [3]	dd(39.116)	05.15	171	0
474187	일반	클로드는 외국인이 맞다	ㅇㅇ(221.152)	05.15	88	0
474186	일반	일리야 나간거 행보회로 버전 [1]	ㅇㅇ(218.237)	05.15	127	1
474185	정보/ 정보/뉴스	인공지능 위험주제로 미중 고위급회담ㅋㅋ [3]	연맛	05.15	302	1
474184	일반	ai에 있어서 수학이 난제긴 한가보다 [1]	ㅇㅇ(211.197)	05.15	164	0
474183	일반	나도 다음폰은 아이폰으로 가야겠네 [4]	ㅇㅇ(218.150)	05.15	232	2
474182	일반	Nsfw해제 검토가 정렬 줄이겠다 해서 일리야 짜른건가? [2]	ㅇㅇ(121.131)	05.15	225	0
474181	일반	근데 이제 외서 구글에 기대거는 것도 웃기지 않나	ㅇㅇ	05.15	73	0
474180	일반	본인 구글 주주인데 실망스럽긴함 [7]	ㅇㅇ(117.111)	05.15	245	0
474179	일반	일리야 개인 프로젝트 하러 가나보네	ㅇㅇ(121.131)	05.15	186	0
474178	일반	어째 국내 유튭 댓글들 반응은 ㅋㅋㅋㅋ [1]	ㅇㅇ(121.131)	05.15	349	0
474177	일반	개인적으로 일리야 화웨이 가면 좋겠다 [2]	충남대컴공(118.235)	05.15	118	0
474176	일반	100만 토큰 엄청 빨리쓰네 [4]	dd(219.254)	05.15	222	0
474175	일반	일리야가 경영할 능력이 되나? [1]	ㅇㅇ(223.38)	05.15	99	0
474174	일반	솔직히 사상적으로 보면 일리야가 제일 특이점에 이상적인데 [2]	ㅇㅇ(115.139)	05.15	186	0
474173	일반	gpt-4o는 22년말기술 [13]	ㅇㅇ(14.6)	05.15	626	2
474172	일반	일리야 나가는거 보고 느낀게	천사다천사	05.15	167	0
474171	일반	에릭 슈미트 최근 인터뷰 요약 [5]	ㅇㅇ(58.123)	05.15	400	5
474170	일반	난 솔직히 일리야 나간거 보고 웃었다. OAI 멸망은 이제 시작이다. [6]	충남대컴공(118.235)	05.15	387	1
474169	일반	내년에 갑자기 일리야(칼텍 교수) 이러고 나타나면 갤터짐?	ㅇㅇ	05.15	144	2
474168	일반	일리야 성격상 [3]	ㅇㅇ(211.235)	05.15	213	0
474167	일반	안전팀 날린건 잘한거지 [3]	ㅇㅇ(220.116)	05.15	330	2
474166	일반	구글 반응 왜이러냐..그냥 난 너네가 병신같다 진짜 [8]	충남대컴공(118.235)	05.15	390	2
474165	일반	Agi가 완성된다 쳐도 공개를 빨리 할까? [1]	ㅇㅇ(121.131)	05.15	84	0
474164	일반	검열이 많이 사라진게 확실히 느껴진다.	ㅇㅇ(114.204)	05.15	143	0
474163	일반	정렬이 모델 팔다리 자르는 작업이냐? [3]	ㅇㅇ	05.15	197	0
474162	일반	일리야도 카피시처럼 교육쪽으로 좀 활약하면 좋겟당	dd(39.116)	05.15	51	0
474161	일반	ALSO도 정렬하는 과정에서 문제가 있었나? [1]	ㅇㅇ	05.15	101	0
474160	일반	일리야 나가서 앙꼬없는 찐빵됐네 [3]	거더라	05.15	202	1
474159	일반	실시간 영상 인식 수준 보면 그냥 자율주행 저거로 해결되는 거 아니냐 [1]	ㅇㅇ(116.123)	05.15	137	1
474158	일반	근데 일리야 나간걸 다들 환영하네?? [9]	ㅇㅇ(211.235)	05.15	362	0
474157	일반	잼민이 울트라 1.5라도 발표해야지 저게 뭐노 치타새끼	ㅇㅇ(110.145)	05.15	33	0
474156	일반	걍 19금 걸고 nsfw 푸는게 맞지 [1]	ㅇㅇ(218.150)	05.15	182	0
474155	일반	agi있다고 인정을했구만 [1]	ㅇㅇ(14.6)	05.15	287	1
474154	일반	뭐야 일리야 왜나가요 ㅠㅠㅠ [3]	lightvector	05.15	332	0
474153	일반	NSFW검열이 모델 성능을 너무 떨어트리니까 [2]	도서관킬러	05.15	262	2
474152	일반	일리야 은퇴.드립은 뭐냐?	ㅇㅇ	05.15	74	0
474151	일반	일리야 나가는건 좋은거지 [7]	ㅇㅇ(115.139)	05.15	255	3
474150	일반	왜 구글아이오 재민이 글은 없노 [1]	치지직	05.15	141	0
474149	일반	구글 그래서 뭐 발표함?	ㅇㅇ	05.15	55	0