디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI, 처음으로 일본 변호사 시험 합격... 96점으로 합격선 93점 돌파

aimatters갤로그로 이동합니다. 2026.01.08 17:14:39
조회 107 추천 0 댓글 0


인공지능(AI)이 복잡한 법률 시험에서 합격선을 넘은 것은 이번이 처음이다. 일본 게이오대학교 연구팀은 오픈AI의 GPT-4.1을 일본 변호사 시험에 맞게 학습시키고 스스로 답을 검증하는 방법을 적용해 객관식 부분을 통과했다고 발표했다. 이 연구는 AI가 단순히 법률 지식을 외우는 수준을 넘어, 여러 문제를 동시에 판단하고 정해진 형식에 맞춰 답할 수 있음을 보여준다.



문제 쪼개지 않고 원본 그대로 학습해 96점 획득

연구팀이 GPT-4.1을 학습시킨 결과, 2024년 일본 변호사 시험에서 96점을 받았다. 합격 기준인 93점을 넘긴 것이다. 가장 중요한 점은 시험 문제를 쉽게 바꾸지 않고 원본 형태 그대로 학습시켰다는 것이다. 일본 변호사 시험 객관식 문제는 특이한 방식으로 출제된다. 여러 개의 문장이 맞는지 틀렸는지 판단한 뒤, 그 결과를 조합해서 답해야 한다. 예를 들어 "112"처럼 각 문장의 정답 번호를 이어 붙여 제출해야 하는데, 하나라도 틀리면 전체가 오답 처리된다.

기존 연구들은 이런 복잡한 문제를 개별 O/X 퀴즈로 쪼개서 AI를 학습시켰다. 대표적으로 일본 변호사 시험 질의응답 데이터셋(JBE-QA)은 하나의 시험 문제를 여러 개의 독립된 질문으로 나눴다. 이 방식으로는 2,770개의 많은 문제로 학습할 수 있었다. 연구팀이 GPT-4.1을 JBE-QA로 학습시켜 실제 시험 형식으로 평가했을 때 64점밖에 받지 못했다. 반면 원본 형식을 유지한 460개 문제(2019-2023년 과거 시험)로 학습시킨 GPT-4.1은 92.3점을 기록했다.



AI가 스스로 답을 재검토해 정답률 49%까지 향상

연구팀은 '자체 검증'이라는 방법을 추가로 적용했다. 이는 학습된 GPT-4.1이 답을 낸 후, 같은 모델이 스스로 그 답이 문제 조건에 맞는지 다시 확인하는 것이다. 중요한 것은 별도의 AI를 추가하는 게 아니라, 같은 GPT-4.1 모델에 다른 질문 방식(프롬프트)을 적용해 자기 답을 점검하게 만든다는 점이다. 이 과정은 한 번의 추가 계산만 필요하다.

자체 검증을 적용한 결과, 정답률은 46.8%에서 49.4%로 올랐고, 시험 점수는 92.3점에서 94.7점으로 증가했다. 이는 모델이 법률 지식이 부족해서가 아니라, 여러 문장을 함께 판단할 때 일관성을 유지하지 못해서 틀리는 경우가 많다는 것을 보여준다. 자체 검증은 이런 논리적 모순을 효과적으로 고쳐준다.

흥미로운 점은 이 방법이 학습하지 않은 기본 GPT-4.1에도 적용 가능하다는 것이다. 추가 학습 없는 기본 GPT-4.1 모델은 자체 검증으로 68.3점에서 76.3점으로, JBE-QA로 학습한 GPT-4.1은 64점에서 80.7점으로 성적이 올랐다. 이는 자체 검증이 특정 학습 방식에만 효과적인 게 아니라 범용적으로 사용할 수 있는 기법임을 보여준다.



여러 AI 협력보다 혼자 푸는 게 더 효과적

연구팀은 여러 AI가 협력하는 방식도 실험했다. 정보를 찾는 AI, 검증하는 AI, 지식을 추출하는 AI, 최종 답을 내는 AI로 구성된 시스템을 만들었다. 법률 분야에서 여러 AI가 협력하면 좋다는 기존 연구들과 달리, 이번 실험에서는 오히려 성적이 떨어졌다.

같은 학습된 모델을 여러 역할로 나눠 사용한 시스템은 75.7점, 역할마다 따로 학습한 모델들을 사용한 시스템은 71.0점에 그쳤다. 이는 단일 모델의 94.7점에 비해 훨씬 낮은 점수다. 연구팀은 엄격한 형식 규칙이 있는 시험에서는 AI들 사이에서 오류가 전달되고 쌓이는 문제가 생긴다고 분석했다. 특히 따로 학습된 모델들은 서로 다른 방식으로 생각해서 결과를 합치기 어려웠다.



원본 형식 유지가 법률 AI 성능의 핵심

이번 연구는 법률 AI 평가에서 중요한 교훈을 준다. 쉬운 테스트에서 높은 점수를 받는다고 해서 실제 시험을 통과할 수 있는 건 아니라는 것이다. JBE-QA로 학습한 GPT-4.1은 2,770개의 많은 문제로 법률 지식을 배웠지만, 여러 문장을 함께 판단하는 능력은 배우지 못했다. 그 결과 개별 문장 정답률이 50%가 넘어도 전체 답안에서는 0점을 받는 경우가 자주 발생했다.

연구팀은 원본 형식을 지키는 것이 법률 AI 학습의 핵심이라고 강조한다. 원본 시험 형식을 유지한 학습 문제가 비록 460개로 적더라도, GPT-4.1 안에 이미 있는 숨겨진 지식을 효과적으로 끌어낸다는 것이다. 자체 검증은 이 효과를 더욱 키워서, 모델이 자신의 답을 다시 평가하고 정리하도록 만든다.

시험 과목별로는 헌법, 민법, 형법 중 민법에서 42.3점으로 가장 높은 점수를 받았다. 일본 변호사 시험은 각 과목에서 40% 이상의 점수를 받아야 하는데, 연구팀이 학습시킨 GPT-4.1은 이 조건도 충족했다. 다만 이번 연구는 객관식 부분만 다뤘으며, 논술형 문제는 포함하지 않았다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 자체 검증이란 무엇이며 어떻게 작동하나요?

A. 자체 검증은 AI가 답을 낸 후 스스로 그 답이 맞는지 다시 확인하는 방법입니다. 같은 모델(GPT-4.1)에 다른 방식의 질문(프롬프트)을 주어 자기 답을 문제와 대조하며, 명백히 틀렸을 때만 수정합니다. 추가 학습 없이 한 번의 계산만으로 가능하며, 여러 문장을 함께 판단할 때 생기는 모순을 효과적으로 고쳐줍니다.

Q. 왜 문제를 쪼개지 않고 원본 형식으로 학습했나요?

A. 일본 변호사 시험은 여러 문장을 동시에 판단해 정해진 형식으로 답해야 합니다. 문제를 개별 O/X로 쪼개면 각 문장은 잘 판단할 수 있지만, 실제 시험에서 요구하는 종합 판단 능력은 배울 수 없습니다. 실제로 개별 정답률이 50%가 넘어도 전체 답안 형식에서는 0점을 받는 경우가 많았습니다.

Q. 이 AI가 실제 변호사 일을 할 수 있나요?

A. 아니요. 이번 연구는 객관식 시험 통과만을 다뤘으며, 실제 법률 상담이나 논술형 법률 논증 능력은 평가하지 않았습니다. 시험 합격이 실무 능력이나 윤리적 판단력을 의미하지는 않으므로, 법률 분야에서 AI를 활용할 때는 반드시 전문가의 감독이 필요합니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Self-Verification is All You Need To Pass The Japanese Bar Examination

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 시대를 잘 타고나서 뜬 것 같은 스타는? 운영자 26/02/16 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 02.12 46 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 02.12 79 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 [4] aimatters갤로그로 이동합니다. 02.12 1109 6
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 02.12 34 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 02.12 38 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 02.12 37 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [6] aimatters갤로그로 이동합니다. 02.11 2529 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 53 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 60 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 32 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 55 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 38 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 41 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 487 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 481 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 40 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 40 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 67 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 985 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 117 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2810 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 104 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 69 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 217 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 86 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 130 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 75 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 119 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1788 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 163 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 778 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 114 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 64 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 78 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 34 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 69 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 72 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1662 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 90 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 160 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 51 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 38 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 88 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 129 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1323 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3024 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 475 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 80 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 78 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1070 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2