chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네

ㅇㅇ · 2024.04.19 14:31:13

TechScape: How cheap, outsourced labour in Africa is shaping AI English

Workers in Africa have been exploited first by being paid a pittance to help make chatbots, then by having their own words become AI-ese. Plus, new AI gadgets are coming for your smartphones

www.theguardian.com

AI 영어를 형성하는 아프리카의 저렴한 아웃소싱 노동력

아프리카 노동자들은 처음에는 아주 적은 임금을 받고 챗봇 제작을 돕다가 이후에는 자신들의 말이 AI어가 되는 착취를 당했습니다. 또한 새로운 AI 가젓이 스마트폰을 노리고 있습니다.

TechScape를 구독하지 않으셨나요? 여기에서 전체 기사를 구독하세요

Alex Hern

2024년 4월 16일 화요일 11:43 GMT

우리는 AI어의 탄생을 목격하고 있으며, 누구도 상상하지 못했던 모습입니다. 자세히 들여다봅시다.

AI 어시스턴트를 충분히 사용해본 적이 있다면, 생성된 응답에서 특정한 품질을 느꼈을 것입니다. 이 시스템을 기본 레지스터에서 벗어나게 하려는 노력이 없다면, 내뱉는 텍스트는 문법적으로나 의미론적으로는 건전하지만 말 그대로 생성된 것임이 뻔히 드러납니다.

몇 가지 징후는 명백합니다. 강화 학습과 인간의 피드백을 통해 규율에 맞춰진 와일드 언어 모델의 아첨하는 겸손함이 챗봇을 드러냅니다. 열정적으로 기쁨을 표현하고 일반적인 낙관주의 성향은 어시스턴트 역할을 하는 누구(혹은 무엇)에게나 있어야 할 좋은 특성입니다.

마찬가지로 시스템이 접근하기를 두려워하는 영역들이 그것을 드러냅니다. 로봇인지 인간인지 궁금하다면, 미키 마우스와 버락 오바마가 등장하는 노골적인 성적 장면을 묘사해달라고 요청해보세요. 그러면 다양한 안전 장치가 작동하는 것을 볼 수 있을 것입니다.

다른 징후들은 개별적으로는 덜 눈에 띕니다. 때로 시스템은 너무 잘 해서 오히려 드러납니다. 한 응답에서 양측 입장을 모두 제시하려는 경향, 한 문장으로 대답하는 것을 꺼리는 습성, 심지어 일반적으로 완벽한 철자와 문법까지도 곧 "기계적 글쓰기"로 여겨질 것입니다.

그리고 때로는 특유의 징후가 있습니다. 3월 말, AI 인플루언서 멜버른의 스윈번 공과대학 제레미 누엔은 하나를 지적했습니다. ChatGPT가 "delve(깊이 파고들다)"라는 단어를 응답에서 사용하는 경향입니다. 개별 사용 사례 하나만으로는 AI 개입의 확실한 증거가 될 수 없지만, 규모가 커지면 이야기가 달라집니다. 연구 사이트 PubMed의 모든 기사 중 0.5%가 "delve"라는 단어를 포함하고 있다면 - 몇 년 전에 비해 10~100배 더 많이 등장한다는 뜻입니다. 이는 엄청나게 많은 수의 의학 연구자들이 최소한 글쓰기 보조를 위해 이 기술을 사용하고 있다는 것 외에는 다른 결론을 내리기 어렵습니다.

다른 데이터셋에 따르면 "delve"는 ChatGPT 사전에서 가장 특이한 단어가 아닙니다. "explore", "tapestry", "testament", "leverage" 등의 단어가 인터넷 전체에서보다 시스템의 출력에서 훨씬 더 자주 등장합니다.

이를 두고 AI 블랙박스의 신비로 손을 번쩍 들어 설명하기 쉽습니다. 하지만 "delve"의 과도한 사용은 무작위의 결과가 아닙니다. 대신 ChatGPT가 구축된 방식의 매우 실제적인 산물로 보입니다.

간단히 설명하자면: GPT-4는 대규모 언어 모델입니다. 인터넷의 "모든 영어 텍스트"에 가까운 데이터셋을 활용해 통계적으로 구축된 진정한 대작품으로, 문장의 다음 단어를 내뱉는 거대한 데이터 덩어리입니다.

하지만 LLM은 원초적입니다. 유용한 형태로 다루기 어렵고, 궤도를 이탈하는 것을 방지하기 어려우며, 제대로 활용하려면 실제 기술이 필요합니다. 이를 대화형 채팅봇으로 만들기 위해서는 앞서 언급한 인간 피드백을 통한 강화학습(RLHF)이라는 추가 단계가 필요합니다.

많은 수의 인간 테스터들이 원초적인 LLM에 접근하여 질문하고, 지시하고, 피드백을 제공하도록 교육받습니다. 때로는 그 피드백이 단순한 엄지손가락 방향 표시일 수 있지만, 때로는 다음 단계 학습에서 배울 수 있도록 모델 응답을 직접 작성하는 수준까지 이를 수 있습니다.

모든 피드백의 총합은 LLM 학습에 사용된 스크래핑 텍스트에 비하면 작은 부분에 불과합니다. 하지만 비용이 많이 듭니다. LLM을 유용한 챗봇으로 변환하기 위해서는 수십만 시간의 작업이 필요한데, 이런 이유로 대형 AI 기업들은 영어 사용 지식 노동자들을 저렴하게 고용할 수 있는 글로벌 남부 지역으로 이 작업을 아웃소싱합니다. 작년의 한 사례입니다.

케냐 나이로비의 전직 OpenAI ChatGPT 콘텐츠 모더레이터인 Mophat Okinyi의 머릿속에는 홀로 있거나 잠들기 전에 그런 이미지가 떠오른다. Okinyi는 인공지능 프로그램을 구동하는 콘텐츠를 검토하는 과정에서 착취적인 조건에 처했다며 케냐 정부에 조사를 촉구하는 청원을 제기한 4명 중 한 명이다.

인터넷 전체에 비해 ChatGPT가 "delve"를 과도하게 사용한다고 말했습니다. 하지만 인터넷의 일부 지역에서는 "delve"가 훨씬 더 흔한 단어입니다. 나이지리아에서는 영국이나 미국보다 비즈니스 영어에서 "delve"가 훨씬 더 자주 사용됩니다. 따라서 시스템을 훈련시킨 노동자들은 같은 언어를 사용하는 입출력 예시를 제공했고, 결과적으로 약간 아프리카 식으로 글을 쓰는 AI 시스템이 만들어진 것입니다.

그리고 이것이 최종적인 모욕입니다. AI어가 아프리카 영어처럼 들린다면, 아프리카 영어 또한 AI어처럼 들립니다. 누군가를 "봇"이라고 부르는 것은 이미 학교 운동장에서의 모욕(자녀들에게 물어보세요. 포트나이트 문화입니다). 그런데 상당수의 인류가 자신들이 훈련시킨 AI 시스템과 똑같이 들린다면 얼마나 더 나빠질까요?

뒤의 내용은 AI 하드웨어 이야기라 안 퍼옴

요약하자면:

2cbcd174b78076b660b8f68b12d21a1d54287ac364

3eec9e36ebd518986abce8954581746cd9

아는 놈은 알겠지만 gpt 이 새끼의 유명한 말버릇은 '테피스트리'임. 하도 좆같아서 그런가 구글 자동검색에도 뜨고 레딧에서도 심심하면 논의되는 주제

근데 저 기사를 보아하니, chatgpt가 뻑하면 테피스트리 하모니 내뱉는 이유는 아프리카 알바 친구들 어휘 영향 때문일지도 모름

털드만이 이 하청 과정에서 발생하는 문제를 고치지 않으면 GPT-5에서도 이건 반복될듯

번호	말머리	제목	글쓴이	작성일	조회	추천
2861	설문	어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는?	운영자	24/05/20	-	-
460621	일반	무어의 법칙 이번에는 진짜 끝났다!! 발전 좆됐다!!! [35]	lightvector	04.29	3049	35
460600	정보/ 정보/뉴스	Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 [4]	ㅇㅇ(182.230)	04.29	735	21
460599	정보/ 정보/뉴스	Meta Llama 3 발표후, 첫 일주일간 생긴 일 [2]	ㅇㅇ(182.230)	04.29	1435	26
460583	정보/ 정보/뉴스	Figure 60 Minutes 영상 [14]	ㅇㅇ(125.191)	04.29	1114	16
460574	정보/ 정보/뉴스	중국의 AI 혁신으로 의사보다 두 배 빠른 속도로 식도암 병변 식별 [6]	ㅇㅇ	04.29	846	17
460165	정보/ 정보/뉴스	터미네이터 감독 "AI가 날 대신할 수도…배우는 대체 못 해" [7]	lightvector	04.27	1599	16
460448	정보/ 정보/뉴스	사람 음성 받아적는 AI도 '환각' 보여…"없는 말 지어내" [11]	ㅇㅇ(182.230)	04.28	938	15
460400	일반	나도 한명 저격해도 되냐 ㅅㅂ [5]	ㅇㅇ(14.53)	04.28	3028	30
460365	정보/ 정보/뉴스	르쿤이형 : 현재 LLM은 여전히 꽤 멍청. 인간수준 못넘을 것 [25]	ㅇㅇ(119.77)	04.28	3186	41
460363	정보/ 정보/뉴스	MS Copilot, 사용자 PC 파일 제어 기능 추가 [7]	ㅇㅇ(119.77)	04.28	719	24
460334	일반	근데 진짜 념글처럼 ai겨울인거 맞지 않음? [31]	ㅇㅇ(112.218)	04.28	2813	18
460332	일반	구글 방금 파이썬팀 해고 [39]	ㅇㅇ(125.191)	04.28	3932	21
460316	일반	최근 AI 근황 요약 [33]	ㅇㅇ(218.150)	04.28	4905	58
460315	일반	무뚝뚝한 안드로이드 메이드.manhwa [14]	ㅇㅇ(125.241)	04.28	2165	39
460264	일반	데이비드 샤피로 "올해 1억개의 일자리를 파괴할 gpt-5 agi 기대" [18]	ㅇㅇ(125.191)	04.28	2722	19
460262	일반	양놈들이 보는 'AI 인플루언서' 특 [9]	ㅇㅇ(116.124)	04.28	2941	51
460245	일반	학벌이 뭐가 중요할까요 [36]	좋아해킨드	04.28	3027	29
460233	일반	이새끼들 대학타령 하고 있네 [11]	ㅇㅇ(58.29)	04.28	1994	20
460201	정보/ 정보/뉴스	어도비, '파이어플라이 이미지 3' 출시...'포토샵'에 생성 AI 통합 [3]	ㅇㅇ(182.230)	04.28	1232	15
460139	일반	클린 념글 보는 법 [8]	SMN	04.27	1808	28
460091	정보/ 정보/뉴스	OpenAI 소라 경쟁 Vidu 출시 [23]	선갤러(125.191)	04.27	2575	28
460089	일반	독일 재생에너지 50% 넘음 [20]	ㅇㅇ(220.73)	04.27	1187	16
460088	정보/ 정보/뉴스	전 FDA 국장 "생명공학의 변곡점이 오고 있다" [23]	선갤러(125.191)	04.27	3390	35
460036	정보/ 정보/뉴스	애플, 오픈AI와 협상 재개...'시리'에 '챗GPT' 통합 추진할 듯 [12]	ㅇㅇ(182.230)	04.27	605	12
460011	일반	국내연구진은 거른다면서 [48]	ㅇㅇ(114.205)	04.27	3133	74
460002	역노화	피세틴 임상 2a상 시작 했습니다. [75]	좋아해킨드	04.27	3835	38
459997	일반	오픈 ai 지하실 상황 [5]	ㅇㅇ(1.229)	04.27	4002	31
459992	일반	뒤에서 지랄 떨지 말고 맞다이로 gpt5 들어와	ㅇㅇ(110.46)	04.27	1854	32
459964	일반	AI 안전 및 보안위원회 명단 [4]	ㅇㅇ(125.191)	04.26	964	13
459936	일반	죽는거에요???? [19]	ㅇㅇ	04.26	4277	69
459930	정보/ 정보/뉴스	생생한 Sora 실사용 후기 [29]	ㅇㅇ(119.77)	04.26	4048	40
459925	정보/ 정보/뉴스	모더나 ceo "3~5년 안에 대부분 질병 이해" [30]	특술람	04.26	3566	48
459884	정보/ 정보/뉴스	Astribot S1 로봇 [2]	ㅇㅇ(125.191)	04.26	198	12
459876	정보/ 정보/뉴스	딥마인드, 미세조정 없이 성능 개선하는 ‘다중샷 상황 내 학습’ 공개 [11]	ㅇㅇ(182.230)	04.26	1911	26
459870	정보/ 정보/뉴스	MS·구글, 클라우드 성장으로 실적 양호..."메타 같은 사태 피했다" [1]	ㅇㅇ(182.230)	04.26	1228	17
459866	정보/ 정보/뉴스	글로벌 CIO "AI 투자 증가 96%, 2년내 수익률 입증 가능성 X" [2]	ㅇㅇ(182.230)	04.26	1318	20
459861	정보/ 정보/뉴스	찍이점) 줄기세포로 뇌 신경세포도 재생...돌이킬 수 없는 뇌손상 고칠까 [12]	ㅇㅇ(182.230)	04.26	2041	22
459859	정보/ 정보/뉴스	세계 두번째 유전자 조작 돼지 신장 사람에 이식 성공 [1]	ㅇㅇ(182.230)	04.26	1056	22
459855	정보/ 정보/뉴스	"배터리, 더이상 일회용품 아냐…소듐·전고체·리튬황 배터리 부상" [4]	ㅇㅇ(182.230)	04.26	999	13
459854	정보/ 정보/뉴스	로봇은 왜 동물보다 빨리 달리지 못할까 [8]	ㅇㅇ(182.230)	04.26	1394	15
459853	정보/ 정보/뉴스	호주, 재생 에너지로 1분기 전력 3분의 1 이상 생산 [15]	ㅇㅇ(182.230)	04.26	1026	15
459829	일반	"유튜브동영상 몇개 긴빠이쳤나요?" [11]	ㅇㅇ(222.101)	04.26	2406	26
459782	일반	헬조1선이라 하지만 여기 태어난게 행운인듯 [34]	lightvector	04.26	2348	44
459751	일반	AI 얘기만 해서 불만인 좃유입 씨~빨람들 필독ㅋㅋ [22]	ㅇㅇ(61.74)	04.26	2338	60
459741	정보/ 정보/뉴스	전OAI직원 : 과대광고를 피하세요. [8]	ㅇㅇ(119.77)	04.26	1461	15
459729	정보/ 정보/뉴스	에릭슈미트 "가능한 빠르게 ai 개발해야 해" [13]	ㅇㅇ(125.191)	04.26	2454	27
459689	정보/ 정보/뉴스	샘알트만 스탠포드 강연 내용 번역본 [20]	ㅇㅇ(119.77)	04.26	2669	20
459726	일반	미국 쓰로우플레임, 화염방사기 로봇개 출시 [20]	ㅇㅇ(218.150)	04.26	1267	23
459720	일반	Gpt 4 능가한 중국의 LLM [10]	ㅇㅇ(116.120)	04.26	1894	17
459693	정보/ 정보/뉴스	현재 AI 한계, 단점 보완 연구 및 스타트업 무쓸모행 [16]	ㅇㅇ(119.77)	04.26	2677	31

갤러리 검색

최근 방문

즐겨찾기

즐겨찾기 갤러리

특이점이 온다 갤러리
마이너

머리말∙꼬리말

머리말∙꼬리말

색상 설정

스포일러 경고 설정

제목에서 경고

본문에서 경고

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

[정보/뉴스] chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

파워링크 광고

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

실시간 베스트

뉴스

디시미디어

디시이슈

개념글[도시]

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결