디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네

ㅇㅇ갤로그로 이동합니다. 2024.04.19 14:31:13
조회 2295 추천 24 댓글 17
														

 





AI 영어를 형성하는 아프리카의 저렴한 아웃소싱 노동력

 

아프리카 노동자들은 처음에는 아주 적은 임금을 받고 챗봇 제작을 돕다가 이후에는 자신들의 말이 AI어가 되는 착취를 당했습니다. 또한 새로운 AI 가젓이 스마트폰을 노리고 있습니다.

 

TechScape를 구독하지 않으셨나요? 여기에서 전체 기사를 구독하세요

 

Alex Hern

 

2024416일 화요일 11:43 GMT

 

공유

 

우리는 AI어의 탄생을 목격하고 있으며, 누구도 상상하지 못했던 모습입니다. 자세히 들여다봅시다.

 

AI 어시스턴트를 충분히 사용해본 적이 있다면, 생성된 응답에서 특정한 품질을 느꼈을 것입니다. 이 시스템을 기본 레지스터에서 벗어나게 하려는 노력이 없다면, 내뱉는 텍스트는 문법적으로나 의미론적으로는 건전하지만 말 그대로 생성된 것임이 뻔히 드러납니다.

 

몇 가지 징후는 명백합니다. 강화 학습과 인간의 피드백을 통해 규율에 맞춰진 와일드 언어 모델의 아첨하는 겸손함이 챗봇을 드러냅니다. 열정적으로 기쁨을 표현하고 일반적인 낙관주의 성향은 어시스턴트 역할을 하는 누구(혹은 무엇)에게나 있어야 할 좋은 특성입니다.

 

마찬가지로 시스템이 접근하기를 두려워하는 영역들이 그것을 드러냅니다. 로봇인지 인간인지 궁금하다면, 미키 마우스와 버락 오바마가 등장하는 노골적인 성적 장면을 묘사해달라고 요청해보세요. 그러면 다양한 안전 장치가 작동하는 것을 볼 수 있을 것입니다.

 

다른 징후들은 개별적으로는 덜 눈에 띕니다. 때로 시스템은 너무 잘 해서 오히려 드러납니다. 한 응답에서 양측 입장을 모두 제시하려는 경향, 한 문장으로 대답하는 것을 꺼리는 습성, 심지어 일반적으로 완벽한 철자와 문법까지도 곧 "기계적 글쓰기"로 여겨질 것입니다.

 

그리고 때로는 특유의 징후가 있습니다. 3월 말, AI 인플루언서 멜버른의 스윈번 공과대학 제레미 누엔은 하나를 지적했습니다. ChatGPT"delve(깊이 파고들다)"라는 단어를 응답에서 사용하는 경향입니다. 개별 사용 사례 하나만으로는 AI 개입의 확실한 증거가 될 수 없지만, 규모가 커지면 이야기가 달라집니다. 연구 사이트 PubMed의 모든 기사 중 0.5%"delve"라는 단어를 포함하고 있다면 - 몇 년 전에 비해 10~100배 더 많이 등장한다는 뜻입니다. 이는 엄청나게 많은 수의 의학 연구자들이 최소한 글쓰기 보조를 위해 이 기술을 사용하고 있다는 것 외에는 다른 결론을 내리기 어렵습니다.

 

다른 데이터셋에 따르면 "delve"ChatGPT 사전에서 가장 특이한 단어가 아닙니다. "explore", "tapestry", "testament", "leverage" 등의 단어가 인터넷 전체에서보다 시스템의 출력에서 훨씬 더 자주 등장합니다.

 

이를 두고 AI 블랙박스의 신비로 손을 번쩍 들어 설명하기 쉽습니다. 하지만 "delve"의 과도한 사용은 무작위의 결과가 아닙니다. 대신 ChatGPT가 구축된 방식의 매우 실제적인 산물로 보입니다.

 

간단히 설명하자면: GPT-4는 대규모 언어 모델입니다. 인터넷의 "모든 영어 텍스트"에 가까운 데이터셋을 활용해 통계적으로 구축된 진정한 대작품으로, 문장의 다음 단어를 내뱉는 거대한 데이터 덩어리입니다.

 

하지만 LLM은 원초적입니다. 유용한 형태로 다루기 어렵고, 궤도를 이탈하는 것을 방지하기 어려우며, 제대로 활용하려면 실제 기술이 필요합니다. 이를 대화형 채팅봇으로 만들기 위해서는 앞서 언급한 인간 피드백을 통한 강화학습(RLHF)이라는 추가 단계가 필요합니다.

 

많은 수의 인간 테스터들이 원초적인 LLM에 접근하여 질문하고, 지시하고, 피드백을 제공하도록 교육받습니다. 때로는 그 피드백이 단순한 엄지손가락 방향 표시일 수 있지만, 때로는 다음 단계 학습에서 배울 수 있도록 모델 응답을 직접 작성하는 수준까지 이를 수 있습니다.

 

모든 피드백의 총합은 LLM 학습에 사용된 스크래핑 텍스트에 비하면 작은 부분에 불과합니다. 하지만 비용이 많이 듭니다. LLM을 유용한 챗봇으로 변환하기 위해서는 수십만 시간의 작업이 필요한데, 이런 이유로 대형 AI 기업들은 영어 사용 지식 노동자들을 저렴하게 고용할 수 있는 글로벌 남부 지역으로 이 작업을 아웃소싱합니다. 작년의 한 사례입니다.

 

케냐 나이로비의 전직 OpenAI ChatGPT 콘텐츠 모더레이터인 Mophat Okinyi의 머릿속에는 홀로 있거나 잠들기 전에 그런 이미지가 떠오른다. Okinyi는 인공지능 프로그램을 구동하는 콘텐츠를 검토하는 과정에서 착취적인 조건에 처했다며 케냐 정부에 조사를 촉구하는 청원을 제기한 4명 중 한 명이다.

 

인터넷 전체에 비해 ChatGPT"delve"를 과도하게 사용한다고 말했습니다. 하지만 인터넷의 일부 지역에서는 "delve"가 훨씬 더 흔한 단어입니다. 나이지리아에서는 영국이나 미국보다 비즈니스 영어에서 "delve"가 훨씬 더 자주 사용됩니다. 따라서 시스템을 훈련시킨 노동자들은 같은 언어를 사용하는 입출력 예시를 제공했고, 결과적으로 약간 아프리카 식으로 글을 쓰는 AI 시스템이 만들어진 것입니다.

 

그리고 이것이 최종적인 모욕입니다. AI어가 아프리카 영어처럼 들린다면, 아프리카 영어 또한 AI어처럼 들립니다. 누군가를 ""이라고 부르는 것은 이미 학교 운동장에서의 모욕(자녀들에게 물어보세요. 포트나이트 문화입니다). 그런데 상당수의 인류가 자신들이 훈련시킨 AI 시스템과 똑같이 들린다면 얼마나 더 나빠질까요?




뒤의 내용은 AI 하드웨어 이야기라 안 퍼옴


요약하자면:


2cbcd174b78076b660b8f68b12d21a1d54287ac364







3eec9e36ebd518986abce8954581746cd9


아는 놈은 알겠지만 gpt 이 새끼의 유명한 말버릇은 '테피스트리'임. 하도 좆같아서 그런가 구글 자동검색에도 뜨고 레딧에서도 심심하면 논의되는 주제


근데 저 기사를 보아하니, chatgpt가 뻑하면 테피스트리 하모니 내뱉는 이유는 아프리카 알바 친구들 어휘 영향 때문일지도 모름

털드만이 이 하청 과정에서 발생하는 문제를 
고치지 않으면  GPT-5에서도 이건 반복될듯

자동등록방지

추천 비추천

24

고정닉 9

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
470102 일반 머스크 이해가 간다 ㅇㅇ(59.11) 05.14 57 0
470101 일반 also가 초경량 모델이면 gpt2가 맞네 [1] ㅇㅇ(124.111) 05.14 92 0
470100 일반 당장 집에 AI어시스턴트 있으면 뼈저리게 느낌 ㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.14 232 5
470099 일반 GPT 5.0도 저정도 속도로 돌아가면 진짜 직업 갈려나갈 듯 [1] TS망상갤로그로 이동합니다. 05.14 94 0
470098 일반 근들갑 홍보때린건 마케팅 목적이라고 이해감 걍 ㅇㅇ 비닌갤로그로 이동합니다. 05.14 61 0
470097 일반 진짜 2024 여름이 마지막 평범한 여름...? 엘6는agi이후에나오나갤로그로 이동합니다. 05.14 81 1
470096 일반 gpt5 WWDC에서 깜짝발표 했으면 좋겠다 ㅇㅇ(115.22) 05.14 44 0
470095 일반 제일 중요한 추론성능 향상 5는 이런내가특특갤로그로 이동합니다. 05.14 146 0
470094 일반 감정인식은 어케 가능한겨??? [1] ㅇㅇ갤로그로 이동합니다. 05.14 50 0
470093 일반 무료 아닌거 같은데 무료 맞아요? [1] 스카이넷(118.37) 05.14 110 0
470092 일반 4터보 무료로 풀림? ㅇㅇ(49.142) 05.14 42 0
470091 일반 GPT-5 공개 전까지 놀라운 것들 공개한다던게 이거였노 [2] ㅇㅇ갤로그로 이동합니다. 05.14 231 2
470090 일반 나머지 듣보 llm 압사시키는 건 팩트 [2] Singnice갤로그로 이동합니다. 05.14 71 0
470088 일반 그럼 이제 ui도 ai가 짜는건가? 탈조선갤로그로 이동합니다. 05.14 31 0
470087 일반 이제 클로드3은 그냥 바르냐? [5] ㅇㅇ(121.178) 05.14 135 0
470086 일반 현실) 한국어는 음성대화를 지원하지 않습니다 [1] ㅇㅇ(218.153) 05.14 123 0
470085 일반 이게 5가 아니라고?? [1] ㅇㅇ(61.75) 05.14 71 0
470084 일반 마케팅적 차원에선 놀라운 발표맞어 [2] ㅇㅇ(121.131) 05.14 183 0
470083 일반 api 떴네 [3] 람냥갤로그로 이동합니다. 05.14 250 0
470082 일반 터보랑 속도 비교가 안됨 [2] ㅇㅇ(218.154) 05.14 89 0
470081 일반 동시통역은 파파고도 되던 건데 [2] ㅇㅇ(218.39) 05.14 126 0
470079 일반 결국 gpt4 수준이 한계라는건 씹소리라는게 증명됐네 [3] ㅇㅇ(58.226) 05.14 223 1
470078 일반 사람이 말하다보면 머뭇대고 생각하는 텀이 있는데 그것도 알잘딱 함? [3] ㅇㅇ(116.123) 05.14 89 0
470077 일반 아이폰에 저거 이식가능한 순간부터 난리나겟네 ㅋㅋ [1] ㅇㅇ(112.156) 05.14 133 0
470076 일반 오늘 솔직히 기대한만큼은 됨 ㅇㅇ(119.77) 05.14 62 0
470075 일반 그래서 보이스 변환 가능한건가? [1] ㅇㅇ(211.200) 05.14 40 0
470074 일반 GPT 4O가 정확히 뭐임? [4] TS망상갤로그로 이동합니다. 05.14 123 0
470073 일반 그러니까 한달 후면 저 GPT4o를 핸드폰으로 쓸수 있다는거지 ? 1229(1.229) 05.14 105 0
470071 일반 헤이 지피티 가장 많은 살상이가능한 폭탄투하지점 알려줘 ㅇㅇ(218.153) 05.14 48 0
470070 일반 원래 있던 걸 잘 버무리는거 << 개씨부럴어려운거 아님? [1] ㅁㄱㅌㅊ(39.122) 05.14 74 0
470069 일반 api 어캐쓰는데 제발 사이트라도 던져줘 제발 [1] ㅇㅇ(121.124) 05.14 123 0
470068 일반 그렉 브록만 트윗 영상이 더 재밌네 [2] 세입압갤로그로 이동합니다. 05.14 115 0
470067 일반 오늘 라방보고 agi 2025년 유지하냐?? [3] ㅇㅇ(211.241) 05.14 125 0
470066 일반 이번 발표 실망했지만 그래도 내가 안심하는이유 [2] 비닌갤로그로 이동합니다. 05.14 190 0
470065 일반 4O 파라미터수 존나 궁금하다 ㅇㅇ갤로그로 이동합니다. 05.14 53 0
470064 일반 아니 ㅅㅂ 속도 개미쳤다 ㄷㄷㄷㄷ ㅇㅇ(218.154) 05.14 101 0
470063 일반 also는 4.5라고 해도 무방한데 ㅇㅇ(14.36) 05.14 66 0
470061 일반 진짜 3달안에 세상이 뒤바뀌겠구나 이세이미야케갤로그로 이동합니다. 05.14 111 0
470060 일반 플레이그라운드에 3.5시리즈밖에 안뜨는데 [1] ㅇㅇ(39.113) 05.14 75 0
470059 일반 빅테크 제외 LLM 개발자들 백수행인거 같은데? [2] ㅇㅇ(218.232) 05.14 154 0
470058 일반 와 시발 gpt4o api써보니까 ㄹㅇ also임 ㅋㅋㅋㅋ [2] ㅇㅇ(121.162) 05.14 359 1
470057 일반 본인 특이점 무새는 아닌데 빨리 AI비서 나왔으면 좋겠음 ㅇㅇ(49.169) 05.14 27 0
470056 일반 리얼타임인식-대화 되는 거 보면 어브리갤로그로 이동합니다. 05.14 52 0
470055 일반 이제부터 니 이름은 스카이넷이여 [1] ㅇㅇ갤로그로 이동합니다. 05.14 86 0
470053 일반 근데 솔직히 요새 머스크 말하는거 볼때마다 느꼈음 1229(1.229) 05.14 97 0
470052 일반 니들 생각보다 기대치가 낮았구나? [5] ㅇㅇ(211.208) 05.14 143 0
470051 일반 오늘 발표 투표 해봐라 [1] ㅇㅇ(180.224) 05.14 107 0
470050 일반 야 특붕이들아 그래서 나스닥 롱이냐 숏이냐 [5] ㅇㅇ갤로그로 이동합니다. 05.14 62 0
470048 일반 GPT-5 Let's Go !!! agi2024갤로그로 이동합니다. 05.14 66 0
470047 일반 얀르쿤 모델모다 가볍네 ㄷㄷㄷㄷ [2] ㅇㅇ(218.153) 05.14 114 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2