디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 2024년 AI 스타트업을 위한 데이터 수집 전략

ㅇㅇ(182.230) 2024.04.29 13:02:06
조회 1604 추천 21 댓글 3
														

https://press.airstreet.com/p/data-acquisition-strategies-for-ai

 



2eecd277b48639a223b984b7409c70687db53b0b590b47f02b3b21d5c8d760ce1e6bc5d988e6e185c4aa65867cb36ebba411c3d94bc9965753914fddedeff8



[ #1 대규모 생성형 모델(Large Generative Models) ]

LLM과 LMM을 활용한 합성 데이터 생성

- Large Language Model(LLM)은 텍스트 출력을 생성하는 반면, Large Multi-Modal Model(LMM)은 텍스트, 코드, 이미지 등 다양한 형태의 합성 데이터를 생성할 수 있음

- 실제 데이터가 부족하거나, 개인정보 보호에 민감하거나, 수집 및 레이블링 비용이 높은 분야에서 특히 널리 사용됨 (예: NLP, 컴퓨터 비전, 자율 주행 시스템 개발 등)

- 합성 데이터는 일반적으로 실제 데이터를 보완하거나 미세 조정(fine-tuning)에 사용되며, 전체를 대체하는 용도로는 사용되지 않음

아무리 정교하더라도 문제 영역에 대한 근사치만 생성할 수 있으며, 과도하게 의존하면 합성 데이터 생성 과정에 존재하는 특성에 모델이 과적합될 위험이 있음

- 합성 데이터 생성 방법

 1. 자기 개선(Self-improvement): 모델이 지침, 입력 컨텍스트 및 응답을 생성하고, 유효하지 않거나 기존 데이터와 너무 유사한 예제는 필터링되며, 남은 데이터는 원래 모델을 미세 조정하는 데 사용됨

 2. 증류(Distillation): 더 강력한 교사 모델의 지식을 덜 강력하지만 더 효율적인 학생 모델로 전달하는 과정. 합성 데이터가 종종 부정확하더라도 지침 조정(instruction-tuning) 과정에 효과적으로 기여할 수 있음

- Microsoft는 주로 다른 LLM에서 생성된 합성 데이터로 학습된 Phi라는 일련의 작은 모델을 출시했으며, 대부분의 비전방 모델보다 우수한 성능을 보임

- Hugging Face는 Microsoft가 사용한 합성 학습 데이터셋의 큐레이션에 대한 정보 부족에 대응하여 이를 재현하는 것을 목표로 Cosmopedia를 만들었음


LLM을 활용한 데이터 레이블링 및 데이터셋 통합

- 최신 LLM은 인간 주석자와 동등하거나 더 높은 수준으로 텍스트 데이터셋에 레이블을 지정할 수 있음

- 인간 주석자와 달리 LLM은 피로나 편견 없이 대규모 데이터셋에 동일한 주석 기준을 일관되게 적용할 수 있음

- Segment Anything과 같은 대규모 데이터셋으로 학습된 대형 생성 모델은 의미론적 분할(semantic segmentation)과 같은 작업에 전통적으로 사용되는 전문화된 비생성 컴퓨터 비전 모델보다 종종 제로샷 능력으로 더 나은 성능을 보임

- LLM은 다양한 데이터 소스를 통합하여 통합 데이터셋을 생성하는 데이터셋 스티칭(Dataset Stitching)을 통해 사용 가능한 실제 데이터 풀을 확장하는 데에도 사용될 수 있음


Grader로서의 LLM

- 인간 피드백으로부터의 강화 학습(RLHF)은 GPT-3를 채팅을 통해 사용자와의 대화형 상호 작용에 최적화된 획기적인 시스템으로 만든 핵심 미세 조정 기술이었음

- 이제 인간 대신 LLM을 사용하여 피드백을 제공하는 AI 피드백으로부터의 강화 학습(RLAIF)이라는 접근 방식이 등장했음

- RLAIF의 주요 장점은 인간을 기계로 전환함으로써 확장성과 비용 절감이 가능하다는 점임


[ #2 데이터 레이블링 플랫폼 ]

- 초기에는 Amazon Mechanical Turk와 같은 크라우드소싱 및 작업 아웃소싱 플랫폼을 활용하여 저렴한 온라인 인력을 통해 데이터 레이블링이나 정제 작업을 수행했음

- 최근에는 V7, Scale AI 등 자동화된 데이터 레이블링 및 관리 기능을 제공하는 플랫폼이 발전하고 인기를 끌고 있음

- 이러한 플랫폼은 규정 준수 및 품질 보증 조치와 함께 대규모 데이터 수요가 있는 기업이 더 효율적으로 확장하고 더 높은 수준의 일관성을 제공할 수 있게 해줌


플랫폼별 특징 및 신규 플레이어

- V7은 의료 영상과 같이 높은 수준의 전문성이 요구되는 작업에 중점을 두는 경향이 있는 반면, Scale은 자율 주행 분야에서 성장하여 국방 분야로 확장했음

- Invisible과 같은 신규 플레이어는 LLM 특화 워크플로우(예: 지도 학습 기반 미세 조정, RLHF, 인간 평가, 레드 티밍 등)를 위한 전문 인력에 대한 수요를 충족시키고 있음

- 인기 있는 데이터 레이블링 서비스로는 CVAT, Dataloop, Invisible, Labelbox, Scale AI, V7 등이 있음


인간 주석 데이터 품질 개선 방안

- 많은 플랫폼이 여전히 어느 정도 인간 주석자에 의존하고 있어, 복잡하고 주관적이며 사회적으로 관련성이 높은 영역에서 AI 적용이 확대됨에 따라 출력 품질 평가에 더 많은 노력이 필요함

- 다수결, 일치율, 확률 모델링 접근 방식 등을 사용하여 여러 평가자 입력에서 실제 레이블을 추정하고 신뢰할 수 없는 "스패머" 평가자를 식별할 수 있음

- 평가자 간 체계적인 불일치를 포착하고 이를 활용하여 학습을 개선하는 기술(예: 불일치 디컨볼루션, 다중 주석자 모델링 등)이 있음

- 영향 함수, 학습 중 예측 변화 추적 등을 통해 잘못 레이블된 데이터 포인트를 탐지할 수 있음


[ #3 개방형 데이터셋 ]

- 2016년 이후 개방형 데이터 운동과 업계, 학계, 정부 간 데이터 공유의 가치 인식으로 인해 개방형 데이터셋이 급증했음

- 개방형 데이터셋은 대부분의 영역에 존재하지만 특히 컴퓨터 비전, NLP, 음성/오디오 처리, 로봇 제어 및 내비게이션 분야에서 접근성이 높음

- 이는 커뮤니티 노력(예: Hugging Face, PyTorch, TensorFlow, Kaggle 등)과 대기업의 대규모 데이터셋 공개가 결합되어 발전했음


개방형 데이터셋 활용 시 고려사항

- 무료이고 벤치마킹에 도움이 된다는 장점이 있지만 특정 고려사항이 있음

- 민감하거나 규제가 많은 분야에서는 개방형 데이터셋이 더 희소하고 오래되었으며 규모가 작은 경향이 있음

- 개방형 데이터의 품질과 최신성은 크게 다를 수 있어 빠르게 변화하는 분야에서는 관련성 문제가 발생할 수 있음

- 과도한 사용은 인기 있는 데이터셋에 지나치게 의존하여 모델이 벤치마크에서는 잘 수행되지만 실제 응용에서는 성능이 떨어지는 과적합 위험이 있음


유용한 개방형 데이터셋 리소스

- Amazon, Google, Microsoft 등 대기업은 다양한 개방형 데이터 허브와 검색 엔진을 보유하고 있음

- Hugging Face는 관련 도구와 함께 사용 준비가 된 데이터셋 허브를 만들었음

- Kaggle의 데이터셋 검색 기능

- VisualData: 컴퓨터 비전 데이터셋을 위한 허브

- V7은 500개 이상의 개방형 데이터셋 목록을 공개했음


[ #4 시뮬레이션 환경 ]

- 시뮬레이션 환경은 AI 모델이나 에이전트가 통제된 환경에서 학습하여 합성 데이터를 생성하고, 실제 배포 전에 시스템을 테스트할 수 있게 해줌

- 실제 데이터를 보완하고 현실에서 접하기 어렵거나 비용이 많이 드는 에지 케이스를 탐색하는 데 특히 도움이 됨

- 이는 시스템을 안전하게 훈련하고 실제 세계에서 발생할 수 있는 수많은 변수를 고려해야 하는 로보틱스나 자율 주행차 등의 분야에서 특히 인기가 있음


시뮬레이션 환경 구축 시 고려사항

- 풍부하고 정확한 물리 모델링이 가능한 3D 시뮬레이션을 처음부터 만들고 검증하는 것은 상당한 자원과 인프라를 필요로 할 수 있음

- NVIDIA는 Omniverse라는 통합 3D 그래픽 및 물리 기반 워크플로우 플랫폼을 기반으로 하는 시뮬레이션 환경을 포함한 강력한 GPU 가속 로보틱스 플랫폼 ISAAC을 만들었음

- 비용 부담을 줄이기 위해 오픈 소스 시뮬레이션 환경을 활용할 수 있음

- Epic Games의 Unreal Engine은 높은 충실도의 그래픽, 사실적인 물리 시뮬레이션, 유연한 프로그래밍 인터페이스 등으로 인해 시뮬레이션 환경 구축을 위한 강력한 도구로 자리잡았음


활용 사례 및 오픈소스 환경

- Applied Intuition: 자율 주행 시스템 개발자를 위한 시뮬레이션 및 검증 솔루션 제공

- Sereact: 창고에서 픽앤팩 자동화를 위해 공간 및 물리적 뉘앙스를 이해할 수 있도록 시뮬레이션 환경을 기반으로 하는 소프트웨어 개발

- Wayve: 여러 개의 4D 시뮬레이션 환경을 만든 영국 기반 자율 주행 스타트업

- 자율 주행 분야: CARLA, LG SVL Simulator, AirSim 등

- 로보틱스 분야: Gazebo, CoppeliaSim, PyBullet, MuJoCo 등


[ #5 웹/책 및 다른 자료들의 스크래핑 ]

- 대량의 텍스트, 오디오, 비디오 스크래핑은 파운데이션 모델 개발의 핵심 요소였음

- 대기업은 자체 독점 시스템을 사용하는 반면, 스타트업은 다양한 기성품 및 오픈소스 도구를 활용할 수 있음

- Apache Nutch와 같은 분산 크롤링 프레임워크, Puppeteer나 Selenium과 같은 헤드리스 브라우저, Beautiful Soup과 같은 파싱 라이브러리, Luminati와 같은 프록시 및 IP 관리 서비스, 저렴하고 효과적인 OCR 기술 등이 발전했음


데이터 품질과 양의 트레이드오프

- 도메인과 애플리케이션에 따라 데이터 품질과 양 사이의 트레이드오프가 달라짐

- 언어 모델은 충분한 양이 제공되는 경우 비교적 노이즈가 많고 큐레이션되지 않은 데이터에서도 효과적으로 학습할 수 있음

- 반면 컴퓨터 비전에서는 작은 고품질 데이터셋을 이미지 변형(예: 자르기, 회전, 노이즈 추가 등)을 통해 확장하여 좋은 결과를 얻을 수 있음


커리큘럼 러닝과 데이터셋 큐레이션

- 커리큘럼 러닝은 단순한 예제에서 복잡한 예제로 이동하며 모델에 데이터를 의미 있는 순서로 제시하는 학습 전략임

- 사람의 학습 방식을 모방하여 모델이 어려운 예제에 도전하기 전에 좋은 초기 파라미터를 학습하도록 하여 효율성을 높임


사례

- Databricks의 최근 SOTA 오픈 LLM인 DBRX는 이를 활용하여 모델 품질을 상당히 개선했음

- Sync Labs는 상대적으로 품질이 낮은 대량의 비디오를 사용하여 비디오의 입술을 새로운 오디오에 맞게 재동기화할 수 있는 모델을 학습시켰음

- Metalware는 전문 교과서에서 스캔한 비교적 작은 이미지 세트와 GPT-2를 결합하여 펌웨어 엔지니어를 위한 코파일럿을 만들었음


[ #6 저작권 문제와 라이선싱 가능성 ]

- 2016년 이후 AI 생태계의 성숙은 창업자에게 긍정적인 영향을 미쳤지만, 추가적인 복잡성도 야기했음

- 파운데이션 모델 제공업체의 대량 웹 스크래핑으로 인해 미디어 기업, 작가, 예술가들이 다양한 저작권 소송을 제기하고 있음

- 이러한 소송은 현재 유럽과 미국의 법원 시스템을 통해 진행 중이며, 대기업(예: Meta, OpenAI)이나 점점 더 확립된 연구소(예: Midjourney, Stability)를 대상으로 하고 있음

- 이는 스타트업이 데이터 수집 방식에 신중해야 함을 강조함

- 만약 기업들이 패소할 경우, 학습 데이터에서 저작권이 있는 자료를 식별하고 창작자에게 보상하거나 이러한 결과물을 파기하고 처음부터 다시 시작해야 할 수 있음

- 이에 따라 일부 기업은 미디어 조직과 파트너십을 맺거나 콘텐츠나 음성 사용에 대해 예술가에게 직접 보상하는 등 창작자 친화적인 데이터 수집 전략을 선제적으로 추진하고 있음


윤리적 데이터 소싱 인증 체계의 등장

- 전 Stability 임원 등이 주도하는 윤리적으로 소싱된 학습 데이터에 대한 인증 체계가 등장하고 있음

- 이러한 인증 체계는 아직 초기 단계이지만 흥미로운 방안이며 지켜볼 만한 가치가 있음


사례

- ElevenLabs: 성우에 대한 페이아웃과 음성 데이터 파트너십

- Google: Gemini 학습을 위해 Reddit 데이터를 사용할 수 있도록 하는 계약 체결

- OpenAI: Shutterstock의 이미지, 비디오, 음악, 메타데이터 라이브러리로 DALL-E를 학습시키기 위한 파트너십과 Associate Press의 뉴스 아카이브 라이선스 계약


[ #7 레이블링된 대규모 데이터셋의 필요성 감소 ]

- 2016년 이후 비지도 학습과 준지도 학습 기술이 크게 발전하면서, 스타트업이 전통적으로 필수적이라고 여겨졌던 대규모 레이블링된 데이터셋 없이도 강력한 모델을 구축할 수 있게 되었음

- 이러한 접근 방식은 2016년 이전에도 연구자들에게 알려져 있었지만, 최근 몇 년 동안 접근성, 정교함, 실용성이 크게 향상되었음

- 비지도 학습은 데이터에 내재된 통계적 패턴과 구조를 학습하는 데 중점을 두며, 전통적으로 대규모 데이터셋 탐색(예: 비지도 클러스터링)에 유용했고 현재는 LLM - 사전 학습의 핵심임

- 준지도 학습은 소량의 레이블링된 데이터와 함께 대량의 레이블링되지 않은 데이터를 사용하며, 모델의 성능을 개선하고 향상시키는 데 가장 효과적임

- 대조 학습과 소량 샷 학습과 같은 기법을 통해 이러한 접근 방식을 강화할 수 있음

 ㄴ 대조 학습(Contrastive Learning)은 유사한 데이터 포인트와 유사하지 않은 데이터 포인트를 구분함으로써 모델이 풍부한 표현을 학습할 수 있게 하며, 컴퓨터 비전 작업에 유용함 (예: OpenAI의 CLIP)

 ㄴ 퓨-샷 학습(Few-shot learning)은 모델이 매우 적은 수의 예제로 새로운 작업에 적응할 수 있게 해줌

- 원래의 스케일링 법칙 논문은 더 큰 모델이 소량 샷 학습에 더 능숙하다는 것을 보여주었음

- 비지도 사전 학습에 더 많은 양의 레이블링되지 않은 데이터가 필요하지만, 이 단계는 작은 비생성 모델보다 더 적은 레이블링된 예제로 다운스트림 작업을 해결할 수 있는 능력을 부여함


한계점과 고려사항

- 레이블링되지 않은 데이터를 활용하는 모델은 종종 더 복잡한 아키텍처를 필요로 함

- 레이블링에 소비되는 비용을 연산에 소비되는 비용으로 교환하는 것을 의미함

- 구현과 확장이 더 어려울 뿐만 아니라 해석 가능성이 떨어져 결정 과정을 이해하는 것이 중요한 민감한 분야에서 단점으로 작용할 수 있음

- 이러한 복잡성은 더 많은 계산 자원을 필요로 하며, 지도 학습 방법보다 성능 상한이 낮은 경우가 많음


[ #8 아직 이른 것들 ]

데이터 마켓플레이스

- 2016년 이후 데이터를 수집, 저장, 처리, 공유하는 것이 쉽고 저렴해짐에 따라 몇 가지 데이터 마켓플레이스가 생겨났지만, 이 분야는 크게 활성화되지 않았음

- Datarade, Dawex, AWS Data Exchange, Snowflake 등의 마켓플레이스와 플랫폼은 다양한 일반적인 사용 사례에 걸쳐 이미지, 텍스트, 오디오, 비디오 데이터를 쉽게 찾을 수 있게 해주었지만, 이는 주로 고객이 데이터를 호스팅하기로 선택한 것에 대한 추가 가치를 제공하기 위한 것임

- 이러한 마켓플레이스 외에도 Appen, Scale AI, Invisible, Surge 등 숙련된 아웃소싱 인력을 통해 맞춤형 데이터셋 생성 및 레이블링을 제공하는 회사들이 있음

- 그러나 전문화와 독점 데이터의 경쟁 우위에 대한 주의사항이 여전히 유효하며, AI 스타트업이 이러한 마켓플레이스에 크게 의존한다는 증거는 거의 없음

- 초기에는 편리할 수 있지만, 정제, 맞춤화, 필터링, 하위 샘플링에 상당한 노력이 여전히 필요함

- 많은 스타트업이 처음부터 자체 독점 데이터셋을 구축하고 이를 경쟁 우위로 활용하는 것을 선호함


게이미피케이션

- 게이미피케이션은 크라우드소싱 및 시민 과학 이니셔티브의 맥락에서 다양한 기업과 조직에 의해 데이터 수집 전략으로 탐구되었음 (예: Folding@Home)

- 그러나 소수의 사례를 제외하고는 게이미피케이션은 상대적으로 틈새 시장에 머물러 있음

- 게임과 같은 경쟁에 동기를 부여받고 여유 시간이 있는 특정 사용자 하위 집합에만 어필하므로 기여자 수의 잠재력에 상대적으로 낮은 상한선이 있음

- 동기 부여된 사람들 사이에서도 기여된 데이터의 품질과 정확성은 여전히 문제가 되며, 특히 에지 케이스를 처리할 때 추가적인 검증 및 통제 조치가 필요함


연합 학습

- 2016년 Google이 도입한 연합 학습(Federated learning, FL)은 데이터를 로컬에 그대로 두면서 여러 분산 서버나 모바일 기기에서 모델을 학습시킬 수 있다는 약속을 제시했음

- 이론적으로 의료나 금융 같은 민감한 분야에서 일하는 스타트업이 전통적인 프라이버시 문제를 피하면서 파트너십을 통해 중요한 학습 데이터에 접근할 수 있게 해줄 수 있음

- 그러나 FL은 책임, 데이터 소유권, 국경 간 데이터 전송 문제로 인해 설계된 민감한 분야에서 채택이 저해되었고, 모델과 데이터셋이 복잡해짐에 따라 분산 학습 및 집계와 관련된 계산 및 통신 오버헤드가 상당한 병목 현상이 되었으며, 데이터 소유자가 가치 제안을 보장하는 상당히 복잡한 기술을 받아들여야 한다는 인식이 남아 있음


[ ## 결론 ]

- 2016년 이후 상당한 진전에도 불구하고 데이터 수집은 여전히 스타트업에게 고충으로 남아 있음

- 커뮤니티나 시장이 이 문제를 해결할 것으로 보이지는 않음

- 대부분의 AI 스타트업은 여전히 설립 시점에서 데이터 수집의 어려움에 직면하겠지만, 이는 차별화의 기회가 될 수 있음

- 창의적으로 올바른 기반을 구축하는 것은 여전히 매우 실질적인 경쟁 우위의 원천임

- 데이터 자체는 결코 해자(Moat)가 될 수 없음

- 시간이 지나면 경쟁사들은 자체 데이터를 확보하거나 동일한 결과를 달성하기 위한 보다 효율적인 기술을 찾는 데 성공할 것임

- 지난 1년 동안 작은 모델과 큰 모델 간의 성능 격차가 점진적으로 줄어든 LLM 평가에서 이를 명확히 볼 수 있음

- 훌륭한 데이터 수집은 궁극적으로 필요하지만 충분하지는 않음

- 킬러 제품 및 진정한 고객 통찰력과 함께 성공을 위한 한 가지 요소임


자동등록방지

추천 비추천

21

고정닉 4

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
470492 일반 GPT-4o는 3시간당 80개 메세지 가능 [20] ㅇㅇ(175.208) 05.14 4495 25
470467 일반 이쯤에서 특갤 민심 테스트 간다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [15] lightvector갤로그로 이동합니다. 05.14 3350 70
470406 정보/ 너희들 마지막에 집중안했노 [5] ㅇㅇ(119.77) 05.14 3032 23
470303 일반 영화 her 새짤 개웃기노 ㅋㅋㅋㅋ [15] ㅇㅇ(222.99) 05.14 5011 41
470283 일반 GPT4 초기랑 비슷하니 뭐니하던거 웃음벨이고 ㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.14 2125 23
470248 일반 얘한테 당장 7000조 줘야하면 개추 [9] ㅇㅇ(121.131) 05.14 3706 67
470244 정보/ gpt4o 추가 예시 [26] 특갤용갤로그로 이동합니다. 05.14 4572 31
469010 정보/ [오피셜] 고화질 also 벤치마크 떴다!!!! [20] lightvector갤로그로 이동합니다. 05.14 3514 29
470025 정보/ 오늘 밝혀진 중요한 정보 [13] ㅇㅇ(119.77) 05.14 3559 27
470148 정보/ 속보))알트만의 gpt-4o 모델 설명!!!!!!!! [10] lightvector갤로그로 이동합니다. 05.14 4138 31
470217 일반 알트만 : her [23] ㅇㅇ(59.5) 05.14 2958 28
470153 일반 gpt-4o api 써봤다 속도 뭐냐..................?? [29] ㅇㅇ(49.143) 05.14 4222 26
470139 일반 한국어 토큰 1.7배 감소 [3] ㅇㅇ(125.250) 05.14 2836 23
469815 정보/ 오늘 새벽 OpenAI 발표 총요약본...txt [26] lightvector갤로그로 이동합니다. 05.14 7395 60
469797 일반 시발년들아 개추 안박고 뭐하냐 [8] ㅇㅇ(58.29) 05.14 2239 56
467482 일반 와 진짜 뭐가오길래 공홈에다 이따구로 근들갑떨어놓은거임? ㅋㅋ [29] ㅇㅇ(124.111) 05.13 4833 40
467404 일반 오늘 자러간 꿀잠충, 출근충, 선형충이 보게 될 상황...JPG [13] ㅇㅇ(175.125) 05.13 3485 33
467355 일반 와 시발 also 진짜 말도 안 되네 [14] ㅇㅇ(210.106) 05.13 4046 22
467137 일반 ??? : 지는 거예요...? [5] ㅇㅇ(218.156) 05.13 2989 28
467129 일반 특갤 개씹뒤집어지는 시나리오... [20] ㅇㅇ갤로그로 이동합니다. 05.13 4086 43
467036 일반 also랑 gpt-4 초기랑 비슷하다 이 지랄하네 ㅋㅋ [31] ㅇㅇ(106.247) 05.13 3406 30
466881 일반 딱 봐도 이거 확정이네 [37] ㅇㅇ(220.71) 05.13 5377 33
466436 일반 고민하는 ai는 진짜 대박인데? [59] ㅇㅇ(117.20) 05.12 6221 31
466269 정보/ 챗지피티에 GPT4.5 업데이트 암시 [15] ㅇㅇ(121.124) 05.12 4956 27
466105 일반 흥분하는 openai 연구원 [42] ㅇㅇ(125.191) 05.12 5721 22
466096 일반 모레 새벽 특갤 예상 [20] ㅇㅇ(211.197) 05.12 3972 40
466090 AI창 gpt2로 DOOM 만들기 [58] ㅇㅇ갤로그로 이동합니다. 05.12 7053 81
465944 일반 "내부적으로 달성된 agi는 없어ㅎㅎ" [36] ㅇㅇ(114.202) 05.11 4554 42
465939 일반 알트만이 UBI와 AGI 분배에 대해 언급한 영상들 [16] 월코존버갤로그로 이동합니다. 05.11 3117 27
465911 일반 [긴급] 애플, 아이폰에 Chat GPT 탑재 협상 중 [2] ㅇㅇ(218.147) 05.11 669 24
465871 일반 알트만: 내부적으로 AGI는 없어 ㅎㅎ 미안! [16] ㅇㅇ(59.17) 05.11 4133 25
465859 일반 알트만 : 존나좋다. 기대해라 [36] ㅇㅇ(59.5) 05.11 4759 23
465851 일반 알트만 NSFW 직접언급 사칭아님 ㅇㅇㅇ [11] ㅇㅇ(59.5) 05.11 2278 17
465806 일반 GPT-5는 없을 수도 [31] 특술람갤로그로 이동합니다. 05.11 3839 16
465772 정보/ OAI 연구원 : "GPT5보다 멋질 것" [25] ㅇㅇ(118.235) 05.11 4120 17
465433 정보/ 방금 샘알트만 오피셜 "GPT-5도, 검색엔진도 아니다." [48] 초존도초갤로그로 이동합니다. 05.11 5307 33
465412 정보/ 소금•물 이용해 인간 뇌세포처럼 움직이는 바이오컴퓨터 [8] ㅇㅇ(182.230) 05.11 2458 23
465403 정보/ 에너지 밀도가 19배 높은 새로운 커패시터 [2] ㅇㅇ(118.39) 05.11 247 13
465374 정보/ 유전자 치료로 11세에 처음 소리 들었다…"정상 청력 회복" [25] ㅇㅇ(182.230) 05.10 2854 32
465275 일반 "자, 다 모이셨군요!" [19] ㅇㅇ갤로그로 이동합니다. 05.10 4284 26
465172 정보/ 나노 수준의 해상도로 재구성된 인간 대뇌 피질의 페타복셀 조각 [16] ㅇㅇ(118.39) 05.10 1667 16
465079 일반 also-gpt2가 만들어준 2인용 핑퐁게임 [3] 천사다천사갤로그로 이동합니다. 05.10 1652 17
465051 일반 "AI가 성인 콘텐츠 만든다" 오픈AI 제작 허용 검토 (msn.com) [40] 루미코드갤로그로 이동합니다. 05.10 4400 36
465018 정보/ 알트만 : gpt4때문에 미래모델 영향 과소평가 우려 중 [33] ㅇㅇ(119.77) 05.10 3525 21
465014 정보/ gpt-4l-auto, gpt-4-auto 새모델 [15] ㅇㅇ(119.77) 05.10 795 12
465005 일반 also 나와서 기분 좋은 특붕이면 개추 ㅋㅋㅋ [3] ㅇㅇ(1.239) 05.10 2331 25
464957 일반 코딩 개초보가 GPT 로 고오급 웹사이트 만들기 [41] GPT PLUS(125.137) 05.10 4574 44
464910 일반 현재 갤 상황 요약...jpg [21] lightvector갤로그로 이동합니다. 05.09 4977 38
464863 일반 장문글)내가 특이점을 기다리는 이유...txt [33] ㅇㅇ(1.238) 05.09 3103 35
464749 일반 also gpt2 쓰레긴데? [9] ㅇㅇ(114.200) 05.09 1475 14
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2