디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 지난주 AI소식 요약

ㅇㅇ(221.152) 2024.04.14 18:02:24
조회 514 추천 5 댓글 1
														


AI 펄스: 주간 뉴스 & 인사이트 요약 🔥

주요 뉴스


NewsCohere는 기업 검색 및 RAG(Retrieval Augmented Generation) 시스템을 위한 새로운 기초 모델 Rerank 3을 출시했습니다. 이 모델은 이메일, 인보이스, JSON 문서, 코드, 테이블 등 100개 이상의 언어로 된 다양한 형태의 반정형 데이터를 검색할 수 있습니다.


Google DeepMind는 딥 강화 학습(deep RL)을 사용하여 휴머노이드 로봇이 간소화된 1대1 축구 경기를 플레이하도록 훈련했습니다. 로봇은 시행착오를 통해 학습하며 예상치 못한 상황에 대처할 수 있었습니다. 걷기, 돌기, 차기, 일어서기 등의 동작을 수동 프로그래밍보다 빠르게 학습했으며, 골을 넣거나 공의 움직임을 예측하고 상대방의 슛을 차단하는 등 게임에 대한 기본적인 이해를 개발했습니다.


Hugging Face 연구원들은 최대한의 제어 가능성을 제공하는 완전 오픈 소스 텍스트 음성 변환 모델 Parler TTS를 출시했습니다. 음성 프롬프트를 통해 음높이, 속도, 성별, 노이즈 레벨, 감정 특성 등을 제어할 수 있습니다.


Mistral AI는 65k 토큰의 컨텍스트 길이를 가진 176B 매개변수 스파스 혼합 전문가 모델 Mixtral 8×22B를 출시했습니다.


Google은 Gemini 1.5 Pro의 입력 방식을 확장하여 Gemini API 및 Google AI Studio에서 오디오(음성) 이해를 지원합니다. 예를 들어, 강의 오디오 녹음을 업로드하면 Gemini 1.5 Pro는 답변 키가 있는 퀴즈로 변환할 수 있습니다. 또한 Gemini 1.5 Pro는 Google AI Studio에 업로드된 비디오의 이미지(프레임)와 오디오(음성)를 모두 이해할 수 있습니다. Gemini 1.5 Pro는 이제 퍼블릭 프리뷰에서 Gemini API를 통해 180개 이상의 국가에서 사용할 수 있습니다.

가볍고 개방적인 모델 제품군인 Gemma에 두 가지 새로운 변형 모델이 추가되었습니다. 코드 완성 및 생성 작업과 명령 수행을 위한 CodeGemma와 연구 실험을 위한 효율성 최적화 아키텍처인 RecurrentGemma입니다.


Google Vids는 실시간 협업을 지원하는 AI 기반 비디오 제작 앱입니다. 쉽게 편집할 수 있는 스토리보드를 생성하고, 스타일을 선택하면 스톡 비디오, 이미지, 배경 음악 및 음성 해설에서 제안된 장면으로 첫 번째 초안을 구성합니다. Vids는 6월에 Workspace Labs에 출시될 예정입니다.


Vertex AI Agent Builder가 출시되었습니다. 개발자는 자연어 또는 코드 우선 접근 방식을 사용하여 엔터프라이즈급 gen AI 경험을 쉽게 구축하고 배포할 수 있습니다.


Cohere는 기업급 워크로드를 처리하도록 설계된 RAG 최적화 다국어 모델 **Command R+**를 출시했습니다. 다단계 도구 사용을 지원하여 어려운 작업을 수행하기 위해 여러 단계에 걸쳐 여러 도구를 결합할 수 있습니다. Command R+는 HuggingChat에서 사용할 수 있습니다.


Archetype AI는 세계를 인식하고 이해하고 추론할 수 있는 물리적 AI 기초 모델 Newton을 소개했습니다. 레이더, 카메라, 가속도계, 온도 센서 등의 실시간 센서 데이터와 자연어를 융합하여 주변 세계에 대한 개방형 질문을 할 수 있습니다.


Intercom은 고객 서비스 담당자를 위한 개인 AI 비서 Fin AI Copilot을 출시했습니다. RAG + 시맨틱 검색을 사용하여 내부 지식 기반, 공개 URL 등을 통해 지원 담당자를 위한 답변을 생성합니다. Fin AI Copilot는 지원 담당자와의 대화 컨텍스트를 유지하므로 담당자는 나중에 Fin에게 후속 질문을 할 수 있습니다.


Meta AI는 "배지를 어디에 두었지?"와 같은 질문을 통해 AI 에이전트의 물리적 공간 이해도를 측정하는 새로운 벤치마크인 Open-Vocabulary Embodied Question Answering (OpenEQA) 프레임워크를 출시했습니다.


OpenAI의 새로운 GPT-4 Turbo 모델은 쓰기, 수학, 논리적 추론 및 코딩 기능이 향상되었으며 유료 ChatGPT 사용자가 사용할 수 있으며 API를 통해 일반적으로 사용할 수 있습니다. 비전 요청은 이제 JSON 모드 및 함수 호출을 사용할 수도 있습니다.


Poe는 모델 개발자와 봇 제작자가 Poe 플랫폼에서 수익을 창출할 수 있는 새로운 방법을 도입했습니다. 제작자는 이제 봇에 대한 메시지당 가격을 설정하고 사용자가 메시지를 보낼 때마다 수익을 창출할 수 있습니다.


Oracle Financial Services는 은행이 자금 세탁 방지 위험을 완화하는 데 도움이 되는 Oracle Financial Services Compliance Agent를 소개했습니다.


Apple 연구원들은 모바일 UI 화면에 대한 이해도를 높이기 위해 맞춤 제작된 새로운 멀티모달 대규모 언어 모델(MLLM)인 Ferret-UI를 발표했습니다. Ferret-UI는 모바일 UI 화면에서 유연한 입력 형식(점, 상자, 낙서)으로 참조 작업(예: 위젯 분류, 아이콘 인식, OCR) 및 접지 작업(예: 위젯 찾기, 아이콘 찾기, 텍스트 찾기, 위젯 목록)을 수행할 수 있습니다.


Stability AI는 영어, 스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어 및 네덜란드어로 된 다국어 데이터로 훈련된 강력한 120억 매개변수 언어 모델 쌍인 Stable LM 2 12B를 출시했습니다. 기본 및 지침 조정 모델을 갖추고 있습니다.


Anthropic은 2024년 4월 9일부터 4월 16일까지 진행되는 Build with Claude 콘테스트를 발표했습니다. 상위 5명의 우승자에게는 API 크레딧으로 $1,000가 주어집니다.


Meta AI는 메타의 AI 워크로드를 위해 맞춤 제작된 칩 제품군인 차세대 **Meta Training and Inference Accelerator (MTIA)**를 소개했습니다. 이 새로운 MTIA 칩은 4가지 주요 모델 평가에서 1세대 칩보다 성능이 3배 향상되었습니다.


Pika Labs와 ElevenLabs는 4월 12일부터 14일까지 72시간 AI 단편 영화 대회 FilmFAST를 개최합니다.


Intel은 Gaudi 3 AI 가속기를 출시했습니다. Nvidia H100보다 더 낮은 비용으로 평균 50% 더 나은 추론 및 평균 40% 더 나은 전력 효율성을 제공한다고 주장합니다.


Stability AI는 풀 컬러 범위 이미지를 생성할 수 있는 미세 조정된 SDXL 모델인 Cos Stable Diffusion XL 1.0 및 Cos Stable Diffusion XL 1.0 Edit를 출시했습니다.


Replit은 프롬프트 없이 코드를 자동으로 수정하고 GPT-4 및 Claude 3 Opus보다 뛰어난 성능을 발휘하는 저지연 코드 수정 AI 에이전트인 코드 수리를 발표했습니다. Replit은 또한 새로운 AI 기반 Replit Teams 제품에 대한 조기 액세스를 발표했습니다.


Meta는 오픈 소스 LLM인 Llama 3가 다음 달에 출시될 예정임을 확인했습니다.


Apple 연구원들은 화면 컨텍스트를 '보고' 이해할 수 있는 **ReALM (Reference Resolution As Language Modeling)**이라는 AI 시스템을 개발했습니다.





주간 스포트라이트


AIDE: 작업 요구 사항을 자율적으로 이해하고 솔루션을 설계 및 구현할 수 있는 AI 기반 데이터 과학 보조 도구

Anthropic 툴 사용 요리책: Claude를 외부 도구 및 함수와 통합하여 기능을 확장하는 방법 알아보기

Datasette 및 GPT-4 Turbo를 사용하여 비정형 텍스트 및 이미지에서 데이터 추출

SWE-agent: 딥 다이브 - 프린스턴 연구원들이 GPT-4를 사용하여 GitHub 이슈를 풀 요청으로 자동으로 변환하는 오픈 소스 에이전트

Weights & Biases 플랫폼의 OpenUI - UI를 설명하면 라이브로 렌더링하는 오픈 소스 도구. 변경 사항을 요청하고 HTML을 React, Svelte, Web Components 등으로 변환할 수 있습니다.

DeepLearning.AI의 무료 단기 과정 'Red Teaming LLM Applications' - 대규모 언어 모델(LLM) 애플리케이션의 취약성을 식별하고 평가하는 방법 배우기





툴박스: 이번 주 제품 추천


Udio: 구글 딥마인드 연구원들이 개발한 텍스트 프롬프트에서 음악을 만드는 AI 기반 앱. 베타 버전은 무료이며 월 최대 1200곡 생성 가능

UIBakery의 AI 앱 생성기: 텍스트 프롬프트만으로 데이터 위에 내부 도구, CRUD 앱 및 관리 패널 생성

Sound AiSleep: 어린이 취침 이야기를 자신의 목소리로 말하는 iOS 앱

VoiceNotes: 새로운 아이디어, 가족의 순간, 회의, 팟캐스트 요약 등을 기록합니다. AI에게 과거 노트를 검토하거나 새로운 아이디어를 브레인스토밍하도록 요청합니다.

자동등록방지

추천 비추천

5

고정닉 2

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
472033 일반 이제 다시 gpt5만 기다려야 되네 ㅇㅇ(175.116) 05.14 28 0
472032 일반 난 5는 어떨것 같음? 4o나 5나 같은거 아니냐? [3] ㅇㅇ갤로그로 이동합니다. 05.14 70 0
472030 일반 GPT4o 영상처리가 아니었네 [12] ㅇㅇ(119.207) 05.14 350 0
472029 일반 아이폰이 갤럭시 넘었다고 흥분함? [2] Singnice갤로그로 이동합니다. 05.14 208 0
472028 일반 엠생 마인드를 가진 애들이 많아야한다 [1] ㅇㅇ(58.29) 05.14 110 0
472027 일반 그럼 gpt4를 이제 쓸 이유가 사라진거임? [5] ㅇㅇ갤로그로 이동합니다. 05.14 164 0
472026 일반 정식출시하면 쓰레기되는게 놀랍다 [2] ㅇㅇ갤로그로 이동합니다. 05.14 133 0
472025 일반 걍 이정도로 불타는데는 별 이유 없다니까 ㅋㅋㅋ ㅇㅇ(220.77) 05.14 88 1
472024 일반 gpt4o한테 기본적인 파이썬은 배울수도 있겠다 [1] 천사다천사갤로그로 이동합니다. 05.14 91 0
472023 일반 어제랑 4o반응 ㅈㄴ 다르노 [5] ㅇㅇ(118.235) 05.14 270 0
472022 일반 IMF총재, 2년내에 직업 40%영향 [4] ㅇㅇ(218.147) 05.14 173 1
472020 일반 지금 gpt4o 이거 뭐가 달라진건지 대충 요약 가능함? [5] proxyfox갤로그로 이동합니다. 05.14 158 0
472019 일반 특갤에 시큰둥한 애들 많은 이유 난 왜인지 알 것 같은데 ㅇㅇ(211.197) 05.14 95 0
472018 일반 audio 모델이 gpt-4o의 본체인 이유 ㅇㅇ갤로그로 이동합니다. 05.14 189 1
472017 일반 gpt5는 얼마나 개쩔길래 [1] ㅇㅇ(59.31) 05.14 134 0
472016 일반 특갤 반응 씹창난건 이거 하나지 [9] ㅇㅇ(218.149) 05.14 243 1
472015 일반 근데 포르노는 글만으로도 극도로 흥분되게 가능하더라 [3] 버거왕갤로그로 이동합니다. 05.14 179 0
472014 일반 gpt4 대화모드도 반응속도 빨라졌네 ㅋㅋㅋㅋ 연맛갤로그로 이동합니다. 05.14 97 0
472013 일반 Also good 이 4o 였노 [2] Singnice갤로그로 이동합니다. 05.14 290 0
472012 일반 무서운 상상 ㅇㅇ(112.220) 05.14 65 0
472011 일반 근데 특갤은 왜이렇게 오늘 반응이 시큰둥함?? [8] 우렉마지노갤로그로 이동합니다. 05.14 228 0
472010 일반 그래서 장기기억은 어떻게 해결할거임 [3] ㅇㅇ(125.134) 05.14 102 0
472008 일반 그러니까 한국말은 버리라는거냐 탈조선갤로그로 이동합니다. 05.14 50 0
472007 일반 주딱 파딱이 총대메고 gpt 한글교육좀 시켜라 [2] ㅇㅇ(118.33) 05.14 97 0
472006 일반 굉장히 유의미한 업데이트 맞아. ㅇㅇ(122.34) 05.14 91 0
472005 일반 말려라 무섭다 그만해라 [1] ㅇㅇ(115.88) 05.14 99 1
472004 일반 올해는 지능 증강보단 멀티모달의 해 같음 ㅇㅇ(211.197) 05.14 46 0
472003 일반 also가 4o인데 검열 들어가서 더 별로? [2] ㅇㅇ(112.186) 05.14 145 0
472002 일반 4o에 왜 실망하는거지?? ㅇㅇ(143.244) 05.14 93 0
472001 일반 also는 놀랬는데 4o는 무덤덤함 [6] ㅇㅇ(114.206) 05.14 340 0
472000 일반 오픈AI의 행보에서 우려되는 점 [4] ㅇㅇ(218.149) 05.14 154 0
471998 일반 4o 속도 존나 빨라져서 번역기로 쓰기에는 더 좋네 [1] ㅇㅇ(211.109) 05.14 97 0
471997 일반 지금 4o에있는 음성대화 예전꺼입?? [2] ㅇㅇ(49.164) 05.14 94 0
471996 일반 그래서 GPT-4o 기억 토큰량 늘어남? 호크아이모코코갤로그로 이동합니다. 05.14 74 0
471995 일반 국내 ai툴로 gpt-4o 소개영상 만들어봄 [3] 레커(119.65) 05.14 86 0
471994 일반 gpt-4o 다 좋은데 말투만 딱딱한거 고쳐줬으면 좋겠다 [9] 은바다갤로그로 이동합니다. 05.14 206 0
471991 일반 공부할땐 절대 못써묵는다 ㅇㅇ(211.109) 05.14 113 0
471990 일반 그럼 이제 한 GPT6o랑 뉴럴링크랑 ㅁㄴㅇㄹ갤로그로 이동합니다. 05.14 56 0
471988 일반 한국인 일반 대중들이 AI보고 "그만하자노"를 시전하는 이유 [6] ㅇㅇ(220.116) 05.14 285 3
471987 일반 구글은 오늘 뭐 내놓는거임? [1] ㅇㅇ(211.197) 05.14 81 0
471986 일반 구석기 시대에는 10만년 지나야 돌모양 살짝 바뀜 ㅇㅇ(218.147) 05.14 88 0
471985 일반 치타가 달려줘야함 [1] ㅇㅇ(112.186) 05.14 36 1
471984 일반 her드립은 자제하자 [9] 비닌갤로그로 이동합니다. 05.14 264 1
471983 일반 gpt4o가 gpt4보다 성능낮고 속도빠른 버전임? [7] ㅇㅇ갤로그로 이동합니다. 05.14 176 0
471981 일반 특갤러로서는 실망스러운 측면도 있는 공개였는데 ㅇㅇ(118.33) 05.14 61 0
471980 일반 성능이 별로니 클로드가 낫니 뭐니 ㅋㅋ ㅇㅇ(175.213) 05.14 107 0
471979 일반 난 근데 실망하는 쪽도 이해는 가는데 [1] ㅇㅇ(103.237) 05.14 91 0
471978 일반 아직도 이랫다 저랫다 하는거 보면 참.. [2] ㅇㅇ(211.109) 05.14 92 0
471977 일반 성우 목소리 팔아도 되냐 [4] ㅇㅇ(211.176) 05.14 106 0
471976 일반 이제 프론티어 모델에 소라와 자율 에이전트가 들어가면 된다 ㅇㅇ갤로그로 이동합니다. 05.14 27 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2