A brief summary of the Google i/o 2024, and an explanation of why it made me angry and why I think it has been a huge disappointment. It was no coincidence that OpenAI chose to make a 30-minute announcement about GPT4-o the day before. It was a clear challenge to Google, an exposure. I am not an OpenAI simp under any circumstances. However, I do believe that they are currently the very best in AI research and development. And yesterday's presentation fits in with that. 30 minutes. That's how much time they took to present the GPT-4o's new audio function live (!) on stage. And I am firmly convinced that it really was live. Because numerous errors occurred, and sometimes the voice broke away. Everything seemed quite "beta", but it didn't detract from the presentation. We understood what the future holds. You understood where the journey is going, and it was a clear look into the very near future. 30 minutes after OpenAI's event, many users, including myself, already had access to GPT-4-o (NO "later this year"). Not the new language function, but the much better GPT-4o (whereby it was said that all other functions would come in a few weeks). However, the numerous other functionalities were quite unpretentious. They were presented in passing on the homepage (!). Not a word was said about the fact that GPT-4-o now accommodates image generation in the model itself. Not a word about the fact that 3D animations can be created. It was not worth mentioning and shows impressively what is important to OpenAI. 30 minutes for "Her", and a blog post for all the rest. That's modesty. And now one day later, in complete contrast, Google i/o 2024. Not a word about modesty. While OpenAI was not ashamed to show the mistakes of "Her", the fact that Gemini 1.5 Pro would now have a context length of 2 million was certainly heard 20 times. When? Sometime later this year. A voice assistant similar to that of OpenAI was also presented. The legendary Demis Hassabis was brought on stage especially for this - as far as I know, the very first time. What did we get to see? Not a live presentation, but a ed video. It is very reminiscent of the previous video, when Gemini-Ultra was credited with the live functionality of Vision, but this turned out to be a simple fraud ("fool me once, shame on you; fool me twice, shame on me"). And here too, you can't get rid of the aftertaste that we are supposed to see something that is nowhere near ready. Anyone who doubts this should seriously ask themselves why there was no live presentation. I promise you: if it was good enough, they would have presented it, if only to avoid the humiliation of OpenAI. What already makes me angry here is that Demis Hassabis, one of the smartest researchers in the world, who made history with AlphaGo, was flown in as an advertising mascot just to give the whole thing a certain authenticity without being able to show anything. Two words about Gemini Flash, which is very cheap but is presented without a benchmark. If no figures are shown, the absence speaks volumes. The failure of Gemma is foreshadowed here. Finally, a short video of "Vio", which honestly looks very pixilated. I'm sorry, but anyone who thinks this is in the same league as Sora is very much mistaken. It's certainly impressive technology, there's no doubt about that. But compared to Sora, it's blurred, washed out and also cut in such a way that you almost only see bright colors and only a short section with real images. If you compare this with the strong videos from Sora, such as the crowds of people, the high-resolution textures and the reflections in the water, it's simply not in the same league. And that was it. That was everything. And that's exactly what I mean. Everything that came after that was Google from 2010. Because let's be honest: starting a developer conference with Google Photos and presenting first that you can now search them with AI says a lot (as a big opener!) The search was improved a little, the workspaces as well, and many functions were advertised that had already existed for a long time. And yes, I still find it embarrassing for a historic company like Google to waste 5 minutes showing how to find a yoga class with AI and Google maps. It's not going to catch on and it's irrelevant. Compared to what AlphaFold 3 delivers, it's trivial and silly. Because THAT is real AI, that is what we need AI for, that is the future! Google i/o is a developer conference and not a marketing event for unnecessary products ("Look at this shiny new Pixel 8a!" Cringe af). At least that's what you'd think if you had any respect for the developers (if you looked into the crowd, they were certainly not enthusiastic). It went on like this with smoothie recipes and dog walkers (all with AI, of course). Unnecessary and will sink into irrelevance, meaningless and impractical. And that is precisely the crux of the matter. Google is under considerable pressure. Google has built up a monopoly since the 1990s and dominates internet search. They have the most compute and the best AI chips (TPU) in the world. They buy the brightest minds (Demis Hassabis and DeepMind) and waste all these resources on such nonsense. They have completely failed to catch up and seize their opportunity. No Gemini Ultra 2, no Gemini Pro 2, no new architecture. No relevant development. Nothing. Instead, products that are worse than the competition or meaningless. On the contrary: they repeatedly emphasized that Gemin 1.5 Pro would have a context length of 1 million. Something that everyone has known for months. They simply had nothing else to counter OpenAI with. Plus silly show interludes that are unworthy of a developer conference. Cringe, as the kids say today. I am sure that Sundar Pichai will not remain CEO for much longer. From what we hear internally, there are very fierce battles between the camps. And currently the AI engineers are being held back by the ethicists. That is clearly evident. Google should have delivered today. They used to be the open source vanguard. They have already given that up to Meta. OpenSource is now called Llama. What remains is masses of compute. And that would have been better given to the competition. I am more hyped for Mistral, Anthropic and whatnot instead of Google. One thing remains particularly memorable. It's not just that they were hardly able to present anything. Everything is also not available. It will come at some point. Later this year (TM). That was the final nail in the coffin. Because months are decades in the age of AI. And Google has a few months, maybe even years, to catch up. A miracle would have to happen.
영어에서 번역(제공)
Google i/o 2024에 대한 간략한 요약과 그것이 왜 나를 화나게 만들었고 왜 큰 실망을 안겨주었다고 생각하는지에 대한 설명입니다. OpenAI가 전날 GPT4-o에 대해 30분 동안 발표하기로 선택한 것은 우연이 아니었습니다. 구글에 대한 노출은 분명한 도전이었다. 나는 어떤 상황에서도 OpenAI 단순한 사람이 아닙니다. 그러나 나는 그들이 현재 AI 연구 개발 분야에서 최고라고 믿습니다. 그리고 어제의 발표도 그 점에 부합합니다. 30 분. 이는 GPT-4o의 새로운 오디오 기능을 무대에서 라이브 (!) 로 발표하는 데 걸린 시간입니다. 그리고 나는 그것이 정말로 라이브라고 굳게 확신했습니다. 수많은 오류가 발생하고 때로는 목소리가 끊어지는 경우도 있기 때문입니다. 모든 것이 "베타"처럼 보였지만 프레젠테이션의 가치를 떨어뜨리지는 않았습니다. 우리는 미래가 어떻게 될지 이해했습니다. 당신은 여행이 어디로 가고 있는지 이해했고, 그것은 아주 가까운 미래에 대한 명확한 시각이었습니다. OpenAI 이벤트가 끝난 지 30분 후에 저를 포함한 많은 사용자가 이미 GPT- 4-o ( NO "올해 말")에 액세스할 수 있었습니다. 새로운 언어 기능은 아니지만 훨씬 더 나은 GPT-4o (다른 모든 기능은 몇 주 안에 제공될 것이라고 합니다). 그러나 그 밖의 수많은 기능은 그다지 소박하지 않았습니다. 홈페이지 (!) 에 전달되면서 제시되었습니다. 이제 GPT- 4-o 모델 자체에서 이미지 생성을 수용한다는 사실에 대해서는 한마디도 언급되지 않았습니다. 3D 애니메이션을 만들 수 있다는 사실에 대해서는 한마디도하지 않습니다. 언급할 가치도 없고 OpenAI에 중요한 것이 무엇인지 인상적으로 보여줍니다. "Her"의 경우 30분, 나머지는 블로그 게시물입니다. 그것은 겸손입니다. 그리고 하루가 지난 지금, 완전히 대조적으로 Google i/o 2024가 열렸습니다. 겸손에 대해서는 한마디도 하지 않습니다. OpenAI는 "Her"의 실수를 부끄러워하지 않았지만 Gemini 1.5 Pro의 컨텍스트 길이가 이제 200만 개라는 사실은 확실히 20번이나 들었습니다. 언제? 올해 말쯤. OpenAI와 유사한 음성 비서도 선보였습니다. 제가 아는 한, 전설적인 데미스 하사비스(Demis Hassabis)가 특히 이 무대에 등장했습니다. 우리는 무엇을 보게 되었나요? 라이브 프레젠테이션이 아니라 대본이 있는 비디오입니다. Gemini-Ultra가 Vision의 라이브 기능으로 인정받았던 이전 비디오를 매우 연상시킵니다. 그러나 이는 단순한 사기로 판명되었습니다("한 번 속이면 부끄러워합니다. 두 번 속이면 부끄러워합니다"). . 그리고 여기서도 아직 준비가 거의 안 된 것을 봐야 한다는 뒷맛을 지울 수 없습니다. 이에 대해 의심하는 사람은 왜 실시간 프레젠테이션이 없었는지 진지하게 자문해 보아야 합니다. 나는 약속합니다: 그것이 충분히 좋았다면 OpenAI의 굴욕을 피하기 위해서만 그것을 제시했을 것입니다. 여기서 이미 나를 화나게 하는 것은 AlphaGo로 역사를 만든 세계에서 가장 똑똑한 연구원 중 한 명인 Demis Hassabis가 아무것도 보여주지 않으면서 전체에 어떤 진정성을 부여하기 위해 광고 마스코트로 날아왔다는 것입니다. 매우 저렴하지만 벤치마크 없이 제시되는 Gemini Flash에 대한 두 단어입니다. 수치가 표시되지 않으면 그 부재가 많은 것을 말해줍니다. 젬마의 실패가 여기서 예고된다. 마지막으로 솔직히 매우 초라해 보이는 "Vio"의 짧은 영상입니다. 미안하지만 이것이 소라와 같은 동질이라고 생각하는 사람은 큰 착각이다. 확실히 인상적인 기술입니다. 의심의 여지가 없습니다. 그러나 Sora와 비교하면 흐릿하고 바래며 잘려서 거의 밝은 색상만 볼 수 있고 실제 이미지는 짧은 부분만 볼 수 있습니다. 군중의 군중, 고해상도 질감, 물에 반사된 장면 등 Sora의 강력한 영상과 비교하면 단순히 같은 리그에 속하지 않습니다. 그게 전부였습니다. 그것이 전부였습니다. 그리고 그것이 바로 내가 의미하는 바입니다. 그 이후의 모든 것은 2010년부터 Google이었습니다. 솔직하게 말해서 Google 포토로 개발자 컨퍼런스를 시작하고 이제 AI로 검색할 수 있다고 먼저 발표하는 것은 많은 것을 말해줍니다(큰 개막식!). 검색이 약간 개선되었습니다. 작업 공간도 그렇고, 이미 오랫동안 존재했던 많은 기능이 광고되었습니다. 그리고 네, 저는 Google과 같은 역사적인 회사가 AI와 Google 지도를 사용하여 요가 수업을 찾는 방법을 보여주기 위해 5분을 낭비하는 것이 여전히 당혹스럽다고 생각합니다. 그것은 따라잡을 수 없으며 관련성이 없습니다. AlphaFold 3이 제공하는 것과 비교하면 사소하고 어리석은 일입니다. 그것이 진짜 AI이기 때문에, 그것이 우리에게 AI가 필요한 이유이고, 그것이 바로 미래입니다! Google i/o는 개발자 컨퍼런스이지 불필요한 제품을 위한 마케팅 이벤트가 아닙니다 (" 이 반짝이는 새 Pixel 8a를 보세요!" Cringe af) 적어도 개발자를 존경한다면 그렇게 생각할 것입니다(만약 군중을 들여다보니 그들은 확실히 열정적이지 않았습니다.) 스무디 조리법과 개 산책기(물론 모두 AI가 포함됨)에서는 이런 식으로 진행되었으며 불필요하고 무의미하며 비실용적이었습니다. 이것이 바로 문제의 핵심입니다. 구글은 상당한 압박을 받고 있다. 구글은 1990년대부터 독점을 구축해 인터넷 검색을 장악했다. 그들은 세계에서 가장 많은 컴퓨팅 성능과 최고의 AI 칩(TPU)을 보유하고 있습니다. 그들은 가장 똑똑한 마음(Demis Hassabis 및 DeepMind)을 구입하고 이러한 말도 안되는 일에 이러한 모든 자원을 낭비합니다. 그들은 기회를 따라잡고 포착하는 데 완전히 실패했습니다. Gemini Ultra 2, Gemini Pro 2, 새로운 아키텍처가 없습니다. 관련 개발이 없습니다. 아무것도 아님. 대신, 경쟁사보다 나쁘거나 의미가 없는 제품. 반대로 그들은 Gemin 1.5 Pro의 컨텍스트 길이가 100만 개일 것이라고 반복해서 강조했습니다. 모두가 몇 달 동안 알고 있던 것입니다. 그들은 OpenAI에 대응할 다른 방법이 없었습니다. 게다가 개발자 컨퍼런스에 어울리지 않는 어리석은 쇼 막간도 있습니다. 오늘 아이들이 말하는 것처럼 움츠러들으세요. 나는 Sundar Pichai가 더 오랫동안 CEO로 남아 있지 않을 것이라고 확신합니다. 내부적으로 들은 바에 따르면 진영간 전투가 매우 치열하다고 합니다. 그리고 현재 AI 엔지니어들은 윤리학자들의 방해를 받고 있습니다. 그것은 분명합니다. Google이 오늘 배송했어야 했습니다. 그들은 오픈 소스 선봉대였습니다. 그들은 이미 그것을 Meta에 넘겨주었습니다. 오픈소스는 이제 Llama라고 불립니다. 남은 것은 엄청난 양의 컴퓨팅입니다. 그리고 그것은 경쟁에 더 잘 주어졌을 것입니다. 나는 Google 대신 Mistral, Anthropic 등을 더 좋아합니다. 특히 기억에 남는 일이 하나 있다. 단지 아무것도 발표할 수 없었던 것만이 아닙니다. 모든 것도 사용할 수 없습니다. 그것은 어느 시점에 올 것입니다. 올해 말(TM). 그것은 관의 마지막 못이었습니다. AI 시대에는 몇 달이 수십 년이기 때문이다. 그리고 Google은 따라잡기까지 몇 달, 어쩌면 몇 년이 걸릴 수도 있습니다. 기적이 일어나야 할 것입니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.