구글 제미니는 과장되었다?! 데모 비디오의 진실

AI 뉴스

아이곰 2023. 12. 7. 17:46

오늘 구글이 충격적인 영상을 하나 발표했습니다.

바로 구글의 새로운 인공지능 모델인 제미니(Gemini)의 시연 영상인데요.

영상을 보시면 마치 아이언맨의 자비스처럼, 인공지능이 영상을 보면서 음성으로 설명도 해주고 문제 풀이를 해주는 모습을 보여줍니다.

아마 이 구글 제미니 시연 영상을 보시고 충격을 받으신 분이 적지 않으리라 생각합니다.

기존에도 GPT4가 뛰어난 성능으로 여러 분야에서 활용되고 있지만 구글 제미니 처럼 비디오. 이미지, 음성 등 여러가지 종류의 데이터를 능숙하게 다루는것은 신선한 충격이기 때문입니다.

실제로 구글 제미니는 GPT4는 물론이고 사람 전문가 보다 높은 MMLU벤치마크 점수를 낸다고 발표했습니다.

(전문가가 아닌 일반인은 이미 인공지능이 앞선지 꽤 되었습니다)

그런데 이 데모 영상이 다소 과장된 연출이란것 아시나요?

구글은 자체적인 기술블로그를 통해서 구글 제미니의 데모영상이 어떻게 만들어졌는지를 밝혔는데요,

영상에서는 사람이 하는 행동을 비디오로 입력하고 구글 제미니가 음성으로 대답하는것 처럼 나왔지만,

실제로는 비디오가 아닌 사진이 입력되었고 출력으로 텍스트가 나오는 방식으로 동작했습니다.

이는 GPT-4V와 크게 다르지 않은, 다소 실망스러운 모습입니다.

특히 실망스러운 점은 구글 제미니가 멀티모달, 즉 단순 텍스트 뿐만 다루는 것이 아니라 이미지나 비디오, 오디오 등을 다룰수 있다는 점을 전면에 내새웠다는 것입니다.

구글의 Gemini가 GPT-4에 비해 한참 늦게 발표되었고 가장 성능이 좋은 Ultra모델의 경우 내년 초에 출시하는 만큼 많은 개선을 기대했던 분들에게는 다소 아쉬운 소식이지 않을까 싶습니다.

저는 앞으로 더 많은 인공지능 소식으로 찾아오겠습니다.

감사합니다.

(단신) ChatGPT Plus 가입 다시 가능 (6)	2023.12.17
SDXL Turbo 상업적 이용 가능! Stability AI 멤버십 공개 (3)	2023.12.16
인공지능의 성적표 - MMLU에 대해 알아봅시다 (2)	2023.12.14
애플워치 다음은 이것? 애플 출신들이 만든 AiPin (4)	2023.12.04
실시간 번역의 시대가 왔다! Meta, Seamless 발표 (3)	2023.12.02

인공지능 써보는 블로그