최근에 논란이 되었던 구글 Gemini는 Gemini Ultra의 MMLU 스코어가 GPT-4와 사람 전문가의 점수를 뛰어 넘었다고 홍보했는데요, 과연 이 MMLU 가 무엇인지 이번 포스트를 통해 알아봅시다. MMLU란 무엇인가MMLU(Massive Multitask Language Understanding)는 인공지능의 다양한 지식과 문제 해결 능력을 평가하는 도구입니다. 이 벤치마크는 과학, 기술, 공학, 수학(STEM), 인문학, 사회과학 등 약 57개의 다양한 과목에 걸친 질문들로 구성되어 있습니다. 이 질문들은 초등학생 수준부터 전문가 수준까지 다양한 난이도를 가지고 있습니다. 제로샷 퓨샷MMLU가 특별한 이유는 '제로샷(zero-shot)'과 '퓨샷(few-shot)' 성능을 측정하기 때문입니..