Humanity’s Last Exam, le “test de QI” que les IA les plus puissantes n’arrivent pas à battre

Dans la mythologie grecque, qui est l’arrière grand-père maternel de Jason ? Si vous séchez, peut-être préférerez-vous répondre à une question sur les syllabes fermées se terminant par une consonne en hébreu biblique, en vous basant sur la tradition de prononciation tibérienne. Voulez-vous plutôt tester votre connaissance des réactions en cascade péricyclique thermique d’ester méthylique ? Ou bien sur les chaînes de Markov et les graphes ?

Ces questions ne proviennent pas des annales d’examen d’une université d’élite, mais d’Humanity Last Exam. “Le dernier examen académique que nous voulons faire passer aux intelligences artificielles”, précise Long Phan, chercheur en IA au Center of AI Safety et l’un des créateurs de ce test, pensé comme l’ultime frontière entre les humains et les machines.

LIRE AUSSI : L’intelligence artificielle générale, moteur d’une nouvelle ère économique

Des questions de niveau doctorat

Les tests pour mesurer les capacités des AI, ou benchmarks, étaient utilisés bien avant l’arrivée de l’intelligence artificielle générative pour déterminer si des produits étaient prêts à être déployés. Mais avec l’arrivée des LLM, les large langage models qui propulsent les outils comme ChatGPT, ils ont vite été dépassés. MMLU, dévoilé en 2020, avait ainsi été conçu pour être plus difficile que les autres benchmarks, et testait les IA sur 16 000 questions demandant de la culture générale ainsi que des capacités de raisonnement. Dès sa sortie, en novembre 2022, ChatGPT 3.5 affichait néanmoins 70 % de bonnes réponses.

.

Source link

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *