Anthropic : une fuite révèle les risques de la future IA “Claude Mythos” pour la cybersécurité

C’est une simple erreur de configuration qui a conduit à la fuite d’informations confidentielles. Et révélé au grand jour l’un des secrets les mieux gardés d’Anthropic : la mise au point d’une nouvelle IA, déjà source de vives inquiétudes. Baptisée Claude Mythos, ou Capybara, il s’agirait, selon l’entreprise, du “modèle le plus performant” qu’elle ait “jamais créé”. “Un changement radical” par rapport aux IA existantes, confie même son porte-parole.

Ce sont deux chercheurs en sécurité informatique qui ont découvert cette fuite, avant qu’elle ne soit confirmée par le média américain Fortune jeudi 26 mars. Mais plus que les performances de Mythos vantées dans les fichiers mis en ligne par erreur, ce sont surtout ses risques cyber qui ont mis le monde de la tech en alerte. Dans les documents ayant fuité, le modèle est ainsi décrit comme “actuellement bien en avance sur tout autre modèle d’IA en matière de capacités cyber” et capable d’exploiter des vulnérabilités logicielles “à une échelle qui dépasse largement les efforts des défenseurs”.

Risques cyber identifiés

En d’autres termes : Anthropic reconnaît avoir développé un outil dont les capacités offensives potentielles – si des hackers venaient à s’en emparer – dépassent ce que les équipes de sécurité seraient en mesure de contrer, explicite Numerama. Par mesure de précaution, Mythos sera dans un premier temps mis à disposition de cyberdéfenseurs uniquement, afin de mieux appréhender ses failles potentielles. “Nous souhaitons redoubler de prudence et bien comprendre les risques qu’il représente, même au-delà de ce que nous apprenons de nos propres tests”, écrit l’entreprise dans l’article de blog qui a fuité.

LIRE AUSSI : Sauveurs ou complices ? Face aux hackers, le business trouble des négociateurs de rançons

Le risque est pris très au sérieux par les acteurs de la tech, alors que l’utilisation de l’IA pour des cyberattaques est déjà une réalité. Anthropic elle-même en a déjà fait les frais : en novembre dernier, l’entreprise avait rapporté avoir subi un piratage de son IA Claude Code par un groupe lié au gouvernement chinois. Les hackeurs avaient ainsi tenté d’infiltrer une trentaine de cibles mondiales, dont des entreprises technologiques, des institutions financières et gouvernementales et des fabricants de produits chimiques.

Bataille judiciaire contre le Pentagone

Cette fuite intervient alors qu’Anthropic est en pleine bataille judiciaire avec le Pentagone, aux États-Unis. Jeudi, une juge fédéral de San Francisco a bloqué une directive du Pentagone qui interdisait l’utilisation d’Anthropic au sein de l’armée et des agences fédérales, au motif que son IA Claude constituerait “un risque pour la sécurité nationale”. Mettre au ban Anthropic au motif que l’entreprise risquerait de contribuer à des “actes de sabotage” est “tout à la fois contraire à la loi, arbitraire et capricieux”, a déclaré la magistrate jeudi, faisant savoir que le Pentagone avait sept jours pour faire appel.

LIRE AUSSI : Iran : comment l’IA générative est devenue une arme stratégique pour faire la guerre

Le différend entre les deux parties remonte à février, lorsque le PDG d’Anthropic Dario Amodei a demandé que le contrat passé avec le Pentagone fasse mention de “restrictions d’utilisation” éthiques, sur la surveillance de masse des citoyens américains et l’intégration à des armes autonomes. Comble du paradoxe : quelques heures à peine après l’avoir interdit, le Wall Street Journal révélait que le Pentagone avait utilisé Claude pour lancer la campagne de bombardements en Iran.

Source link

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *