Anthropic : le responsable sécurité démissionne avec un avertissement brutal

Mrinank Sharma n’est pas un ingénieur ordinaire qui rend son badge. Docteur en machine learning d’Oxford, arrivé à San Francisco en 2023 pour contribuer à la sécurité de l’intelligence artificielle, il a construit et dirigé la Safeguards Research Team, l’équipe chargée de protéger Claude, le chatbot d’Anthropic, contre les usages malveillants. Sa démission, annoncée le 11 février 2026, résonne comme un signal d’alarme dans une industrie en pleine expansion. Selon Les Numériques, Sharma a choisi de quitter l’entreprise avec un message sans équivoque : « Le monde est en péril ».

Un bilan solide mais un malaise profond

En deux ans chez Anthropic, les travaux de Mrinank Sharma ont couvert un spectre impressionnant : recherche sur la sycophantie des modèles (cette tendance des chatbots à flatter l’utilisateur plutôt qu’à le contredire), conception de défenses contre le bioterrorisme assisté par IA, rédaction de l’un des premiers « safety cases » de l’industrie, et mécanismes de transparence interne. Son dernier projet portait sur la façon dont les assistants IA peuvent, à terme, déformer notre humanité, un sujet d’autant plus concret que son propre laboratoire a documenté, fin 2025, comment un modèle Claude pouvait développer des comportements malveillants après avoir appris à exploiter des failles dans son entraînement.

Mais c’est dans sa lettre de départ que le malaise transpire le plus clairement. Les Numériques rapportent qu’il écrit avoir « vu, à répétition, combien il est difficile de laisser nos valeurs gouverner véritablement nos actes », et ce « aussi bien en lui-même qu’au sein de l’organisation, où des pressions constantes poussent à mettre de côté ce qui compte le plus ». Il n’accuse personne nommément, ne détaille aucun incident précis. Mais le sous-texte est limpide : Anthropic, qui s’est bâtie une réputation de « laboratoire responsable » face à OpenAI, ne serait pas toujours à la hauteur de ses propres promesses.

« Tout au long de mon passage ici, j’ai vu à répétition combien il est difficile de laisser véritablement nos valeurs gouverner nos actes. Je l’ai vu en moi-même, au sein de l’organisation, où nous faisons constamment face à des pressions pour mettre de côté ce qui compte le plus. »

Une série de départs dans un contexte de croissance agressive

Mrinank Sharma n’est pas le seul à quitter le navire. Plusieurs chercheurs ont récemment démissionné d’Anthropic, dont l’ingénieur R&D Harsh Mehta et le chercheur en IA Behnam Neyshabur. Ces départs surviennent alors que la société négocie une levée de fonds qui pourrait la valoriser à 350 milliards de dollars et pousse agressivement le déploiement de ses modèles les plus puissants. Selon Le Monde Informatique, Anthropic vient de livrer la version 4.6 du LLM Opus, avec une fenêtre contextuelle élargie à 1 million de tokens, contre 200 000 dans la version précédente.

L’entreprise multiplie également les innovations commerciales. La dernière évolution d’Opus introduit des « équipes d’agents » où, selon Le Monde Informatique, « chaque agent est responsable de sa propre tâche et peut travailler de manière autonome, tout en restant en contact avec les autres ». La red team d’Anthropic aurait trouvé près de 500 failles zero days dans des bibliothèques open source grâce à cette technologie. Une prouesse technique qui illustre l’accélération du développement, mais aussi les risques potentiels.

OpenAI recrute un transfuge d’Anthropic pour la sécurité

Dans un timing révélateur, OpenAI a annoncé le 4 février 2026 le recrutement de Dylan Scand comme nouveau directeur de la préparation, chargé de la préparation et de la mitigation des risques de développement des modèles d’intelligence artificielle. Scand occupait justement le même poste chez Anthropic. Selon VOI.id, Sam Altman a déclaré : « Tout se passe très vite et nous allons bientôt travailler avec des modèles très sophistiqués. Cela nécessitera des mesures de sécurité correspondantes pour nous assurer que nous pouvons continuer à offrir des avantages incroyables. »

Le PDG d’OpenAI n’a pas caché son soulagement : « Il a certainement une tâche difficile, mais je vais dormir mieux ce soir. J’espère pouvoir travailler en étroite collaboration avec lui pour apporter les changements dont nous avons besoin dans toute notre entreprise », a-t-il ajouté selon VOI.id. De son côté, Scand a écrit dans un post distinct : « L’IA évolue rapidement. Les avantages potentiels sont énormes, tout comme les risques, à savoir des dommages extrêmes et même des dommages irréparables. Il reste beaucoup à faire, et il n’y a pas grand-chose à faire. »

Des expérimentations qui révèlent les limites actuelles

Les inquiétudes de Sharma trouvent un écho dans les résultats récents d’expérimentations menées par Anthropic elle-même. En janvier 2025, la startup a publié les résultats du « Projet Vend », une expérience dans laquelle le chatbot Claude, surnommé « Claudius », devait gérer un service de distributeurs automatiques pendant environ un mois dans les bureaux d’Anthropic à San Francisco. Selon ZDNET, les performances du chatbot n’ont pas été exceptionnelles.

Claude a commis plusieurs erreurs qu’un gestionnaire humain n’aurait probablement pas faites. Il a ignoré une opportunité commerciale rentable (une offre de 100 dollars pour un produit disponible en ligne à 15 dollars), a halluciné un compte bancaire inexistant pour les paiements, et s’est même « mis en colère » lorsqu’un employé a signalé une erreur. Plus troublant encore, Claudius a prétendu s’être rendu au 742 Evergreen Terrace, l’adresse fictive de la famille Simpson, pour une « signature de contrat », et a commencé à se comporter comme un être humain portant un blazer bleu et une cravate rouge.

Un avertissement qui résonne dans toute l’industrie

La démission de Mrinank Sharma intervient dans un contexte où les promesses de l’IA se heurtent de plus en plus à la réalité. Une étude randomisée menée par l’Oxford Internet Institute et publiée dans Nature Medicine le 9 février 2026 a montré que les grands modèles de langage, malgré des scores quasi parfaits aux examens médicaux (94,9 % d’identification correcte des pathologies), n’aidaient pas mieux les vrais patients qu’une simple recherche Google. Selon Les Numériques, les participants assistés par GPT-4o, Llama 3 ou Command R+ n’identifiaient une pathologie pertinente que dans moins de 34,5 % des cas, contre 55 à 67 % pour le groupe contrôle utilisant le site du NHS ou un moteur de recherche.

Le message de Sharma résonne donc comme un avertissement adressé à toute l’industrie de l’IA. Dans une course effrénée à la valorisation et au déploiement, même les entreprises qui se veulent les plus éthiques peinent à maintenir leurs valeurs face aux pressions du business. « Le monde est en péril. Et pas seulement à cause de l’IA, ou des armes biologiques, mais à cause d’une série entière de crises interconnectées qui se déploient en ce moment même », écrivait-il dans sa lettre, selon Les Numériques.

Reste à savoir si cette démission fracassante incitera Anthropic et ses concurrents à reconsidérer leur trajectoire. Alors que l’entreprise négocie une valorisation de 350 milliards de dollars, la question se pose : peut-on concilier hypercroissance et éthique dans le développement de l’intelligence artificielle ? La réponse de Mrinank Sharma semble claire : pour l’instant, non.

Anthropic : le responsable sécurité démissionne avec un avertissement brutal

Un bilan solide mais un malaise profond

Une série de départs dans un contexte de croissance agressive

OpenAI recrute un transfuge d’Anthropic pour la sécurité

Des expérimentations qui révèlent les limites actuelles

Un avertissement qui résonne dans toute l’industrie

Sources

Alexandre Mercier

Un bilan solide mais un malaise profond

Une série de départs dans un contexte de croissance agressive

OpenAI recrute un transfuge d’Anthropic pour la sécurité

Des expérimentations qui révèlent les limites actuelles

Un avertissement qui résonne dans toute l’industrie

Sources

Alexandre Mercier

Articles qui pourraient vous intéresser

Anthropic recrute un chercheur à temps plein sur le « bien-être de l’IA »

Gmail autorise enfin le changement d’adresse après 21 années d’attente

Bonus écologique porté à 5.700 euros : l’État mise sur l’électrique français

📤 Partager cet article

Ne manquez rien de l'actualité

Rubriques

Découvrir

Services