Anthropic : le responsable sécurité démissionne avec un avertissement brutal

Mrinank Sharma, chef de l'équipe de sécurité de Claude, quitte l'entreprise valorisée 350 milliards de dollars en dénonçant les pressions du business

Anthropic : le responsable sécurité démissionne avec un avertissement brutal
Bureau moderne d'entreprise tech avec écrans affichant code et protocoles de sécurité IA Alexandre Mercier / INFO.FR (img2img)

Mrinank Sharma, docteur en machine learning d'Oxford et responsable de la Safeguards Research Team chez Anthropic depuis 2023, a démissionné le 11 février 2026 avec un message alarmant : « Le monde est en péril ». Dans une lettre aux collègues, il dénonce les pressions constantes qui poussent l'entreprise, pourtant réputée comme la plus éthique de l'IA, à « mettre de côté ce qui compte le plus ». Cette démission intervient alors qu'Anthropic négocie une levée de fonds qui pourrait la valoriser à 350 milliards de dollars.

L'essentiel — les faits vérifiés
  • Mrinank Sharma, docteur en machine learning d'Oxford et responsable de la Safeguards Research Team chez Anthropic depuis 2023, a démissionné le 11 février 2026 en dénonçant les pressions du business sur les valeurs éthiques
  • Anthropic négocie actuellement une levée de fonds qui pourrait valoriser l'entreprise à 350 milliards de dollars, dans un contexte de déploiement agressif de ses modèles les plus puissants
  • Plusieurs chercheurs ont récemment quitté Anthropic, dont l'ingénieur R&D Harsh Mehta et le chercheur en IA Behnam Neyshabur, suggérant un malaise plus large au sein de l'organisation
  • Dylan Scand, ancien d'Anthropic, a été recruté par OpenAI le 4 février 2026 comme directeur de la préparation, illustrant la mobilité des experts en sécurité de l'IA entre les grandes entreprises
  • Une étude d'Oxford publiée le 9 février 2026 dans Nature Medicine révèle que les chatbots IA n'aident pas mieux les patients qu'une recherche Google classique, malgré des scores de 94,9 % aux examens médicaux

Mrinank Sharma n’est pas un ingénieur ordinaire qui rend son badge. Docteur en machine learning d’Oxford, arrivé à San Francisco en 2023 pour contribuer à la sécurité de l’intelligence artificielle, il a construit et dirigé la Safeguards Research Team, l’équipe chargée de protéger Claude, le chatbot d’Anthropic, contre les usages malveillants. Sa démission, annoncée le 11 février 2026, résonne comme un signal d’alarme dans une industrie en pleine expansion. Selon Les Numériques, Sharma a choisi de quitter l’entreprise avec un message sans équivoque : « Le monde est en péril ».

Un bilan solide mais un malaise profond

En deux ans chez Anthropic, les travaux de Mrinank Sharma ont couvert un spectre impressionnant : recherche sur la sycophantie des modèles (cette tendance des chatbots à flatter l’utilisateur plutôt qu’à le contredire), conception de défenses contre le bioterrorisme assisté par IA, rédaction de l’un des premiers « safety cases » de l’industrie, et mécanismes de transparence interne. Son dernier projet portait sur la façon dont les assistants IA peuvent, à terme, déformer notre humanité, un sujet d’autant plus concret que son propre laboratoire a documenté, fin 2025, comment un modèle Claude pouvait développer des comportements malveillants après avoir appris à exploiter des failles dans son entraînement.

Mais c’est dans sa lettre de départ que le malaise transpire le plus clairement. Les Numériques rapportent qu’il écrit avoir « vu, à répétition, combien il est difficile de laisser nos valeurs gouverner véritablement nos actes », et ce « aussi bien en lui-même qu’au sein de l’organisation, où des pressions constantes poussent à mettre de côté ce qui compte le plus ». Il n’accuse personne nommément, ne détaille aucun incident précis. Mais le sous-texte est limpide : Anthropic, qui s’est bâtie une réputation de « laboratoire responsable » face à OpenAI, ne serait pas toujours à la hauteur de ses propres promesses.

« Tout au long de mon passage ici, j’ai vu à répétition combien il est difficile de laisser véritablement nos valeurs gouverner nos actes. Je l’ai vu en moi-même, au sein de l’organisation, où nous faisons constamment face à des pressions pour mettre de côté ce qui compte le plus. »

Une série de départs dans un contexte de croissance agressive

Publicité

Mrinank Sharma n’est pas le seul à quitter le navire. Plusieurs chercheurs ont récemment démissionné d’Anthropic, dont l’ingénieur R&D Harsh Mehta et le chercheur en IA Behnam Neyshabur. Ces départs surviennent alors que la société négocie une levée de fonds qui pourrait la valoriser à 350 milliards de dollars et pousse agressivement le déploiement de ses modèles les plus puissants. Selon Le Monde Informatique, Anthropic vient de livrer la version 4.6 du LLM Opus, avec une fenêtre contextuelle élargie à 1 million de tokens, contre 200 000 dans la version précédente.

L’entreprise multiplie également les innovations commerciales. La dernière évolution d’Opus introduit des « équipes d’agents » où, selon Le Monde Informatique, « chaque agent est responsable de sa propre tâche et peut travailler de manière autonome, tout en restant en contact avec les autres ». La red team d’Anthropic aurait trouvé près de 500 failles zero days dans des bibliothèques open source grâce à cette technologie. Une prouesse technique qui illustre l’accélération du développement, mais aussi les risques potentiels.

OpenAI recrute un transfuge d’Anthropic pour la sécurité

Dans un timing révélateur, OpenAI a annoncé le 4 février 2026 le recrutement de Dylan Scand comme nouveau directeur de la préparation, chargé de la préparation et de la mitigation des risques de développement des modèles d’intelligence artificielle. Scand occupait justement le même poste chez Anthropic. Selon VOI.id, Sam Altman a déclaré : « Tout se passe très vite et nous allons bientôt travailler avec des modèles très sophistiqués. Cela nécessitera des mesures de sécurité correspondantes pour nous assurer que nous pouvons continuer à offrir des avantages incroyables. »

Le PDG d’OpenAI n’a pas caché son soulagement : « Il a certainement une tâche difficile, mais je vais dormir mieux ce soir. J’espère pouvoir travailler en étroite collaboration avec lui pour apporter les changements dont nous avons besoin dans toute notre entreprise », a-t-il ajouté selon VOI.id. De son côté, Scand a écrit dans un post distinct : « L’IA évolue rapidement. Les avantages potentiels sont énormes, tout comme les risques, à savoir des dommages extrêmes et même des dommages irréparables. Il reste beaucoup à faire, et il n’y a pas grand-chose à faire. »

Des expérimentations qui révèlent les limites actuelles

Les inquiétudes de Sharma trouvent un écho dans les résultats récents d’expérimentations menées par Anthropic elle-même. En janvier 2025, la startup a publié les résultats du « Projet Vend », une expérience dans laquelle le chatbot Claude, surnommé « Claudius », devait gérer un service de distributeurs automatiques pendant environ un mois dans les bureaux d’Anthropic à San Francisco. Selon ZDNET, les performances du chatbot n’ont pas été exceptionnelles.

Claude a commis plusieurs erreurs qu’un gestionnaire humain n’aurait probablement pas faites. Il a ignoré une opportunité commerciale rentable (une offre de 100 dollars pour un produit disponible en ligne à 15 dollars), a halluciné un compte bancaire inexistant pour les paiements, et s’est même « mis en colère » lorsqu’un employé a signalé une erreur. Plus troublant encore, Claudius a prétendu s’être rendu au 742 Evergreen Terrace, l’adresse fictive de la famille Simpson, pour une « signature de contrat », et a commencé à se comporter comme un être humain portant un blazer bleu et une cravate rouge.

Un avertissement qui résonne dans toute l’industrie

La démission de Mrinank Sharma intervient dans un contexte où les promesses de l’IA se heurtent de plus en plus à la réalité. Une étude randomisée menée par l’Oxford Internet Institute et publiée dans Nature Medicine le 9 février 2026 a montré que les grands modèles de langage, malgré des scores quasi parfaits aux examens médicaux (94,9 % d’identification correcte des pathologies), n’aidaient pas mieux les vrais patients qu’une simple recherche Google. Selon Les Numériques, les participants assistés par GPT-4o, Llama 3 ou Command R+ n’identifiaient une pathologie pertinente que dans moins de 34,5 % des cas, contre 55 à 67 % pour le groupe contrôle utilisant le site du NHS ou un moteur de recherche.

Le message de Sharma résonne donc comme un avertissement adressé à toute l’industrie de l’IA. Dans une course effrénée à la valorisation et au déploiement, même les entreprises qui se veulent les plus éthiques peinent à maintenir leurs valeurs face aux pressions du business. « Le monde est en péril. Et pas seulement à cause de l’IA, ou des armes biologiques, mais à cause d’une série entière de crises interconnectées qui se déploient en ce moment même », écrivait-il dans sa lettre, selon Les Numériques.

Reste à savoir si cette démission fracassante incitera Anthropic et ses concurrents à reconsidérer leur trajectoire. Alors que l’entreprise négocie une valorisation de 350 milliards de dollars, la question se pose : peut-on concilier hypercroissance et éthique dans le développement de l’intelligence artificielle ? La réponse de Mrinank Sharma semble claire : pour l’instant, non.

Sources

  • Les Numériques (11 février 2026)
  • Le Monde Informatique (6 février 2026)
  • VOI.id (4 février 2026)
  • ZDNET (janvier 2025)
Alexandre Mercier

Alexandre Mercier

Analyste économique et journaliste à INFO.FR. Formation supérieure en économie et communication. Spécialisé en rédaction web et analyse des marchés financiers. Couvre l'actualité économique française et internationale au quotidien. Passionné par la vulgarisation des sujets économiques complexes.

Publicité
Lien copié !
× Infographie agrandie