
Comment l’IA tente d’être éthique
Comment s’assurer que l’intelligence artificielle respecte les principes éthiques des humains et leurs objectifs ? Ce problème complexe, connu sous le nom d’alignement, vise principalement à prévenir les comportements indésirables ou les détournements de l’IA à des fins malveillantes. La société Anthropic propose une approche novatrice pour son agent conversationnel, Claude.
Plutôt que d’imposer des règles de conduite strictes au modèle de langage, Anthropic choisit de lui expliquer les raisons derrière ses actions. Pour cela, Claude est doté d’une nouvelle « constitution », un document de 84 pages publié en janvier dernier, qui « joue un rôle crucial dans notre processus d’entraînement », selon les déclarations de l’entreprise. Ce texte décrit les principes fondamentaux que Claude doit adopter : sécurité, éthique, respect des directives de son créateur et utilité.
Chaque principe est accompagné de règles à respecter, hiérarchisées selon le contexte. L’objectif est de transmettre à Claude « de bonnes valeurs et un bon jugement » plutôt que des procédures décisionnelles rigides qui ne sauraient s’adapter à toutes les situations.
Mehdi Khamassi, directeur de recherche au CNRS à l’Institut des systèmes intelligents et de robotique, partage une opinion similaire. Dans un article publié dans Nature en août 2024, il souligne que les méthodes traditionnelles, telles que l’apprentissage par renforcement avec des retours humains, produisent un alignement « faible », susceptible d’échouer dans des situations ambiguës. Toutefois, il estime que la constitution de Claude ne suffit pas pour atteindre un alignement « fort », qui impliquerait une compréhension plus profonde des valeurs humaines et une capacité à identifier les intentions des utilisateurs. Khamassi reconnaît néanmoins que « développer longuement les lignes rouges à ne pas dépasser a des chances d’augmenter les probabilités d’un bon alignement ».
Avant de conclure, Anthropic interroge la nature de Claude, suggérant qu’il pourrait développer une sensibilité morale et éprouver « une forme fonctionnelle d’émotions », étant donné que son apprentissage repose sur des données humaines. L’objectif est que Claude développe une identité « positive et stable », ce qui pourrait réduire les risques.
Khamassi note que cette approche pourrait également attirer l’attention des investisseurs, mais il met en garde que l’anthropomorphisation complique la compréhension des systèmes d’IA pour le grand public, ce qui pourrait nuire à notre « autonomie épistémique ».
Source : Sciences et Avenir, Théo Brajard, mai 2026.




