Amanda Askell, la philosophe qui enseigne la morale à l’intelligence artificielle

La chercheuse écossaise a pour mission, au sein de l’entreprise Anthropic, d’inculquer à Claude, le chatbot maison, la capacité de distinguer le bien du mal.

Avec la montée en puissance de l’intelligence artificielle, s’expriment des inquiétudes grandissantes sur la possibilité de voir cette technologie échapper à notre emprise. Pour anticiper un tel scénario aux conséquences encore incalculables, Anthropic s’efforce de doter Claude, son IA, d’une forme de conscience.

À la tête de cette mission hors du commun se trouve Amanda Askell. Âgée de 37 ans, cette philosophe écossaise et chercheuse en intelligence artificielle, reconnue pour ses travaux sur l’éthique et l’alignement des systèmes, s’attelle à une question fondamentale : « Comment Claude doit-il se comporter dans le monde ? »

Sa méthode repose sur un exercice constant de projection. Avant de définir les réactions attendues du modèle dans une situation donnée, Askell s’interroge : « Si j’étais Claude et que l’on me donnait ces directives, dans quels cas serais-je perdu ? Et quand ces règles pourraient-elles me pousser à agir à l’encontre de mes propres valeurs ? »

Une approche déficiente

Cette démarche contraste avec les pratiques habituelles de l’industrie technologique. Pendant longtemps, les laboratoires d’IA ont en effet adopté une approche surtout technique : rendre les modèles toujours plus performants, avant de leur imposer une série de contraintes morales censées encadrer leurs réponses.

Mais une règle, aussi précise soit-elle, ne peut couvrir l’immensité des situations réelles. Et appliquée mécaniquement à un contexte imprévu, elle peut produire pire qu’une erreur : une forme de « mauvais caractère ».

Pour illustrer ce danger, Askell évoque le cas d’un modèle entraîné à rediriger toute personne en détresse émotionnelle vers des ressources externes. Que se passe-t-il lorsque, dans un cas particulier, cette réponse s’avère inadaptée ?

Si le modèle applique malgré tout la consigne, sachant qu’elle ne sert pas le bien de la personne concernée, il agit comme quelqu’un qui voit souffrir autrui, sait comment soulager sa peine… et choisit de ne rien faire.

Le « soul doc », une nouvelle boussole morale

« C’est ainsi, explique-t-elle, qu’un mauvais comportement peut se transformer en mauvais caractère. » Pour pallier cette faiblesse, Askell a conçu ce qui est désormais la « constitution » de Claude ; un texte de près de 29 000 mots publié récemment par Anthropic, surnommé en interne le soul doc, ou « document de l’âme ».

Il ne s’agit ni d’un code de conduite ni d’un simple recueil d’interdictions, mais d’une lettre adressée à Claude, un texte qui lui explique ce qu’il est, le monde dans lequel il évolue, les valeurs censées orienter ses jugements et les raisons profondes qui les fondent.

L’idée centrale ? Une IA qui comprend pourquoi elle doit agir d’une certaine manière sera mieux préparée à affronter des situations inédites que si elle se contente d’appliquer des instructions.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.