Pourquoi les modèles de langage hallucinent-ils ?
Un article intitulé « Why language models hallucinate » a été publié sur le blog d’OpenAI. L’entreprise y explique précisément ce qui entraîne des hallucinations chez les modèles linguistiques comme Gemini, Grok ou ChatGPT. Pour ceux qui ne connaissent pas le sujet, le mot « halluciner » signifie ici que le modèle linguistique ne connaît pas la bonne réponse et ne la donne pas, mais qu’il invente très souverainement une réponse alternative, qui s’avère être complètement fausse.
En fait, la réponse à la question de savoir pourquoi les LLM (Large Language Models) hallucinent est d’une simplicité déconcertante : c’est parce qu’on leur a appris à le faire ! Lors de leur formation, les LLM sont entraînés à donner n’importe quelle réponse à tout prix.
OpenAI souligne que les hallucinations ne sont pas un simple bug, mais une conséquence systémique des modèles de langage qui sont entraînés et évalués sur la base de probabilités. Et parce qu’ils sont optimisés pour donner des réponses aussi précises que possible, ces réponses précises sont récompensées, et ce même si elles sont fausses ! En conséquence, pour un modèle entraîné de cette manière, il s’agit là d’une réponse nettement plus correcte qu’un « je ne sais pas ».
Voici un exemple de la raison pour laquelle l’IA considère une hallucination comme correcte
Imaginons un travail en classe pour lequel vous n’avez pas étudié. Vous devez écrire quelque chose dans la case d’un exercice, mais vous n’avez aucune idée de la réponse. Si vous n’écrivez rien, vous n’obtiendrez aucun point pour l’exercice. Si vous écrivez quelque chose qui vous semble cohérent, vous avez deux chances :
- Soit ce que vous avez écrit est juste, et vous obtenez alors tous les points.
- Ou bien vous vous trompez, mais vous avez peut-être un élément correct, qui vous rapportera moins de points.
Dans le pire des cas, vous écrivez des bêtises, mais c’est moins grave que de laisser la case vide. C’est exactement comme cela que fonctionne une IA : elle évalue les probabilités et préfère dire quelque chose de théoriquement possible plutôt que d’expliquer qu’elle n’en a absolument aucune idée.
Les tests de référence, pour lesquels les modèles d’IA sont également optimisés et qui fonctionnent de la même manière que dans l’exemple cité, ont donc un rôle dans l’état actuel des choses, car les LLM sont incités à deviner, ce qui entraîne ces hallucinations.
Et que peut-on faire contre ces hallucinations ?
Les chercheurs impliqués dans cette étude s’accordent à dire qu’il est impossible de les empêcher à 100 %. Cependant, il existe au moins des idées pour minimiser le risque. Pour cela, il suffirait que les réponses erronées soient effectivement évaluées négativement lors de l’entraînement. En revanche, les questions qui n’ont pas reçu de réponse devraient également être notées positivement, du moins partiellement.
OpenAI déclare à ce sujet : « Il existe une solution simple : il faut pénaliser davantage les erreurs faites en toute confiance plutôt que l’incertitude et attribuer des points partiels pour les justifications appropriées de cette incertitude ». Il s’agit ainsi d’éviter ces suppositions faites à tâtons en récompensant l’IA lorsqu’elle préfère ne pas donner de réponse plutôt que de donner une réponse potentiellement erronée. Mais cela nécessite d’implémenter de nouveaux tests et méthodes, ce qui nécessitera beaucoup de temps.
Qu’est-ce que cela signifie pour nous ? Que nous devons continuer à faire très attention à ce que ChatGPT ou tout autre modèle d’IA nous propose. C’est d’ailleurs un très bon conseil de manière générale que de ne pas suivre aveuglément les réponses que l’on reçoit, que celles-ci proviennent d’une IA ou d’une personne.
0commentaire