Geoffrey A. Fowler, chroniqueur tech du Washington Post, a effectué une expérience pour le savoir. Il a donné à ce nouvel outil accès aux données de toute une décennie. En tout, il s’agit de 29 millions de pas et 6 millions de mesures de battements cardiaques qui avaient été enregistrés dans son application Apple Health. Il a ensuite demandé au bot d’évaluer sa santé, ou plus précisément sa santé cardiaque.
Le verdict fut sans appel : l’IA lui a attribué un « F » (dans le système américain, le « F » est la plus mauvaise note possible).
« J’ai paniqué et je suis allé faire un jogging », écrit Fowler dans son article. Il a ensuite envoyé ce rapport de ChatGPT à son médecin. La réponse de ce dernier s’est avérée bien plus rassurante : le risque de Fowler d’avoir une crise cardiaque est en effet si faible que son assurance ne paierait probablement même pas un test supplémentaire pour réfuter l’IA.
ChatGPT Health : « Ce n’est pas prêt pour offrir des conseils médicaux »
Fowler a ensuite de nouveau demandé à l’IA d’évaluer sa santé cardiaque. À ce moment, le verdict a changé de manière spectaculaire. Tout à coup, la note est passée à un D (3ème plus mauvaise note). Fowler a continué à poser des questions par la suite et a observé que la note oscillait entre un F et un B (2ème meilleure note). Le journaliste a ensuite montré les résultats à Eric Topol, cardiologue professionnel et expert en IA dans le domaine médical. Son verdict a été brutal :
C’est sans fondement. Ce n’est pas prêt pour offrir des conseils médicaux.
Topol a porté un jugement tout aussi sévère sur les variations arbitraires dans les évaluations : ce type de jugement hasardeux est « totalement inacceptable ».
Le danger est évident : de tels outils imprécis et incorrects pourraient déclencher une anxiété extrême chez des personnes en bonne santé ou, à l’inverse, bercer d’illusions les personnes ayant de réels problèmes de santé.
L’IA interprète souvent les données de manière erronée
ChatGPT a mal analysé les données pour des raisons bien précises. Premièrement, l’IA a fortement basé son évaluation négative sur la valeur de consommation maximale d’oxygène. Il s’agit pourtant d’une valeur que même Apple qualifie d' »estimation ». Des chercheurs indépendants ont également constaté que ces estimations pouvaient être sous-estimées de 13 % en moyenne.
Deuxièmement, l’IA a interprété les variations du rythme cardiaque au repos de Fowler comme des signes d’une mauvaise santé et lui a conseillé de parler à son médecin concernant une « augmentation importante ». Ce faisant, elle a négligé un facteur décisif : les variations se produisaient chaque fois que le journaliste recevait un nouveau modèle d’Apple Watch doté de capteurs améliorés.
Le médecin par l’IA a la mémoire courte
ChatGPT Health a traité ces « données floues » comme des faits médicaux clairs, en omettant le contexte critique qu’un expert humain aurait immédiatement reconnu. Même lorsque Fowler a offert à la machine ses dossiers médicaux officiels provenant du cabinet médical, la note n’est grimpée que jusqu’à atteindre un simple « D ». Ceci constitue une preuve supplémentaire indiquant que le problème central n’est pas la quantité de données, mais le manque de capacité d’analyse.
Au cours de diverses discussions, ChatGPT a oublié à plusieurs reprises des informations personnelles importantes sur Fowler, notamment son sexe, son âge et ses signes vitaux actuels. Et même lorsque l’IA avait accès aux derniers résultats de ses tests sanguins, elle ne les incluait parfois pas dans l’analyse. Quand il s’agit d’un outil destiné à fournir des informations personnelles sur la santé, nous avons là une lacune fondamentale. En effet, il est nécessaire d’avoir une compréhension cohérente de l’individu pour effectuer une évaluation pertinente de la santé de celui-ci.
Où en sommes-nous dans le domaine de la santé par IA ?
Cette expérience s’inscrit dans le cadre d’une tendance inquiétante : les entreprises technologiques mettent sur le marché des produits utilisant l’IA qui sont peu précis au mieux, ou « dangereux » au pire. Le problème ne se limite pas à OpenAI et ChatGPT Health. Le robot concurrent Claude de la maison Anthropic a également attribué un C à la santé cardiaque de Fowler et s’est appuyé sur la même logique erronée.
De plus, ces services ne sont pas soumis à des lois strictes sur la protection des données de santé comme HIPAA aux États-Unis. Cette expérience est donc un important rappel à l’ordre et soulève une question cruciale pour l’avenir : à qui faire confiance si une IA donne de mauvais conseils en matière de santé ? Comment pouvons-nous renforcer la sûreté et la fiabilité des innovations futures ?
Qu’en est-il pour vous ? Utilisez-vous déjà l’IA pour suivre les données de santé ou pour répondre à des questions sur la santé ?