Google BARD accède à Internet, oui mais...
Un des avantages clés mis en avant par Google pour BARD, son équivalent de ChatGPT, est son accès à Internet. Mais l'accès à Internet améliore-t-il réellement la qualité des réponses de ce type d'IA ?
Commençons par un rappel technique.
Les Modèles de Langage à Grande Échelle (LLM) génèrent du texte en prédisant le mot suivant - ou plutôt le "token" en termes techniques. Cependant, l'IA ne "comprend" pas au sens strict, elle utilise simplement les relations statistiques entre les mots qu'elle a apprises pendant sa phase d'entraînement.
Ces LLM exploitent un mécanisme d'attention : le mot suivant est prédit en fonction de tous les mots précédents. Le tout premier mot est généré en fonction de votre phrase initiale, puis le second en fonction de cette même phrase + le premier mot, et ainsi de suite. Par conséquent, plus votre phrase initiale est riche en mots et en sémantique, plus vous favorisez a priori une génération de mots spécifique et singulière.
👉 C'est pourquoi il est important d'engager un dialogue avec l'IA, car toutes les interactions contribuent au résultat final.
Ces IA ont parcouru une quantité astronomique de textes (on parle de 1000 milliards de tokens pour GPT-4, selon les rumeurs), leur permettant de générer du contenu à la qualité "humaine". À une lecture rapide, il est difficile de distinguer une réponse d'IA d'une réponse humaine. Cependant, cela ne signifie pas que l'information est nécessairement correcte. 🤕
Plus un LLM a "lu" des données de qualité sur un sujet donné, plus "le mot suivant" sera spécifique à ce sujet - autrement dit, plus sa modélisation pourra reproduire un résultat crédible. C'est ici que le terme "crédible" prend tout son sens : un LLM n'a pas de base de données, il n'a pas de faits enregistrés !
La connaissance d'un LLM est donc un effet induit (corrélation ne signifie pas causalité). Cependant, #ChatGPT ou BARD génèrent du texte de manière si naturelle qu'on peut être trompé, en pensant qu'on a affaire à une base de connaissances alors qu'il s'agit plutôt d'une base de "raisonnement", une sorte d'intuition sous stéroïdes.
Revenons à notre question initiale : BARD, Bing et ChatGPT avec le plug-in d'accès au web peuvent intégrer dans leur prompt des données "fraîches" provenant d'Internet. Cela peut sembler être la solution pour garantir la qualité des réponses, mais la réalité est malheureusement différente...
Souvenez-vous : un LLM prédit le mot suivant en fonction de son modèle ! Peu importe si on lui donne des données factuelles exactes dans son prompt, le résultat dépendra de la qualité du modèle, et donc de sa conception en amont.
Un LLM ayant accès à Internet peut donc continuer à "halluciner" !
Et c'est ce qui se passe avec Google BARD. L'accès à Internet ne garantit pas la qualité des générations d'une #IA !