Des prestataires proposent « d’entrainer ChatGPT sur vos données », mais cela ne sert… à rien !
ChatGPT est en train de remplacer Google, et il est alors tentant de vouloir vivre la même expérience sur les données propriétaires d’une entreprise.
Pour concevoir un LLM, le modèle d’IA qui se cache derrière ChatGPT, il faut passer par deux grandes étapes techniques.
🛠 La première étape, c’est le pré-entrainement. Elle est comparable à l'éducation de base d'une personne.
Dans cette phase, un LLM absorbe une quantité massive de données - des téraoctets de textes, des milliards de milliards de phrases ! Pendant des semaines, à l’aide d’immense ferme de serveurs, l’IA réalise une abstraction statistique de ces données : elle apprend alors des faits, des concepts, des idées.
C'est un peu comme si une personne allait à l'école et apprenait une variété de sujets, des mathématiques à l'histoire en passant par la science et la littérature. Le résultat est un modèle doté d'une compréhension générale et polyvalente du monde et du langage humain.
⚙️ Après le pré-entraînement, le LLM ne connait pas de tâches spécifiques, il a juste une connaissance statistique brute. C'est ici que l’entrainement entre en jeu (fine-tuning).
Cette seconde étape est similaire à une formation professionnelle ou à une spécialisation. On va nourrir le modèle d’exemple d’instruction et de génération (plusieurs dizaines de milliers), et l’IA va caler ses paramètres pour imiter cette tâche.
Le fine-tuning permet donc d’ajuster le modèle pour qu'il puisse répondre de manière particulière, améliorer ses performances de génération dans des domaines spécifiques, ou adopter un style ou un format spécifique.
💥 Le pré-entrainement, c’est le fond, l’entrainement, c’est la forme.
Cela veut dire que si vous voulez disposez d’un LLM d’entreprise pour qu’il intègre nativement la connaissance de l’entreprise, vous devez disposez de To de données (de qualité), et… de quelques millions d’euros pour le pré-entrainement !
Alors pourquoi certaines ESN parlent d’entrainement ?
Parce qu’avant novembre 2022, c’était la nature même d'un projet IA !
✨ Mais les LLM sont une disruption dans l’histoire de l’IA : vous avez des modèles avec des performances cognitives inédites qui sont sur étagères, prêts à l’emploi !
Enfin, pourquoi l’étape du fine-tuning sert (presque) à rien avec un modèle avancé comme GPT-4 : ce LLM a une telle capacité cognitive que pour travailler sur le format de sortie, il suffit de bien formuler la demande (prompt).
Si vous voulez utiliser vos données propriétaires avec un LLM, c’est fort heureusement possible - cela s’appelle le RAG (Retrieval Augmented Generation), un ensemble de techniques qui permettent d'alimenter le contexte à traiter par l'IA.
Bref, attention aux marchands de rêves !
Retour à l'accueil