Combien de mots connaissez-vous pour décrire la neige ? Poudreuse, fondante, craquelée, fraiche, verglacée ?
Selon une légende, les inuits possèderaient plus de 50 mots pour décrire la neige. Par exemple il existe un mot précis pour décrire la neige qui s’accumule sur les branches, des mots pour décrire la neige selon la taille des cristaux qui la compose et/ou la capacité de la neige à produire certains types d’igloos (solides, isolés).
L’objet ici n’est pas de creuser le nombre exact de ces mots et de trancher sur la réalité de cette légende, mais de décrire de façon simple comment fonctionne un LLM à partir de ces mots.
Un LLM (Large Language Model) ne pense pas, il prédit le mot suivant.
Contrairement à un humain, un LLM ne manipule pas d’idées abstraites en elles-mêmes. Il fonctionne sur un principe statistique : à chaque mot donné, quel est le mot le plus probable qui suit ?
Son entraînement repose sur des milliards de textes, issus de sources variées (livres, articles, forums, documents techniques, conversations). Il apprend en identifiant les structures du langage, les connexions entre mots et les contextes d’usage.
👉 Exemple simple :
Si vous tapez « Il fait froid, je vais mettre… », l’IA sait que les mots les plus probables sont « un manteau », « une écharpe » ou « des gants », car ce sont les associations qu’elle a vues le plus souvent dans ses données d’entraînement.
Mais ce qui rend un LLM puissant, c’est sa capacité à générer des phrases qui semblent neuves, en recomposant de façon complexe les éléments du langage. Il ne se contente pas d’assembler des morceaux de texte déjà existants, il crée une réponse plausible en temps réel.
C’est ici qu’intervient la notion de large modèle. Un LLM est « large » surtout par sa capacité à modéliser des liens entre des milliards de concepts. Là où un petit modèle pourrait simplement répondre en suivant des règles fixes, un LLM généralise : il sait que « un pont suspendu » et « un câble d’acier » sont souvent liés, il comprend que « une demande urgente » est plus proche de « un besoin immédiat » que de « une simple question ».
Plus le modèle est large, plus il capture des relations complexes entre les mots.
Pour conclure, voici 15 mots reliés aux LLM et un clin d’oeil de chatGPT qui m’a aidé à construire cet article.
- Token – Unité de texte analysée par un LLM (mot, syllabe, caractère).
- Fine-tuning – Ajustement d’un LLM sur un domaine spécifique.
- Embedding – Représentation mathématique des mots pour capturer leurs relations.
- Paramètres – Nombre de connexions dans le réseau de neurones du modèle.
- Corpus – Ensemble de textes utilisés pour entraîner un LLM.
- Probabilité – Base du fonctionnement d’un LLM, qui prédit le mot suivant.
- Contexte – Séquence de mots utilisés pour générer une réponse pertinente.
- Hallucination – Réponse erronée générée par un LLM en l’absence d’information fiable.
- Prompt – Texte d’entrée donné à un LLM pour influencer sa sortie.
- Latence – Temps de réponse d’un LLM après une requête.
- Attention – Mécanisme clé (Self-Attention) des Transformers pour analyser le contexte.
- Biais – Influence des données d’entraînement sur les réponses d’un LLM.
- Interprétabilité – Capacité à comprendre comment un LLM prend ses décisions.
- Modèle réduit – Version allégée d’un LLM pour des usages spécifiques.
- Adaptabilité – Capacité d’un LLM à être ajusté selon un besoin particulier.
Mon dialogue final avec chatGPT, qui a bien progressé sur le seconde degré :

Add comment