Un LLM de base, aussi puissant soit-il, ne connaît pas votre entreprise. Il ne sait pas ce qu’il y a dans vos contrats-cadre, vos procédures internes, vos comptes rendus de comité de direction ou vos bases de connaissance métier. Le RAG (Retrieval-Augmented Generation) est la technique qui comble ce fossé.
Comment fonctionne le RAG ?
Le RAG fonctionne en deux temps. D’abord, une phase d’indexation : vos documents sont découpés en fragments, transformés en vecteurs numériques (embeddings) et stockés dans une base vectorielle. Ensuite, à chaque requête, le système recherche les fragments les plus pertinents par rapport à la question posée, et les injecte dans le contexte du LLM avant qu’il génère sa réponse.
Le résultat : un assistant qui répond avec vos données, pas avec des généralités — et qui peut citer ses sources précisément.
Les cas d’usage les plus courants en entreprise
- Assistant juridique interne : recherche dans les contrats, jurisprudence interne, modèles
- Support RH : réponses aux questions des collaborateurs sur la convention collective, les process
- Knowledge base commerciale : qualification des leads, réponses aux objections basées sur vos argumentaires
- Veille réglementaire : analyse automatique de nouveaux textes par rapport à vos pratiques actuelles
- Documentation technique : réponses aux questions des développeurs ou techniciens sur vos specs internes
Stack technique recommandée pour un déploiement souverain
Pour une organisation souhaitant déployer un RAG sans dépendance cloud américaine, la combinaison suivante s’est imposée comme standard : Ollama pour servir le LLM en local (Mistral, LLaMA ou Qwen selon les besoins), Qdrant ou Weaviate comme base vectorielle open source, et LangChain ou LlamaIndex pour orchestrer le pipeline RAG.
L’interface utilisateur peut être assurée par Open WebUI ou une interface custom selon le contexte. L’ensemble peut être déployé sur un serveur dédié de taille modeste pour des usages de 20 à 50 utilisateurs simultanés.
Les pièges à éviter
Le RAG n’est pas magique. La qualité des réponses dépend directement de la qualité de l’indexation. Des documents mal structurés, des PDF scannés non OCRisés ou des bases documentaires mal maintenues donnent des résultats médiocres. La phase de préparation des données est souvent la plus longue du projet.