Le Guide des Bonnes Pratiques RAG - version courte

Version 0.4 – Novembre 2025 Ministère de la Transition Écologique

illustration_guide_RAG__1_

🔍 Le RAG est-il fait pour vous ?

Avant de vous lancer, vérifiez si le RAG est la solution adaptée à votre besoin.

Besoin Outil recommandé Pourquoi ?
Recherche d’un document public (arrêté, FAQ, article récent) ✅ Moteur de recherche classique (Google, intranet) Plus rapide, moins énergivore, optimisé pour la "retrouvabilité".
Rédaction, reformulation, traduction (mail, note, synthèse) ✅ LLM sans RAG (PIAG standard) Pas besoin d’interroger un corpus : le RAG alourdirait la réponse inutilement.
Analyse d’un gros document (rapport de 200 pages) ✅ LLM sans RAG + téléversement du fichier Le RAG découpe le document en chunks et risque de perdre le fil.
Réponse interne sourcée (règlementation, doctrine, guides métiers) RAG avec corpus dédié Idéal pour les données froides (stables, structurées, internes).

⚠️ À éviter avec le RAG : Données trop fréquemment mises à jour (ex. veille quotidienne). Documents non structurés (mails, brouillons, scans sans OCR). Corpus trop petits (< 10 documents) → Utilisez le PIAG sans RAG.


🚀 5 Étapes Clés pour Réussir Votre Projet RAG

(À adapter selon votre contexte)

1️⃣ Définir le cas d’usage

✅ Cas idéaux pour le RAG :

  • Référentiels juridiques (codes, circulaires, doctrines).

  • Guides méthodologiques (évaluation environnementale, Natura 2000).

  • Rapports techniques (DREAL, bilans régionaux).

  • Bases de connaissances internes (FAQ, procédures).

  • Documentation marchés publics (appels d’offres, subventions).

💡 Checklist pour valider votre corpus : Données froides (stables, mises à jour rares). Volume significatif (> 10 documents homogènes). Pertinence métier (besoin répété par plusieurs agents). Conformité RGPD (pas de données sensibles sans Mistral). Licence ouverte (pas de droits d’auteur restrictifs).

2️⃣ Constituer le corpus

📂 La constitution : Le fond et la forme

Critère Bonnes pratiques À éviter
Pertinence Documents officiels et validés (lois, rapports, notes de service). Brouillons, versions obsolètes.
Stabilité Données froides (peu de mises à jour). Données "chaudes" (veille quotidienne).
Format PDF texte (non scanné), DOCX, TXT. PDF scannés sans OCR, images.
Structure Titres, sous-titres, paragraphes clairs. Blocs de texte non segmentés.
Métadonnées Auteur, date, version, mots-clés, licence. Métadonnées manquantes.
Nommage Thématique_Type_Auteur_Date_Version.pdf (ex: Energie_Guide_DREAL_20251015_V1.pdf) Noms génériques (Document1.pdf).

🔄 Astuce : Utilisez PDFsam pour fusionner/diviser des PDF. Passez les scans via l’outil OCR du ministère. D'autres outils de type plugins navigateurs sont également à votre disposition sur la Promptothèque* : https://promptotheque.piag.din.gouv.fr/outils

📊 Gestion des corpus

  • Nettoyage : Supprimez les pages blanches, annexes inutiles, doublons.

  • Métadonnées : Utilisez le fichier Excel "METADONNEES" fourni par la DNUM.

  • Gouvernance :

  • Désignez un référent corpus pour valider les mises à jour.

  • Planifiez des révisions périodiques (ex. tous les 6 mois).

  • Traçabilité : Archivez les anciennes versions et documentez les modifications.

3️⃣ Optimiser le corpus

Problème Solution
Données trop dynamiques Séparez les données froides (RAG) et chaudes (dashboard, base dynamique).
Hallucinations de l’IA Ajoutez un glossaire au prompt pour lever les ambiguïtés.
Réponses trop longues Demandez un format structuré (liste à puces, tableau).
Sources non citées Exigez dans le prompt : "Cite toujours le document et la page source."

4️⃣ Rédiger des prompts efficaces

🔑 Différences entre un prompt classique et un prompt RAG

Élément LLM classique RAG
Source Connaissances générales du modèle (données d’entraînement). Corpus documentaire local (PDF, DOCX, bases internes).
Structure du prompt Auto-suffisant (tout le contexte doit être dans le prompt). 3 parties : Instructions système + Contexte documentaire + Question utilisateur.
Traçabilité Faible (réponses génériques). Forte (références documentaires précises).
Risque d’hallucination Élevé (le modèle invente si incertain). Réduit (mais dépend de la qualité du corpus).

📝 Éléments clés d’un bon prompt RAG

  1. Contextualisez :

  2. "Dans le cadre des missions d’une DREAL, réponds comme un expert en réglementation environnementale."

  3. Guidez la sélection des corpus :

  4. "Utilise uniquement le corpus [NomDuCorpus] pour cette question."

  5. Exigez des sources :

  6. "Cite toujours le titre du document, la page et la date de la source."

  7. Contrôlez le format :

  8. "Réponds sous forme de tableau comparatif en 3 colonnes : [Critère 1] / [Critère 2] / [Source]."

  9. Gérez les limites :

  10. "Si l’information est absente du corpus, réponds : ‘Aucune donnée disponible’ sans inventer."

📌 Exemple de prompt type : "Tu es un assistant pour les agents du MTE. Réponds uniquement à partir du corpus [Réglementation_Eau_2025]. Question : Quelles sont les nouvelles règles pour les prélèvements d’eau en zone Natura 2000 ? Format : Liste numérotée avec (1) la règle, (2) l’article du code concerné, (3) la date d’application. Sources : Cite le document et la page pour chaque point. Si absence : Indique ‘Information non trouvée dans le corpus’."

📎 Documents à joindre au prompt (sans les intégrer au corpus !)

  • Glossaire (pour éviter les ambiguïtés).

  • FAQ (tableau Question/Réponse).

  • Template de réponse (modèle à suivre).

⚠️ Attention : Ne joignez pas de données sensibles (utilisez Mistral si nécessaire). Évitez les prompts trop génériques → l’IA pourrait ignorer le RAG.

5️⃣ Tester et évaluer

  • Comparez les réponses :

  • Posez la même question à un expert métier et au RAG, puis comparez.

  • Évaluez la pertinence :

  • La réponse est-elle sourcée ? Précise ? À jour ?

  • Ajustez le corpus :

  • Ajoutez/supprimez des documents en fonction des retours.

  • Documentez les tests :

  • Conservez un journal des prompts et des résultats (ex. tableau Excel).


🛠 Outils et Ressources

Besoin Outil Lien
Fusionner des PDF PDFsam Basic Lien
OCR (PDF scannés) Outil OCR ministériel Lien
Prompts prêts à l’emploi Promptothèque DNUM Lien
Plugins navigateurs de traitement de fichiers Promptothèque - les outils Lien
Échanges et support Tchap "PIAG-Infos" Lien
Webinaires et FAQ Intranet DNUM Lien

📚 Définitions Clés

Terme Définition Exemple
LLM Modèle de langage capable de générer du texte (ex. Mistral, ChatGPT). Rédaction d’emails, synthèses, traductions.
RAG Système combinant recherche documentaire + génération par IA pour des réponses sourcées. Interroger un corpus de lois pour une réponse juridique.
Chunk Morceau de texte (½ page A4) issu d’un document, indexé séparément pour la recherche. Un paragraphe d’un arrêté découpé et vectorisé.
Données froides Informations stables (peu mises à jour), idéales pour le RAG. Codes juridiques, guides techniques.
Données chaudes Informations dynamiques (mises à jour fréquentes), à éviter dans le RAG. Veille quotidienne, actualités.

📢 Contacts et Accompagnement

  • Accompagnement utilisateurs (DNUM/UNI/DRC) :

  • Sylvie Mompart : sylvie.mompart@developpement-durable.gouv.fr

  • Caroline Nguyen : caroline.nguyen@developpement-durable.gouv.fr

  • Gilles Fournel : gilles.fournel@developpement-durable.gouv.fr

  • Patrice Lauret : patrice.lauret@developpement-durable.gouv.fr

  • Support technique (DNUM/MSP/DS) :

  • FAQ PIAG

  • Tchap : #PIAG-Infos


🎯 Checklist Finale avant Lancement

  • [ ] J’ai validé que le RAG est adapté à mon besoin (vs moteur de recherche ou LLM seul).
  • [ ] Mon corpus est pertinent, stable et conforme (RGPD, licences).
  • [ ] Les documents sont lisibles par machine (PDF texte, pas de scans).
  • [ ] J’ai ajouté des métadonnées (auteur, date, version).
  • [ ] J’ai désigné un référent corpus pour les mises à jour.
  • [ ] Mes prompts sont précis et exigent des sources.
  • [ ] J’ai testé avec des questions réelles et comparé aux réponses d’experts.
  • [ ] J’ai documenté mes tests et ajustements.

💬 Besoin d’aide ? Rejoignez le canal Tchap #PIAG-Infos ou contactez les conseillers DRC.


💡

Retrouvez le guide en version détaillée sur l'Intranet :

https://intra.dnum.sg.e2.rie.gouv.fr/guide-de-bonnes-pratiques-du-rag-au-sein-du-piag-a13110.html


Ce guide est évolutif ! Vos retours nous aident à l’améliorer. Envoyez vos suggestions à drc.uni.dnum.sg@developpement-durable.gouv.fr.


Paramètres d’affichage

Choisissez un thème pour personnaliser l’apparence du site.