Mini-guide : Créer un corpus documentaire pour le RAG (PIAG)
1. Paramétrage du corpus
1.1. Préparation des documents
- Formats acceptés :
DOCX,PPTX,PDF(non scanné),XLSX,TXT,HTML,MD,CSV, etc.- ⚠️ Exclure : PDF scannés (sans OCR), images sans texte, fichiers > 25 Mo.
-
Astuce : Utilisez l’outil OCR ministériel pour convertir les PDF scannés en texte.Voir aussi notre rubrique les outils pour disposer d'autres outils de traitement de vos fichiers PDF.
-
Structuration :
- Découper les gros documents (ex. : rapports de 100+ pages) en sections logiques (chapitres, annexes).
- Supprimer les éléments inutiles : pages blanches, en-têtes/pieds de page, signatures.
-
Nommage des fichiers :
AAAAMMJJ_TitreTypeDocument_Auteur_Version.ext Exemple : 20260115_GuideRAG_FicheTechnique_DNUM_V1.pdf -
Métadonnées (à renseigner pour chaque document) :
| Champ | Exemple |
|---|---|
| Titre | "Guide RAG - Bonnes pratiques" |
| Auteur | "DNum/SG" |
| Date | "2026-01-15" |
| Version | "V2" |
| Thématique | "IA Générative" |
| Statut | "Validé" |
| Licence | "Licence Ouverte Etalab 2.0" |
| Sensibilité | "Public" / "Restreint" |
1.2. Création du corpus dans le PIAG
Accéder au module RAG
- Se connecter au PIAG.
- Sélectionner le menu "Corpus documentaires"

- cliquer sur le bouton "Créer un corpus"

Remplir les informations
- Nom du corpus : Court et explicite (ex. :
Réglementation_Eau_2026). - Description : Préciser le périmètre, les thèmes couverts, et les publics cibles.
- Sensibilité : Cocher si le corpus contient des données sensibles (→ utilisation obligatoire de Mistral).

Importer les documents
- Glisser-déposer les fichiers préparés (max 1000 documents/corpus).
- Vérifier que l’ingestion se déroule sans erreur (durée estimée : ~1000 pages en 5 min).
Gestion des droits
- Partage nominatif : Ajouter des adresses email (attention à la casse !).
- Partage par entité :
- Sélectionner
"Entité et ses sous-entités"pour inclure les sous-structures (ex. :SG/DNum). Le choix de "Entité" restreint la sélection aux seuls agents directement rattachés à l'entité choisie : si je choisis dans ce cas 'SG/DNum', les agents des sous-directions de la DNum ne verront pas mon corpus.
- Sélectionner
2. Bonnes pratiques & recommandations
2.1. Constitution du corpus
✅ À faire : - Privilégier les données "froides" : Documents stables (lois, guides, doctrines) plutôt que des données fréquemment mises à jour (ex. : notes hebdomadaires). - Éviter les doublons : Une seule version par document (la plus récente). - Hiérarchiser les sources : - Soit créer plusieurs corpus thématiques (ex. : un corpus "Réglementation" + un corpus "Notes internes"). - Soit préciser la hiérarchie dans le prompt (ex. : "En cas de contradiction, priorise les textes réglementaires").
❌ À éviter : - Mélanger des documents hétérogènes (ex. : brouillons + textes officiels). - Inclure des fichiers non validés ou obsolètes. - Dépasser 1000 documents/corpus (risque de bruit et de coûts inutiles).
2.2. Maintenance & gouvernance
- Désigner un·e responsable :
- Rôle : Mettre à jour le corpus, supprimer les versions obsolètes, ajouter les nouvelles.
- Exemple : Un·e documentaliste ou un·e référent·e métier.
- Planifier des revisions :
- Fréquence adaptée à la stabilité des données (ex. : trimestrielle pour les données "chaudes").
- Outils : Utiliser un tableau de suivi (ex. : fichier Excel "METADONNEES").
- Partage mutualisé :
- Éviter les silos : Privilégier les corpus partagés entre services (ex. : un corpus "RH" géré par la DRH et utilisé par toutes les DREAL).
- Règle : Le producteur du corpus en assure la maintenance.
2.3. Optimisation pour le RAG
- Chunking :
- Le PIAG découpe automatiquement les documents en chunks (morceaux de texte).
- Conseil : Structurer les documents avec des titres/clés pour faciliter l’indexation (ex. :
# 1. Définitions,## 1.1. RGPD). - Documents de contexte :
- Ne pas inclure dans le corpus : Glossaires, FAQ, tables de correspondance.
- À joindre au prompt : Ces fichiers doivent être lus en intégralité par l’IA (ex. : un tableau
Acronyme | Définition). - Tests & évaluation :
- Comparer les réponses du RAG avec celles d’un·e expert·e métier (via un jeu de questions/réponses de référence).
- Exemple de prompt test :
"À partir du corpus [Nom], réponds à cette question : [Question]. Cite les sources (titre + date). Si aucune info n'est disponible, écris : 'Aucune réponse dans le corpus'."
3. Ressources utiles
- Promptothèque RAG : Modèles de prompts prêts à l’emploi.
- Les outils pour traiter les PDF : Tout les outils pour vous aider à intégrer les PDF.
- Les bonnes pratiques : Les bonnes pratiques d'utilisation de l'IA
- Support PIAG :
- Tchap : #PIAG-Infos.
A retenir
"Un bon corpus RAG = des documents pertinents, stables, bien structurés et maintenus à jour. La qualité des réponses dépend à 80% de la qualité du corpus !"