Mini-guide : Créer un corpus documentaire pour le RAG (PIAG)


1. Paramétrage du corpus

1.1. Préparation des documents

  • Formats acceptés :
  • DOCX, PPTX, PDF (non scanné), XLSX, TXT, HTML, MD, CSV, etc.
  • ⚠️ Exclure : PDF scannés (sans OCR), images sans texte, fichiers > 25 Mo.
  • Astuce : Utilisez l’outil OCR ministériel pour convertir les PDF scannés en texte.Voir aussi notre rubrique les outils pour disposer d'autres outils de traitement de vos fichiers PDF.

  • Structuration :

  • Découper les gros documents (ex. : rapports de 100+ pages) en sections logiques (chapitres, annexes).
  • Supprimer les éléments inutiles : pages blanches, en-têtes/pieds de page, signatures.
  • Nommage des fichiers :

    AAAAMMJJ_TitreTypeDocument_Auteur_Version.ext
    Exemple : 20260115_GuideRAG_FicheTechnique_DNUM_V1.pdf
    

  • Métadonnées (à renseigner pour chaque document) :

Champ Exemple
Titre "Guide RAG - Bonnes pratiques"
Auteur "DNum/SG"
Date "2026-01-15"
Version "V2"
Thématique "IA Générative"
Statut "Validé"
Licence "Licence Ouverte Etalab 2.0"
Sensibilité "Public" / "Restreint"

1.2. Création du corpus dans le PIAG

Accéder au module RAG

  • Se connecter au PIAG.
  • Sélectionner le menu "Corpus documentaires"

RAG_menu

  • cliquer sur le bouton "Créer un corpus"

rag_bouton_creer

Remplir les informations

  • Nom du corpus : Court et explicite (ex. : Réglementation_Eau_2026).
  • Description : Préciser le périmètre, les thèmes couverts, et les publics cibles.
  • Sensibilité : Cocher si le corpus contient des données sensibles (→ utilisation obligatoire de Mistral).

rag_formulaire_creation

Importer les documents

  • Glisser-déposer les fichiers préparés (max 1000 documents/corpus).
  • Vérifier que l’ingestion se déroule sans erreur (durée estimée : ~1000 pages en 5 min).

Gestion des droits

  • Partage nominatif : Ajouter des adresses email (attention à la casse !).
  • Partage par entité :
    • Sélectionner "Entité et ses sous-entités" pour inclure les sous-structures (ex. : SG/DNum). Le choix de "Entité" restreint la sélection aux seuls agents directement rattachés à l'entité choisie : si je choisis dans ce cas 'SG/DNum', les agents des sous-directions de la DNum ne verront pas mon corpus.

2. Bonnes pratiques & recommandations

2.1. Constitution du corpus

À faire : - Privilégier les données "froides" : Documents stables (lois, guides, doctrines) plutôt que des données fréquemment mises à jour (ex. : notes hebdomadaires). - Éviter les doublons : Une seule version par document (la plus récente). - Hiérarchiser les sources : - Soit créer plusieurs corpus thématiques (ex. : un corpus "Réglementation" + un corpus "Notes internes"). - Soit préciser la hiérarchie dans le prompt (ex. : "En cas de contradiction, priorise les textes réglementaires").

À éviter : - Mélanger des documents hétérogènes (ex. : brouillons + textes officiels). - Inclure des fichiers non validés ou obsolètes. - Dépasser 1000 documents/corpus (risque de bruit et de coûts inutiles).


2.2. Maintenance & gouvernance

  • Désigner un·e responsable :
  • Rôle : Mettre à jour le corpus, supprimer les versions obsolètes, ajouter les nouvelles.
  • Exemple : Un·e documentaliste ou un·e référent·e métier.
  • Planifier des revisions :
  • Fréquence adaptée à la stabilité des données (ex. : trimestrielle pour les données "chaudes").
  • Outils : Utiliser un tableau de suivi (ex. : fichier Excel "METADONNEES").
  • Partage mutualisé :
  • Éviter les silos : Privilégier les corpus partagés entre services (ex. : un corpus "RH" géré par la DRH et utilisé par toutes les DREAL).
  • Règle : Le producteur du corpus en assure la maintenance.

2.3. Optimisation pour le RAG

  • Chunking :
  • Le PIAG découpe automatiquement les documents en chunks (morceaux de texte).
  • Conseil : Structurer les documents avec des titres/clés pour faciliter l’indexation (ex. : # 1. Définitions, ## 1.1. RGPD).
  • Documents de contexte :
  • Ne pas inclure dans le corpus : Glossaires, FAQ, tables de correspondance.
  • À joindre au prompt : Ces fichiers doivent être lus en intégralité par l’IA (ex. : un tableau Acronyme | Définition).
  • Tests & évaluation :
  • Comparer les réponses du RAG avec celles d’un·e expert·e métier (via un jeu de questions/réponses de référence).
  • Exemple de prompt test :
    "À partir du corpus [Nom], réponds à cette question : [Question].
    Cite les sources (titre + date). Si aucune info n'est disponible, écris : 'Aucune réponse dans le corpus'."
    

3. Ressources utiles

A retenir

"Un bon corpus RAG = des documents pertinents, stables, bien structurés et maintenus à jour. La qualité des réponses dépend à 80% de la qualité du corpus !"


Paramètres d’affichage

Choisissez un thème pour personnaliser l’apparence du site.