Méthodologie

Comment les programmes deviennent comparables

Cette page explique, sans jargon inutile, comment les textes publiés sur les sites officiels sont transformés en pages lisibles, en données structurées, puis en réponses synthétiques sourcées.

1. Partir des sources officielles

Le point de départ est toujours le site public du candidat ou de son mouvement. Les pages de programme, les livrets et les documents PDF sont identifiés, puis copiés localement sous une forme exploitable. Chaque extrait conserve son lien d’origine afin que l’on puisse revenir au texte officiel.

2. Reconstruire une version lisible

Les contenus récupérés sur le web sont souvent dispersés entre plusieurs pages, menus, blocs graphiques ou fichiers. Ils sont donc réorganisés en un programme complet, avec un sommaire, des chapitres, des sections, des mesures et des liens vers les sources.

L’objectif n’est pas de réécrire le programme, mais de le rendre plus facile à lire et à citer.

3. Produire un corpus analysable

En parallèle de la page HTML, le texte est découpé en petits blocs : titre, paragraphe, mesure, section ou thème. Ce découpage permet à un outil d’analyse de retrouver précisément le passage utile plutôt que de parcourir tout un programme d’un seul bloc.

Chaque bloc garde ses métadonnées : candidat, titre, chapitre, URL source, PDF éventuel et ordre d’apparition.

4. Transformer les textes en empreintes sémantiques

Pour chercher dans les programmes, le système ne se contente pas de comparer des mots exacts. Il transforme les passages en représentations numériques appelées embeddings. Deux textes proches par le sens ont alors des représentations proches, même s’ils n’emploient pas exactement les mêmes mots.

Cela permet par exemple de rapprocher une question sur les data centers de passages parlant de cloud public, d’hébergement souverain ou d’infrastructures numériques.

5. Poser une question et retrouver les passages utiles

Quand une question est posée, elle est elle aussi transformée en empreinte sémantique. Le système cherche ensuite les passages les plus proches dans les programmes. Les résultats sont regroupés par candidat avec leur chapitre, leur score de proximité et leur source.

6. Générer une synthèse sourcée

Une intelligence artificielle de rédaction reçoit ensuite la question et les passages retrouvés. Elle doit répondre uniquement à partir de ces extraits, signaler les limites quand les textes ne suffisent pas, comparer les candidats quand c’est possible et citer les sources utilisées.

La synthèse produite est enregistrée afin de ne pas recalculer inutilement la même réponse et de pouvoir la publier sur le site.

7. Garder les limites visibles

Ce travail facilite la lecture et la comparaison, mais il ne remplace pas les sources officielles. Les réponses dépendent des programmes disponibles, de la qualité du découpage et des passages retrouvés. C’est pourquoi chaque synthèse garde des liens vers les documents d’origine.