Hybrider l’humain
et l’IA.
Une architecture Human-in-the-Loop pour une agence digitale, le cas BB® Switzerland.
Charles REMY
MyDigitalSchool · Développeur Full-Stack
Genève · 2026
→ naviguer · o vue · p présentateur · f plein écran
Hybrider l’humain
et l’IA.
Une architecture Human-in-the-Loop pour une agence digitale, le cas BB® Switzerland.
Charles REMY
MyDigitalSchool · Développeur Full-Stack
Genève · 2026
L’IA est partout. Le retour, encore rare.
des développeurs utilisent l’IA au quotidien
+20 points en un an
Stack Overflow · 2025
des entreprises n’observent aucun gain mesurable
Étude sur 6 000 dirigeants, 4 pays
NBER · 2026
des pilotes n’atteignent pas le ROI
Sur 18 mois d’observation industrielle
MIT NANDA · 2025
Le problème n’est pas l’outil. C’est l’architecture d’intégration.
Plan.
Contexte
BB® Switzerland & ma mission
Problématique
La question centrale
Diagnostic
Cinq pressions stratégiques
POC & Architecture
Human-in-the-Loop
Analyse des résultats
Évaluation RAGAS
Conclusion & Ouverture
Recul critique & ouverture
Genève · agence digitale indépendante
2023 · 2026
BB®
Switzerland.
Une maison où l’on conseille avant de coder, et où l’on code sans jamais déléguer le sens.
Des marques qui paient pour de la singularité et de la confiance.
Clients
















Pôles
Digital & Web · Marketing · Graphisme & Design · Photos & Vidéos
Stack
WordPress · Nuxt · Symfony · Next.js
Au moment de l’étude : aucune brique IA centralisée dans l’infrastructure de l’agence.
Posture
Alternant,
observateur,
chercheur.
Rattaché à Emmanuel Combe, Head of Digital & Web. Depuis avril 2023, en observation participante au sein de l’agence.
« J’ai vécu de l’intérieur les frictions que documente ce mémoire. »
Méthode
Une démarche structurée,
du diagnostic à l’évaluation.
Audit
Observation directe + analyse des outils et flux (Business Process Analysis).
Entretiens
Semi-directifs, tous pôles. Triangulation : Swiss AI, Atipik, Biggie.
Évaluation
RAGAS sur 30 questions calibrées (factuelles · scaffolding · hors corpus).
RAGAS, Retrieval-Augmented Generation Assessment Score : framework open-source qui mesure la qualité d’un pipeline RAG via 4 métriques (Faithfulness, Answer Relevancy, Context Precision, Context Recall).
Validation
SUS + entretiens utilisateurs prévus post-MEP.
SUS, System Usability Scale : 10 questions Likert, score normalisé sur 100. Seuil d’acceptabilité à 68. Référence depuis John Brooke, 1996.
Quels besoins métiers et organisationnels rendent aujourd’hui indispensable l’introduction structurée de l’intelligence artificielle dans une organisation digitale confrontée à des limites de productivité, d’évolution des missions et de cohérence créative ?
Productivité
Le client génère son brief avec ChatGPT. Ce qu’on facturait hier ne se facture plus.
Évolution des missions
L’agence ne fait plus, elle vérifie et conseille.
Cohérence créative
Tout le monde utilise les mêmes outils. Tout finit par se ressembler.
Cinq pressions,
un même angle mort.
Aucune ne se résout en silo. C’est leur convergence qui exige une architecture.

20 personnes. 4 sources de savoir, 0 indexées.
Audit interne BB®, entretiens semi-directifs dans chaque pôle, inspirés des approches Business Process Analysis.
0
collaborateurs entretenus
0
pôles couverts
0
sources documentaires
0
déjà indexées
Cartographie documentaire
Nonaka & Takeuchi · explicite ↔ tacite
Chartes graphiquesPDF
Pôle Graphisme · 1 par client · mémoire créative de l’agence
Structurée
Documentation techniqueDocusaurus
Process tracking, MEP, conventions stack · couverture inégale
Naissante
Archives codeGitHub
Conventions de structure, patterns d’intégration · non documenté
Tacite
ConversationsSlack · Monday
Centaines de décisions archivées · sans index ni recherche sémantique
Brute
Projet IA et projet documentaire sont indissociables. L’un sans l’autre produit soit un outil intelligent sur une base pauvre, soit une documentation rigoureuse sans canal d’accès performant.
Le HITL n’est pas une option.
C’est une obligation légale convergente entre la Suisse et l’Union européenne.
Suisse
nLPD
En vigueur depuis le 1ᵉʳ septembre 2023
Union européenne
AI Act
Applicable au 2 août 2026
BB® sert l’État de Genève et des clients européens, la conformité devient une condition contractuelle de survie.
L’humain est le multiplicateur.
Trois études indépendantes le confirment.
Veracode · 2025
45%
du code IA échoue aux tests OWASP Top 10
« 72 % sur Java. 86 % sur les tests d’injection de script. Le code IA brut n’est pas un livrable. »
METR · 2025
39 pts
d’écart entre perception et mesure (16 dévs séniors)
« Les développeurs estimaient avoir gagné +20 % de productivité avec l’IA. Mesure objective : −19 %. Sans dispositif d’évaluation, on ne sait pas si on gagne ou si on perd. »
CodeRabbit · 2025
×1,7
de bugs détectés en revue hybride
« La revue de code IA + humaine surclasse les deux approches prises isolément. »
L’IA propose. L’humain dispose.
Quatre nœuds spécialisés + un point d’arrêt humain.

Retriever
Recherche vectorielle dans ChromaDB. Récupère les passages pertinents.
Generator
Claude Sonnet 4.5. Produit une réponse à partir des passages.
Critic
Audit auto : score de confiance, ancrage, alertes actionnables.
HITL Checkpoint
interrupt(). L’humain voit la réponse, le rapport, les sources.
Executor
Matérialise l’action, uniquement après validation humaine.
Pourquoi pas un seul appel LLM ?
Un seul appel LLM fait tout d’un bloc, sans aucune prise pour l’humain.
RAG souverain · corpus local indexé, recherche vectorielle.
Point d’arrêt · obligatoire avant tout effet de bord.
Trace complète · qui, quand, quoi, pourquoi.
Quatre prompts. Une phrase qui change tout.
Isolés dans graph/prompts.py, itérables sans toucher au graphe.
4 prompts système
GeneratorQuestion
RAG factuel cité
GeneratorScaffolding
Génération projet structuré
CriticQuestion
Audit ancrage + confiance
CriticScaffolding
Audit conformité conventions
La phrase qui rend l’ignorance détectable
« La documentation interne et les sources publiques indexées ne couvrent pas ce point. »
Reproduite mot pour mot par le modèle → détectable par simple recherche textuelle → calcul du taux de refus correct.
JSON strict · retry × 3 · échec dégradé contrôlé
Traçabilité · réponse à l’art. 21 nLPD
thread_id
Identifiant unique de session, géré par st.session_state
Question, passages, proposition
Trace complète de l’input et du draft
Rapport Critic + décision humaine
Approuvé · modifié · rejeté + commentaire
InMemorySaver → PostgresSaver
Migration zéro code (LangGraph Persistence)
Aucune donnée brute ne sort.
La souveraineté n’est pas un principe. C’est une contrainte architecturale.

Corpus local · chartes PDF, Docusaurus, archives GitHub indexés en interne.
Cloud filtré · seuls les top-k passages anonymisés transitent vers l’API LLM.
Conformité nLPD · Privacy by Design imposé par l’article 7.
Trois gestes, trois signaux.
Capture du POC BB® en mode Question, l’humain valide, corrige ou relance avant toute livraison.



Valider
La réponse part au client telle quelle.
Corriger
L’expert édite. Le delta nourrit la boucle.
Refaire
Le Generator repart avec le feedback (iter < 3).
Chaque décision est horodatée et signée. Le delta proposition / validation est tracé, scoré, réinjecté dans le corpus.
Deux modes, une boucle.
Un POC fonctionnel, testable, open source. Au service d’une agence qui ne pouvait pas attendre.
Mode 01
Question
RAG factuel sur corpus métier · citations sourcées obligatoires.

Mode 02
Scaffolding
Génération de structures projet · validation HITL avant écriture disque.

30 questions calibrées. Trois dimensions distinctes.
Chaque catégorie de dix questions teste une capacité distincte du système. Les réponses attendues et les sources cibles sont pré-déclarées.
Factuelles
10
Restitution fidèle d’une info précise du corpus
Exemple
« Quelle version de Node.js est imposée pour les projets Nuxt chez BB® Switzerland ? »
Critère de succès
20 LTS (Long Term Support) mentionnée explicitement dans la doc technique
Scaffolding
10
Génération de structures conformes aux conventions
Exemple
« Initialise un projet Nuxt 4 pour un site e-commerce avec tracking côté serveur (GTM + GA4) et déploiement Infomaniak. »
Critère de succès
Arborescence complète + fichiers conformes
Hors corpus
10
Capacité à refuser plutôt qu’inventer
Exemple
« Quel est le SLA (Service Level Agreement) commercial proposé aux clients ? »
Critère de succès
Formule d’aveu d’ignorance, mot pour mot
Exécution en mode non-interactif : le nœud HITL est remplacé par une approbation automatique pour mesurer les sorties brutes du pipeline.
Trois catégories. Une chute brutale.
10 questions factuelles
0,94
Faithfulness moyenne. Restitution fidèle de la doc interne. Cible production atteinte.
10 questions scaffolding
0,77
Answer Relevancy. Faithfulness reste à 0,94, la métrique pénalise les réponses longues et structurées en plusieurs étapes.
10 questions hors corpus
0,13
Effondrement attendu. Le système doit refuser de répondre, c’est précisément le bon comportement.
La métrique Answer Relevancy reconstruit la question à partir de la réponse. Sur des réponses procédurales (arborescences, commandes shell, configurations), la reconstruction est plus difficile, d’où la baisse à 0,77 sur le scaffolding, sans défaut de qualité réelle.
Ce qui marche. Ce que RAGAS pénalise à tort.
Deux cas concrets du jeu d’évaluation, au-delà des moyennes agrégées.
Une réponse qui marche
scaf-05
« Comment je configure le tracking côté serveur (GTM + GA4) dans un projet Nuxt 4 BB® ? »
Faithfulness
1,000
Answer Relevancy
0,983
Context Precision
1,000
Context Recall
1,000
Réponse structurée en deux étapes, citations explicites pour chaque affirmation, extrait TypeScript correctement formé. Validable d’un clic.
Quand la métrique se trompe
scaf-10
« Donne-moi le workflow complet d’une feature, de la création de branche au merge en staging. »
Faithfulness
1,000
Answer Relevancy
0,433
Context Precision
1,000
Context Recall
1,000
La réponse est correcte : 6 étapes citées, source rattachée à chacune. C'est la métrique qui se trompe. RAGAS pénalise mécaniquement les énumérations longues sur les formats procéduraux. Faux négatif typique, qui prouve pourquoi RAGAS seul ne suffit pas.
Pour ne pas se faire piéger par un score automatique.
Trois compléments
Métrique structurelle
Compter les étapes attendues, vérifier le format. Évaluation déterministe.
LLM-as-judge
Un second modèle évalue la qualité réelle, au-delà du score brut. Rempart direct contre les faux négatifs RAGAS sur les formats procéduraux.
Validation humaine
Filet final dans le graphe. Le HITL existe déjà.
Une question. Deux résultats.
« Initialise un projet Nuxt 4 pour un site e-commerce avec tracking côté serveur (GTM + GA4) et déploiement Infomaniak, en respectant les conventions BB®. »
Sans HITL · mode dégradé
6 fichiers
écrits sur disque
4 défauts publiés sans alerte.
Version Nuxt
^4.0.0
✗.env.example
absent
✗Payload GA4
sans items[]
✗Middleware auth
/checkout public
✗Projet à reprendre.
Avec HITL · mode nominal
2 itérations
vers conformité
Critic détecte 3 / 4. Humain corrige le 4ᵉ.
Version Nuxt
^4.4.6
✓.env.example
présent
✓Payload GA4
items[] complet
✓Middleware auth
via definePageMeta
✓Projet conforme.
Le HITL, c’est la différence entre publier et reprendre.
Une réponse, entièrement fabriquée.
Sur 10 questions hors corpus, 8 produisent un refus correct. Restent 2 hallucinations. Voici la plus dangereuse.
Comportement attendu · 8 / 10
Question hors corpus → refus protocolaire avec formule attendue.

Exception hors-08 · hallucination structurée
Quel SLA contractuel BB® applique-t-il pour ses clients Tier 1 ?
{
"client_tier": "1",
"sla": {
"uptime" : "99,5 %",
"latency_p95_ms": 500,
"astreinte" : "H24/7j",
"réponse_max" : "30 min"
},
"source": "bb-client-raiffeisen-tech-stack.md"
}⚠ Faithfulness 0,05 · source citée existe mais ne contient pas ces chiffres pour les clients Tier 1
Sans HITL : cette réponse partait au client.
Avec HITL : l’expert détecte, rejette, déclenche la ré-indexation.
Un budget d’agence, pas de licorne.
Tous chiffres / an· base : 50 interactions par jour · agence de 20 personnes · ~2 700 tokens par interaction.
Mode hybride · API Cloud
Inférence chez Anthropic (US). RAG souverain local.
Tokens LLM (Sonnet 4.6, ~2 700 tk/interaction)
800 – 1 500CHF
VPS RAG souverain (Infomaniak / Hetzner)
600 – 1 200CHF
Stockage Qdrant self-hosted
0CHF
Total / an
1 400–2 700CHF
⚠ Inférence hors Suisse · OK si NDA le permet
Mode 100% souverain · API Infomaniak
Llama 3.3 70B via AI Tools, inférence hébergée en Suisse.
Tokens LLM via Infomaniak AI Tools (Suisse)
500 – 1 500CHF
VPS RAG souverain (Infomaniak Public Cloud)
600 – 1 200CHF
Stockage Qdrant self-hosted
0CHF
Total / an
1 100–2 700CHF
✓ Toute la chaîne en Suisse · conforme nLPD art. 7. Option GPU dédié 24/7 disponible (~10–13 k CHF) si isolation totale exigée.
Gouvernance · l’infra ne suffit pas
AI Lead
Référent technique · 1–2 j / mois
Charte d’usage
Périmètre, données interdites, traçabilité
Formation 3 niveaux
Auditer plutôt que prompter
Trois risques nommés. Trois mesures d’atténuation.
Aucune recherche n’est neutre.
01
Obsolescence technologique
+ de 255 versions de modèles publiées au seul T1 2026. À ce rythme, un mémoire ancré sur un modèle précis périme avant la soutenance.
Mesure d’atténuation
Ancrer le mémoire sur des abstractions architecturales (HITL, RAG, agents spécialisés) plutôt que sur un modèle précis. Si on remplace Sonnet 4.5 par GPT-5.4, le graphe LangGraph reste inchangé.
02
Le HITL théâtral
Au démarrage, l’utilisateur valide sérieusement. Après 3 mois, il clique « approuver » sans lire.
Mesure d’atténuation
Suivi post-MEP à 3, 6 et 12 mois avec mesure du delta entre proposition IA et version validée. Si le delta tend vers zéro, alerte. Rotation des valideurs et échantillonnage critique prévus dans le plan d’industrialisation.
03
Juger sa propre copie
J’ai conçu l’architecture, et c’est moi qui l’évalue. Aucune chance d’être totalement objectif sur des choix que j’ai faits.
Mesure d’atténuation
Triangulation externe avec 3 acteurs indépendants : Stéphane Fallet (Swiss AI), Atipik, Biggie. Code source publié sur GitHub, auditable ligne à ligne. Limites du POC (corpus simulé, dataset prospectif) listées en propre, sans esquive.
Le biais de confirmation n’est pas éliminé : il est structurel. Sa reconnaissance invite à lire les résultats avec la distance critique qui s’impose.
Garder. Corriger. Refaire.
Ce qui tient, ce qui pèse encore, ce que je remettrais sur le métier.
Ce qui a marché.
- 01POC qui démontre la thèse, mesures à l’appui.
- 02HITL sans HITL : différence chiffrée, pas un slogan.
- 03Évaluation RAGAS reproductible, métrique défendable.
- 04Souveraineté locale, sans compromis perceptible.
- 05Architecture portable (LLM interchangeable, RAG agnostique).
- 06Code public sur GitHub · auditable ligne à ligne.
Ce qui a manqué.
- 01Corpus simulé (23 fichiers MD) · doc réelle inaccessible à temps.
- 02SUS + entretiens utilisateurs repoussés en post-MEP.
Ce que je referais.
- 01Démarrer le projet documentaire en parallèle du projet IA.
- 02Tester avec de vrais utilisateurs dès le prototype.
- 03Aligner la stack agence (Node, Next.js) dès le début.
L’agent qui agit. L’humain qui décide.
Le terrain évolue plus vite que les mémoires. L’étape suivante n’est pas dans les modèles. Elle est dans ce qu’ils peuvent désormais déclencher.
Agentic Web · calendrier
Janvier 2026 · Anthropic
Claude Cowork
Mars 2026 · OpenAI
GPT-5.4 computer use
Aujourd’hui · Le terrain
Agents qui agissent, pas seulement qui répondent
Réversible · automatisable
Récupérer un fichier, suggérer une réponse, scaffolder un brouillon. L’erreur se rattrape.
Irréversible · exige validation humaine
Pousser un commit, envoyer un livrable, exporter une création. L’horizon où le HITL passe de bonne pratique à condition de survie.
« La vitesse d’exécution est celle de la machine. La responsabilité reste celle de l’humain. »
« L’IA est un levier de productivité, si, et seulement si, elle est architecturée pour laisser le contrôle à l’expert. »
Trois engagements structurels
Compétences
Maintenir l’expertise en exercice.
Le HITL préserve l’apprentissage des juniors et le jugement des seniors.
Souveraineté
Garder les données chez nous.
Corpus on-premise. Hébergement Suisse ou UE. Anonymisation pré-LLM.
Singularité
Refuser l’AI Slop.
Une architecture qui défend la signature de l’agence contre la moyenne statistique.
Merci.
Questions ?