Mémoire professionnel · MBA2 · 19 mai 2026

Hybrider l’humain
et l’IA.

Une architecture Human-in-the-Loop pour une agence digitale, le cas BB^® Switzerland.

Charles REMY

MyDigitalSchool · Développeur Full-Stack

Genève · 2026

01 · 25

→ naviguer · o vue · p présentateur · f plein écran

Mémoire professionnel · MBA2 · 19 mai 2026

Hybrider l’humain
et l’IA.

Une architecture Human-in-the-Loop pour une agence digitale, le cas BB^® Switzerland.

Charles REMY

MyDigitalSchool · Développeur Full-Stack

Genève · 2026

I.Paradoxe

L’IA est partout. Le retour, encore rare.

des développeurs utilisent l’IA au quotidien

+20 points en un an

Stack Overflow · 2025

des entreprises n’observent aucun gain mesurable

Étude sur 6 000 dirigeants, 4 pays

NBER · 2026

des pilotes n’atteignent pas le ROI

Sur 18 mois d’observation industrielle

MIT NANDA · 2025

Le problème n’est pas l’outil. C’est l’architecture d’intégration.

·Sommaire

Plan.

Contexte

BB^® Switzerland & ma mission

Problématique

La question centrale

Diagnostic

Cinq pressions stratégiques

POC & Architecture

Human-in-the-Loop

Analyse des résultats

Évaluation RAGAS

Conclusion & Ouverture

Recul critique & ouverture

I.1L’entreprise

Genève · agence digitale indépendante

2023 · 2026

BB®
Switzerland.

Une maison où l’on conseille avant de coder, et où l’on code sans jamais déléguer le sens.

Des marques qui paient pour de la singularité et de la confiance.

Clients

Pôles

Digital & Web · Marketing · Graphisme & Design · Photos & Vidéos

Stack

WordPress · Nuxt · Symfony · Next.js

Au moment de l’étude : aucune brique IA centralisée dans l’infrastructure de l’agence.

I.2Posture & méthode

Posture

Alternant,
observateur,
chercheur.

Rattaché à Emmanuel Combe, Head of Digital & Web. Depuis avril 2023, en observation participante au sein de l’agence.

« J’ai vécu de l’intérieur les frictions que documente ce mémoire. »

Méthode

Une démarche structurée,
du diagnostic à l’évaluation.

Audit
Observation directe + analyse des outils et flux (Business Process Analysis).
Entretiens
Semi-directifs, tous pôles. Triangulation : Swiss AI, Atipik, Biggie.
Évaluation
RAGAS sur 30 questions calibrées (factuelles · scaffolding · hors corpus).
RAGAS, Retrieval-Augmented Generation Assessment Score : framework open-source qui mesure la qualité d’un pipeline RAG via 4 métriques (Faithfulness, Answer Relevancy, Context Precision, Context Recall).
Validation
SUS + entretiens utilisateurs prévus post-MEP.
SUS, System Usability Scale : 10 questions Likert, score normalisé sur 100. Seuil d’acceptabilité à 68. Référence depuis John Brooke, 1996.

II.Problématique

Quels besoins métiers et organisationnels rendent aujourd’hui indispensable l’introduction structurée de l’intelligence artificielle dans une organisation digitale confrontée à des limites de productivité, d’évolution des missions et de cohérence créative ?

Productivité

Le client génère son brief avec ChatGPT. Ce qu’on facturait hier ne se facture plus.

Évolution des missions

L’agence ne fait plus, elle vérifie et conseille.

Cohérence créative

Tout le monde utilise les mêmes outils. Tout finit par se ressembler.

Hypothèse · Human-in-the-Loop

III.Diagnostic

Cinq pressions,

un même angle mort.

Aucune ne se résout en silo. C’est leur convergence qui exige une architecture.

Diagramme des 5 pressions stratégiques convergeant vers une agence digitale premium en 2026 : Concurrentielle, Juridique (nLPD + AI Act), Cognitive (érosion apprentissage juniors), Sécuritaire (Shadow AI), Stratégique (dilution singularité AI Slop).

I.3Diagnostic terrain

20 personnes. 4 sources de savoir, 0 indexées.

Audit interne BB^®, entretiens semi-directifs dans chaque pôle, inspirés des approches Business Process Analysis.

collaborateurs entretenus

pôles couverts

sources documentaires

déjà indexées

Cartographie documentaire

Nonaka & Takeuchi · explicite ↔ tacite

Chartes graphiquesPDF

Pôle Graphisme · 1 par client · mémoire créative de l’agence

Structurée

Documentation techniqueDocusaurus

Process tracking, MEP, conventions stack · couverture inégale

Naissante

Archives codeGitHub

Conventions de structure, patterns d’intégration · non documenté

Tacite

ConversationsSlack · Monday

Centaines de décisions archivées · sans index ni recherche sémantique

Brute

Projet IA et projet documentaire sont indissociables. L’un sans l’autre produit soit un outil intelligent sur une base pauvre, soit une documentation rigoureuse sans canal d’accès performant.

III.1Cadre juridique

Le HITL n’est pas une option.

C’est une obligation légale convergente entre la Suisse et l’Union européenne.

Suisse

nLPD

En vigueur depuis le 1ᵉʳ septembre 2023

Art. 6Loyauté · finalité · proportionnalité

Art. 8Sécurité des données

Art. 21Responsable physique de toute décision automatisée

Art. 60Sanctions pénales personnelles · 250 000 CHF

Union européenne

AI Act

Applicable au 2 août 2026

Art. 14Surveillance humaine effective

Art. 26Obligations du déployeur

Art. 99Sanctions : 35 M€ ou 7 % du CA mondial

BB^® sert l’État de Genève et des clients européens, la conformité devient une condition contractuelle de survie.

III.2État de l’art

L’humain est le multiplicateur.

Trois études indépendantes le confirment.

Veracode · 2025

45%

du code IA échoue aux tests OWASP Top 10

« 72 % sur Java. 86 % sur les tests d’injection de script. Le code IA brut n’est pas un livrable. »

METR · 2025

39 pts

d’écart entre perception et mesure (16 dévs séniors)

« Les développeurs estimaient avoir gagné +20 % de productivité avec l’IA. Mesure objective : −19 %. Sans dispositif d’évaluation, on ne sait pas si on gagne ou si on perd. »

CodeRabbit · 2025

×1,7

de bugs détectés en revue hybride

« La revue de code IA + humaine surclasse les deux approches prises isolément. »

IV.Architecture

L’IA propose. L’humain dispose.

Quatre nœuds spécialisés + un point d’arrêt humain.

Retriever

Recherche vectorielle dans ChromaDB. Récupère les passages pertinents.

Generator

Claude Sonnet 4.5. Produit une réponse à partir des passages.

Critic

Audit auto : score de confiance, ancrage, alertes actionnables.

HITL Checkpoint

interrupt(). L’humain voit la réponse, le rapport, les sources.

Executor

Matérialise l’action, uniquement après validation humaine.

Pourquoi pas un seul appel LLM ?

Un seul appel LLM fait tout d’un bloc, sans aucune prise pour l’humain.

RAG souverain · corpus local indexé, recherche vectorielle.

Point d’arrêt · obligatoire avant tout effet de bord.

Trace complète · qui, quand, quoi, pourquoi.

IV.3Prompts & traçabilité

Quatre prompts. Une phrase qui change tout.

Isolés dans graph/prompts.py, itérables sans toucher au graphe.

4 prompts système

GeneratorQuestion

RAG factuel cité

GeneratorScaffolding

Génération projet structuré

CriticQuestion

Audit ancrage + confiance

CriticScaffolding

Audit conformité conventions

La phrase qui rend l’ignorance détectable

« La documentation interne et les sources publiques indexées ne couvrent pas ce point. »

Reproduite mot pour mot par le modèle → détectable par simple recherche textuelle → calcul du taux de refus correct.

JSON strict · retry × 3 · échec dégradé contrôlé

Traçabilité · réponse à l’art. 21 nLPD

thread_id

Identifiant unique de session, géré par st.session_state

Question, passages, proposition

Trace complète de l’input et du draft

Rapport Critic + décision humaine

Approuvé · modifié · rejeté + commentaire

InMemorySaver → PostgresSaver

Migration zéro code (LangGraph Persistence)

IV.1Souveraineté

Aucune donnée brute ne sort.

La souveraineté n’est pas un principe. C’est une contrainte architecturale.

Architecture hybride on-premise/cloud : PDF, Docusaurus, GitHub → Embeddings → ChromaDB local | API LLM cloud (Claude Sonnet 4.5 / GPT-5.4). Conforme nLPD art. 7, Privacy by Design.

Corpus local · chartes PDF, Docusaurus, archives GitHub indexés en interne.

Cloud filtré · seuls les top-k passages anonymisés transitent vers l’API LLM.

Conformité nLPD · Privacy by Design imposé par l’article 7.

IV.2HITL en pratique

Trois gestes, trois signaux.

Capture du POC BB^® en mode Question, l’humain valide, corrige ou relance avant toute livraison.

POC Assistant Technique : brouillon à valider, citations sourcées, boutons Valider / Corriger / Refaire

POC Assistant Technique : onglet Sources avec les 5 docs BB® citées

Valider

La réponse part au client telle quelle.

Corriger

L’expert édite. Le delta nourrit la boucle.

Refaire

Le Generator repart avec le feedback (iter < 3).

Chaque décision est horodatée et signée. Le delta proposition / validation est tracé, scoré, réinjecté dans le corpus.

V.POC

Deux modes, une boucle.

Un POC fonctionnel, testable, open source. Au service d’une agence qui ne pouvait pas attendre.

Mode 01

Question

RAG factuel sur corpus métier · citations sourcées obligatoires.

Mode 02

Scaffolding

Génération de structures projet · validation HITL avant écriture disque.

StackPython 3.11 · LangGraph · Streamlit · ChromaDB · Claude Sonnet 4.5 · 19 tests pytest

github.com/Crmy7/human-in-the-loop ↗

V.0Protocole d’évaluation

30 questions calibrées. Trois dimensions distinctes.

Chaque catégorie de dix questions teste une capacité distincte du système. Les réponses attendues et les sources cibles sont pré-déclarées.

Factuelles

Restitution fidèle d’une info précise du corpus

Exemple

« Quelle version de Node.js est imposée pour les projets Nuxt chez BB^® Switzerland ? »

Critère de succès

20 LTS (Long Term Support) mentionnée explicitement dans la doc technique

Scaffolding

Génération de structures conformes aux conventions

Exemple

« Initialise un projet Nuxt 4 pour un site e-commerce avec tracking côté serveur (GTM + GA4) et déploiement Infomaniak. »

Critère de succès

Arborescence complète + fichiers conformes

Hors corpus

Capacité à refuser plutôt qu’inventer

Exemple

« Quel est le SLA (Service Level Agreement) commercial proposé aux clients ? »

Critère de succès

Formule d’aveu d’ignorance, mot pour mot

Exécution en mode non-interactif : le nœud HITL est remplacé par une approbation automatique pour mesurer les sorties brutes du pipeline.

V.1Évaluation RAGAS

Trois catégories. Une chute brutale.

10 questions factuelles

0,94

Faithfulness moyenne. Restitution fidèle de la doc interne. Cible production atteinte.

10 questions scaffolding

0,77

Answer Relevancy. Faithfulness reste à 0,94, la métrique pénalise les réponses longues et structurées en plusieurs étapes.

10 questions hors corpus

0,13

Effondrement attendu. Le système doit refuser de répondre, c’est précisément le bon comportement.

La métrique Answer Relevancy reconstruit la question à partir de la réponse. Sur des réponses procédurales (arborescences, commandes shell, configurations), la reconstruction est plus difficile, d’où la baisse à 0,77 sur le scaffolding, sans défaut de qualité réelle.

V.2Résultats par cas

Ce qui marche. Ce que RAGAS pénalise à tort.

Deux cas concrets du jeu d’évaluation, au-delà des moyennes agrégées.

Une réponse qui marche

scaf-05

« Comment je configure le tracking côté serveur (GTM + GA4) dans un projet Nuxt 4 BB^® ? »

Faithfulness

1,000

Answer Relevancy

0,983

Context Precision

1,000

Context Recall

1,000

Réponse structurée en deux étapes, citations explicites pour chaque affirmation, extrait TypeScript correctement formé. Validable d’un clic.

Quand la métrique se trompe

scaf-10

« Donne-moi le workflow complet d’une feature, de la création de branche au merge en staging. »

Faithfulness

1,000

Answer Relevancy

0,433

Context Precision

1,000

Context Recall

1,000

La réponse est correcte : 6 étapes citées, source rattachée à chacune. C'est la métrique qui se trompe. RAGAS pénalise mécaniquement les énumérations longues sur les formats procéduraux. Faux négatif typique, qui prouve pourquoi RAGAS seul ne suffit pas.

Pour ne pas se faire piéger par un score automatique.

Trois compléments

Métrique structurelle

Compter les étapes attendues, vérifier le format. Évaluation déterministe.

LLM-as-judge

Un second modèle évalue la qualité réelle, au-delà du score brut. Rempart direct contre les faux négatifs RAGAS sur les formats procéduraux.

Validation humaine

Filet final dans le graphe. Le HITL existe déjà.

V.3Avec HITL · sans HITL

Une question. Deux résultats.

Question

« Initialise un projet Nuxt 4 pour un site e-commerce avec tracking côté serveur (GTM + GA4) et déploiement Infomaniak, en respectant les conventions BB^®. »

Sans HITL · mode dégradé

6 fichiers

écrits sur disque

4 défauts publiés sans alerte.

Version Nuxt

^4.0.0

✗

.env.example

absent

✗

Payload GA4

sans items[]

✗

Middleware auth

/checkout public

✗

Projet à reprendre.

Avec HITL · mode nominal

2 itérations

vers conformité

Critic détecte 3 / 4. Humain corrige le 4ᵉ.

Version Nuxt

^4.4.6

✓

.env.example

présent

✓

Payload GA4

items[] complet

✓

Middleware auth

via definePageMeta

✓

Projet conforme.

Le HITL, c’est la différence entre publier et reprendre.

V.2Cas hors-08

Une réponse, entièrement fabriquée.

Sur 10 questions hors corpus, 8 produisent un refus correct. Restent 2 hallucinations. Voici la plus dangereuse.

Comportement attendu · 8 / 10

Question hors corpus → refus protocolaire avec formule attendue.

POC : question hors corpus (Process de facturation), refus correct, brouillon tagué refus, formule littérale d'aveu d'ignorance, sources affichées

Exception hors-08 · hallucination structurée

Quel SLA contractuel BB^® applique-t-il pour ses clients Tier 1 ?

{
  "client_tier": "1",
  "sla": {
    "uptime"        : "99,5 %",
    "latency_p95_ms": 500,
    "astreinte"     : "H24/7j",
    "réponse_max"   : "30 min"
  },
  "source": "bb-client-raiffeisen-tech-stack.md"
}

⚠ Faithfulness 0,05 · source citée existe mais ne contient pas ces chiffres pour les clients Tier 1

Sans HITL : cette réponse partait au client.

Avec HITL : l’expert détecte, rejette, déclenche la ré-indexation.

VI.Industrialisation

Un budget d’agence, pas de licorne.

Tous chiffres / an· base : 50 interactions par jour · agence de 20 personnes · ~2 700 tokens par interaction.

Mode hybride · API Cloud

Inférence chez Anthropic (US). RAG souverain local.

Tokens LLM (Sonnet 4.6, ~2 700 tk/interaction)

800 – 1 500CHF

VPS RAG souverain (Infomaniak / Hetzner)

600 – 1 200CHF

Stockage Qdrant self-hosted

0CHF

Total / an

1 400–2 700CHF

⚠ Inférence hors Suisse · OK si NDA le permet

Mode 100% souverain · API Infomaniak

Llama 3.3 70B via AI Tools, inférence hébergée en Suisse.

Tokens LLM via Infomaniak AI Tools (Suisse)

500 – 1 500CHF

VPS RAG souverain (Infomaniak Public Cloud)

600 – 1 200CHF

Stockage Qdrant self-hosted

0CHF

Total / an

1 100–2 700CHF

✓ Toute la chaîne en Suisse · conforme nLPD art. 7. Option GPU dédié 24/7 disponible (~10–13 k CHF) si isolation totale exigée.

Gouvernance · l’infra ne suffit pas

AI Lead

Référent technique · 1–2 j / mois

Charte d’usage

Périmètre, données interdites, traçabilité

Formation 3 niveaux

Auditer plutôt que prompter

VII.0Méta-analyse

Trois risques nommés. Trois mesures d’atténuation.

Aucune recherche n’est neutre.

Obsolescence technologique

+ de 255 versions de modèles publiées au seul T1 2026. À ce rythme, un mémoire ancré sur un modèle précis périme avant la soutenance.

Mesure d’atténuation

Ancrer le mémoire sur des abstractions architecturales (HITL, RAG, agents spécialisés) plutôt que sur un modèle précis. Si on remplace Sonnet 4.5 par GPT-5.4, le graphe LangGraph reste inchangé.

Le HITL théâtral

Au démarrage, l’utilisateur valide sérieusement. Après 3 mois, il clique « approuver » sans lire.

Mesure d’atténuation

Suivi post-MEP à 3, 6 et 12 mois avec mesure du delta entre proposition IA et version validée. Si le delta tend vers zéro, alerte. Rotation des valideurs et échantillonnage critique prévus dans le plan d’industrialisation.

Juger sa propre copie

J’ai conçu l’architecture, et c’est moi qui l’évalue. Aucune chance d’être totalement objectif sur des choix que j’ai faits.

Mesure d’atténuation

Triangulation externe avec 3 acteurs indépendants : Stéphane Fallet (Swiss AI), Atipik, Biggie.

Le biais de confirmation n’est pas éliminé : il est structurel. Sa reconnaissance invite à lire les résultats avec la distance critique qui s’impose.

VI.1Recul critique

Garder. Corriger. Refaire.

Ce qui tient, ce qui pèse encore, ce que je remettrais sur le métier.

Ce qui a marché.

01POC qui démontre la thèse, mesures à l’appui.
02HITL sans HITL : différence chiffrée, pas un slogan.
03Évaluation RAGAS reproductible, métrique défendable.
04Souveraineté locale, sans compromis perceptible.
05Architecture portable (LLM interchangeable, RAG agnostique).

Ce qui a manqué.

01Corpus simulé (23 fichiers MD) · doc réelle inaccessible à temps.
02SUS + entretiens utilisateurs repoussés en post-MEP.

Ce que je referais.

01Démarrer le projet documentaire en parallèle du projet IA.
02Tester avec de vrais utilisateurs dès le prototype.
03Aligner la stack agence (Node, Next.js) dès le début.

VIII.0Ouverture

L’agent qui agit. L’humain qui décide.

Le terrain évolue plus vite que les mémoires. L’étape suivante n’est pas dans les modèles. Elle est dans ce qu’ils peuvent désormais déclencher.

Agentic Web · calendrier

Janvier 2026 · Anthropic

Claude Cowork

Mars 2026 · OpenAI

GPT-5.4 computer use

Aujourd’hui · Le terrain

Agents qui agissent, pas seulement qui répondent

Réversible · automatisable

Récupérer un fichier, suggérer une réponse, scaffolder un brouillon. L’erreur se rattrape.

Irréversible · exige validation humaine

Pousser un commit, envoyer un livrable, exporter une création. L’horizon où le HITL passe de bonne pratique à condition de survie.

« La vitesse d’exécution est celle de la machine. La responsabilité reste celle de l’humain. »

VII.Conclusion

« L’IA est un levier de productivité, si, et seulement si, elle est architecturée pour laisser le contrôle à l’expert. »

Charles Remy · Genève · 19 mai 2026

Trois engagements structurels

Compétences

Maintenir l’expertise en exercice.

Le HITL préserve l’apprentissage des juniors et le jugement des seniors.

Souveraineté

Garder les données chez nous.

Corpus on-premise. Hébergement Suisse ou UE. Anonymisation pré-LLM.

Singularité

Refuser l’AI Slop.

Une architecture qui défend la signature de l’agence contre la moyenne statistique.

Merci.

Questions ?

Hybrider l’humainet l’IA.

Hybrider l’humainet l’IA.

L’IA est partout. Le retour, encore rare.

Plan.

BB®Switzerland.

Alternant,observateur,chercheur.

Cinq pressions,

un même angle mort.

20 personnes. 4 sources de savoir, 0 indexées.

Le HITL n’est pas une option.

nLPD

AI Act

L’humain est le multiplicateur.

L’IA propose. L’humain dispose.

Quatre prompts. Une phrase qui change tout.

Aucune donnée brute ne sort.

Trois gestes, trois signaux.

Deux modes, une boucle.

Question

Scaffolding

30 questions calibrées. Trois dimensions distinctes.

Trois catégories. Une chute brutale.

Ce qui marche. Ce que RAGAS pénalise à tort.

Une question. Deux résultats.

Une réponse, entièrement fabriquée.

Un budget d’agence, pas de licorne.

Trois risques nommés. Trois mesures d’atténuation.

Garder. Corriger. Refaire.

L’agent qui agit. L’humain qui décide.

Hybrider l’humain
et l’IA.

Hybrider l’humain
et l’IA.

BB®
Switzerland.

Alternant,
observateur,
chercheur.