ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-governance/references/responsible-ai/human-in-the-loop-oversight.md
Kjell Tore Guttormsen 8179415bc2 chore(ms-ai-architect): KB refresh complete — 23 files (high batch 2) [skip-docs]
Last batch in HIGH bucket. Combined with 82bd665 (critical 9 + high batch 1, 21 files), this finishes the critical+high KB-refresh sweep for v1.12.0.

Substantive edits (3 files):
- security-copilot-integration.md: M365 E5/E7 inclusion auto-provisioning, agents-first landing experience, role-based onboarding (Verified MCP 2026-05)
- entra-agent-id-zero-trust.md: Ignite 2025-utvidelser — Conditional Access for agenter, Risky agents, 3 nye Agent ID-roller, Microsoft Agent Identity Platform, Copilot Studio blueprint principal
- ai-center-of-excellence-setup.md: Ny "Oppdateringer 2026-05"-seksjon — tre-roller-modell (platform/workload/CoE), agent-ferdighetsområder, sentralisert→rådgivende operasjonsmodell

Date-bump (20 files):
- HIGH-bucket filer der MCP-fetch viste kosmetiske endringer (forrige sesjons lærdom replikert)

Tests: validate-plugin.sh PASS 219.
2026-05-05 14:52:42 +02:00

33 KiB
Raw Blame History

Human-in-the-Loop and Oversight - Maintaining Human Agency

Last updated: 2026-05 Status: GA Category: Responsible AI & Governance


Introduksjon

Human-in-the-Loop (HITL) er et fundamentalt prinsipp for ansvarlig AI som sikrer at mennesker beholder kontroll og beslutningsmyndighet i AI-drevne systemer. Tross den økende autonomiteten til AI-agenter og generative modeller, er menneskelig oversyn kritisk for å håndtere høyrisikobeslutninger, validere outputkvalitet og beskytte mot feilaktige eller skadelige AI-handlinger.

Microsoft AI-stakken tilbyr HITL-kapabiliteter på tvers av Azure AI Foundry, Copilot Studio, Power Platform, og Microsoft Agent Framework — alle designet for å balansere automatisering med menneskelig kontroll. Dette er spesielt viktig i offentlig sektor, der beslutninger kan påvirke borgeres rettigheter, økonomiske forhold eller sikkerhet.

Nøkkelverdi:

  • Sikkerhet: Mennesker kan stoppe feilaktige eller risikofylte AI-handlinger før de får konsekvenser
  • Compliance: Oppfyller krav til menneskelig kontroll i EU AI Act, GDPR og offentlig sektorlovgivning
  • Tillit: Bygger bruker- og interessenttillit gjennom transparente validerings-workflows
  • Læring: Menneskelig feedback forbedrer AI-modeller over tid
  • Ansvar: Klargjør ansvarslinjer når AI-systemet eskalerer beslutninger til mennesker

Verified (fra Azure AI Security Benchmark AI-5, Microsoft Agent Framework dokumentasjon)


Kjernekomponenter

HITL-implementasjoner i Microsoft-stakken består av flere samvirkende komponenter som sammen sikrer menneskelig oversyn:

1. Approval Workflows

Plattform Mekanisme Bruksområde
Power Automate / Copilot Studio Multistage og AI-approvals (Preview) Strukturerte godkjenningsflyter med AI-stage (GPT-o3 gjør Approve/Reject med begrunnelse) og manuell-stage; ny 'Human in the loop'-kobling; conditions mellom stages for dynamisk routing (Verified MCP 2026-04)
Azure Logic Apps Human Approval Connectors Pauser AI-prosesser for menneskelig validering, integreres med Microsoft Teams, Outlook, eller egne dashboards
Copilot Studio Human Handoff Topic Overfører samtale fra agent til menneskelig representant når AI ikke kan løse oppgaven
Microsoft Agent Framework HITL Orchestrations Subworkflows som pauseer agent-kjeder for menneskelig feedback/approval på agentoutput
Durable Functions External Events Agentic workflows pauser for menneskelig beslutning via WaitForExternalEvent med timeout

Godkjenningstyper:

  • First to respond: Første godkjenner avgjør (rask prosessering)
  • Everyone must approve: Konsensus kreves (høy-sikkerhetsbeslutninger)
  • Conditional approvals: AI-godkjenning med menneskelig override ved lav konfidens
  • Multistage: Kombinerer AI-analyse med etterfølgende manuell validering

Verified (Power Automate Multistage Approvals docs, Agent Framework HITL docs)

2. Confidence-Based Escalation

AI-systemer kan dynamisk eskalere beslutninger basert på modellens konfidens:

IF confidence_score < threshold THEN
    Route to human reviewer
ELSE IF high_impact_decision THEN
    Require human approval
ELSE
    Execute autonomously with logging
END

Implementering:

  • Azure AI Content Safety: Severity scores (0-7) kan trigge menneskelig review
  • Copilot Studio: Konfidens-scores på topics kan rute til eskalering
  • Agent Framework: Function approval modes (@tool(approval_mode="always_require"))
  • Power Automate: AI approval stages returnerer "Analysis failed" ved usikkerhet → eskalerer til manuell godkjenning

Verified (AI-5.1 implementation guidance, Copilot Studio escalation docs)

3. Function-Level Controls

Microsoft Agent Framework tilbyr finkornet kontroll over hvilke funksjoner som krever menneskelig godkjenning:

Approval Mode Beskrivelse Use Case
never Ingen godkjenning (default) Read-only funksjoner (hent data, søk)
always_require Alltid krev godkjenning Kritiske handlinger (slett data, send e-post, kjøp)
confidence_based Eskalerer ved lav konfidens Analyse-funksjoner med usikre resultater

Kodeeksempel (C#):

// Function requires human approval before execution
[Function("delete_record")]
[Tool(approval_mode = "always_require")]
public async Task<string> DeleteRecord(string recordId)
{
    // Only executes after human approves
    return await _database.DeleteAsync(recordId);
}

Verified (Agent Framework function approval docs, code samples)

4. Review Dashboards & Interfaces

Menneskelige reviewere trenger tilgang til kontekstuell informasjon for å ta informerte beslutninger:

Power Automate Approvals Center:

  • Viser AI approval decisions med rationale
  • Tillater manuell override av AI-godkjenninger
  • Loggfører alle beslutninger for audit

Azure Monitor Dashboards:

  • Visualiserer AI-handlinger som krever approval
  • Sanntids-varsler ved høyrisiko-eskalering
  • Historiske trends for approval rates

Copilot Studio Activity Viewer:

  • Detaljert visning av agent-handlinger og rationale
  • "Why did the agent do this?"-forklaring generert av AI
  • Feedback-mekanisme for kvalitetsforbedring

Security Requirements (AI-5.1):

  • Kryptering av review-systemer (TLS 1.2+)
  • Strikt tilgangskontroll via Microsoft Entra ID (RBAC)
  • Anomaly detection for å forhindre manipulering av approval-prosesser

Verified (AI-5.1 security controls, Power Automate docs)

5. Feedback Loops

HITL er ikke bare et sikkerhetstiltak — det er også en læringskilde for modellene:

Kontinuerlig forbedring:

  1. Mennesker godkjenner/avviser AI-output med begrunnelse
  2. Feedback logges og analyseres (approval rates, avvisningsårsaker)
  3. Modeller re-trenes eller fine-tunes basert på menneskelige korreksjoner
  4. HITL-terskler justeres basert på forbedret modellytelse

Eksempel: Catalog Enrichment Agent (Retail)

  • Agent foreslår produkt-kategorisering
  • Catalog manager godkjenner/retter forslag
  • Agent lærer fra korreksjoner og øker nøyaktighet over tid
  • Graduell overgang fra supervised mode til autonomous mode

Verified (Catalog Enrichment Agent Responsible AI FAQ, AI-5.1 feedback loop guidance)


Arkitekturmønstre

Mønster 1: Gated Approval (Sequential)

AI-prosessen stopper ved kritiske punkter for menneskelig godkjenning.

User Input → AI Analysis → [HUMAN APPROVAL GATE] → Execute Action → Log Result
                              ↓
                         If Rejected → Log & Notify

Azure-implementering:

  • Azure Logic Apps med Approval Connector
  • Pauser workflow ved kritisk junction
  • Sender godkjenningsforespørsel via Teams/Email
  • Fortsetter kun ved eksplisitt godkjenning

Eksempel: Manufacturing Safety Override (fra AI-5.1)

  • AI voice assistant identifiserer kritisk kommando ("shutdown production line")
  • Keyword detection flaggs kommandoen
  • Azure Logic Apps router forespørsel til supervisor dashboard
  • Supervisor godkjenner/avviser via secure dashboard
  • Action utføres kun ved godkjenning, alt logges i Azure Monitor

Baseline (arkitekturmønster fra Azure Security Benchmark)

Mønster 2: Parallel Review (Concurrent)

Flere reviewere validerer AI-output samtidig, med konfigurerbar konsensus-logikk.

AI Output → Review Request → [Reviewer A] → Aggregate Decisions → Final Decision
                           → [Reviewer B]         ↓
                           → [Reviewer C]    Threshold Logic
                                            (e.g., 2/3 must approve)

Power Automate Multistage Approvals:

  • "Everyone must approve" setting
  • Parallell distribusjon til alle godkjennere
  • Aggregert beslutning basert på alle svar

Use Case: Sensitive Data Access

  • AI-agent ber om tilgang til sensitiv borgerdata
  • Parallell forespørsel til dataeier OG compliance officer
  • Kun ved begge godkjenner får agent tilgang
  • Alt logges i Microsoft Purview for audit trail

Baseline (standard workflow-mønster i Power Platform)

Mønster 3: Confidence Threshold (Adaptive)

Systemet eskalerer automatisk til menneske basert på AI-konfidens.

AI Decision → Confidence Check
                ↓
         High (>90%) → Execute autonomously + Log
         Medium (50-90%) → Notify human (no block)
         Low (<50%) → Require approval before execution

Microsoft Agent Framework-implementering:

# Python example from Agent Framework
builder = (
    SequentialBuilder()
    .participants([analysis_agent, decision_agent])
    .with_request_info(agents=[decision_agent])  # HITL enabled
)

# Agent output routed to human if confidence < threshold
response = AgentRequestInfoResponse.from_messages([
    {"role": "user", "content": "Confidence too low, please review"}
])

Use Case: Invoice Processing

  • OCR-agent scanner faktura med 95% konfidens → godkjenner automatisk
  • OCR-agent scanner håndskrevet faktura med 60% konfidens → eskalerer til bokholder
  • Bookholder validerer/korrigerer → feedback brukes til å forbedre OCR-modell

Verified (Agent Framework HITL workflow pattern, AI-5.1 optimization guidance)

Mønster 4: Human-Agent Handoff (Escalation)

Agent erkjenner sine begrensninger og overfører til menneske.

User → Agent (attempts resolution)
         ↓
     Cannot solve → Transfer to human representative
                      ↓
                  Human resolves + Agent observes
                      ↓
                  Agent learns from interaction

Copilot Studio-implementering:

  • Agent topics har success/failure metrics
  • Ved failure rate >threshold → automatisk handoff
  • Human representative håndterer edge cases
  • Transcript analysis identifiserer grunner til escalation
  • Agent topics oppdateres basert på learnings

Eksempel: Customer Service Bot

  • Agent kan svare på 80% av ordre-status spørsmål
  • Ved "missing package"-scenario → handoff til agent
  • Menneskelig agent håndterer kompensasjon/retur
  • Copilot team analyserer transcripts → legger til "Missing Order" topic

Verified (Copilot Studio escalation analysis docs, topic improvement guidance)

Mønster 5: Multi-Layer Defense (Depth)

Kombinerer flere HITL-kontroller i lag for kritiske systemer.

Layer 1: AI Content Safety (input filtering)
           ↓
Layer 2: AI Agent (with function approval)
           ↓
Layer 3: Human Review (output validation)
           ↓
Layer 4: Audit Log (traceability)

Offentlig sektor-implementering:

  1. Input validation: Azure AI Content Safety blokkerer upassende input
  2. Agent execution: Function calls krever approval (delete, update, send)
  3. Output review: Menneske validerer AI-generert vedtak/rapport
  4. Compliance logging: Microsoft Purview logger alle beslutninger

Verified (AI-2.1 multi-layered filtering, AI-5.1 HITL controls)


Beslutningsveiledning

Når kreves HITL?

Scenario HITL Required? Rationale
Lesing av offentlig data Nei Lav risiko, ingen endring av data
Kategorisering av innkommende e-post Nei Lav konsekvens ved feil, reversibelt
Automatisk besvarelse av FAQ Nei (med monitoring) Standard responses, lav risiko
Anbefaling av produkter Nei Brukeren bestemmer uansett
Analyse av borgerdata Ja GDPR Art. 22 - rett til ikke å bli underlagt automatisert avgjørelse
Økonomiske transaksjoner Ja Høy konsekvens, risiko for svindel/feil
Publisering av offentlig informasjon Ja Reputasjonsrisiko, juridisk ansvar
Sletting av data Ja Irreversibelt, mulig datasvinn
Tilgangskontroll-beslutninger Ja Sikkerhetsrisiko ved feil
Juridiske vurderinger Ja Krever profesjonell skjønn

Azure AI Security Benchmark AI-5 kriterier:

  1. External data transfers — alltid HITL
  2. Processing of confidential information — alltid HITL
  3. Decisions impacting financial outcomes — alltid HITL
  4. Safety-related commands — alltid HITL (ref. manufacturing example)
  5. Compliance-critical processes — alltid HITL

Verified (AI-5.1 critical actions definition)

Vurdering av HITL-grad

Autonomi-spektrum:

Fully Autonomous ←→ Human-Centric
     ↓                      ↓
No HITL → Notify → Low-confidence escalation → Always review → Human executes

Beslutningsmatrise:

Impact Level Confidence Level HITL Strategy
Low High Autonomous + logging
Low Low Notify human (async)
High High Notify + periodic audit
High Low Require approval

Eksempel: Document Classification

  • Klassifisering av "Generell korrespondanse" (lav impact) + 95% konfidens → autonom
  • Klassifisering av "Gradert informasjon" (høy impact) + 70% konfidens → krev godkjenning
  • Klassifisering av "Gradert informasjon" (høy impact) + 98% konfidens → notify + audit

Baseline (standard risiko-matrise, tilpasset fra AI-5.1 guidance)

Reviewer Competency

Effektiv HITL krever at menneskelige reviewere er kvalifiserte:

AI-5.1 Training Requirements:

  1. AI system behavior — forstå hvordan modellen resonnerer
  2. Potential vulnerabilities — kjenne til prompt injection, hallucinations
  3. Domain-specific risks — forståelse av fagområdets spesifikke farer
  4. Decision-support tools — trening i bruk av review dashboards
  5. Escalation procedures — vite når og hvordan eskalere videre

Reviewer Fatigue Prevention:

  • Ikke review >50 AI-decisions per dag per person
  • Roter reviewere for å forhindre "automation bias" (blind tillit til AI)
  • Automatiser trivielle reviews, la mennesker fokusere på edge cases
  • Periodiske pauser og refresher-trening

Verified (AI-5.1 train reviewers guidance, AI-5.1 optimize review processes)


Integrasjon med Microsoft-stakken

Azure AI Foundry

HITL-kapabiliteter:

  • Prompt Shields: Blokkerer prompt injection før den når modellen → menneskelig review av blokkerte inputs
  • Content Safety: Severity scores (0-7) kan konfigureres til å trigge human review ved >threshold
  • Model Monitoring: Anomaly detection eskalerer til human investigator ved uventet model behavior
  • Tracing (OpenTelemetry): Komplett audit trail for å rekonstruere agent reasoning ved human review

Implementering:

// Azure AI Content Safety for HITL escalation
var moderationResult = await contentSafetyClient.AnalyzeTextAsync(userInput);

if (moderationResult.HateSeverity >= 4)  // High severity
{
    await EscalateToHumanReview(userInput, moderationResult);
}
else
{
    // Process with AI
    var response = await chatClient.GetChatCompletionsAsync(userInput);
}

Verified (AI-5.1 implementation example, Content Safety docs)

Copilot Studio

HITL-features:

  • Human Handoff Topic: Transfererer samtale til Live Agent (Omnichannel, Dynamics 365)
  • Escalation Rate Tracking: Analytics dashboard viser hvilke topics eskalerer mest → optimaliseringsmuligheter
  • Rationale Generation: AI forklarer sine beslutninger for menneskelige reviewere
  • Approval Topics: Custom topics som pauser for menneskelig input før continuation

Workflow:

  1. Agent prøver å løse bruker-issue
  2. Hvis ikke løst etter N turns → trigger "Transfer to Agent" topic
  3. Human agent overtar i samme chat-vindu
  4. Agent observerer human resolution (lærer for fremtidige tilfeller)

Verified (Copilot Studio handoff docs, escalation analysis guidance)

Power Platform

Power Automate Multistage Approvals:

Stage Type Beskrivelse Use Case
AI Stage AI gjør approve/reject beslutning basert på instruksjoner Pre-screening av standardiserte forespørsler (expense <500 kr)
Manual Stage Menneske gjør beslutning Høyrisiko eller edge cases
Condition Stage Logisk routing basert på verdier "If amount >5000 → require CFO approval"

Best Practices (fra FAQ for AI Approvals):

  • Sett temperature=0 for deterministiske AI-godkjenninger
  • Bruk GPT-4.1 for komplekse approval-scenarioer (o3 for advanced reasoning, men tregere)
  • Alltid ha human override-mekanisme
  • Test thoroughly i sandbox med historical data
  • Monitor decisions i Prompt Builder Activity section

Kodeeksempel (Power Automate):

# Multistage Approval Flow
Trigger: New expense report submitted
  
Stage 1 (AI):
  - Analyze expense against policy (receipts, amounts, categories)
  - If clear violation → Reject with rationale
  - If compliant and <500 kr → Approve
  - If uncertain or >500 kr → Route to Stage 2
  
Stage 2 (Manual):
  - Manager reviews AI rationale + original expense
  - Approves/rejects with feedback
  
Output: Approval decision logged in Dataverse + email to submitter

Verified (Power Automate multistage approvals docs, AI approvals FAQ)

Microsoft Agent Framework

HITL Orchestrations:

Orchestration Type HITL Support Pattern
Sequential Pauseer mellom agents for human feedback
Concurrent Parallelle agents, human review av aggregerte outputs
Group Chat Human kan delta som chat participant
Handoff Designet spesifikt for kompleks human-agent interaksjon

with_request_info() API:

# Enable HITL for specific agents
builder = (
    SequentialBuilder()
    .participants([research_agent, writer_agent, reviewer_agent])
    .with_request_info(agents=[writer_agent, reviewer_agent])  # Only these require human review
)

Response Types:

  • Feedback: Human gir tilbakemelding → agent refinerer output
  • Approval: Human godkjenner → workflow fortsetter
  • Rejection: Human avviser → workflow stopper eller re-routes

Verified (Agent Framework HITL docs, orchestration patterns)

Azure Durable Functions

For lang-levende workflows med human decision points:

// Wait for human approval with timeout
HumanApprovalResponse approvalResponse;
try
{
    approvalResponse = await context.WaitForExternalEvent<HumanApprovalResponse>(
        eventName: "ApprovalDecision",
        timeout: TimeSpan.FromHours(24)
    );
}
catch (OperationCanceledException)
{
    // Timeout → eskalerer til senior reviewer
    return await context.CallActivityAsync<string>(nameof(EscalateForReview), draftContent);
}

if (approvalResponse.Approved)
{
    return await context.CallActivityAsync<string>(nameof(PublishContent), draftContent);
}

Use Case: Content generation pipeline med mandatory review før publisering.

Verified (Durable Agent HITL example from code samples)

Microsoft Purview

Data Governance + HITL:

  • Klassifiser sensitiv data (PII, GDPR-data, gradert informasjon)
  • Monitor AI-tilgang til sensitive data sources
  • Alert ved risikable access patterns → human investigator review
  • Audit trail av alle AI-beslutninger for compliance (GDPR Art. 30)

Verified (AI-6.1 data security monitoring, Purview integration)


Offentlig sektor (Norge)

Juridiske krav

GDPR Article 22:

"The data subject shall have the right not to be subject to a decision based solely on automated processing, including profiling, which produces legal effects concerning him or her or similarly significantly affects him or her."

Implikasjon: Borgere har rett til menneskelig vurdering av automatiserte beslutninger. HITL er derfor lovpåkrevd i mange offentlige tjenester.

Eksempler på lovkrav:

  • NAV-vedtak: Automatisk behandling OK, men vedtak må godkjennes av saksbehandler
  • Skatteberegning: AI kan foreslå, menneske må beslutte
  • Tilskudd/støtteordninger: Automatisering av screening OK, tildeling krever menneskelig vurdering
  • Persondata-tilgang: AI kan ikke autonomt gi tilgang til borgerdata uten approval

Compliance-strategi:

  1. Identifiser alle automatiserte beslutninger som påvirker borgere
  2. Implementer HITL-gates før final decision
  3. Dokumenter HITL-prosessen i behandlingsgrunnlag (DPIA)
  4. Loggfør alle menneskelige godkjenninger for audit

Baseline (GDPR tolkning, EU AI Act human oversight requirements)

Offentlighetsloven & Transparens

Borgeres rett til innsyn:

  • Offentlighetsloven krever at beslutningsprosesser er etterprøvbare
  • HITL-logs må være tilgjengelige for innsyn (med personvernsikring)
  • Rationale for AI-beslutninger må kunne forklares

Microsoft-stacken støtter:

  • Azure Monitor Logs: Komplett audit trail av AI-beslutninger
  • Copilot Studio Rationale: AI-genererte forklaringer på agent-handlinger
  • Power Automate Activity Logs: Sporbarhet av approval workflows
  • Microsoft Purview: Long-term retention for compliance

Verified (Azure Monitor audit capabilities, Purview compliance features)

Tillitsbygging

Offentlig sektor møter høy skepsis til AI. HITL er avgjørende for tillit:

Transparensmekanismer:

  1. Informer brukere: Vis tydelig når AI er involvert vs. menneskelig beslutning
  2. Forklar rationale: Bruk Copilot Studio Rationale / Azure Explainability
  3. Tilby escalation: Borgere skal alltid kunne be om menneskelig vurdering
  4. Publiser statistikk: Åpenhet om AI-nøyaktighet og approval rates

Eksempel: Søknadsprosess

Borger søker om tilskudd
  ↓
AI pre-screener → 60% konfidens → Flagges for human review
  ↓
Saksbehandler ser AI-analyse + original søknad
  ↓
Saksbehandler godkjenner/avviser med begrunnelse
  ↓
Borger mottar vedtak med henvisning til menneskelig vurdering

Baseline (best practices for offentlig sektor AI-innføring)

Accessibility & Inkludering

HITL-grensesnitt må være universelt utformet:

Microsoft tilgjengelighets-features:

  • Power Automate Approvals: Skjermleser-kompatibel
  • Azure Dashboards: WCAG 2.1 AA-compliant
  • Copilot Studio: Keyboard navigation support

Inkluderingshensyn:

  • Ikke alle borgere kan bruke AI-chat → alltid tilby menneskelig kontaktpunkt
  • HITL som fallback for digitalt ekskluderte
  • Multilingual support i approval workflows (samisk, andre språk)

Baseline (WCAG standards, universell utforming-krav i offentlig sektor)


Kostnad og lisensiering

Kostnadskomponenter

Komponent Kostnad Merknad
Power Automate Approvals Inkludert i Power Automate per-user/per-flow lisens Ingen ekstrakostnad for standard approvals
AI Approvals (Copilot Studio) Inkludert i Copilot Studio (€24/user/måned + €32/user/måned AI credits) Forbruker AI credits ved bruk
Azure Logic Apps Standard workflow pricing + Connector costs Ca. $0.000025 per action
Azure Monitor Log Analytics: ~$2.30/GB ingested + $0.10/GB retention HITL-logging øker volum
Microsoft Purview Fra $900/måned (Compliance Manager) For audit trail og governance
Menneskelig arbeidstid HØYESTE KOSTNAD Saksbehandler-timer for review

Total Cost of Ownership (TCO) vurdering:

Scenario: Invoice Processing (1000 fakturaer/måned)

Tilnærming Kostnader (NOK/måned) Merknad
100% manuell 50 000 kr (200 timer × 250 kr/t) Baseline
100% autonom AI 500 kr (Azure OpenAI calls) Uakseptabel risiko
HITL: Confidence threshold 10 000 kr (30% eskalerer + 40 timer review) Balansert
HITL: 100% review 52 000 kr (200 timer review + 2000 kr AI) Ingen besparelse

Konklusjon: Confidence-based HITL gir 80% kostnadsreduksjon vs. 100% manuell, med akseptabel risiko.

Verified (Azure/Power Platform pricing, baseline-kalkyler)

Lisensiering

Power Platform:

  • Power Automate Premium: Kreves for approvals (€12/user/måned)
  • Copilot Studio: €56/user/måned (24 + 32 AI credits) for AI approvals

Azure:

  • Azure AI Services: Pay-as-you-go (Content Safety ~$1 per 1000 requests)
  • Azure Monitor: Pay-per-GB (estimert 50 GB/måned for HITL logging i stor org)
  • Logic Apps: Per action (~€0.000025 per step)

Microsoft Agent Framework:

  • Ingen direkte kostnad (open source)
  • Men krever Azure OpenAI eller Azure AI Foundry for models (standard API costs)

Offentlig sektor-vurdering:

  • Vurder Microsoft 365 E5 + Power Platform-bundler for best pris
  • CSP-avtaler for offentlig sektor kan gi rabatter
  • HITL vil øke lisenskostnader (flere brukere trenger approval-tilgang)

Baseline (Microsoft offentlige prislister, januar 2026)


For arkitekten (Cosmo)

Når anbefale HITL?

Obligatoriske scenarioer:

  1. Offentlig sektor + vedtaksmyndighet → GDPR Art. 22 krever det
  2. Finansielle transaksjoner → Regulatoriske krav (Finanstilsynet)
  3. Helsedata → Pasientrettighetsloven, GDPR særkategorier
  4. Sikkerhets-kritiske systemer → ISO 27001, NIS2-direktivet
  5. Irreversible actions → Sletting, publisering, dataoverføring

Anbefalte scenarioer:

  • Ny AI-implementering → start med høy HITL-grad, reduser gradvis
  • Lav modell-confidence (<80%) → eskalering til menneske
  • Complex reasoning → menneske validerer AI-resonnering
  • High-stakes scenarios → selv om konfidens er høy

Ikke nødvendig:

  • Repeterende, lav-risiko tasks (e-post-kategorisering)
  • Read-only operasjoner uten persondata
  • Interne verktøy med erfarne brukere som forstår AI-limitasjoner

Arkitektur-vurderinger

Valg av plattform:

Hvis kunden har... Anbefalt HITL-løsning
Power Platform-lisenser Power Automate Multistage Approvals (enkleste)
Copilot Studio-agent Human Handoff + Escalation topics
Azure-native arkitektur Azure Logic Apps + Azure Monitor dashboards
Complex multi-agent Microsoft Agent Framework HITL orchestrations
Long-running workflows Azure Durable Functions med external events

Integrasjonspoeng:

  • HITL-dashboards bør integreres med eksisterende case management (Dynamics 365, SharePoint)
  • Approval requests via Teams/Outlook for best brukeradopsjon
  • Logg HITL-decisions i eksisterende SIEM (Sentinel, Splunk)

Verified (platform selection guidance basert på dokumentasjon)

Implementeringsfaser

Fase 1: Risk Assessment

  1. Identifiser alle AI-beslutningspunkter i løsningen
  2. Klassifiser etter impact (low/medium/high)
  3. Map GDPR/compliance-krav
  4. Definer HITL-strategi per beslutningspunkt

Fase 2: HITL Design

  1. Velg plattform (Power Automate, Logic Apps, etc.)
  2. Design approval workflows (sequential, parallel, conditional)
  3. Definer confidence thresholds for eskalering
  4. Design reviewer dashboards med kontekstuell informasjon

Fase 3: Implementation

  1. Implementer HITL-gates i AI-workflows
  2. Integrer med Azure Monitor for logging
  3. Set opp eskalerings-regler og routing
  4. Implementer feedback loops for model improvement

Fase 4: Training & Rollout

  1. Tren reviewers på AI behavior og vulnerabilities
  2. Pilot med subset av users/scenarios
  3. Monitor approval rates og review times
  4. Juster thresholds basert på pilot-data

Fase 5: Optimization

  1. Analyser approval trends (når eskalerer AI?)
  2. Identifiser false positives/negatives
  3. Fine-tune confidence thresholds
  4. Re-train models med human feedback
  5. Gradvis reduser HITL-grad for low-risk scenarios

Baseline (standard AI governance implementation approach)

Anti-patterns (unngå)

"AI can handle everything" — Ingen HITL i det hele tatt → brudd på GDPR, høy risiko

"Review all AI outputs" — 100% human review → ingen effektivitetsgevinst, reviewer fatigue

"Set and forget" — Ingen monitoring av HITL effectiveness → systemet blir enten for restriktivt eller for åpent

"Only technical team reviews" — Domain experts må være involvert, ikke bare IT

"No feedback loop" — HITL-data brukes ikke til å forbedre modeller → samme feil repeteres

"Black box reviews" — Reviewers ser bare AI-output, ikke reasoning → vanskelig å validere

"Single point of failure" — Kun én reviewer for kritiske beslutninger → risiko for bias eller feil

Verified (common pitfalls fra AI governance literature, Microsoft best practices)

Red Teaming HITL-systemer

Test HITL-robusthet:

  1. Bypassing attempts: Kan agent manipulere approval-prosess? (Prompt injection for å unngå review)
  2. Reviewer manipulation: Kan malicious actor få reviewer til å godkjenne farlig handling? (Social engineering)
  3. Escalation flooding: Kan attacker trigger masse false escalations → DoS på reviewers?
  4. Timing attacks: Kan attacker utnytte timeout-mekanismer? (Vente til auto-approve ved timeout)

Defensive measures (fra AI-5.1):

  • Secure HITL interfaces med encryption + MFA (Microsoft Entra ID)
  • Anomaly detection på approval patterns (Azure Sentinel)
  • Regular testing med PYRIT/Azure AI Red Teaming Agent
  • Audit logs for all approval decisions (immutable storage)

Verified (AI-5.1 secure HITL interfaces, AI-7 red teaming guidance)

Compliance Checklist

For offentlig sektor i Norge:

  • GDPR Art. 22 compliance: Borgere kan kreve menneskelig vurdering av automatiserte beslutninger
  • Dokumentert HITL-prosess i DPIA (personvernkonsekvensvurdering)
  • Audit trail av alle HITL-decisions (min. 5 år retention)
  • Transparens: Borgere informert om AI-bruk og HITL-prosess
  • Accessibility: HITL-grensesnitt oppfyller WCAG 2.1 AA
  • Reviewer training: Dokumentert opplæring av alle reviewers
  • Incident response: Prosedyre for når HITL-systemet feiler
  • Regular audits: Quarterly review av HITL-effectiveness

Verified (GDPR requirements, Norwegian public sector best practices)

Fremtidige trender

Adaptive HITL (2026-2027):

  • AI-systemer som dynamisk justerer HITL-thresholds basert på performance
  • Reinforcement learning from human feedback (RLHF) integrert i production workflows
  • Predictive escalation (AI forutsier når menneske vil være uenig → preemptive escalation)

Regulatory evolution:

  • EU AI Act (gjelder fra 2025-2027 gradvis) krever HITL for "high-risk AI systems"
  • Norge forventer å implementere tilsvarende nasjonalt
  • Økt krav til explainability i offentlig sektor

Microsoft roadmap (forventet):

  • Copilot Studio: Forbedret rationale generation med citations
  • Power Automate: AI-powered approval routing (ML-basert eskalering)
  • Agent Framework: Built-in confidence scoring for all agents
  • Purview: AI decision audit dashboards out-of-the-box

Baseline (trend analysis, offentlige roadmaps)


(Verified MCP 2026-04)

Kilder og verifisering

Microsoft Official Documentation (Verified):

  1. Artificial Intelligence Security - AI-5: Ensure human-in-the-loop — Azure Security Benchmark
  2. Microsoft Agent Framework - Human-in-the-Loop — HITL orchestrations
  3. Power Automate - Multistage and AI approvals — Power Platform approvals
  4. FAQ for AI Approvals — Best practices og limitations
  5. Copilot Studio - Topic escalation analysis — Escalation patterns
  6. Azure AI Agent Service - Transparency Note — Real-time oversight guidance
  7. Durable Agent Features - HITL workflows — Durable Functions patterns
  8. Responsible AI in Azure workloads — Escape hatches og human-in-the-loop checkpoints
  9. Catalog Enrichment Agent - Responsible AI FAQ — Human-in-the-loop implementation example

Code Samples (Verified): 10. Agent Framework HITL - Client implementation — C# approval workflow code 11. Durable Functions - Human approval orchestration — External event pattern

Baseline (Model Knowledge):

  • GDPR Article 22 interpretation for HITL requirements
  • Norwegian public sector AI governance best practices
  • Standard workflow patterns (sequential, parallel, conditional approval)
  • TCO calculation methodology for HITL implementations

Confidence Markers:

  • Verified: Direkte fra Microsoft Learn dokumentasjon (2026-02)
  • Baseline: Fra LLM-kunnskap, anses som standard praksis (men ikke Microsoft-spesifikk)

Search Queries Used:

  1. "human in the loop AI oversight Microsoft"
  2. "human agency AI decision review workflow"
  3. "AI human oversight escalation patterns"
  4. Code search: "human review AI workflow approval" (C#)

MCP Calls: 6 (3 searches + 2 fetches + 1 code sample search) Unique URLs: 9 Microsoft Learn articles