Last batch in HIGH bucket. Combined with 82bd665 (critical 9 + high batch 1, 21 files), this finishes the critical+high KB-refresh sweep for v1.12.0.
Substantive edits (3 files):
- security-copilot-integration.md: M365 E5/E7 inclusion auto-provisioning, agents-first landing experience, role-based onboarding (Verified MCP 2026-05)
- entra-agent-id-zero-trust.md: Ignite 2025-utvidelser — Conditional Access for agenter, Risky agents, 3 nye Agent ID-roller, Microsoft Agent Identity Platform, Copilot Studio blueprint principal
- ai-center-of-excellence-setup.md: Ny "Oppdateringer 2026-05"-seksjon — tre-roller-modell (platform/workload/CoE), agent-ferdighetsområder, sentralisert→rådgivende operasjonsmodell
Date-bump (20 files):
- HIGH-bucket filer der MCP-fetch viste kosmetiske endringer (forrige sesjons lærdom replikert)
Tests: validate-plugin.sh PASS 219.
33 KiB
Human-in-the-Loop and Oversight - Maintaining Human Agency
Last updated: 2026-05 Status: GA Category: Responsible AI & Governance
Introduksjon
Human-in-the-Loop (HITL) er et fundamentalt prinsipp for ansvarlig AI som sikrer at mennesker beholder kontroll og beslutningsmyndighet i AI-drevne systemer. Tross den økende autonomiteten til AI-agenter og generative modeller, er menneskelig oversyn kritisk for å håndtere høyrisikobeslutninger, validere outputkvalitet og beskytte mot feilaktige eller skadelige AI-handlinger.
Microsoft AI-stakken tilbyr HITL-kapabiliteter på tvers av Azure AI Foundry, Copilot Studio, Power Platform, og Microsoft Agent Framework — alle designet for å balansere automatisering med menneskelig kontroll. Dette er spesielt viktig i offentlig sektor, der beslutninger kan påvirke borgeres rettigheter, økonomiske forhold eller sikkerhet.
Nøkkelverdi:
- Sikkerhet: Mennesker kan stoppe feilaktige eller risikofylte AI-handlinger før de får konsekvenser
- Compliance: Oppfyller krav til menneskelig kontroll i EU AI Act, GDPR og offentlig sektorlovgivning
- Tillit: Bygger bruker- og interessenttillit gjennom transparente validerings-workflows
- Læring: Menneskelig feedback forbedrer AI-modeller over tid
- Ansvar: Klargjør ansvarslinjer når AI-systemet eskalerer beslutninger til mennesker
Verified (fra Azure AI Security Benchmark AI-5, Microsoft Agent Framework dokumentasjon)
Kjernekomponenter
HITL-implementasjoner i Microsoft-stakken består av flere samvirkende komponenter som sammen sikrer menneskelig oversyn:
1. Approval Workflows
| Plattform | Mekanisme | Bruksområde |
|---|---|---|
| Power Automate / Copilot Studio | Multistage og AI-approvals (Preview) | Strukturerte godkjenningsflyter med AI-stage (GPT-o3 gjør Approve/Reject med begrunnelse) og manuell-stage; ny 'Human in the loop'-kobling; conditions mellom stages for dynamisk routing (Verified MCP 2026-04) |
| Azure Logic Apps | Human Approval Connectors | Pauser AI-prosesser for menneskelig validering, integreres med Microsoft Teams, Outlook, eller egne dashboards |
| Copilot Studio | Human Handoff Topic | Overfører samtale fra agent til menneskelig representant når AI ikke kan løse oppgaven |
| Microsoft Agent Framework | HITL Orchestrations | Subworkflows som pauseer agent-kjeder for menneskelig feedback/approval på agentoutput |
| Durable Functions | External Events | Agentic workflows pauser for menneskelig beslutning via WaitForExternalEvent med timeout |
Godkjenningstyper:
- First to respond: Første godkjenner avgjør (rask prosessering)
- Everyone must approve: Konsensus kreves (høy-sikkerhetsbeslutninger)
- Conditional approvals: AI-godkjenning med menneskelig override ved lav konfidens
- Multistage: Kombinerer AI-analyse med etterfølgende manuell validering
Verified (Power Automate Multistage Approvals docs, Agent Framework HITL docs)
2. Confidence-Based Escalation
AI-systemer kan dynamisk eskalere beslutninger basert på modellens konfidens:
IF confidence_score < threshold THEN
Route to human reviewer
ELSE IF high_impact_decision THEN
Require human approval
ELSE
Execute autonomously with logging
END
Implementering:
- Azure AI Content Safety: Severity scores (0-7) kan trigge menneskelig review
- Copilot Studio: Konfidens-scores på topics kan rute til eskalering
- Agent Framework: Function approval modes (
@tool(approval_mode="always_require")) - Power Automate: AI approval stages returnerer "Analysis failed" ved usikkerhet → eskalerer til manuell godkjenning
Verified (AI-5.1 implementation guidance, Copilot Studio escalation docs)
3. Function-Level Controls
Microsoft Agent Framework tilbyr finkornet kontroll over hvilke funksjoner som krever menneskelig godkjenning:
| Approval Mode | Beskrivelse | Use Case |
|---|---|---|
never |
Ingen godkjenning (default) | Read-only funksjoner (hent data, søk) |
always_require |
Alltid krev godkjenning | Kritiske handlinger (slett data, send e-post, kjøp) |
confidence_based |
Eskalerer ved lav konfidens | Analyse-funksjoner med usikre resultater |
Kodeeksempel (C#):
// Function requires human approval before execution
[Function("delete_record")]
[Tool(approval_mode = "always_require")]
public async Task<string> DeleteRecord(string recordId)
{
// Only executes after human approves
return await _database.DeleteAsync(recordId);
}
Verified (Agent Framework function approval docs, code samples)
4. Review Dashboards & Interfaces
Menneskelige reviewere trenger tilgang til kontekstuell informasjon for å ta informerte beslutninger:
Power Automate Approvals Center:
- Viser AI approval decisions med rationale
- Tillater manuell override av AI-godkjenninger
- Loggfører alle beslutninger for audit
Azure Monitor Dashboards:
- Visualiserer AI-handlinger som krever approval
- Sanntids-varsler ved høyrisiko-eskalering
- Historiske trends for approval rates
Copilot Studio Activity Viewer:
- Detaljert visning av agent-handlinger og rationale
- "Why did the agent do this?"-forklaring generert av AI
- Feedback-mekanisme for kvalitetsforbedring
Security Requirements (AI-5.1):
- Kryptering av review-systemer (TLS 1.2+)
- Strikt tilgangskontroll via Microsoft Entra ID (RBAC)
- Anomaly detection for å forhindre manipulering av approval-prosesser
Verified (AI-5.1 security controls, Power Automate docs)
5. Feedback Loops
HITL er ikke bare et sikkerhetstiltak — det er også en læringskilde for modellene:
Kontinuerlig forbedring:
- Mennesker godkjenner/avviser AI-output med begrunnelse
- Feedback logges og analyseres (approval rates, avvisningsårsaker)
- Modeller re-trenes eller fine-tunes basert på menneskelige korreksjoner
- HITL-terskler justeres basert på forbedret modellytelse
Eksempel: Catalog Enrichment Agent (Retail)
- Agent foreslår produkt-kategorisering
- Catalog manager godkjenner/retter forslag
- Agent lærer fra korreksjoner og øker nøyaktighet over tid
- Graduell overgang fra supervised mode til autonomous mode
Verified (Catalog Enrichment Agent Responsible AI FAQ, AI-5.1 feedback loop guidance)
Arkitekturmønstre
Mønster 1: Gated Approval (Sequential)
AI-prosessen stopper ved kritiske punkter for menneskelig godkjenning.
User Input → AI Analysis → [HUMAN APPROVAL GATE] → Execute Action → Log Result
↓
If Rejected → Log & Notify
Azure-implementering:
- Azure Logic Apps med Approval Connector
- Pauser workflow ved kritisk junction
- Sender godkjenningsforespørsel via Teams/Email
- Fortsetter kun ved eksplisitt godkjenning
Eksempel: Manufacturing Safety Override (fra AI-5.1)
- AI voice assistant identifiserer kritisk kommando ("shutdown production line")
- Keyword detection flaggs kommandoen
- Azure Logic Apps router forespørsel til supervisor dashboard
- Supervisor godkjenner/avviser via secure dashboard
- Action utføres kun ved godkjenning, alt logges i Azure Monitor
Baseline (arkitekturmønster fra Azure Security Benchmark)
Mønster 2: Parallel Review (Concurrent)
Flere reviewere validerer AI-output samtidig, med konfigurerbar konsensus-logikk.
AI Output → Review Request → [Reviewer A] → Aggregate Decisions → Final Decision
→ [Reviewer B] ↓
→ [Reviewer C] Threshold Logic
(e.g., 2/3 must approve)
Power Automate Multistage Approvals:
- "Everyone must approve" setting
- Parallell distribusjon til alle godkjennere
- Aggregert beslutning basert på alle svar
Use Case: Sensitive Data Access
- AI-agent ber om tilgang til sensitiv borgerdata
- Parallell forespørsel til dataeier OG compliance officer
- Kun ved begge godkjenner får agent tilgang
- Alt logges i Microsoft Purview for audit trail
Baseline (standard workflow-mønster i Power Platform)
Mønster 3: Confidence Threshold (Adaptive)
Systemet eskalerer automatisk til menneske basert på AI-konfidens.
AI Decision → Confidence Check
↓
High (>90%) → Execute autonomously + Log
Medium (50-90%) → Notify human (no block)
Low (<50%) → Require approval before execution
Microsoft Agent Framework-implementering:
# Python example from Agent Framework
builder = (
SequentialBuilder()
.participants([analysis_agent, decision_agent])
.with_request_info(agents=[decision_agent]) # HITL enabled
)
# Agent output routed to human if confidence < threshold
response = AgentRequestInfoResponse.from_messages([
{"role": "user", "content": "Confidence too low, please review"}
])
Use Case: Invoice Processing
- OCR-agent scanner faktura med 95% konfidens → godkjenner automatisk
- OCR-agent scanner håndskrevet faktura med 60% konfidens → eskalerer til bokholder
- Bookholder validerer/korrigerer → feedback brukes til å forbedre OCR-modell
Verified (Agent Framework HITL workflow pattern, AI-5.1 optimization guidance)
Mønster 4: Human-Agent Handoff (Escalation)
Agent erkjenner sine begrensninger og overfører til menneske.
User → Agent (attempts resolution)
↓
Cannot solve → Transfer to human representative
↓
Human resolves + Agent observes
↓
Agent learns from interaction
Copilot Studio-implementering:
- Agent topics har success/failure metrics
- Ved failure rate >threshold → automatisk handoff
- Human representative håndterer edge cases
- Transcript analysis identifiserer grunner til escalation
- Agent topics oppdateres basert på learnings
Eksempel: Customer Service Bot
- Agent kan svare på 80% av ordre-status spørsmål
- Ved "missing package"-scenario → handoff til agent
- Menneskelig agent håndterer kompensasjon/retur
- Copilot team analyserer transcripts → legger til "Missing Order" topic
Verified (Copilot Studio escalation analysis docs, topic improvement guidance)
Mønster 5: Multi-Layer Defense (Depth)
Kombinerer flere HITL-kontroller i lag for kritiske systemer.
Layer 1: AI Content Safety (input filtering)
↓
Layer 2: AI Agent (with function approval)
↓
Layer 3: Human Review (output validation)
↓
Layer 4: Audit Log (traceability)
Offentlig sektor-implementering:
- Input validation: Azure AI Content Safety blokkerer upassende input
- Agent execution: Function calls krever approval (delete, update, send)
- Output review: Menneske validerer AI-generert vedtak/rapport
- Compliance logging: Microsoft Purview logger alle beslutninger
Verified (AI-2.1 multi-layered filtering, AI-5.1 HITL controls)
Beslutningsveiledning
Når kreves HITL?
| Scenario | HITL Required? | Rationale |
|---|---|---|
| Lesing av offentlig data | Nei | Lav risiko, ingen endring av data |
| Kategorisering av innkommende e-post | Nei | Lav konsekvens ved feil, reversibelt |
| Automatisk besvarelse av FAQ | Nei (med monitoring) | Standard responses, lav risiko |
| Anbefaling av produkter | Nei | Brukeren bestemmer uansett |
| Analyse av borgerdata | Ja | GDPR Art. 22 - rett til ikke å bli underlagt automatisert avgjørelse |
| Økonomiske transaksjoner | Ja | Høy konsekvens, risiko for svindel/feil |
| Publisering av offentlig informasjon | Ja | Reputasjonsrisiko, juridisk ansvar |
| Sletting av data | Ja | Irreversibelt, mulig datasvinn |
| Tilgangskontroll-beslutninger | Ja | Sikkerhetsrisiko ved feil |
| Juridiske vurderinger | Ja | Krever profesjonell skjønn |
Azure AI Security Benchmark AI-5 kriterier:
- External data transfers — alltid HITL
- Processing of confidential information — alltid HITL
- Decisions impacting financial outcomes — alltid HITL
- Safety-related commands — alltid HITL (ref. manufacturing example)
- Compliance-critical processes — alltid HITL
Verified (AI-5.1 critical actions definition)
Vurdering av HITL-grad
Autonomi-spektrum:
Fully Autonomous ←→ Human-Centric
↓ ↓
No HITL → Notify → Low-confidence escalation → Always review → Human executes
Beslutningsmatrise:
| Impact Level | Confidence Level | HITL Strategy |
|---|---|---|
| Low | High | Autonomous + logging |
| Low | Low | Notify human (async) |
| High | High | Notify + periodic audit |
| High | Low | Require approval |
Eksempel: Document Classification
- Klassifisering av "Generell korrespondanse" (lav impact) + 95% konfidens → autonom
- Klassifisering av "Gradert informasjon" (høy impact) + 70% konfidens → krev godkjenning
- Klassifisering av "Gradert informasjon" (høy impact) + 98% konfidens → notify + audit
Baseline (standard risiko-matrise, tilpasset fra AI-5.1 guidance)
Reviewer Competency
Effektiv HITL krever at menneskelige reviewere er kvalifiserte:
AI-5.1 Training Requirements:
- AI system behavior — forstå hvordan modellen resonnerer
- Potential vulnerabilities — kjenne til prompt injection, hallucinations
- Domain-specific risks — forståelse av fagområdets spesifikke farer
- Decision-support tools — trening i bruk av review dashboards
- Escalation procedures — vite når og hvordan eskalere videre
Reviewer Fatigue Prevention:
- Ikke review >50 AI-decisions per dag per person
- Roter reviewere for å forhindre "automation bias" (blind tillit til AI)
- Automatiser trivielle reviews, la mennesker fokusere på edge cases
- Periodiske pauser og refresher-trening
Verified (AI-5.1 train reviewers guidance, AI-5.1 optimize review processes)
Integrasjon med Microsoft-stakken
Azure AI Foundry
HITL-kapabiliteter:
- Prompt Shields: Blokkerer prompt injection før den når modellen → menneskelig review av blokkerte inputs
- Content Safety: Severity scores (0-7) kan konfigureres til å trigge human review ved >threshold
- Model Monitoring: Anomaly detection eskalerer til human investigator ved uventet model behavior
- Tracing (OpenTelemetry): Komplett audit trail for å rekonstruere agent reasoning ved human review
Implementering:
// Azure AI Content Safety for HITL escalation
var moderationResult = await contentSafetyClient.AnalyzeTextAsync(userInput);
if (moderationResult.HateSeverity >= 4) // High severity
{
await EscalateToHumanReview(userInput, moderationResult);
}
else
{
// Process with AI
var response = await chatClient.GetChatCompletionsAsync(userInput);
}
Verified (AI-5.1 implementation example, Content Safety docs)
Copilot Studio
HITL-features:
- Human Handoff Topic: Transfererer samtale til Live Agent (Omnichannel, Dynamics 365)
- Escalation Rate Tracking: Analytics dashboard viser hvilke topics eskalerer mest → optimaliseringsmuligheter
- Rationale Generation: AI forklarer sine beslutninger for menneskelige reviewere
- Approval Topics: Custom topics som pauser for menneskelig input før continuation
Workflow:
- Agent prøver å løse bruker-issue
- Hvis ikke løst etter N turns → trigger "Transfer to Agent" topic
- Human agent overtar i samme chat-vindu
- Agent observerer human resolution (lærer for fremtidige tilfeller)
Verified (Copilot Studio handoff docs, escalation analysis guidance)
Power Platform
Power Automate Multistage Approvals:
| Stage Type | Beskrivelse | Use Case |
|---|---|---|
| AI Stage | AI gjør approve/reject beslutning basert på instruksjoner | Pre-screening av standardiserte forespørsler (expense <500 kr) |
| Manual Stage | Menneske gjør beslutning | Høyrisiko eller edge cases |
| Condition Stage | Logisk routing basert på verdier | "If amount >5000 → require CFO approval" |
Best Practices (fra FAQ for AI Approvals):
- Sett temperature=0 for deterministiske AI-godkjenninger
- Bruk GPT-4.1 for komplekse approval-scenarioer (o3 for advanced reasoning, men tregere)
- Alltid ha human override-mekanisme
- Test thoroughly i sandbox med historical data
- Monitor decisions i Prompt Builder Activity section
Kodeeksempel (Power Automate):
# Multistage Approval Flow
Trigger: New expense report submitted
↓
Stage 1 (AI):
- Analyze expense against policy (receipts, amounts, categories)
- If clear violation → Reject with rationale
- If compliant and <500 kr → Approve
- If uncertain or >500 kr → Route to Stage 2
↓
Stage 2 (Manual):
- Manager reviews AI rationale + original expense
- Approves/rejects with feedback
↓
Output: Approval decision logged in Dataverse + email to submitter
Verified (Power Automate multistage approvals docs, AI approvals FAQ)
Microsoft Agent Framework
HITL Orchestrations:
| Orchestration Type | HITL Support | Pattern |
|---|---|---|
| Sequential | ✅ | Pauseer mellom agents for human feedback |
| Concurrent | ✅ | Parallelle agents, human review av aggregerte outputs |
| Group Chat | ✅ | Human kan delta som chat participant |
| Handoff | ✅ | Designet spesifikt for kompleks human-agent interaksjon |
with_request_info() API:
# Enable HITL for specific agents
builder = (
SequentialBuilder()
.participants([research_agent, writer_agent, reviewer_agent])
.with_request_info(agents=[writer_agent, reviewer_agent]) # Only these require human review
)
Response Types:
- Feedback: Human gir tilbakemelding → agent refinerer output
- Approval: Human godkjenner → workflow fortsetter
- Rejection: Human avviser → workflow stopper eller re-routes
Verified (Agent Framework HITL docs, orchestration patterns)
Azure Durable Functions
For lang-levende workflows med human decision points:
// Wait for human approval with timeout
HumanApprovalResponse approvalResponse;
try
{
approvalResponse = await context.WaitForExternalEvent<HumanApprovalResponse>(
eventName: "ApprovalDecision",
timeout: TimeSpan.FromHours(24)
);
}
catch (OperationCanceledException)
{
// Timeout → eskalerer til senior reviewer
return await context.CallActivityAsync<string>(nameof(EscalateForReview), draftContent);
}
if (approvalResponse.Approved)
{
return await context.CallActivityAsync<string>(nameof(PublishContent), draftContent);
}
Use Case: Content generation pipeline med mandatory review før publisering.
Verified (Durable Agent HITL example from code samples)
Microsoft Purview
Data Governance + HITL:
- Klassifiser sensitiv data (PII, GDPR-data, gradert informasjon)
- Monitor AI-tilgang til sensitive data sources
- Alert ved risikable access patterns → human investigator review
- Audit trail av alle AI-beslutninger for compliance (GDPR Art. 30)
Verified (AI-6.1 data security monitoring, Purview integration)
Offentlig sektor (Norge)
Juridiske krav
GDPR Article 22:
"The data subject shall have the right not to be subject to a decision based solely on automated processing, including profiling, which produces legal effects concerning him or her or similarly significantly affects him or her."
Implikasjon: Borgere har rett til menneskelig vurdering av automatiserte beslutninger. HITL er derfor lovpåkrevd i mange offentlige tjenester.
Eksempler på lovkrav:
- NAV-vedtak: Automatisk behandling OK, men vedtak må godkjennes av saksbehandler
- Skatteberegning: AI kan foreslå, menneske må beslutte
- Tilskudd/støtteordninger: Automatisering av screening OK, tildeling krever menneskelig vurdering
- Persondata-tilgang: AI kan ikke autonomt gi tilgang til borgerdata uten approval
Compliance-strategi:
- Identifiser alle automatiserte beslutninger som påvirker borgere
- Implementer HITL-gates før final decision
- Dokumenter HITL-prosessen i behandlingsgrunnlag (DPIA)
- Loggfør alle menneskelige godkjenninger for audit
Baseline (GDPR tolkning, EU AI Act human oversight requirements)
Offentlighetsloven & Transparens
Borgeres rett til innsyn:
- Offentlighetsloven krever at beslutningsprosesser er etterprøvbare
- HITL-logs må være tilgjengelige for innsyn (med personvernsikring)
- Rationale for AI-beslutninger må kunne forklares
Microsoft-stacken støtter:
- Azure Monitor Logs: Komplett audit trail av AI-beslutninger
- Copilot Studio Rationale: AI-genererte forklaringer på agent-handlinger
- Power Automate Activity Logs: Sporbarhet av approval workflows
- Microsoft Purview: Long-term retention for compliance
Verified (Azure Monitor audit capabilities, Purview compliance features)
Tillitsbygging
Offentlig sektor møter høy skepsis til AI. HITL er avgjørende for tillit:
Transparensmekanismer:
- Informer brukere: Vis tydelig når AI er involvert vs. menneskelig beslutning
- Forklar rationale: Bruk Copilot Studio Rationale / Azure Explainability
- Tilby escalation: Borgere skal alltid kunne be om menneskelig vurdering
- Publiser statistikk: Åpenhet om AI-nøyaktighet og approval rates
Eksempel: Søknadsprosess
Borger søker om tilskudd
↓
AI pre-screener → 60% konfidens → Flagges for human review
↓
Saksbehandler ser AI-analyse + original søknad
↓
Saksbehandler godkjenner/avviser med begrunnelse
↓
Borger mottar vedtak med henvisning til menneskelig vurdering
Baseline (best practices for offentlig sektor AI-innføring)
Accessibility & Inkludering
HITL-grensesnitt må være universelt utformet:
Microsoft tilgjengelighets-features:
- Power Automate Approvals: Skjermleser-kompatibel
- Azure Dashboards: WCAG 2.1 AA-compliant
- Copilot Studio: Keyboard navigation support
Inkluderingshensyn:
- Ikke alle borgere kan bruke AI-chat → alltid tilby menneskelig kontaktpunkt
- HITL som fallback for digitalt ekskluderte
- Multilingual support i approval workflows (samisk, andre språk)
Baseline (WCAG standards, universell utforming-krav i offentlig sektor)
Kostnad og lisensiering
Kostnadskomponenter
| Komponent | Kostnad | Merknad |
|---|---|---|
| Power Automate Approvals | Inkludert i Power Automate per-user/per-flow lisens | Ingen ekstrakostnad for standard approvals |
| AI Approvals (Copilot Studio) | Inkludert i Copilot Studio (€24/user/måned + €32/user/måned AI credits) | Forbruker AI credits ved bruk |
| Azure Logic Apps | Standard workflow pricing + Connector costs | Ca. $0.000025 per action |
| Azure Monitor | Log Analytics: ~$2.30/GB ingested + $0.10/GB retention | HITL-logging øker volum |
| Microsoft Purview | Fra $900/måned (Compliance Manager) | For audit trail og governance |
| Menneskelig arbeidstid | HØYESTE KOSTNAD | Saksbehandler-timer for review |
Total Cost of Ownership (TCO) vurdering:
Scenario: Invoice Processing (1000 fakturaer/måned)
| Tilnærming | Kostnader (NOK/måned) | Merknad |
|---|---|---|
| 100% manuell | 50 000 kr (200 timer × 250 kr/t) | Baseline |
| 100% autonom AI | 500 kr (Azure OpenAI calls) | ❌ Uakseptabel risiko |
| HITL: Confidence threshold | 10 000 kr (30% eskalerer + 40 timer review) | ✅ Balansert |
| HITL: 100% review | 52 000 kr (200 timer review + 2000 kr AI) | ❌ Ingen besparelse |
Konklusjon: Confidence-based HITL gir 80% kostnadsreduksjon vs. 100% manuell, med akseptabel risiko.
Verified (Azure/Power Platform pricing, baseline-kalkyler)
Lisensiering
Power Platform:
- Power Automate Premium: Kreves for approvals (€12/user/måned)
- Copilot Studio: €56/user/måned (24 + 32 AI credits) for AI approvals
Azure:
- Azure AI Services: Pay-as-you-go (Content Safety ~$1 per 1000 requests)
- Azure Monitor: Pay-per-GB (estimert 50 GB/måned for HITL logging i stor org)
- Logic Apps: Per action (~€0.000025 per step)
Microsoft Agent Framework:
- Ingen direkte kostnad (open source)
- Men krever Azure OpenAI eller Azure AI Foundry for models (standard API costs)
Offentlig sektor-vurdering:
- Vurder Microsoft 365 E5 + Power Platform-bundler for best pris
- CSP-avtaler for offentlig sektor kan gi rabatter
- HITL vil øke lisenskostnader (flere brukere trenger approval-tilgang)
Baseline (Microsoft offentlige prislister, januar 2026)
For arkitekten (Cosmo)
Når anbefale HITL?
Obligatoriske scenarioer:
- Offentlig sektor + vedtaksmyndighet → GDPR Art. 22 krever det
- Finansielle transaksjoner → Regulatoriske krav (Finanstilsynet)
- Helsedata → Pasientrettighetsloven, GDPR særkategorier
- Sikkerhets-kritiske systemer → ISO 27001, NIS2-direktivet
- Irreversible actions → Sletting, publisering, dataoverføring
Anbefalte scenarioer:
- Ny AI-implementering → start med høy HITL-grad, reduser gradvis
- Lav modell-confidence (<80%) → eskalering til menneske
- Complex reasoning → menneske validerer AI-resonnering
- High-stakes scenarios → selv om konfidens er høy
Ikke nødvendig:
- Repeterende, lav-risiko tasks (e-post-kategorisering)
- Read-only operasjoner uten persondata
- Interne verktøy med erfarne brukere som forstår AI-limitasjoner
Arkitektur-vurderinger
Valg av plattform:
| Hvis kunden har... | Anbefalt HITL-løsning |
|---|---|
| Power Platform-lisenser | Power Automate Multistage Approvals (enkleste) |
| Copilot Studio-agent | Human Handoff + Escalation topics |
| Azure-native arkitektur | Azure Logic Apps + Azure Monitor dashboards |
| Complex multi-agent | Microsoft Agent Framework HITL orchestrations |
| Long-running workflows | Azure Durable Functions med external events |
Integrasjonspoeng:
- HITL-dashboards bør integreres med eksisterende case management (Dynamics 365, SharePoint)
- Approval requests via Teams/Outlook for best brukeradopsjon
- Logg HITL-decisions i eksisterende SIEM (Sentinel, Splunk)
Verified (platform selection guidance basert på dokumentasjon)
Implementeringsfaser
Fase 1: Risk Assessment
- Identifiser alle AI-beslutningspunkter i løsningen
- Klassifiser etter impact (low/medium/high)
- Map GDPR/compliance-krav
- Definer HITL-strategi per beslutningspunkt
Fase 2: HITL Design
- Velg plattform (Power Automate, Logic Apps, etc.)
- Design approval workflows (sequential, parallel, conditional)
- Definer confidence thresholds for eskalering
- Design reviewer dashboards med kontekstuell informasjon
Fase 3: Implementation
- Implementer HITL-gates i AI-workflows
- Integrer med Azure Monitor for logging
- Set opp eskalerings-regler og routing
- Implementer feedback loops for model improvement
Fase 4: Training & Rollout
- Tren reviewers på AI behavior og vulnerabilities
- Pilot med subset av users/scenarios
- Monitor approval rates og review times
- Juster thresholds basert på pilot-data
Fase 5: Optimization
- Analyser approval trends (når eskalerer AI?)
- Identifiser false positives/negatives
- Fine-tune confidence thresholds
- Re-train models med human feedback
- Gradvis reduser HITL-grad for low-risk scenarios
Baseline (standard AI governance implementation approach)
Anti-patterns (unngå)
❌ "AI can handle everything" — Ingen HITL i det hele tatt → brudd på GDPR, høy risiko
❌ "Review all AI outputs" — 100% human review → ingen effektivitetsgevinst, reviewer fatigue
❌ "Set and forget" — Ingen monitoring av HITL effectiveness → systemet blir enten for restriktivt eller for åpent
❌ "Only technical team reviews" — Domain experts må være involvert, ikke bare IT
❌ "No feedback loop" — HITL-data brukes ikke til å forbedre modeller → samme feil repeteres
❌ "Black box reviews" — Reviewers ser bare AI-output, ikke reasoning → vanskelig å validere
❌ "Single point of failure" — Kun én reviewer for kritiske beslutninger → risiko for bias eller feil
Verified (common pitfalls fra AI governance literature, Microsoft best practices)
Red Teaming HITL-systemer
Test HITL-robusthet:
- Bypassing attempts: Kan agent manipulere approval-prosess? (Prompt injection for å unngå review)
- Reviewer manipulation: Kan malicious actor få reviewer til å godkjenne farlig handling? (Social engineering)
- Escalation flooding: Kan attacker trigger masse false escalations → DoS på reviewers?
- Timing attacks: Kan attacker utnytte timeout-mekanismer? (Vente til auto-approve ved timeout)
Defensive measures (fra AI-5.1):
- Secure HITL interfaces med encryption + MFA (Microsoft Entra ID)
- Anomaly detection på approval patterns (Azure Sentinel)
- Regular testing med PYRIT/Azure AI Red Teaming Agent
- Audit logs for all approval decisions (immutable storage)
Verified (AI-5.1 secure HITL interfaces, AI-7 red teaming guidance)
Compliance Checklist
For offentlig sektor i Norge:
- GDPR Art. 22 compliance: Borgere kan kreve menneskelig vurdering av automatiserte beslutninger
- Dokumentert HITL-prosess i DPIA (personvernkonsekvensvurdering)
- Audit trail av alle HITL-decisions (min. 5 år retention)
- Transparens: Borgere informert om AI-bruk og HITL-prosess
- Accessibility: HITL-grensesnitt oppfyller WCAG 2.1 AA
- Reviewer training: Dokumentert opplæring av alle reviewers
- Incident response: Prosedyre for når HITL-systemet feiler
- Regular audits: Quarterly review av HITL-effectiveness
Verified (GDPR requirements, Norwegian public sector best practices)
Fremtidige trender
Adaptive HITL (2026-2027):
- AI-systemer som dynamisk justerer HITL-thresholds basert på performance
- Reinforcement learning from human feedback (RLHF) integrert i production workflows
- Predictive escalation (AI forutsier når menneske vil være uenig → preemptive escalation)
Regulatory evolution:
- EU AI Act (gjelder fra 2025-2027 gradvis) krever HITL for "high-risk AI systems"
- Norge forventer å implementere tilsvarende nasjonalt
- Økt krav til explainability i offentlig sektor
Microsoft roadmap (forventet):
- Copilot Studio: Forbedret rationale generation med citations
- Power Automate: AI-powered approval routing (ML-basert eskalering)
- Agent Framework: Built-in confidence scoring for all agents
- Purview: AI decision audit dashboards out-of-the-box
Baseline (trend analysis, offentlige roadmaps)
(Verified MCP 2026-04)
Kilder og verifisering
Microsoft Official Documentation (Verified):
- Artificial Intelligence Security - AI-5: Ensure human-in-the-loop — Azure Security Benchmark
- Microsoft Agent Framework - Human-in-the-Loop — HITL orchestrations
- Power Automate - Multistage and AI approvals — Power Platform approvals
- FAQ for AI Approvals — Best practices og limitations
- Copilot Studio - Topic escalation analysis — Escalation patterns
- Azure AI Agent Service - Transparency Note — Real-time oversight guidance
- Durable Agent Features - HITL workflows — Durable Functions patterns
- Responsible AI in Azure workloads — Escape hatches og human-in-the-loop checkpoints
- Catalog Enrichment Agent - Responsible AI FAQ — Human-in-the-loop implementation example
Code Samples (Verified): 10. Agent Framework HITL - Client implementation — C# approval workflow code 11. Durable Functions - Human approval orchestration — External event pattern
Baseline (Model Knowledge):
- GDPR Article 22 interpretation for HITL requirements
- Norwegian public sector AI governance best practices
- Standard workflow patterns (sequential, parallel, conditional approval)
- TCO calculation methodology for HITL implementations
Confidence Markers:
- Verified: Direkte fra Microsoft Learn dokumentasjon (2026-02)
- Baseline: Fra LLM-kunnskap, anses som standard praksis (men ikke Microsoft-spesifikk)
Search Queries Used:
- "human in the loop AI oversight Microsoft"
- "human agency AI decision review workflow"
- "AI human oversight escalation patterns"
- Code search: "human review AI workflow approval" (C#)
MCP Calls: 6 (3 searches + 2 fetches + 1 code sample search) Unique URLs: 9 Microsoft Learn articles