Kjell Tore Guttormsen 8179415bc2 chore(ms-ai-architect): KB refresh complete — 23 files (high batch 2) [skip-docs]

Last batch in HIGH bucket. Combined with 82bd665 (critical 9 + high batch 1, 21 files), this finishes the critical+high KB-refresh sweep for v1.12.0.

Substantive edits (3 files):
- security-copilot-integration.md: M365 E5/E7 inclusion auto-provisioning, agents-first landing experience, role-based onboarding (Verified MCP 2026-05)
- entra-agent-id-zero-trust.md: Ignite 2025-utvidelser — Conditional Access for agenter, Risky agents, 3 nye Agent ID-roller, Microsoft Agent Identity Platform, Copilot Studio blueprint principal
- ai-center-of-excellence-setup.md: Ny "Oppdateringer 2026-05"-seksjon — tre-roller-modell (platform/workload/CoE), agent-ferdighetsområder, sentralisert→rådgivende operasjonsmodell

Date-bump (20 files):
- HIGH-bucket filer der MCP-fetch viste kosmetiske endringer (forrige sesjons lærdom replikert)

Tests: validate-plugin.sh PASS 219.

2026-05-05 14:52:42 +02:00

33 KiB

Raw Blame History

Human-in-the-Loop and Oversight - Maintaining Human Agency

Last updated: 2026-05 Status: GA Category: Responsible AI & Governance

Introduksjon

Human-in-the-Loop (HITL) er et fundamentalt prinsipp for ansvarlig AI som sikrer at mennesker beholder kontroll og beslutningsmyndighet i AI-drevne systemer. Tross den økende autonomiteten til AI-agenter og generative modeller, er menneskelig oversyn kritisk for å håndtere høyrisikobeslutninger, validere outputkvalitet og beskytte mot feilaktige eller skadelige AI-handlinger.

Microsoft AI-stakken tilbyr HITL-kapabiliteter på tvers av Azure AI Foundry, Copilot Studio, Power Platform, og Microsoft Agent Framework — alle designet for å balansere automatisering med menneskelig kontroll. Dette er spesielt viktig i offentlig sektor, der beslutninger kan påvirke borgeres rettigheter, økonomiske forhold eller sikkerhet.

Nøkkelverdi:

Sikkerhet: Mennesker kan stoppe feilaktige eller risikofylte AI-handlinger før de får konsekvenser
Compliance: Oppfyller krav til menneskelig kontroll i EU AI Act, GDPR og offentlig sektorlovgivning
Tillit: Bygger bruker- og interessenttillit gjennom transparente validerings-workflows
Læring: Menneskelig feedback forbedrer AI-modeller over tid
Ansvar: Klargjør ansvarslinjer når AI-systemet eskalerer beslutninger til mennesker

Verified (fra Azure AI Security Benchmark AI-5, Microsoft Agent Framework dokumentasjon)

Kjernekomponenter

HITL-implementasjoner i Microsoft-stakken består av flere samvirkende komponenter som sammen sikrer menneskelig oversyn:

1. Approval Workflows

Plattform	Mekanisme	Bruksområde
Power Automate / Copilot Studio	Multistage og AI-approvals (Preview)	Strukturerte godkjenningsflyter med AI-stage (GPT-o3 gjør Approve/Reject med begrunnelse) og manuell-stage; ny 'Human in the loop'-kobling; conditions mellom stages for dynamisk routing (Verified MCP 2026-04)
Azure Logic Apps	Human Approval Connectors	Pauser AI-prosesser for menneskelig validering, integreres med Microsoft Teams, Outlook, eller egne dashboards
Copilot Studio	Human Handoff Topic	Overfører samtale fra agent til menneskelig representant når AI ikke kan løse oppgaven
Microsoft Agent Framework	HITL Orchestrations	Subworkflows som pauseer agent-kjeder for menneskelig feedback/approval på agentoutput
Durable Functions	External Events	Agentic workflows pauser for menneskelig beslutning via `WaitForExternalEvent` med timeout

Godkjenningstyper:

First to respond: Første godkjenner avgjør (rask prosessering)
Everyone must approve: Konsensus kreves (høy-sikkerhetsbeslutninger)
Conditional approvals: AI-godkjenning med menneskelig override ved lav konfidens
Multistage: Kombinerer AI-analyse med etterfølgende manuell validering

Verified (Power Automate Multistage Approvals docs, Agent Framework HITL docs)

2. Confidence-Based Escalation

AI-systemer kan dynamisk eskalere beslutninger basert på modellens konfidens:

IF confidence_score < threshold THEN
    Route to human reviewer
ELSE IF high_impact_decision THEN
    Require human approval
ELSE
    Execute autonomously with logging
END

Implementering:

Azure AI Content Safety: Severity scores (0-7) kan trigge menneskelig review
Copilot Studio: Konfidens-scores på topics kan rute til eskalering
Agent Framework: Function approval modes (@tool(approval_mode="always_require"))
Power Automate: AI approval stages returnerer "Analysis failed" ved usikkerhet → eskalerer til manuell godkjenning

Verified (AI-5.1 implementation guidance, Copilot Studio escalation docs)

3. Function-Level Controls

Microsoft Agent Framework tilbyr finkornet kontroll over hvilke funksjoner som krever menneskelig godkjenning:

Approval Mode	Beskrivelse	Use Case
`never`	Ingen godkjenning (default)	Read-only funksjoner (hent data, søk)
`always_require`	Alltid krev godkjenning	Kritiske handlinger (slett data, send e-post, kjøp)
`confidence_based`	Eskalerer ved lav konfidens	Analyse-funksjoner med usikre resultater

Kodeeksempel (C#):

// Function requires human approval before execution
[Function("delete_record")]
[Tool(approval_mode = "always_require")]
public async Task<string> DeleteRecord(string recordId)
{
    // Only executes after human approves
    return await _database.DeleteAsync(recordId);
}

Verified (Agent Framework function approval docs, code samples)

4. Review Dashboards & Interfaces

Menneskelige reviewere trenger tilgang til kontekstuell informasjon for å ta informerte beslutninger:

Power Automate Approvals Center:

Viser AI approval decisions med rationale
Tillater manuell override av AI-godkjenninger
Loggfører alle beslutninger for audit

Azure Monitor Dashboards:

Visualiserer AI-handlinger som krever approval
Sanntids-varsler ved høyrisiko-eskalering
Historiske trends for approval rates

Copilot Studio Activity Viewer:

Detaljert visning av agent-handlinger og rationale
"Why did the agent do this?"-forklaring generert av AI
Feedback-mekanisme for kvalitetsforbedring

Security Requirements (AI-5.1):

Kryptering av review-systemer (TLS 1.2+)
Strikt tilgangskontroll via Microsoft Entra ID (RBAC)
Anomaly detection for å forhindre manipulering av approval-prosesser

Verified (AI-5.1 security controls, Power Automate docs)

5. Feedback Loops

HITL er ikke bare et sikkerhetstiltak — det er også en læringskilde for modellene:

Kontinuerlig forbedring:

Mennesker godkjenner/avviser AI-output med begrunnelse
Feedback logges og analyseres (approval rates, avvisningsårsaker)
Modeller re-trenes eller fine-tunes basert på menneskelige korreksjoner
HITL-terskler justeres basert på forbedret modellytelse

Eksempel: Catalog Enrichment Agent (Retail)

Agent foreslår produkt-kategorisering
Catalog manager godkjenner/retter forslag
Agent lærer fra korreksjoner og øker nøyaktighet over tid
Graduell overgang fra supervised mode til autonomous mode

Verified (Catalog Enrichment Agent Responsible AI FAQ, AI-5.1 feedback loop guidance)

Arkitekturmønstre

Mønster 1: Gated Approval (Sequential)

AI-prosessen stopper ved kritiske punkter for menneskelig godkjenning.

User Input → AI Analysis → [HUMAN APPROVAL GATE] → Execute Action → Log Result
                              ↓
                         If Rejected → Log & Notify

Azure-implementering:

Azure Logic Apps med Approval Connector
Pauser workflow ved kritisk junction
Sender godkjenningsforespørsel via Teams/Email
Fortsetter kun ved eksplisitt godkjenning

Eksempel: Manufacturing Safety Override (fra AI-5.1)

AI voice assistant identifiserer kritisk kommando ("shutdown production line")
Keyword detection flaggs kommandoen
Azure Logic Apps router forespørsel til supervisor dashboard
Supervisor godkjenner/avviser via secure dashboard
Action utføres kun ved godkjenning, alt logges i Azure Monitor

Baseline (arkitekturmønster fra Azure Security Benchmark)

Mønster 2: Parallel Review (Concurrent)

Flere reviewere validerer AI-output samtidig, med konfigurerbar konsensus-logikk.

AI Output → Review Request → [Reviewer A] → Aggregate Decisions → Final Decision
                           → [Reviewer B]         ↓
                           → [Reviewer C]    Threshold Logic
                                            (e.g., 2/3 must approve)

Power Automate Multistage Approvals:

"Everyone must approve" setting
Parallell distribusjon til alle godkjennere
Aggregert beslutning basert på alle svar

Use Case: Sensitive Data Access

AI-agent ber om tilgang til sensitiv borgerdata
Parallell forespørsel til dataeier OG compliance officer
Kun ved begge godkjenner får agent tilgang
Alt logges i Microsoft Purview for audit trail

Baseline (standard workflow-mønster i Power Platform)

Mønster 3: Confidence Threshold (Adaptive)

Systemet eskalerer automatisk til menneske basert på AI-konfidens.

AI Decision → Confidence Check
                ↓
         High (>90%) → Execute autonomously + Log
         Medium (50-90%) → Notify human (no block)
         Low (<50%) → Require approval before execution

Microsoft Agent Framework-implementering:

# Python example from Agent Framework
builder = (
    SequentialBuilder()
    .participants([analysis_agent, decision_agent])
    .with_request_info(agents=[decision_agent])  # HITL enabled
)

# Agent output routed to human if confidence < threshold
response = AgentRequestInfoResponse.from_messages([
    {"role": "user", "content": "Confidence too low, please review"}
])

Use Case: Invoice Processing

OCR-agent scanner faktura med 95% konfidens → godkjenner automatisk
OCR-agent scanner håndskrevet faktura med 60% konfidens → eskalerer til bokholder
Bookholder validerer/korrigerer → feedback brukes til å forbedre OCR-modell

Verified (Agent Framework HITL workflow pattern, AI-5.1 optimization guidance)

Mønster 4: Human-Agent Handoff (Escalation)

Agent erkjenner sine begrensninger og overfører til menneske.

User → Agent (attempts resolution)
         ↓
     Cannot solve → Transfer to human representative
                      ↓
                  Human resolves + Agent observes
                      ↓
                  Agent learns from interaction

Copilot Studio-implementering:

Agent topics har success/failure metrics
Ved failure rate >threshold → automatisk handoff
Human representative håndterer edge cases
Transcript analysis identifiserer grunner til escalation
Agent topics oppdateres basert på learnings

Eksempel: Customer Service Bot

Agent kan svare på 80% av ordre-status spørsmål
Ved "missing package"-scenario → handoff til agent
Menneskelig agent håndterer kompensasjon/retur
Copilot team analyserer transcripts → legger til "Missing Order" topic

Verified (Copilot Studio escalation analysis docs, topic improvement guidance)

Mønster 5: Multi-Layer Defense (Depth)

Kombinerer flere HITL-kontroller i lag for kritiske systemer.

Layer 1: AI Content Safety (input filtering)
           ↓
Layer 2: AI Agent (with function approval)
           ↓
Layer 3: Human Review (output validation)
           ↓
Layer 4: Audit Log (traceability)

Offentlig sektor-implementering:

Input validation: Azure AI Content Safety blokkerer upassende input
Agent execution: Function calls krever approval (delete, update, send)
Output review: Menneske validerer AI-generert vedtak/rapport
Compliance logging: Microsoft Purview logger alle beslutninger

Verified (AI-2.1 multi-layered filtering, AI-5.1 HITL controls)

Beslutningsveiledning

Når kreves HITL?

Scenario	HITL Required?	Rationale
Lesing av offentlig data	Nei	Lav risiko, ingen endring av data
Kategorisering av innkommende e-post	Nei	Lav konsekvens ved feil, reversibelt
Automatisk besvarelse av FAQ	Nei (med monitoring)	Standard responses, lav risiko
Anbefaling av produkter	Nei	Brukeren bestemmer uansett
Analyse av borgerdata	Ja	GDPR Art. 22 - rett til ikke å bli underlagt automatisert avgjørelse
Økonomiske transaksjoner	Ja	Høy konsekvens, risiko for svindel/feil
Publisering av offentlig informasjon	Ja	Reputasjonsrisiko, juridisk ansvar
Sletting av data	Ja	Irreversibelt, mulig datasvinn
Tilgangskontroll-beslutninger	Ja	Sikkerhetsrisiko ved feil
Juridiske vurderinger	Ja	Krever profesjonell skjønn

Azure AI Security Benchmark AI-5 kriterier:

External data transfers — alltid HITL
Processing of confidential information — alltid HITL
Decisions impacting financial outcomes — alltid HITL
Safety-related commands — alltid HITL (ref. manufacturing example)
Compliance-critical processes — alltid HITL

Verified (AI-5.1 critical actions definition)

Vurdering av HITL-grad

Autonomi-spektrum:

Fully Autonomous ←→ Human-Centric
     ↓                      ↓
No HITL → Notify → Low-confidence escalation → Always review → Human executes

Beslutningsmatrise:

Impact Level	Confidence Level	HITL Strategy
Low	High	Autonomous + logging
Low	Low	Notify human (async)
High	High	Notify + periodic audit
High	Low	Require approval

Eksempel: Document Classification

Klassifisering av "Generell korrespondanse" (lav impact) + 95% konfidens → autonom
Klassifisering av "Gradert informasjon" (høy impact) + 70% konfidens → krev godkjenning
Klassifisering av "Gradert informasjon" (høy impact) + 98% konfidens → notify + audit

Baseline (standard risiko-matrise, tilpasset fra AI-5.1 guidance)

Reviewer Competency

Effektiv HITL krever at menneskelige reviewere er kvalifiserte:

AI-5.1 Training Requirements:

AI system behavior — forstå hvordan modellen resonnerer
Potential vulnerabilities — kjenne til prompt injection, hallucinations
Domain-specific risks — forståelse av fagområdets spesifikke farer
Decision-support tools — trening i bruk av review dashboards
Escalation procedures — vite når og hvordan eskalere videre

Reviewer Fatigue Prevention:

Ikke review >50 AI-decisions per dag per person
Roter reviewere for å forhindre "automation bias" (blind tillit til AI)
Automatiser trivielle reviews, la mennesker fokusere på edge cases
Periodiske pauser og refresher-trening

Verified (AI-5.1 train reviewers guidance, AI-5.1 optimize review processes)

Integrasjon med Microsoft-stakken

Azure AI Foundry

HITL-kapabiliteter:

Prompt Shields: Blokkerer prompt injection før den når modellen → menneskelig review av blokkerte inputs
Content Safety: Severity scores (0-7) kan konfigureres til å trigge human review ved >threshold
Model Monitoring: Anomaly detection eskalerer til human investigator ved uventet model behavior
Tracing (OpenTelemetry): Komplett audit trail for å rekonstruere agent reasoning ved human review

Implementering:

// Azure AI Content Safety for HITL escalation
var moderationResult = await contentSafetyClient.AnalyzeTextAsync(userInput);

if (moderationResult.HateSeverity >= 4)  // High severity
{
    await EscalateToHumanReview(userInput, moderationResult);
}
else
{
    // Process with AI
    var response = await chatClient.GetChatCompletionsAsync(userInput);
}

Verified (AI-5.1 implementation example, Content Safety docs)

Copilot Studio

HITL-features:

Human Handoff Topic: Transfererer samtale til Live Agent (Omnichannel, Dynamics 365)
Escalation Rate Tracking: Analytics dashboard viser hvilke topics eskalerer mest → optimaliseringsmuligheter
Rationale Generation: AI forklarer sine beslutninger for menneskelige reviewere
Approval Topics: Custom topics som pauser for menneskelig input før continuation

Workflow:

Agent prøver å løse bruker-issue
Hvis ikke løst etter N turns → trigger "Transfer to Agent" topic
Human agent overtar i samme chat-vindu
Agent observerer human resolution (lærer for fremtidige tilfeller)

Verified (Copilot Studio handoff docs, escalation analysis guidance)

Power Platform

Power Automate Multistage Approvals:

Stage Type	Beskrivelse	Use Case
AI Stage	AI gjør approve/reject beslutning basert på instruksjoner	Pre-screening av standardiserte forespørsler (expense <500 kr)
Manual Stage	Menneske gjør beslutning	Høyrisiko eller edge cases
Condition Stage	Logisk routing basert på verdier	"If amount >5000 → require CFO approval"

Best Practices (fra FAQ for AI Approvals):

Sett temperature=0 for deterministiske AI-godkjenninger
Bruk GPT-4.1 for komplekse approval-scenarioer (o3 for advanced reasoning, men tregere)
Alltid ha human override-mekanisme
Test thoroughly i sandbox med historical data
Monitor decisions i Prompt Builder Activity section

Kodeeksempel (Power Automate):

# Multistage Approval Flow
Trigger: New expense report submitted
  ↓
Stage 1 (AI):
  - Analyze expense against policy (receipts, amounts, categories)
  - If clear violation → Reject with rationale
  - If compliant and <500 kr → Approve
  - If uncertain or >500 kr → Route to Stage 2
  ↓
Stage 2 (Manual):
  - Manager reviews AI rationale + original expense
  - Approves/rejects with feedback
  ↓
Output: Approval decision logged in Dataverse + email to submitter

Verified (Power Automate multistage approvals docs, AI approvals FAQ)

Microsoft Agent Framework

HITL Orchestrations:

Orchestration Type	HITL Support	Pattern
Sequential	✅	Pauseer mellom agents for human feedback
Concurrent	✅	Parallelle agents, human review av aggregerte outputs
Group Chat	✅	Human kan delta som chat participant
Handoff	✅	Designet spesifikt for kompleks human-agent interaksjon

with_request_info() API:

# Enable HITL for specific agents
builder = (
    SequentialBuilder()
    .participants([research_agent, writer_agent, reviewer_agent])
    .with_request_info(agents=[writer_agent, reviewer_agent])  # Only these require human review
)

Response Types:

Feedback: Human gir tilbakemelding → agent refinerer output
Approval: Human godkjenner → workflow fortsetter
Rejection: Human avviser → workflow stopper eller re-routes

Verified (Agent Framework HITL docs, orchestration patterns)

Azure Durable Functions

For lang-levende workflows med human decision points:

// Wait for human approval with timeout
HumanApprovalResponse approvalResponse;
try
{
    approvalResponse = await context.WaitForExternalEvent<HumanApprovalResponse>(
        eventName: "ApprovalDecision",
        timeout: TimeSpan.FromHours(24)
    );
}
catch (OperationCanceledException)
{
    // Timeout → eskalerer til senior reviewer
    return await context.CallActivityAsync<string>(nameof(EscalateForReview), draftContent);
}

if (approvalResponse.Approved)
{
    return await context.CallActivityAsync<string>(nameof(PublishContent), draftContent);
}

Use Case: Content generation pipeline med mandatory review før publisering.

Verified (Durable Agent HITL example from code samples)

Microsoft Purview

Data Governance + HITL:

Klassifiser sensitiv data (PII, GDPR-data, gradert informasjon)
Monitor AI-tilgang til sensitive data sources
Alert ved risikable access patterns → human investigator review
Audit trail av alle AI-beslutninger for compliance (GDPR Art. 30)

Verified (AI-6.1 data security monitoring, Purview integration)

Offentlig sektor (Norge)

Juridiske krav

GDPR Article 22:

"The data subject shall have the right not to be subject to a decision based solely on automated processing, including profiling, which produces legal effects concerning him or her or similarly significantly affects him or her."

Implikasjon: Borgere har rett til menneskelig vurdering av automatiserte beslutninger. HITL er derfor lovpåkrevd i mange offentlige tjenester.

Eksempler på lovkrav:

NAV-vedtak: Automatisk behandling OK, men vedtak må godkjennes av saksbehandler
Skatteberegning: AI kan foreslå, menneske må beslutte
Tilskudd/støtteordninger: Automatisering av screening OK, tildeling krever menneskelig vurdering
Persondata-tilgang: AI kan ikke autonomt gi tilgang til borgerdata uten approval

Compliance-strategi:

Identifiser alle automatiserte beslutninger som påvirker borgere
Implementer HITL-gates før final decision
Dokumenter HITL-prosessen i behandlingsgrunnlag (DPIA)
Loggfør alle menneskelige godkjenninger for audit

Baseline (GDPR tolkning, EU AI Act human oversight requirements)

Offentlighetsloven & Transparens

Borgeres rett til innsyn:

Offentlighetsloven krever at beslutningsprosesser er etterprøvbare
HITL-logs må være tilgjengelige for innsyn (med personvernsikring)
Rationale for AI-beslutninger må kunne forklares

Microsoft-stacken støtter:

Azure Monitor Logs: Komplett audit trail av AI-beslutninger
Copilot Studio Rationale: AI-genererte forklaringer på agent-handlinger
Power Automate Activity Logs: Sporbarhet av approval workflows
Microsoft Purview: Long-term retention for compliance

Verified (Azure Monitor audit capabilities, Purview compliance features)

Tillitsbygging

Offentlig sektor møter høy skepsis til AI. HITL er avgjørende for tillit:

Transparensmekanismer:

Informer brukere: Vis tydelig når AI er involvert vs. menneskelig beslutning
Forklar rationale: Bruk Copilot Studio Rationale / Azure Explainability
Tilby escalation: Borgere skal alltid kunne be om menneskelig vurdering
Publiser statistikk: Åpenhet om AI-nøyaktighet og approval rates

Eksempel: Søknadsprosess

Borger søker om tilskudd
  ↓
AI pre-screener → 60% konfidens → Flagges for human review
  ↓
Saksbehandler ser AI-analyse + original søknad
  ↓
Saksbehandler godkjenner/avviser med begrunnelse
  ↓
Borger mottar vedtak med henvisning til menneskelig vurdering

Baseline (best practices for offentlig sektor AI-innføring)

Accessibility & Inkludering

HITL-grensesnitt må være universelt utformet:

Microsoft tilgjengelighets-features:

Power Automate Approvals: Skjermleser-kompatibel
Azure Dashboards: WCAG 2.1 AA-compliant
Copilot Studio: Keyboard navigation support

Inkluderingshensyn:

Ikke alle borgere kan bruke AI-chat → alltid tilby menneskelig kontaktpunkt
HITL som fallback for digitalt ekskluderte
Multilingual support i approval workflows (samisk, andre språk)

Baseline (WCAG standards, universell utforming-krav i offentlig sektor)

Kostnad og lisensiering

Kostnadskomponenter

Komponent	Kostnad	Merknad
Power Automate Approvals	Inkludert i Power Automate per-user/per-flow lisens	Ingen ekstrakostnad for standard approvals
AI Approvals (Copilot Studio)	Inkludert i Copilot Studio (€24/user/måned + €32/user/måned AI credits)	Forbruker AI credits ved bruk
Azure Logic Apps	Standard workflow pricing + Connector costs	Ca. $0.000025 per action
Azure Monitor	Log Analytics: ~$2.30/GB ingested + $0.10/GB retention	HITL-logging øker volum
Microsoft Purview	Fra $900/måned (Compliance Manager)	For audit trail og governance
Menneskelig arbeidstid	HØYESTE KOSTNAD	Saksbehandler-timer for review

Total Cost of Ownership (TCO) vurdering:

Scenario: Invoice Processing (1000 fakturaer/måned)

Tilnærming	Kostnader (NOK/måned)	Merknad
100% manuell	50 000 kr (200 timer × 250 kr/t)	Baseline
100% autonom AI	500 kr (Azure OpenAI calls)	❌ Uakseptabel risiko
HITL: Confidence threshold	10 000 kr (30% eskalerer + 40 timer review)	✅ Balansert
HITL: 100% review	52 000 kr (200 timer review + 2000 kr AI)	❌ Ingen besparelse

Konklusjon: Confidence-based HITL gir 80% kostnadsreduksjon vs. 100% manuell, med akseptabel risiko.

Verified (Azure/Power Platform pricing, baseline-kalkyler)

Lisensiering

Power Platform:

Power Automate Premium: Kreves for approvals (€12/user/måned)
Copilot Studio: €56/user/måned (24 + 32 AI credits) for AI approvals

Azure:

Azure AI Services: Pay-as-you-go (Content Safety ~$1 per 1000 requests)
Azure Monitor: Pay-per-GB (estimert 50 GB/måned for HITL logging i stor org)
Logic Apps: Per action (~€0.000025 per step)

Microsoft Agent Framework:

Ingen direkte kostnad (open source)
Men krever Azure OpenAI eller Azure AI Foundry for models (standard API costs)

Offentlig sektor-vurdering:

Vurder Microsoft 365 E5 + Power Platform-bundler for best pris
CSP-avtaler for offentlig sektor kan gi rabatter
HITL vil øke lisenskostnader (flere brukere trenger approval-tilgang)

Baseline (Microsoft offentlige prislister, januar 2026)

For arkitekten (Cosmo)

Når anbefale HITL?

Obligatoriske scenarioer:

Offentlig sektor + vedtaksmyndighet → GDPR Art. 22 krever det
Finansielle transaksjoner → Regulatoriske krav (Finanstilsynet)
Helsedata → Pasientrettighetsloven, GDPR særkategorier
Sikkerhets-kritiske systemer → ISO 27001, NIS2-direktivet
Irreversible actions → Sletting, publisering, dataoverføring

Anbefalte scenarioer:

Ny AI-implementering → start med høy HITL-grad, reduser gradvis
Lav modell-confidence (<80%) → eskalering til menneske
Complex reasoning → menneske validerer AI-resonnering
High-stakes scenarios → selv om konfidens er høy

Ikke nødvendig:

Repeterende, lav-risiko tasks (e-post-kategorisering)
Read-only operasjoner uten persondata
Interne verktøy med erfarne brukere som forstår AI-limitasjoner

Arkitektur-vurderinger

Valg av plattform:

Hvis kunden har...	Anbefalt HITL-løsning
Power Platform-lisenser	Power Automate Multistage Approvals (enkleste)
Copilot Studio-agent	Human Handoff + Escalation topics
Azure-native arkitektur	Azure Logic Apps + Azure Monitor dashboards
Complex multi-agent	Microsoft Agent Framework HITL orchestrations
Long-running workflows	Azure Durable Functions med external events

Integrasjonspoeng:

HITL-dashboards bør integreres med eksisterende case management (Dynamics 365, SharePoint)
Approval requests via Teams/Outlook for best brukeradopsjon
Logg HITL-decisions i eksisterende SIEM (Sentinel, Splunk)

Verified (platform selection guidance basert på dokumentasjon)

Implementeringsfaser

Fase 1: Risk Assessment

Identifiser alle AI-beslutningspunkter i løsningen
Klassifiser etter impact (low/medium/high)
Map GDPR/compliance-krav
Definer HITL-strategi per beslutningspunkt

Fase 2: HITL Design

Velg plattform (Power Automate, Logic Apps, etc.)
Design approval workflows (sequential, parallel, conditional)
Definer confidence thresholds for eskalering
Design reviewer dashboards med kontekstuell informasjon

Fase 3: Implementation

Implementer HITL-gates i AI-workflows
Integrer med Azure Monitor for logging
Set opp eskalerings-regler og routing
Implementer feedback loops for model improvement

Fase 4: Training & Rollout

Tren reviewers på AI behavior og vulnerabilities
Pilot med subset av users/scenarios
Monitor approval rates og review times
Juster thresholds basert på pilot-data

Fase 5: Optimization

Analyser approval trends (når eskalerer AI?)
Identifiser false positives/negatives
Fine-tune confidence thresholds
Re-train models med human feedback
Gradvis reduser HITL-grad for low-risk scenarios

Baseline (standard AI governance implementation approach)

Anti-patterns (unngå)

❌ "AI can handle everything" — Ingen HITL i det hele tatt → brudd på GDPR, høy risiko

❌ "Review all AI outputs" — 100% human review → ingen effektivitetsgevinst, reviewer fatigue

❌ "Set and forget" — Ingen monitoring av HITL effectiveness → systemet blir enten for restriktivt eller for åpent

❌ "Only technical team reviews" — Domain experts må være involvert, ikke bare IT

❌ "No feedback loop" — HITL-data brukes ikke til å forbedre modeller → samme feil repeteres

❌ "Black box reviews" — Reviewers ser bare AI-output, ikke reasoning → vanskelig å validere

❌ "Single point of failure" — Kun én reviewer for kritiske beslutninger → risiko for bias eller feil

Verified (common pitfalls fra AI governance literature, Microsoft best practices)

Red Teaming HITL-systemer

Test HITL-robusthet:

Bypassing attempts: Kan agent manipulere approval-prosess? (Prompt injection for å unngå review)
Reviewer manipulation: Kan malicious actor få reviewer til å godkjenne farlig handling? (Social engineering)
Escalation flooding: Kan attacker trigger masse false escalations → DoS på reviewers?
Timing attacks: Kan attacker utnytte timeout-mekanismer? (Vente til auto-approve ved timeout)

Defensive measures (fra AI-5.1):

Secure HITL interfaces med encryption + MFA (Microsoft Entra ID)
Anomaly detection på approval patterns (Azure Sentinel)
Regular testing med PYRIT/Azure AI Red Teaming Agent
Audit logs for all approval decisions (immutable storage)

Verified (AI-5.1 secure HITL interfaces, AI-7 red teaming guidance)

Compliance Checklist

For offentlig sektor i Norge:

GDPR Art. 22 compliance: Borgere kan kreve menneskelig vurdering av automatiserte beslutninger
Dokumentert HITL-prosess i DPIA (personvernkonsekvensvurdering)
Audit trail av alle HITL-decisions (min. 5 år retention)
Transparens: Borgere informert om AI-bruk og HITL-prosess
Accessibility: HITL-grensesnitt oppfyller WCAG 2.1 AA
Reviewer training: Dokumentert opplæring av alle reviewers
Incident response: Prosedyre for når HITL-systemet feiler
Regular audits: Quarterly review av HITL-effectiveness

Verified (GDPR requirements, Norwegian public sector best practices)

Fremtidige trender

Adaptive HITL (2026-2027):

AI-systemer som dynamisk justerer HITL-thresholds basert på performance
Reinforcement learning from human feedback (RLHF) integrert i production workflows
Predictive escalation (AI forutsier når menneske vil være uenig → preemptive escalation)

Regulatory evolution:

EU AI Act (gjelder fra 2025-2027 gradvis) krever HITL for "high-risk AI systems"
Norge forventer å implementere tilsvarende nasjonalt
Økt krav til explainability i offentlig sektor

Microsoft roadmap (forventet):

Copilot Studio: Forbedret rationale generation med citations
Power Automate: AI-powered approval routing (ML-basert eskalering)
Agent Framework: Built-in confidence scoring for all agents
Purview: AI decision audit dashboards out-of-the-box

Baseline (trend analysis, offentlige roadmaps)

(Verified MCP 2026-04)

Kilder og verifisering

Microsoft Official Documentation (Verified):

Artificial Intelligence Security - AI-5: Ensure human-in-the-loop — Azure Security Benchmark
Microsoft Agent Framework - Human-in-the-Loop — HITL orchestrations
Power Automate - Multistage and AI approvals — Power Platform approvals
FAQ for AI Approvals — Best practices og limitations
Copilot Studio - Topic escalation analysis — Escalation patterns
Azure AI Agent Service - Transparency Note — Real-time oversight guidance
Durable Agent Features - HITL workflows — Durable Functions patterns
Responsible AI in Azure workloads — Escape hatches og human-in-the-loop checkpoints
Catalog Enrichment Agent - Responsible AI FAQ — Human-in-the-loop implementation example

Code Samples (Verified): 10. Agent Framework HITL - Client implementation — C# approval workflow code 11. Durable Functions - Human approval orchestration — External event pattern

Baseline (Model Knowledge):

GDPR Article 22 interpretation for HITL requirements
Norwegian public sector AI governance best practices
Standard workflow patterns (sequential, parallel, conditional approval)
TCO calculation methodology for HITL implementations

Confidence Markers:

Verified: Direkte fra Microsoft Learn dokumentasjon (2026-02)
Baseline: Fra LLM-kunnskap, anses som standard praksis (men ikke Microsoft-spesifikk)

Search Queries Used:

"human in the loop AI oversight Microsoft"
"human agency AI decision review workflow"
"AI human oversight escalation patterns"
Code search: "human review AI workflow approval" (C#)

MCP Calls: 6 (3 searches + 2 fetches + 1 code sample search) Unique URLs: 9 Microsoft Learn articles

33 KiB Raw Blame History Unescape Escape