# Human-in-the-Loop and Oversight - Maintaining Human Agency

**Last updated:** 2026-05
**Status:** GA
**Category:** Responsible AI & Governance

---

## Introduksjon

Human-in-the-Loop (HITL) er et fundamentalt prinsipp for ansvarlig AI som sikrer at mennesker beholder kontroll og beslutningsmyndighet i AI-drevne systemer. Tross den økende autonomiteten til AI-agenter og generative modeller, er menneskelig oversyn kritisk for å håndtere høyrisikobeslutninger, validere outputkvalitet og beskytte mot feilaktige eller skadelige AI-handlinger.

Microsoft AI-stakken tilbyr HITL-kapabiliteter på tvers av Azure AI Foundry, Copilot Studio, Power Platform, og Microsoft Agent Framework — alle designet for å balansere automatisering med menneskelig kontroll. Dette er spesielt viktig i offentlig sektor, der beslutninger kan påvirke borgeres rettigheter, økonomiske forhold eller sikkerhet.

**Nøkkelverdi:**
- **Sikkerhet:** Mennesker kan stoppe feilaktige eller risikofylte AI-handlinger før de får konsekvenser
- **Compliance:** Oppfyller krav til menneskelig kontroll i EU AI Act, GDPR og offentlig sektorlovgivning
- **Tillit:** Bygger bruker- og interessenttillit gjennom transparente validerings-workflows
- **Læring:** Menneskelig feedback forbedrer AI-modeller over tid
- **Ansvar:** Klargjør ansvarslinjer når AI-systemet eskalerer beslutninger til mennesker

**Verified** (fra Azure AI Security Benchmark AI-5, Microsoft Agent Framework dokumentasjon)

---

## Kjernekomponenter

HITL-implementasjoner i Microsoft-stakken består av flere samvirkende komponenter som sammen sikrer menneskelig oversyn:

### 1. Approval Workflows

| Plattform | Mekanisme | Bruksområde |
|-----------|-----------|-------------|
| **Power Automate / Copilot Studio** | Multistage og AI-approvals (Preview) | Strukturerte godkjenningsflyter med AI-stage (GPT-o3 gjør Approve/Reject med begrunnelse) og manuell-stage; ny 'Human in the loop'-kobling; conditions mellom stages for dynamisk routing *(Verified MCP 2026-04)* |
| **Azure Logic Apps** | Human Approval Connectors | Pauser AI-prosesser for menneskelig validering, integreres med Microsoft Teams, Outlook, eller egne dashboards |
| **Copilot Studio** | Human Handoff Topic | Overfører samtale fra agent til menneskelig representant når AI ikke kan løse oppgaven |
| **Microsoft Agent Framework** | HITL Orchestrations | Subworkflows som pauseer agent-kjeder for menneskelig feedback/approval på agentoutput |
| **Durable Functions** | External Events | Agentic workflows pauser for menneskelig beslutning via `WaitForExternalEvent` med timeout |

**Godkjenningstyper:**
- **First to respond:** Første godkjenner avgjør (rask prosessering)
- **Everyone must approve:** Konsensus kreves (høy-sikkerhetsbeslutninger)
- **Conditional approvals:** AI-godkjenning med menneskelig override ved lav konfidens
- **Multistage:** Kombinerer AI-analyse med etterfølgende manuell validering

**Verified** (Power Automate Multistage Approvals docs, Agent Framework HITL docs)

### 2. Confidence-Based Escalation

AI-systemer kan dynamisk eskalere beslutninger basert på modellens konfidens:

```
IF confidence_score < threshold THEN
    Route to human reviewer
ELSE IF high_impact_decision THEN
    Require human approval
ELSE
    Execute autonomously with logging
END
```

**Implementering:**
- **Azure AI Content Safety:** Severity scores (0-7) kan trigge menneskelig review
- **Copilot Studio:** Konfidens-scores på topics kan rute til eskalering
- **Agent Framework:** Function approval modes (`@tool(approval_mode="always_require")`)
- **Power Automate:** AI approval stages returnerer "Analysis failed" ved usikkerhet → eskalerer til manuell godkjenning

**Verified** (AI-5.1 implementation guidance, Copilot Studio escalation docs)

### 3. Function-Level Controls

Microsoft Agent Framework tilbyr finkornet kontroll over hvilke funksjoner som krever menneskelig godkjenning:

| Approval Mode | Beskrivelse | Use Case |
|---------------|-------------|----------|
| `never` | Ingen godkjenning (default) | Read-only funksjoner (hent data, søk) |
| `always_require` | Alltid krev godkjenning | Kritiske handlinger (slett data, send e-post, kjøp) |
| `confidence_based` | Eskalerer ved lav konfidens | Analyse-funksjoner med usikre resultater |

**Kodeeksempel (C#):**
```csharp
// Function requires human approval before execution
[Function("delete_record")]
[Tool(approval_mode = "always_require")]
public async Task<string> DeleteRecord(string recordId)
{
    // Only executes after human approves
    return await _database.DeleteAsync(recordId);
}
```

**Verified** (Agent Framework function approval docs, code samples)

### 4. Review Dashboards & Interfaces

Menneskelige reviewere trenger tilgang til kontekstuell informasjon for å ta informerte beslutninger:

**Power Automate Approvals Center:**
- Viser AI approval decisions med rationale
- Tillater manuell override av AI-godkjenninger
- Loggfører alle beslutninger for audit

**Azure Monitor Dashboards:**
- Visualiserer AI-handlinger som krever approval
- Sanntids-varsler ved høyrisiko-eskalering
- Historiske trends for approval rates

**Copilot Studio Activity Viewer:**
- Detaljert visning av agent-handlinger og rationale
- "Why did the agent do this?"-forklaring generert av AI
- Feedback-mekanisme for kvalitetsforbedring

**Security Requirements (AI-5.1):**
- Kryptering av review-systemer (TLS 1.2+)
- Strikt tilgangskontroll via Microsoft Entra ID (RBAC)
- Anomaly detection for å forhindre manipulering av approval-prosesser

**Verified** (AI-5.1 security controls, Power Automate docs)

### 5. Feedback Loops

HITL er ikke bare et sikkerhetstiltak — det er også en læringskilde for modellene:

**Kontinuerlig forbedring:**
1. Mennesker godkjenner/avviser AI-output med begrunnelse
2. Feedback logges og analyseres (approval rates, avvisningsårsaker)
3. Modeller re-trenes eller fine-tunes basert på menneskelige korreksjoner
4. HITL-terskler justeres basert på forbedret modellytelse

**Eksempel: Catalog Enrichment Agent (Retail)**
- Agent foreslår produkt-kategorisering
- Catalog manager godkjenner/retter forslag
- Agent lærer fra korreksjoner og øker nøyaktighet over tid
- Graduell overgang fra supervised mode til autonomous mode

**Verified** (Catalog Enrichment Agent Responsible AI FAQ, AI-5.1 feedback loop guidance)

---

## Arkitekturmønstre

### Mønster 1: Gated Approval (Sequential)

AI-prosessen stopper ved kritiske punkter for menneskelig godkjenning.

```
User Input → AI Analysis → [HUMAN APPROVAL GATE] → Execute Action → Log Result
                              ↓
                         If Rejected → Log & Notify
```

**Azure-implementering:**
- **Azure Logic Apps** med Approval Connector
- Pauser workflow ved kritisk junction
- Sender godkjenningsforespørsel via Teams/Email
- Fortsetter kun ved eksplisitt godkjenning

**Eksempel: Manufacturing Safety Override (fra AI-5.1)**
- AI voice assistant identifiserer kritisk kommando ("shutdown production line")
- Keyword detection flaggs kommandoen
- Azure Logic Apps router forespørsel til supervisor dashboard
- Supervisor godkjenner/avviser via secure dashboard
- Action utføres kun ved godkjenning, alt logges i Azure Monitor

**Baseline** (arkitekturmønster fra Azure Security Benchmark)

### Mønster 2: Parallel Review (Concurrent)

Flere reviewere validerer AI-output samtidig, med konfigurerbar konsensus-logikk.

```
AI Output → Review Request → [Reviewer A] → Aggregate Decisions → Final Decision
                           → [Reviewer B]         ↓
                           → [Reviewer C]    Threshold Logic
                                            (e.g., 2/3 must approve)
```

**Power Automate Multistage Approvals:**
- "Everyone must approve" setting
- Parallell distribusjon til alle godkjennere
- Aggregert beslutning basert på alle svar

**Use Case: Sensitive Data Access**
- AI-agent ber om tilgang til sensitiv borgerdata
- Parallell forespørsel til dataeier OG compliance officer
- Kun ved begge godkjenner får agent tilgang
- Alt logges i Microsoft Purview for audit trail

**Baseline** (standard workflow-mønster i Power Platform)

### Mønster 3: Confidence Threshold (Adaptive)

Systemet eskalerer automatisk til menneske basert på AI-konfidens.

```
AI Decision → Confidence Check
                ↓
         High (>90%) → Execute autonomously + Log
         Medium (50-90%) → Notify human (no block)
         Low (<50%) → Require approval before execution
```

**Microsoft Agent Framework-implementering:**
```python
# Python example from Agent Framework
builder = (
    SequentialBuilder()
    .participants([analysis_agent, decision_agent])
    .with_request_info(agents=[decision_agent])  # HITL enabled
)

# Agent output routed to human if confidence < threshold
response = AgentRequestInfoResponse.from_messages([
    {"role": "user", "content": "Confidence too low, please review"}
])
```

**Use Case: Invoice Processing**
- OCR-agent scanner faktura med 95% konfidens → godkjenner automatisk
- OCR-agent scanner håndskrevet faktura med 60% konfidens → eskalerer til bokholder
- Bookholder validerer/korrigerer → feedback brukes til å forbedre OCR-modell

**Verified** (Agent Framework HITL workflow pattern, AI-5.1 optimization guidance)

### Mønster 4: Human-Agent Handoff (Escalation)

Agent erkjenner sine begrensninger og overfører til menneske.

```
User → Agent (attempts resolution)
         ↓
     Cannot solve → Transfer to human representative
                      ↓
                  Human resolves + Agent observes
                      ↓
                  Agent learns from interaction
```

**Copilot Studio-implementering:**
- Agent topics har success/failure metrics
- Ved failure rate >threshold → automatisk handoff
- Human representative håndterer edge cases
- Transcript analysis identifiserer grunner til escalation
- Agent topics oppdateres basert på learnings

**Eksempel: Customer Service Bot**
- Agent kan svare på 80% av ordre-status spørsmål
- Ved "missing package"-scenario → handoff til agent
- Menneskelig agent håndterer kompensasjon/retur
- Copilot team analyserer transcripts → legger til "Missing Order" topic

**Verified** (Copilot Studio escalation analysis docs, topic improvement guidance)

### Mønster 5: Multi-Layer Defense (Depth)

Kombinerer flere HITL-kontroller i lag for kritiske systemer.

```
Layer 1: AI Content Safety (input filtering)
           ↓
Layer 2: AI Agent (with function approval)
           ↓
Layer 3: Human Review (output validation)
           ↓
Layer 4: Audit Log (traceability)
```

**Offentlig sektor-implementering:**
1. **Input validation:** Azure AI Content Safety blokkerer upassende input
2. **Agent execution:** Function calls krever approval (delete, update, send)
3. **Output review:** Menneske validerer AI-generert vedtak/rapport
4. **Compliance logging:** Microsoft Purview logger alle beslutninger

**Verified** (AI-2.1 multi-layered filtering, AI-5.1 HITL controls)

---

## Beslutningsveiledning

### Når kreves HITL?

| Scenario | HITL Required? | Rationale |
|----------|----------------|-----------|
| Lesing av offentlig data | Nei | Lav risiko, ingen endring av data |
| Kategorisering av innkommende e-post | Nei | Lav konsekvens ved feil, reversibelt |
| Automatisk besvarelse av FAQ | Nei (med monitoring) | Standard responses, lav risiko |
| Anbefaling av produkter | Nei | Brukeren bestemmer uansett |
| Analyse av borgerdata | **Ja** | GDPR Art. 22 - rett til ikke å bli underlagt automatisert avgjørelse |
| Økonomiske transaksjoner | **Ja** | Høy konsekvens, risiko for svindel/feil |
| Publisering av offentlig informasjon | **Ja** | Reputasjonsrisiko, juridisk ansvar |
| Sletting av data | **Ja** | Irreversibelt, mulig datasvinn |
| Tilgangskontroll-beslutninger | **Ja** | Sikkerhetsrisiko ved feil |
| Juridiske vurderinger | **Ja** | Krever profesjonell skjønn |

**Azure AI Security Benchmark AI-5 kriterier:**
1. **External data transfers** — alltid HITL
2. **Processing of confidential information** — alltid HITL
3. **Decisions impacting financial outcomes** — alltid HITL
4. **Safety-related commands** — alltid HITL (ref. manufacturing example)
5. **Compliance-critical processes** — alltid HITL

**Verified** (AI-5.1 critical actions definition)

### Vurdering av HITL-grad

**Autonomi-spektrum:**

```
Fully Autonomous ←→ Human-Centric
     ↓                      ↓
No HITL → Notify → Low-confidence escalation → Always review → Human executes
```

**Beslutningsmatrise:**

| Impact Level | Confidence Level | HITL Strategy |
|--------------|------------------|---------------|
| Low | High | Autonomous + logging |
| Low | Low | Notify human (async) |
| High | High | Notify + periodic audit |
| High | Low | **Require approval** |

**Eksempel: Document Classification**
- Klassifisering av "Generell korrespondanse" (lav impact) + 95% konfidens → autonom
- Klassifisering av "Gradert informasjon" (høy impact) + 70% konfidens → krev godkjenning
- Klassifisering av "Gradert informasjon" (høy impact) + 98% konfidens → notify + audit

**Baseline** (standard risiko-matrise, tilpasset fra AI-5.1 guidance)

### Reviewer Competency

Effektiv HITL krever at menneskelige reviewere er kvalifiserte:

**AI-5.1 Training Requirements:**
1. **AI system behavior** — forstå hvordan modellen resonnerer
2. **Potential vulnerabilities** — kjenne til prompt injection, hallucinations
3. **Domain-specific risks** — forståelse av fagområdets spesifikke farer
4. **Decision-support tools** — trening i bruk av review dashboards
5. **Escalation procedures** — vite når og hvordan eskalere videre

**Reviewer Fatigue Prevention:**
- Ikke review >50 AI-decisions per dag per person
- Roter reviewere for å forhindre "automation bias" (blind tillit til AI)
- Automatiser trivielle reviews, la mennesker fokusere på edge cases
- Periodiske pauser og refresher-trening

**Verified** (AI-5.1 train reviewers guidance, AI-5.1 optimize review processes)

---

## Integrasjon med Microsoft-stakken

### Azure AI Foundry

**HITL-kapabiliteter:**
- **Prompt Shields:** Blokkerer prompt injection før den når modellen → menneskelig review av blokkerte inputs
- **Content Safety:** Severity scores (0-7) kan konfigureres til å trigge human review ved >threshold
- **Model Monitoring:** Anomaly detection eskalerer til human investigator ved uventet model behavior
- **Tracing (OpenTelemetry):** Komplett audit trail for å rekonstruere agent reasoning ved human review

**Implementering:**
```csharp
// Azure AI Content Safety for HITL escalation
var moderationResult = await contentSafetyClient.AnalyzeTextAsync(userInput);

if (moderationResult.HateSeverity >= 4)  // High severity
{
    await EscalateToHumanReview(userInput, moderationResult);
}
else
{
    // Process with AI
    var response = await chatClient.GetChatCompletionsAsync(userInput);
}
```

**Verified** (AI-5.1 implementation example, Content Safety docs)

### Copilot Studio

**HITL-features:**
- **Human Handoff Topic:** Transfererer samtale til Live Agent (Omnichannel, Dynamics 365)
- **Escalation Rate Tracking:** Analytics dashboard viser hvilke topics eskalerer mest → optimaliseringsmuligheter
- **Rationale Generation:** AI forklarer sine beslutninger for menneskelige reviewere
- **Approval Topics:** Custom topics som pauser for menneskelig input før continuation

**Workflow:**
1. Agent prøver å løse bruker-issue
2. Hvis ikke løst etter N turns → trigger "Transfer to Agent" topic
3. Human agent overtar i samme chat-vindu
4. Agent observerer human resolution (lærer for fremtidige tilfeller)

**Verified** (Copilot Studio handoff docs, escalation analysis guidance)

### Power Platform

**Power Automate Multistage Approvals:**

| Stage Type | Beskrivelse | Use Case |
|------------|-------------|----------|
| **AI Stage** | AI gjør approve/reject beslutning basert på instruksjoner | Pre-screening av standardiserte forespørsler (expense <500 kr) |
| **Manual Stage** | Menneske gjør beslutning | Høyrisiko eller edge cases |
| **Condition Stage** | Logisk routing basert på verdier | "If amount >5000 → require CFO approval" |

**Best Practices (fra FAQ for AI Approvals):**
- Sett temperature=0 for deterministiske AI-godkjenninger
- Bruk GPT-4.1 for komplekse approval-scenarioer (o3 for advanced reasoning, men tregere)
- **Alltid** ha human override-mekanisme
- Test thoroughly i sandbox med historical data
- Monitor decisions i Prompt Builder Activity section

**Kodeeksempel (Power Automate):**
```yaml
# Multistage Approval Flow
Trigger: New expense report submitted
  ↓
Stage 1 (AI):
  - Analyze expense against policy (receipts, amounts, categories)
  - If clear violation → Reject with rationale
  - If compliant and <500 kr → Approve
  - If uncertain or >500 kr → Route to Stage 2
  ↓
Stage 2 (Manual):
  - Manager reviews AI rationale + original expense
  - Approves/rejects with feedback
  ↓
Output: Approval decision logged in Dataverse + email to submitter
```

**Verified** (Power Automate multistage approvals docs, AI approvals FAQ)

### Microsoft Agent Framework

**HITL Orchestrations:**

| Orchestration Type | HITL Support | Pattern |
|--------------------|--------------|---------|
| Sequential | ✅ | Pauseer mellom agents for human feedback |
| Concurrent | ✅ | Parallelle agents, human review av aggregerte outputs |
| Group Chat | ✅ | Human kan delta som chat participant |
| Handoff | ✅ | Designet spesifikt for kompleks human-agent interaksjon |

**with_request_info() API:**
```python
# Enable HITL for specific agents
builder = (
    SequentialBuilder()
    .participants([research_agent, writer_agent, reviewer_agent])
    .with_request_info(agents=[writer_agent, reviewer_agent])  # Only these require human review
)
```

**Response Types:**
- **Feedback:** Human gir tilbakemelding → agent refinerer output
- **Approval:** Human godkjenner → workflow fortsetter
- **Rejection:** Human avviser → workflow stopper eller re-routes

**Verified** (Agent Framework HITL docs, orchestration patterns)

### Azure Durable Functions

For lang-levende workflows med human decision points:

```csharp
// Wait for human approval with timeout
HumanApprovalResponse approvalResponse;
try
{
    approvalResponse = await context.WaitForExternalEvent<HumanApprovalResponse>(
        eventName: "ApprovalDecision",
        timeout: TimeSpan.FromHours(24)
    );
}
catch (OperationCanceledException)
{
    // Timeout → eskalerer til senior reviewer
    return await context.CallActivityAsync<string>(nameof(EscalateForReview), draftContent);
}

if (approvalResponse.Approved)
{
    return await context.CallActivityAsync<string>(nameof(PublishContent), draftContent);
}
```

**Use Case:** Content generation pipeline med mandatory review før publisering.

**Verified** (Durable Agent HITL example from code samples)

### Microsoft Purview

**Data Governance + HITL:**
- Klassifiser sensitiv data (PII, GDPR-data, gradert informasjon)
- Monitor AI-tilgang til sensitive data sources
- Alert ved risikable access patterns → human investigator review
- Audit trail av alle AI-beslutninger for compliance (GDPR Art. 30)

**Verified** (AI-6.1 data security monitoring, Purview integration)

---

## Offentlig sektor (Norge)

### Juridiske krav

**GDPR Article 22:**
> "The data subject shall have the right not to be subject to a decision based solely on automated processing, including profiling, which produces legal effects concerning him or her or similarly significantly affects him or her."

**Implikasjon:** Borgere har rett til menneskelig vurdering av automatiserte beslutninger. HITL er derfor **lovpåkrevd** i mange offentlige tjenester.

**Eksempler på lovkrav:**
- **NAV-vedtak:** Automatisk behandling OK, men vedtak må godkjennes av saksbehandler
- **Skatteberegning:** AI kan foreslå, menneske må beslutte
- **Tilskudd/støtteordninger:** Automatisering av screening OK, tildeling krever menneskelig vurdering
- **Persondata-tilgang:** AI kan ikke autonomt gi tilgang til borgerdata uten approval

**Compliance-strategi:**
1. Identifiser alle automatiserte beslutninger som påvirker borgere
2. Implementer HITL-gates før final decision
3. Dokumenter HITL-prosessen i behandlingsgrunnlag (DPIA)
4. Loggfør alle menneskelige godkjenninger for audit

**Baseline** (GDPR tolkning, EU AI Act human oversight requirements)

### Offentlighetsloven & Transparens

**Borgeres rett til innsyn:**
- Offentlighetsloven krever at beslutningsprosesser er etterprøvbare
- HITL-logs må være tilgjengelige for innsyn (med personvernsikring)
- Rationale for AI-beslutninger må kunne forklares

**Microsoft-stacken støtter:**
- **Azure Monitor Logs:** Komplett audit trail av AI-beslutninger
- **Copilot Studio Rationale:** AI-genererte forklaringer på agent-handlinger
- **Power Automate Activity Logs:** Sporbarhet av approval workflows
- **Microsoft Purview:** Long-term retention for compliance

**Verified** (Azure Monitor audit capabilities, Purview compliance features)

### Tillitsbygging

Offentlig sektor møter høy skepsis til AI. HITL er avgjørende for tillit:

**Transparensmekanismer:**
1. **Informer brukere:** Vis tydelig når AI er involvert vs. menneskelig beslutning
2. **Forklar rationale:** Bruk Copilot Studio Rationale / Azure Explainability
3. **Tilby escalation:** Borgere skal alltid kunne be om menneskelig vurdering
4. **Publiser statistikk:** Åpenhet om AI-nøyaktighet og approval rates

**Eksempel: Søknadsprosess**
```
Borger søker om tilskudd
  ↓
AI pre-screener → 60% konfidens → Flagges for human review
  ↓
Saksbehandler ser AI-analyse + original søknad
  ↓
Saksbehandler godkjenner/avviser med begrunnelse
  ↓
Borger mottar vedtak med henvisning til menneskelig vurdering
```

**Baseline** (best practices for offentlig sektor AI-innføring)

### Accessibility & Inkludering

HITL-grensesnitt må være universelt utformet:

**Microsoft tilgjengelighets-features:**
- Power Automate Approvals: Skjermleser-kompatibel
- Azure Dashboards: WCAG 2.1 AA-compliant
- Copilot Studio: Keyboard navigation support

**Inkluderingshensyn:**
- Ikke alle borgere kan bruke AI-chat → alltid tilby menneskelig kontaktpunkt
- HITL som fallback for digitalt ekskluderte
- Multilingual support i approval workflows (samisk, andre språk)

**Baseline** (WCAG standards, universell utforming-krav i offentlig sektor)

---

## Kostnad og lisensiering

### Kostnadskomponenter

| Komponent | Kostnad | Merknad |
|-----------|---------|---------|
| **Power Automate Approvals** | Inkludert i Power Automate per-user/per-flow lisens | Ingen ekstrakostnad for standard approvals |
| **AI Approvals (Copilot Studio)** | Inkludert i Copilot Studio (€24/user/måned + €32/user/måned AI credits) | Forbruker AI credits ved bruk |
| **Azure Logic Apps** | Standard workflow pricing + Connector costs | Ca. $0.000025 per action |
| **Azure Monitor** | Log Analytics: ~$2.30/GB ingested + $0.10/GB retention | HITL-logging øker volum |
| **Microsoft Purview** | Fra $900/måned (Compliance Manager) | For audit trail og governance |
| **Menneskelig arbeidstid** | **HØYESTE KOSTNAD** | Saksbehandler-timer for review |

**Total Cost of Ownership (TCO) vurdering:**

**Scenario: Invoice Processing (1000 fakturaer/måned)**

| Tilnærming | Kostnader (NOK/måned) | Merknad |
|------------|----------------------|---------|
| **100% manuell** | 50 000 kr (200 timer × 250 kr/t) | Baseline |
| **100% autonom AI** | 500 kr (Azure OpenAI calls) | ❌ Uakseptabel risiko |
| **HITL: Confidence threshold** | 10 000 kr (30% eskalerer + 40 timer review) | ✅ Balansert |
| **HITL: 100% review** | 52 000 kr (200 timer review + 2000 kr AI) | ❌ Ingen besparelse |

**Konklusjon:** Confidence-based HITL gir 80% kostnadsreduksjon vs. 100% manuell, med akseptabel risiko.

**Verified** (Azure/Power Platform pricing, baseline-kalkyler)

### Lisensiering

**Power Platform:**
- **Power Automate Premium:** Kreves for approvals (€12/user/måned)
- **Copilot Studio:** €56/user/måned (24 + 32 AI credits) for AI approvals

**Azure:**
- **Azure AI Services:** Pay-as-you-go (Content Safety ~$1 per 1000 requests)
- **Azure Monitor:** Pay-per-GB (estimert 50 GB/måned for HITL logging i stor org)
- **Logic Apps:** Per action (~€0.000025 per step)

**Microsoft Agent Framework:**
- Ingen direkte kostnad (open source)
- Men krever Azure OpenAI eller Azure AI Foundry for models (standard API costs)

**Offentlig sektor-vurdering:**
- Vurder Microsoft 365 E5 + Power Platform-bundler for best pris
- CSP-avtaler for offentlig sektor kan gi rabatter
- HITL vil øke lisenskostnader (flere brukere trenger approval-tilgang)

**Baseline** (Microsoft offentlige prislister, januar 2026)

---

## For arkitekten (Cosmo)

### Når anbefale HITL?

**Obligatoriske scenarioer:**
1. **Offentlig sektor + vedtaksmyndighet** → GDPR Art. 22 krever det
2. **Finansielle transaksjoner** → Regulatoriske krav (Finanstilsynet)
3. **Helsedata** → Pasientrettighetsloven, GDPR særkategorier
4. **Sikkerhets-kritiske systemer** → ISO 27001, NIS2-direktivet
5. **Irreversible actions** → Sletting, publisering, dataoverføring

**Anbefalte scenarioer:**
- Ny AI-implementering → start med høy HITL-grad, reduser gradvis
- Lav modell-confidence (<80%) → eskalering til menneske
- Complex reasoning → menneske validerer AI-resonnering
- High-stakes scenarios → selv om konfidens er høy

**Ikke nødvendig:**
- Repeterende, lav-risiko tasks (e-post-kategorisering)
- Read-only operasjoner uten persondata
- Interne verktøy med erfarne brukere som forstår AI-limitasjoner

### Arkitektur-vurderinger

**Valg av plattform:**

| Hvis kunden har... | Anbefalt HITL-løsning |
|--------------------|----------------------|
| **Power Platform-lisenser** | Power Automate Multistage Approvals (enkleste) |
| **Copilot Studio-agent** | Human Handoff + Escalation topics |
| **Azure-native arkitektur** | Azure Logic Apps + Azure Monitor dashboards |
| **Complex multi-agent** | Microsoft Agent Framework HITL orchestrations |
| **Long-running workflows** | Azure Durable Functions med external events |

**Integrasjonspoeng:**
- HITL-dashboards bør integreres med eksisterende case management (Dynamics 365, SharePoint)
- Approval requests via Teams/Outlook for best brukeradopsjon
- Logg HITL-decisions i eksisterende SIEM (Sentinel, Splunk)

**Verified** (platform selection guidance basert på dokumentasjon)

### Implementeringsfaser

**Fase 1: Risk Assessment**
1. Identifiser alle AI-beslutningspunkter i løsningen
2. Klassifiser etter impact (low/medium/high)
3. Map GDPR/compliance-krav
4. Definer HITL-strategi per beslutningspunkt

**Fase 2: HITL Design**
1. Velg plattform (Power Automate, Logic Apps, etc.)
2. Design approval workflows (sequential, parallel, conditional)
3. Definer confidence thresholds for eskalering
4. Design reviewer dashboards med kontekstuell informasjon

**Fase 3: Implementation**
1. Implementer HITL-gates i AI-workflows
2. Integrer med Azure Monitor for logging
3. Set opp eskalerings-regler og routing
4. Implementer feedback loops for model improvement

**Fase 4: Training & Rollout**
1. Tren reviewers på AI behavior og vulnerabilities
2. Pilot med subset av users/scenarios
3. Monitor approval rates og review times
4. Juster thresholds basert på pilot-data

**Fase 5: Optimization**
1. Analyser approval trends (når eskalerer AI?)
2. Identifiser false positives/negatives
3. Fine-tune confidence thresholds
4. Re-train models med human feedback
5. Gradvis reduser HITL-grad for low-risk scenarios

**Baseline** (standard AI governance implementation approach)

### Anti-patterns (unngå)

❌ **"AI can handle everything"** — Ingen HITL i det hele tatt → brudd på GDPR, høy risiko

❌ **"Review all AI outputs"** — 100% human review → ingen effektivitetsgevinst, reviewer fatigue

❌ **"Set and forget"** — Ingen monitoring av HITL effectiveness → systemet blir enten for restriktivt eller for åpent

❌ **"Only technical team reviews"** — Domain experts må være involvert, ikke bare IT

❌ **"No feedback loop"** — HITL-data brukes ikke til å forbedre modeller → samme feil repeteres

❌ **"Black box reviews"** — Reviewers ser bare AI-output, ikke reasoning → vanskelig å validere

❌ **"Single point of failure"** — Kun én reviewer for kritiske beslutninger → risiko for bias eller feil

**Verified** (common pitfalls fra AI governance literature, Microsoft best practices)

### Red Teaming HITL-systemer

**Test HITL-robusthet:**

1. **Bypassing attempts:** Kan agent manipulere approval-prosess? (Prompt injection for å unngå review)
2. **Reviewer manipulation:** Kan malicious actor få reviewer til å godkjenne farlig handling? (Social engineering)
3. **Escalation flooding:** Kan attacker trigger masse false escalations → DoS på reviewers?
4. **Timing attacks:** Kan attacker utnytte timeout-mekanismer? (Vente til auto-approve ved timeout)

**Defensive measures (fra AI-5.1):**
- Secure HITL interfaces med encryption + MFA (Microsoft Entra ID)
- Anomaly detection på approval patterns (Azure Sentinel)
- Regular testing med PYRIT/Azure AI Red Teaming Agent
- Audit logs for all approval decisions (immutable storage)

**Verified** (AI-5.1 secure HITL interfaces, AI-7 red teaming guidance)

### Compliance Checklist

For offentlig sektor i Norge:

- [ ] GDPR Art. 22 compliance: Borgere kan kreve menneskelig vurdering av automatiserte beslutninger
- [ ] Dokumentert HITL-prosess i DPIA (personvernkonsekvensvurdering)
- [ ] Audit trail av alle HITL-decisions (min. 5 år retention)
- [ ] Transparens: Borgere informert om AI-bruk og HITL-prosess
- [ ] Accessibility: HITL-grensesnitt oppfyller WCAG 2.1 AA
- [ ] Reviewer training: Dokumentert opplæring av alle reviewers
- [ ] Incident response: Prosedyre for når HITL-systemet feiler
- [ ] Regular audits: Quarterly review av HITL-effectiveness

**Verified** (GDPR requirements, Norwegian public sector best practices)

### Fremtidige trender

**Adaptive HITL (2026-2027):**
- AI-systemer som dynamisk justerer HITL-thresholds basert på performance
- Reinforcement learning from human feedback (RLHF) integrert i production workflows
- Predictive escalation (AI forutsier når menneske vil være uenig → preemptive escalation)

**Regulatory evolution:**
- EU AI Act (gjelder fra 2025-2027 gradvis) krever HITL for "high-risk AI systems"
- Norge forventer å implementere tilsvarende nasjonalt
- Økt krav til explainability i offentlig sektor

**Microsoft roadmap (forventet):**
- Copilot Studio: Forbedret rationale generation med citations
- Power Automate: AI-powered approval routing (ML-basert eskalering)
- Agent Framework: Built-in confidence scoring for all agents
- Purview: AI decision audit dashboards out-of-the-box

**Baseline** (trend analysis, offentlige roadmaps)

---

*(Verified MCP 2026-04)*

## Kilder og verifisering

**Microsoft Official Documentation (Verified):**
1. [Artificial Intelligence Security - AI-5: Ensure human-in-the-loop](https://learn.microsoft.com/en-us/security/benchmark/azure/mcsb-v2-artificial-intelligence-security#ai-5-ensure-human-in-the-loop) — Azure Security Benchmark
2. [Microsoft Agent Framework - Human-in-the-Loop](https://learn.microsoft.com/en-us/agent-framework/user-guide/workflows/orchestrations/human-in-the-loop) — HITL orchestrations
3. [Power Automate - Multistage and AI approvals](https://learn.microsoft.com/en-us/microsoft-copilot-studio/flows-advanced-approvals) — Power Platform approvals
4. [FAQ for AI Approvals](https://learn.microsoft.com/en-us/microsoft-copilot-studio/faqs-ai-approvals) — Best practices og limitations
5. [Copilot Studio - Topic escalation analysis](https://learn.microsoft.com/en-us/microsoft-copilot-studio/guidance/deflection-topic-escalation-analysis) — Escalation patterns
6. [Azure AI Agent Service - Transparency Note](https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/agents/transparency-note) — Real-time oversight guidance
7. [Durable Agent Features - HITL workflows](https://learn.microsoft.com/en-us/agent-framework/user-guide/agents/agent-types/durable-agent/features) — Durable Functions patterns
8. [Responsible AI in Azure workloads](https://learn.microsoft.com/en-us/azure/well-architected/ai/responsible-ai) — Escape hatches og human-in-the-loop checkpoints
9. [Catalog Enrichment Agent - Responsible AI FAQ](https://learn.microsoft.com/en-us/industry/retail/catalog-enrichment-agent/faqs-catalog-enrichment-agent) — Human-in-the-loop implementation example

**Code Samples (Verified):**
10. [Agent Framework HITL - Client implementation](https://learn.microsoft.com/en-us/agent-framework/integrations/ag-ui/human-in-the-loop) — C# approval workflow code
11. [Durable Functions - Human approval orchestration](https://learn.microsoft.com/en-us/agent-framework/user-guide/agents/agent-types/durable-agent/features) — External event pattern

**Baseline (Model Knowledge):**
- GDPR Article 22 interpretation for HITL requirements
- Norwegian public sector AI governance best practices
- Standard workflow patterns (sequential, parallel, conditional approval)
- TCO calculation methodology for HITL implementations

**Confidence Markers:**
- **Verified:** Direkte fra Microsoft Learn dokumentasjon (2026-02)
- **Baseline:** Fra LLM-kunnskap, anses som standard praksis (men ikke Microsoft-spesifikk)

**Search Queries Used:**
1. "human in the loop AI oversight Microsoft"
2. "human agency AI decision review workflow"
3. "AI human oversight escalation patterns"
4. Code search: "human review AI workflow approval" (C#)

**MCP Calls:** 6 (3 searches + 2 fetches + 1 code sample search)
**Unique URLs:** 9 Microsoft Learn articles