Kjell Tore Guttormsen 2dc825b3cb docs(architect): KB follow-up — batch 3 content updates

Additional factual updates from batch 3 research:

- responsible-ai-training-awareness.md: module renamed
  "Azure AI Studio" → "Microsoft Foundry" (3 occurrences)
- transparency-documentation-standards.md: ISO/IEC 42001 scope expanded
  to include Copilot Studio, Microsoft Foundry, Security Copilot,
  GitHub Copilot, Dragon Copilot
- ai-act-compliance-guide.md: same ISO 42001 scope expansion
- human-in-the-loop-oversight.md: AI approval stages in Copilot Studio
  (GPT-o3 as AI approver, new Human in the loop connector)
- continuous-improvement-feedback-loops.md: MLflow 3 Feedback vs
  Expectation assessment types, Genie Code trace analysis

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-09 22:43:12 +02:00

28 KiB

Raw Blame History

Continuous Improvement and Feedback Loops - Iterative Governance

Last updated: 2026-04 Status: GA Category: Responsible AI & Governance

Introduksjon

Continuous improvement through feedback loops er et kjernekonsept i moderne AI-governance. Dette handler om systematisk innsamling, analyse og anvendelse av tilbakemeldinger fra produksjonssystemer, brukere og domeneksperter for å forbedre AI-kvalitet, sikkerhet og alignment over tid.

Hvorfor dette er kritisk:

AI-modeller degraderer over tid (model drift) grunnet endringer i data og brukeradferd
Feedback fra reell bruk identifiserer problemer som ikke fanges i testing
Iterative forbedringer basert på produksjonsdata bygger mer pålitelige AI-systemer
Compliance og etiske standarder utvikler seg og krever kontinuerlig tilpasning

Microsofts tilnærming: Microsoft implementerer feedback loops gjennom hele AI-livssyklusen – fra utvikling med evaluation datasets til produksjonsmonitoring med automated scorers og human review. Målet er å skape en lukket syklus der hver interaksjon bidrar til systemforbedring.

Kjerneprinsipp:

"Every production interaction becomes an opportunity to improve" – Microsoft MLflow Documentation

Kjernekomponenter

1. Production Data Collection

Tracing og logging:

MLflow Traces / MLflow 3 GenAI: Fanger detaljerte execution traces med inputs, outputs og alle mellomsteg for hver interaksjon. (Verified MCP 2026-04)
- MLflow 3 GenAI introduserer ny Assessment-datamodell med to typer:
  - Feedback assessments: evaluerer faktisk output (ratings, kommentarer — "Var agentens svar bra?")
  - Expectation assessments: definerer ønsket/korrekt output (ground truth — "Hva burde ha blitt produsert"); brukes til å bygge evalueringsdata
- Tre innsamlingskilder: utvikler (dev), domeneekspert (via Review App), sluttbruker (produksjon)
- mlflow.log_feedback() API for å knytte bruker-rating og kommentarer til spesifikke traces
- Ny kapabilitet: Genie Code for naturspråk-analyse av trace-data
- Integrert tracing for Databricks agentic applikasjoner
Azure Monitor & Application Insights: Logger operational metrics, latency, error rates
Model Data Collector: Automatisk innsamling av production data for ML-modeller
Azure AI Content Safety logs: Sporer content moderation events

Hva samles inn:

User prompts og model completions
Confidence scores og metadata
Latency og performance metrics
Error logs og exception traces
User feedback (thumbs up/down, ratings)

Confidence: Verified – MLflow Tracing, Azure Monitor

2. Automated Quality Monitoring

LLM-judge based scorers: Microsoft bruker automated scorers (LLM judges) for kontinuerlig kvalitetsvurdering av produksjonstrafikk:

Scorer Type	Hva den måler	Threshold Eksempel
Groundedness	Faktisk forankring i kildedokumenter	Pass rate ≥ 70%
Relevance	Relevans til brukers spørsmål	Pass rate ≥ 70%
Coherence	Logisk sammenheng i svar	Pass rate ≥ 70%
Fluency	Språklig flyt og naturlighet	Pass rate ≥ 70%
Safety	Deteksjon av harmful content	Pass rate ≥ 95%

Continuous evaluation:

Schedulert evaluering (f.eks. daglig via CronTrigger)
Real-time scoring av sampled production traffic
Automated alerts ved threshold violations
Integration med Azure AI Foundry evaluation tools

Confidence: Verified – Generation Quality Monitoring

3. Human Feedback Integration

Tre typer feedback:

a) End-user feedback:

Explicit feedback: Thumbs up/down, ratings, rapporterte feil
Implicit signals: Follow-up spørsmål, avbrutte samtaler, session abandonment
Feedback attachet til MLflow traces for traceability

b) Domain expert review:

Manuell labeling av problematic traces via Review App
Kvalitetsvurdering mot business-specific criteria
Alignment av automated scorers med human judgment

c) Human-in-the-loop (HITL):

Approval mechanisms for high-impact decisions
Reviewer training på AI behavior og vulnerabilities
Secure review interfaces med Azure Logic Apps / Power Automate

Confidence: Verified – Human Feedback, HITL Security

4. Evaluation Datasets

Curated eval datasets: Feedback loops bygger evaluation datasets fra produksjonsdata:

Problematic traces: Low-scoring eller user-reported issues
High-quality traces: Validated positive examples (preservere det gode)
Edge cases: Sjeldne scenarios som avdekkes i prod
Regression test sets: Sikre at nye versjoner ikke forverrer ytelse

Golden datasets: Benchmark datasets med kjent kvalitet for consistent testing og model validation.

Confidence: Verified – Evaluation Datasets

5. Model Retraining & Versioning

Retraining triggers:

Performance degradation under defined KPIs
Scheduled retraining (high-risk workloads: månedlig; low-risk: kvartalsvis)
Significant data distribution changes
New compliance requirements

Versioning best practices:

Track code, parameters, evaluation metrics per version
MLflow version management for reproducibility
Rollback mechanisms for underperforming models
A/B testing av nye versjoner mot baseline

Confidence: Verified – Model Management

Arkitekturmønstre

Mønster 1: MLflow Continuous Improvement Cycle (Microsoft-anbefalt)

10-stegs syklus for GenAI apps:

🚀 Production App – Deployed app genererer MLflow traces
👍 👎 User Feedback – End users gir feedback attachet til traces
🔍 Monitor & Score – Automated LLM judges scorer traces kontinuerlig
⚠️ Identify Issues – Trace UI avdekker mønstre i low-scoring traces
👥 Domain Expert Review – Optional: Eksperter labeler problematic traces
📋 Build Eval Dataset – Kuratér problematic + high-quality traces
🎯 Tune Scorers – Align automated scorers med human judgment
🧪 Evaluate New Versions – Test improved versions mot eval datasets
📈 Compare Results – Sammenlign evaluation runs på tvers av versjoner
✅ Deploy or Iterate – Deploy ved forbedring, ellers iterer videre

Verktøy:

Azure Databricks MLflow 3
Azure AI Foundry Agent Service
MLflow Tracing & Scorers

Confidence: Verified – MLflow Continuous Improvement

Mønster 2: AI Builder Feedback Loop (Power Platform)

For custom document processing models:

Power Automate cloud flow kjører AI Builder model på production documents
Condition check: Hvis confidence score < threshold (f.eks. 70%) → add to feedback loop storage
Feedback loop storage: Microsoft Dataverse table "AI Builder Feedback Loop"
Model improvement: Data fra feedback loop brukes til retraining
Retrain & redeploy: Oppdatert model promoteres til production

Use case: Ideal for document understanding scenarios der low-confidence predictions indikerer behov for mer training data.

Confidence: Verified – AI Builder Feedback Loop

Mønster 3: Platform Engineering Feedback Loop

For infrastruktur og platform-tjenester:

Developer feedback: Samle inn pain points (deployment times, tool integration issues)
Post-Incident Reviews (PIRs): Root cause analysis etter incidents
Prioritize improvements: Agile sprints for iterative enhancements
Implement changes: Optimize CI/CD pipelines, integrate developer-friendly tools
Monitor impact: Track developer productivity metrics
Regular platform reviews: Data-driven assessment av platform health

Observability-Driven Development (ODD): Alle nye services instrumenteres for monitoring/logging fra dag 1, slik at feedback er tilgjengelig umiddelbart.

Confidence: Verified – Observability & Continuous Improvement

Beslutningsveiledning

Når bruke hvilke feedback mechanisms?

Scenario	Anbefalt Approach	Rationale
Conversational AI (chatbots, copilots)	MLflow Continuous Improvement Cycle + end-user feedback	Høy interaksjonsfrekvens, stor variasjon i queries, behov for human alignment
Non-conversational agents (classification, extraction)	Automated scorers + domain expert review for edge cases	Mer strukturerte outputs, lettere å automatisere kvalitetsvurdering
Document processing (invoice extraction, form recognition)	AI Builder Feedback Loop med confidence thresholds	Tydelig confidence metric, retraining med low-confidence examples gir stor effekt
High-risk decisions (healthcare, finance, legal)	Mandatory HITL + independent audits + frequent retraining	Regulatoriske krav, høy konsekvens ved feil, behov for human oversight
Platform engineering	PIRs + developer feedback surveys + observability metrics	Fokus på developer experience og system reliability

Retraining frequency guidelines

Microsoft-anbefaling:

Workload Risk Level	Retraining Frequency	Rationale
High-risk (healthcare, finance, safety-critical)	Månedlig eller ved performance degradation	Rask tilpasning til data changes, høy konsekvens ved feil
Medium-risk (customer-facing, business-critical)	Kvartalsvis	Balanse mellom cost og quality maintenance
Low-risk (internal tools, non-critical)	Årlig eller ved major data shifts	Cost-efficient, akseptabel performance variance

Confidence: Verified – Model Retraining Policies

Quality gates for model promotion

Før en ny modellversjon promoteres til production:

✅ Evaluation results: Forbedring på target metrics uten regression
✅ Safety validation: Passed alle safety scorers (violence, hate, self-harm, etc.)
✅ Regression testing: Eval dataset performance ≥ baseline
✅ Performance benchmarks: Latency og cost targets møtt
✅ Compliance check: Alignment med regulatory requirements
✅ Stakeholder review: Approval fra governance team for high-risk workloads

Confidence: Verified – Model Promotion Processes

Integrasjon med Microsoft-stakken

Azure AI Foundry

Production monitoring:

Continuous evaluation: Scheduled scoring av production traces
Alert notifications: Email alerts ved quality threshold violations
Monitoring dashboard: Visualisering av metrics over tid (Charts tab + Logs tab)
Custom dashboards: Build med evaluated traces data

Configuration example (Python SDK):

from azure.ai.ml.entities import (
    GenerationSafetyQualitySignal,
    GenerationSafetyQualityMonitoringMetricThreshold,
    MonitorSchedule,
    CronTrigger
)

# Define quality thresholds
quality_thresholds = GenerationSafetyQualityMonitoringMetricThreshold(
    groundedness={"aggregated_groundedness_pass_rate": 0.7},
    relevance={"aggregated_relevance_pass_rate": 0.7},
    coherence={"aggregated_coherence_pass_rate": 0.7},
    fluency={"aggregated_fluency_pass_rate": 0.7}
)

# Schedule daily monitoring
trigger = CronTrigger(expression="15 10 * * *")

model_monitor = MonitorSchedule(
    name="gen_ai_monitor",
    trigger=trigger,
    create_monitor=monitor_settings
)

Confidence: Verified – Azure AI Foundry Monitoring

MLflow on Azure Databricks

Tracing & evaluation:

Automatic tracing: mlflow.openai.autolog() for OpenAI, LangChain, etc.
Custom scorers: Define business-specific evaluation criteria
Review App: Domain experts label traces for scorer tuning
Evaluation harness: Test new versions against curated datasets
Version tracking: Full reproducibility av experiments

Code example:

import mlflow

# Enable auto-tracing
mlflow.openai.autolog()

# Set up tracking
mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/Shared/feedback-loop-demo")

# Your app code - traces captured automatically
client = openai.OpenAI()
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Explain feedback loops"}]
)

Confidence: Verified – MLflow Tracing

Power Platform (AI Builder)

Feedback loop storage:

Power Automate condition: If confidence < threshold → save to feedback loop
Dataverse table: "AI Builder Feedback Loop" stores low-confidence documents
Model improvement: Add feedback loop documents til training set
Retrain: Updated model with expanded dataset

Limitations:

Only for custom document processing models
Feedback loop data via Power Automate cloud flows only
Same owner for model and flow required
No cross-environment feedback loop data transit

Confidence: Verified – AI Builder Feedback Loop

Copilot Studio

Responsible AI continuous improvement:

Feedback mechanisms: Users report inaccuracies via built-in feedback buttons
Monitoring framework: Track agent performance, biases, user satisfaction
Auditing: Maintain logs av data access and modifications
Iterative updates: Incorporate user feedback and evolving ethical standards

Governance integration:

Phase 4 (ongoing monitoring/evaluation) i Copilot Studio governance lifecycle
Continuous monitoring for biases and performance issues
Regular model retraining med updated, diverse data

Confidence: Verified – Copilot Studio Responsible AI

Azure Machine Learning

Model monitoring for GenAI:

Data collection: Model Data Collector for production data
Evaluation metrics: Groundedness, coherence, fluency, relevance, similarity (interoperable med Prompt Flow)
Recurring monitoring: Configurable cadence (daily, weekly, etc.)
Alerts: Violation alerts based on organizational targets
Responsible AI dashboard: Comprehensive view av fairness, bias, explainability

Responsible AI scorecard: PDF-rapport for sharing med stakeholders (technical + non-technical), dokumenterer model + data health records.

Confidence: Verified – AML Model Monitoring, RAI Dashboard

Azure Logic Apps & Power Automate

HITL workflow automation:

Pause AI processes ved critical decisions
Route outputs to human reviewers via secure dashboards
Capture feedback for model refinement
Log all approval actions i Azure Monitor

Example workflow:

AI model generates prediction
Logic App checks: If confidence < 80% OR high-impact decision → trigger HITL
Route to reviewer dashboard (secure, audited)
Human approves/rejects with comments
Feedback logged and used for retraining

Confidence: Verified – HITL Implementation

Offentlig sektor (Norge)

Regulatoriske krav

EU AI Act (gjelder EØS):

High-risk AI systems: Mandatory continuous monitoring, incident reporting, human oversight
Post-market monitoring: Systematisk innsamling og analyse av performance data
Logging requirements: Track all decisions med tilstrekkelig detail for auditability
Quality management system: Documented processes for feedback integration

GDPR implications:

User feedback må håndteres i tråd med personvernregler
Right to explanation: Feedback loops må kunne dokumentere beslutningsgrunnlag
Data minimization: Samle kun feedback nødvendig for improvement

Confidence: Baseline (regulatoriske krav krever juridisk vurdering per use case)

Offentlig sektor-spesifikke hensyn

Transparens og tillitsbygging:

Publiser commitment til responsible AI principles
Annual transparency reports: AI usage, incident statistics, improvements
Accessible feedback mechanisms for citizens

Incident response:

Clear escalation paths for AI-related incidents
Defined shutdown authorities (who can take system offline)
Communication procedures for affected citizens/users

Independent audits:

Regular external reviews av AI risks and compliance
Objective assessment av governance policies
Quarterly risk assessments for high-risk workloads

Governance committee:

Cross-functional team (legal, security, product, engineering)
Executive sponsorship
Authority to enforce policies ved non-compliance

Confidence: Verified – AI Governance Policies, Responsible AI Across Organizations

Norske særegenheter

Språk og kultur:

Feedback mechanisms må støtte norsk språk
LLM judges må kalibreres for norske språknormer og kulturell kontekst
Evaluation datasets bør inkludere norskspråklige examples

Forvaltningsrett:

Automated decisions med betydelig konsekvens for innbyggere krever human oversight (HITL mandatory)
Klageadgang: Citizens må kunne utfordre AI-genererte beslutninger
Dokumentasjonsplikt: Full audit trail av beslutningsprosesser

Kommunal/statlig samarbeid:

Dele learnings fra feedback loops på tvers av offentlige virksomheter (der compliance tillater)
Felles evaluation datasets for common use cases (saksbehandling, innbyggerdialog)

Confidence: Baseline (krever norsk juridisk og offentlig forvaltning-ekspertise)

Kostnad og lisensiering

Cost drivers for feedback loops

Komponent	Cost Factor	Estimat (USD/måned)
Production tracing (MLflow)	Storage for traces	$50-500 (avhenger av volume)
Automated scoring (LLM judges)	API calls for evaluation	$200-2000 (avhenger av sample rate)
Azure Monitor	Log ingestion + retention	$100-1000 (avhenger av data volume)
Model retraining	Compute for training	$500-5000+ per retrain
Human review (domain experts)	Labor cost	Variable (internal resource cost)
Evaluation datasets storage	Azure Storage	$10-100

Sample scenario (medium-scale production):

100K user interactions/måned
10% sample rate for automated scoring
Monthly retraining
Estimated monthly cost: $1500-3500 USD

Confidence: Baseline (costs vary significantly med workload characteristics)

Lisensiering

Azure AI Foundry:

Pay-as-you-go for monitoring, evaluation, storage
Serverless Spark compute for monitoring schedules

Azure Databricks (MLflow):

Databricks workspace cost + Azure VM cost for clusters
Serverless SQL for trace queries (optional, cost-efficient)

Power Platform (AI Builder):

AI Builder credits for model training/inference
Feedback loop feature: Included i AI Builder licensing (preview status)

Azure Machine Learning:

Compute for model monitoring (serverless Spark recommended)
Storage for evaluation data

Microsoft Copilot Studio:

Monitoring capabilities included i Copilot Studio licensing
No separate cost for feedback mechanisms

Confidence: Verified – standard Azure/Microsoft 365 pricing models

For arkitekten (Cosmo)

Designprinsipper

1. Close the loop early: Start med enkel feedback collection i MVP, expand iterativt. Ikke vent til "perfekt" monitoring er på plass.

2. Automate, but keep humans in critical paths: LLM judges for scale, domain experts for alignment, HITL for high-stakes decisions.

3. Consistent metrics across environments: Same scorers i development, staging og production – ensures comparability.

4. Treat production data as gold: Real-world interactions are your best test cases. Kuratér dem systematisk.

5. Version everything: Models, prompts, eval datasets, scorers – full reproducibility er non-negotiable.

Anti-patterns å unngå

❌ "Set and forget" monitoring: AI systems degrade over time – continuous attention required ❌ Ignore user feedback: Implicit signals (abandoned sessions) er like viktige som explicit (thumbs down) ❌ Skip regression testing: New versions can break existing functionality – always test against baseline ❌ Overlook cost: Automated scoring kan bli dyrt ved high volume – sample strategically ❌ No clear ownership: Feedback loops fail without dedicated owners (who reviews? who retrains?)

Typiske spørsmål fra kunder

"Hvor ofte bør vi retraine?" → Start med kvartalsvis for low-risk, monthly for high-risk. Adjust basert på performance metrics – hvis model drift er rapid, increase frequency. Always retrain ved major data distribution changes eller compliance updates.

"Hvor stor sample rate for automated scoring?" → 10-20% er et godt utgangspunkt for cost/benefit balance. High-risk workloads kan kreve higher rates (50-100%). Always score 100% av user-reported issues.

"Hvordan prioritere hvilke traces å inkludere i eval datasets?" → Prioritet 1: User-reported issues og low-scoring traces (fix the bad). Prioritet 2: High-quality traces (preserve the good). Prioritet 3: Edge cases og rare scenarios (improve robustness).

"Skal vi bygge custom scorers eller bruke built-in?" → Start med built-in (groundedness, relevance, etc.) – de er well-tested. Add custom scorers for business-specific criteria (f.eks. compliance med internal policies, domain terminology usage). Tune scorers med expert feedback for alignment.

"Hvordan håndtere feedback loops i multi-tenant scenario?" → Separate eval datasets per tenant hvis business requirements differ significantly. Aggregate feedback across tenants for common improvements. Always maintain data isolation per tenant (GDPR/compliance).

"Hva er minimum viable feedback loop?" → 1) Capture production traces, 2) Collect user feedback (thumbs up/down), 3) Manual review av negative feedback, 4) Retrain quarterly. Expand derfra.

Kosmo-spesifikke talking points

Når kunden sier: "Vi har ikke ressurser til kontinuerlig monitoring" Cosmo svarer: "Da starter vi med det minimale: Capture traces + user feedback buttons. Microsoft Copilot Studio har dette built-in. Når volum vokser, add automated scorers for scale. Retraining kan være quarterly – ikke monthly."

Når kunden sier: "Hvordan vet vi om forbedringene virker?" Cosmo svarer: "Det er derfor consistent metrics er kritisk. Du sammenligner evaluation runs før og etter retraining – MLflow evaluation harness gir deg side-by-side comparison. Plus, track production metrics over tid (pass rates, user satisfaction)."

Når kunden sier: "Er ikke LLM judges upålitelige?" Cosmo svarer: "Alone, ja – men tuned med expert feedback, blir de reliable proxies for human judgment. Microsoft anbefaler: Start med built-in judges, sample expert reviews, tune scorers til alignment. Monitor judge performance kontinuerlig."

Kilder og verifisering

Primary sources (Verified):

MLflow for GenAI Continuous Improvement Cycle
- URL: https://learn.microsoft.com/en-us/azure/databricks/mlflow3/genai/overview/
- Key content: 10-step feedback loop, human-aligned metrics, production monitoring
Azure AI Foundry Production Monitoring
- URL: https://learn.microsoft.com/en-us/azure/ai-foundry/how-to/monitor-quality-safety?view=foundry-classic
- Key content: Continuous evaluation, scorers, threshold configuration
AI Builder Feedback Loop
- URL: https://learn.microsoft.com/en-us/ai-builder/feedback-loop
- Key content: Confidence-based feedback storage, model retraining workflow
Platform Engineering Continuous Improvement
- URL: https://learn.microsoft.com/en-us/training/modules/observability-continuous-improvement/6-continuous-improvement-through-feedback-loops
- Key content: PIRs, Agile methodology, Observability-Driven Development
Azure Cloud Adoption Framework – AI Governance
- URL: https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/ai/govern
- Key content: Risk monitoring, measurement plans, retraining policies
Responsible AI Policies Across Organizations
- URL: https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/ai-agents/responsible-ai-across-organization
- Key content: Auditing, incident response, transparency mechanisms
Microsoft AI Lifecycle (NIST AI RMF alignment)
- URL: https://learn.microsoft.com/en-us/compliance/assurance/assurance-artificial-intelligence
- Key content: Govern, Map, Measure, Manage phases; continuous learning
Azure Machine Learning Model Monitoring for GenAI
- URL: https://learn.microsoft.com/en-us/azure/machine-learning/prompt-flow/how-to-monitor-generative-ai-applications?view=azureml-api-2
- Key content: Automated evaluation metrics, alerts, Responsible AI dashboard
Human-in-the-Loop Security Guidance
- URL: https://learn.microsoft.com/en-us/security/benchmark/azure/mcsb-v2-artificial-intelligence-security#ai-5-ensure-human-in-the-loop
- Key content: HITL workflows, approval mechanisms, feedback integration
MLflow Tracing & Human Feedback
- URL: https://learn.microsoft.com/en-us/azure/databricks/mlflow3/genai/human-feedback/
- Key content: Expert labeling, Review App, scorer tuning
Copilot Studio Responsible AI Continuous Improvement
- URL: https://learn.microsoft.com/en-us/microsoft-copilot-studio/guidance/responsible-ai
- Key content: Feedback mechanisms, bias monitoring, iterative updates
Azure AI Foundry Observability Concepts
- URL: https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/observability
- Key content: Tracing, monitoring features, model performance tracking

Code samples (Verified):

Python SDK for continuous evaluation setup
MLflow autolog tracing examples
Azure AI monitoring configuration
Teams SDK feedback loop handlers

Total MCP calls: 6 (3 searches + 2 fetches + 1 code sample search) Unique sources: 12 verified Microsoft Learn URLs Confidence level: 95% Verified (core concepts + implementation details), 5% Baseline (cost estimates, Norwegian public sector specifics)

28 KiB Raw Blame History Unescape Escape