Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

39 KiB

Raw Blame History

Bias Detection and Mitigation - Practical Approaches

Last updated: 2026-02 Status: GA Category: Responsible AI & Governance

Introduksjon

Bias detection og mitigation er kritiske komponenter i utviklingen av rettferdige AI-systemer. Microsoft tilbyr et helhetlig rammeverk for å identifisere, måle og redusere bias gjennom hele AI-livssyklusen – fra datainsamling til produksjonsovervåkning.

To hovedtyper AI-skapt skade:

Skadetype	Beskrivelse	Eksempel
Allocation harm	Systemet gir eller holder tilbake muligheter, ressurser eller informasjon for bestemte grupper	Lånesystem som favoriserer én demografisk gruppe over andre
Quality-of-service harm	Systemet fungerer dårligere for én gruppe enn en annen	Stemmegjenkenning som feiler oftere for kvinner enn menn

Viktig prinsipp: Fairness er en sosio-teknisk utfordring. Kvantitative metrikker fanger ikke alle aspekter av rettferdighet (som rettssikkerhet og prosessuell rettferdighet), og flere fairness-metrikker kan ikke optimaliseres samtidig.

Kjernekomponenter / Nøkkelegenskaper

1. Responsible AI Dashboard (Azure Machine Learning)

Helhetlig plattform som integrerer seks verktøy for model debugging og bias assessment:

Komponent	Formål	Verktøy
Model Overview & Fairness	Evaluerer modellytelse på tvers av sensitive features (kjønn, rase, alder)	Fairlearn
Error Analysis	Identifiserer feilfordelinger og kohorter med høy feilrate	Error Analysis
Data Analysis	Utforsker datasetdistribusjoner for over-/underrepresentasjon	Azure ML native
Model Interpretability	Forklarer hvilke features som påvirker prediksjoner	InterpretML
Counterfactual Analysis	Viser minimale endringer som gir motsatt prediksjon	DiCE
Causal Inference	Estimerer kausale effekter av intervensjoner	EconML

Prosess for model debugging:

Identify → Finn feil og fairness-problemer (error analysis, fairness metrics)
Diagnose → Forstå årsakene (data analysis, interpretability, counterfactuals)
Mitigate → Implementer løsninger (Fairlearn-algoritmer, data rebalancing)

2. Fairlearn – Bias Mitigation Framework

Konseptuell tilnærming: Group fairness – "Hvilke grupper risikerer å oppleve skade?"

Disparity metrics:

Metrikk-klasse	Måler	Eksempler
Model performance disparity	Forskjeller i ytelse på tvers av grupper	Accuracy rate, error rate, precision, recall, MAE
Selection rate disparity	Forskjeller i positive prediksjoner	Loan approval rate, favorable classification rate

Parity constraints (paritetsbegrensninger):

Constraint	Formål	ML-oppgave	Beskrivelse
Demographic parity	Reduser allocation harm	Binary classification, regression	Samme andel positive prediksjoner på tvers av grupper
Equalized odds	Diagnostiser allocation og QoS harm	Binary classification	Samme true positive rate og false positive rate
Equal opportunity	Diagnostiser allocation og QoS harm	Binary classification	Samme true positive rate (recall)
Bounded group loss	Reduser QoS harm	Regression	Begrens maksimal loss for hver gruppe

3. Fairlearn Mitigation Algorithms

Type 1: Reduction algorithms (retraining)

Algoritme	Beskrivelse	ML-task	Sensitive features	Parity constraints
`ExponentiatedGradient`	Black-box reductions approach (iterativ gradient-basert)	Binary classification	Categorical	Demographic parity, equalized odds
`GridSearch`	Grid-search over reweighted datasets	Binary classification / Regression	Binary	Demographic parity, equalized odds / Bounded group loss

Hvordan det fungerer:

Tar en eksisterende estimator (f.eks. LightGBM)
Genererer sekvens av retrained modeller med reweighted training data
Bruker upweighting/downweighting av grupper for å redusere disparities
Du velger modell med beste trade-off mellom accuracy og fairness

Type 2: Post-processing algorithms (ingen retraining)

Algoritme	Beskrivelse	ML-task	Sensitive features	Parity constraints
`ThresholdOptimizer`	Justerer decision threshold per gruppe	Binary classification	Categorical	Demographic parity, equalized odds

Hvordan det fungerer:

Tar eksisterende classifier og sensitive feature som input
Deriverer monoton transformasjon av prediksjonene
Enforcer fairness constraints uten å retrainere modellen
Raskest og mest fleksibel tilnærming

Viktig advarsel: Mitigation-algoritmer kan redusere bias, men eliminerer den ikke fullstendig. Utviklere må vurdere om reduksjonen er tilstrekkelig for deres use case.

4. Azure AI Content Safety (Runtime Protection)

Formål: Real-time content filtering for generative AI outputs.

Kategorier som filtreres:

Kategori	Beskrivelse	Severity levels
Hate & Fairness	Diskriminerende språk basert på rase, kjønn, religion, funksjonsnivå, etc.	Safe, Low, Medium, High
Sexual	Seksuelt innhold, trakassering, utnyttelse	Safe, Low, Medium, High
Violence	Voldelig innhold, våpen, trusler	Safe, Low, Medium, High
Self-harm	Selvskading, selvmord	Safe, Low, Medium, High

Default konfigurasjon:

Text models: Medium severity threshold (blokkerer medium og høyere)
Image models: Low severity threshold (mer restriktivt)
Content filtering skjer synkront under inferens
Separat fakturering etter Azure AI Content Safety pricing

Tilpasningsmuligheter:

Configurable filters via "Guardrails & controls" i AI Foundry portal
Custom blocklists (ord/mønstre du vil blokkere)
Meta-prompts (systemmeldinger som guider modelladferd)
Threshold-justering per kategori

Viktig for serverless API deployments: Content filtering er ikke automatisk aktivert for ikke-Model Inference API. Du må implementere det separat via Azure AI Content Safety SDK.

5. Fairness Metrics for Classification Models

Metrics for protected group comparison:

Metric	Måler	Definisjon
`predictive_parity`	Precision-forskjell	Er modellens precision lik på tvers av grupper?
`predictive_equality`	False positive rate-forskjell	Er false positive rate lik?
`equal_opportunity`	True positive rate-forskjell	Predikeres positive labels like godt for begge grupper?
`statistical_parity`	Selection rate-forskjell	Er andelen positive prediksjoner lik?

Slicing for protected groups:

Bruk Boolean slice expressions (f.eks. age < 25)
Gruppe der expression=True er "protected group"
Gruppe der expression=False er "unprotected group"
Automatisk beregning av comparative metrics

Referanser:

Wikipedia: Fairness (machine learning)
Paper: "Fairness Definitions Explained" (Verma & Rubin, 2018)

Arkitekturmønstre

Mønster 1: Pre-deployment Bias Assessment Pipeline

Workflow:

Training Data → Data Analysis (overrepresentasjon?)
                      ↓
            Model Training (baseline)
                      ↓
            Fairness Assessment (disparity metrics)
                      ↓
         ┌────────────┴────────────┐
         ↓                         ↓
   Acceptable?              Unacceptable?
         ↓                         ↓
    Deploy model            Apply mitigation
                                   ↓
                            GridSearch / ExponentiatedGradient
                                   ↓
                            Retrain & reassess
                                   ↓
                            Select best trade-off model

Implementasjon i Azure ML:

# 1. Create Responsible AI Dashboard
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(DefaultAzureCredential(), subscription_id, rg, workspace)

# 2. Load Fairlearn mitigation component
rai_fairness_component = ml_client_registry.components.get(
    name="microsoft_azureml_rai_tabular_fairness",
    label="latest"
)

# 3. Configure fairness job
fairness_job = rai_fairness_component(
    rai_insights_dashboard=create_rai_job.outputs.rai_insights_dashboard,
    sensitive_features=["gender", "age", "ethnicity"],
    fairness_metric_thresholds={
        "demographic_parity": 0.05,  # Max 5% disparity
        "equalized_odds": 0.05
    }
)

Output: Responsible AI Scorecard (PDF) for stakeholder sharing.

Mønster 2: Multi-layered Content Filtering (Runtime)

Defense-in-depth for generative AI:

User Input → Layer 1: Input Filtering
                      ↓
              Azure AI Content Safety (Prompt Shield)
              - Detect jailbreak attempts
              - Filter hate/sexual/violence content
              - Apply custom blocklists
                      ↓
            Layer 2: Model Inference
                      ↓
              Azure OpenAI / Custom Model
              - Meta-prompts for behavior guidance
              - Internal monitoring (anomaly detection)
                      ↓
            Layer 3: Output Filtering
                      ↓
              Azure AI Content Safety (Response Filter)
              - Content category filtering
              - Custom validation rules
              - Compliance checks
                      ↓
              Audit Logging (Azure Monitor)
                      ↓
                  User Output

Implementasjon:

from azure.ai.contentsafety import ContentSafetyClient
from azure.ai.contentsafety.models import AnalyzeTextOptions

# Input filtering
input_analysis = content_safety_client.analyze_text(
    AnalyzeTextOptions(text=user_input, categories=["Hate", "Violence"])
)

if input_analysis.hate_result.severity >= 2:  # Medium or higher
    return {"blocked": True, "reason": "Hate content detected"}

# ... model inference ...

# Output filtering
output_analysis = content_safety_client.analyze_text(
    AnalyzeTextOptions(text=model_response, categories=["Hate", "Sexual", "Violence"])
)

if output_analysis.hate_result.severity >= 2:
    # Apply correction or regenerate
    pass

Best practices:

Input layer: Rate limiting, schema validation, malicious pattern detection
Processing layer: Model monitoring (drift, anomaly), runtime security scanning
Output layer: Cross-check mot policies, audit logging, user feedback loop

Mønster 3: Continuous Fairness Monitoring (Production)

Post-deployment drift detection:

Production Traffic → Inference Logging (Azure ML)
                            ↓
                    Data Profiling (scheduled)
                            ↓
                    Fairness Metrics Calculation
                    - Predictive parity
                    - Predictive equality
                    - Equal opportunity
                    - Statistical parity
                            ↓
                    ┌───────┴────────┐
                    ↓                ↓
            Within thresholds?   Exceeds thresholds?
                    ↓                ↓
            Continue monitoring  Trigger alert
                                     ↓
                                 Retrain pipeline
                                     ↓
                                 A/B test new model

Databricks-eksempel:

from databricks.data_quality import DataQualityMonitor

monitor = DataQualityMonitor.create(
    table_name="inference_logs",
    inference_log=True,
    problem_type="classification",
    slicing_exprs=["age < 25"],  # Protected group
)

# Automatic metrics: predictive_parity, predictive_equality, equal_opportunity

Varslingskriterier:

Disparity metric overstiger threshold (f.eks. >10% difference)
Endring i population distribution (data drift)
User feedback indikerer bias (feedback loop)

Respons:

Automatisk retraining med oppdatert data
Model rollback til forrige versjon
Human review for root cause analysis

Mønster 4: Human-in-the-Loop (HITL) Bias Correction

Workflow for sensitive use cases:

Model Prediction → Confidence Threshold Check
                          ↓
                    High confidence? → Direct output
                          ↓
                    Low confidence / Sensitive group
                          ↓
                    Queue for Human Review
                          ↓
                    Expert annotates
                    - Correct/Incorrect
                    - Bias present? (Y/N)
                    - Recommended label
                          ↓
                    Feedback to Retraining Pipeline
                          ↓
                    Fine-tune model on corrected labels

Implementasjon i Copilot Studio:

Escalation triggers: Confidence < 70%, sensitive demographic detected
Review interface: Azure ML Human-in-the-Loop labeling
Feedback loop: Export corrections → retrain → deploy

Governance layer:

Ethics committee oversees HITL decisions
Audit trail for all manual interventions
Regular review meetings for pattern analysis

Beslutningsveiledning

Når bruke hvilken tilnærming?

Scenario	Anbefalt tilnærming	Verktøy
Pre-deployment assessment	Fairlearn + Responsible AI Dashboard	`GridSearch`, `ExponentiatedGradient`, Fairness Assessment
Existing model (no retraining)	Post-processing mitigation	`ThresholdOptimizer`
Generative AI (runtime)	Multi-layered content filtering	Azure AI Content Safety, custom blocklists
Production monitoring	Continuous fairness metrics	Azure ML Inference Logging, Databricks Data Quality Monitor
High-stakes decisions	Human-in-the-Loop	Azure ML HITL, escalation workflows
Data imbalance	Data-level mitigation	Resampling, reweighting, synthetic data (SMOTE)

Valg av parity constraint

Use case	Anbefalt constraint	Begrunnelse
Lånesøknader	Equalized odds	Både false positives (galt avslag) og false negatives (galt godkjenning) har konsekvenser
Ansettelse	Demographic parity	Like mange fra hver gruppe bør få tilbud (unngå systematic exclusion)
Medisinsk diagnose	Equal opportunity	Viktigst at sykdomstilfeller fanges opp likt på tvers av grupper
Risiko-scoring	Bounded group loss	Begrens maksimal feil per gruppe (unngå katastrofal feil for én gruppe)

Trade-off-vurderinger

Accuracy vs. Fairness:

Scenario	Prioritering	Approach
Safety-critical (medisin)	Accuracy > Fairness (men begge viktig)	Start med høy accuracy, juster fairness med `ThresholdOptimizer`
Offentlig sektor (NAV, Skatteetaten)	Fairness ≥ Accuracy	Bruk `GridSearch` med strict fairness constraints
Kommersiell (marketing)	Balansert	`ExponentiatedGradient` med business-driven threshold

Multiple fairness metrics:

Kan ikke optimalisere alle metrics samtidig (impossibility theorem)
Velg 1-2 primary metrics basert på stakeholder-prioriteringer
Dokumenter trade-offs i ADR (Architecture Decision Record)

Data diversity vs. performance:

Mer diverse training data → bedre fairness, men kan redusere accuracy kortsiktig
Løsning: Aktiv learning for underrepresenterte grupper, synthetic data augmentation

Integrasjon med Microsoft-stakken

Azure Machine Learning

Responsible AI Dashboard – komponenter:

Komponent	SDK-metode	Beskrivelse
RAI Insights	`RAIInsights.from_model()`	Oppretter dashboard instance
Fairness Assessment	`add_fairness()`	Legger til fairness metrics
Error Analysis	`add_error_analysis()`	Tree-based error cohort discovery
Model Interpretability	`add_explainer()`	SHAP/LIME feature importance
Counterfactual	`add_counterfactual()`	DiCE-baserte counterfactuals
Causal Inference	`add_causal()`	EconML treatment effects

Pipeline-integrasjon:

from responsibleai import RAIInsights

rai_insights = RAIInsights(
    model=trained_model,
    train=train_data,
    test=test_data,
    target_column="outcome",
    task_type="classification"
)

# Add components
rai_insights.fairness.add(
    sensitive_features=["gender", "age_group"],
    fairness_metrics=["demographic_parity", "equalized_odds"]
)

rai_insights.explainer.add()
rai_insights.error_analysis.add()

# Compute
rai_insights.compute()

# Save to Azure ML
rai_insights.save("rai_dashboard_v1")

Scorecard generation:

from azure.ai.ml.entities import ResponsibleAIScorecardConfig

scorecard_config = ResponsibleAIScorecardConfig(
    model_name="Housing Price Classifier",
    model_type="classification",
    metrics={
        "accuracy_score": {"threshold": ">=0.85"},
        "precision_score": {"threshold": ">=0.80"}
    },
    fairness={
        "metric": ["accuracy_score", "selection_rate"],
        "sensitive_features": ["age_group", "gender"],
        "fairness_evaluation_kind": "difference",
        "threshold": "<=0.05"  # Max 5% disparity
    }
)

# Generate PDF scorecard
ml_client.responsible_ai.scorecard.create(
    dashboard_name="rai_dashboard_v1",
    config=scorecard_config
)

Azure AI Foundry

Content Safety-integrasjon:

Via serverless API deployment:
- Default content filters aktiveres automatisk
- Konfigurerbart via "Guardrails & controls" tab
- Medium threshold for text, Low for images
Via standalone Content Safety API:

from azure.ai.contentsafety import ContentSafetyClient

client = ContentSafetyClient(endpoint=endpoint, credential=credential)

# Analyze text
result = client.analyze_text(
    AnalyzeTextOptions(
        text=user_input,
        categories=["Hate", "Sexual", "Violence", "SelfHarm"],
        blocklist_names=["custom_blocklist"],
        halt_on_blocklist_hit=True
    )
)

# Check results
if result.hate_result.severity >= 2:  # Medium or higher
    # Block or flag content

Custom categories (preview):
- Define egne kategorier for domene-spesifikk content moderation
- Train via Content Safety Studio

Evaluation-integrasjon:

from azure.ai.evaluation import HateUnfairnessEvaluator

evaluator = HateUnfairnessEvaluator(
    azure_ai_project=azure_ai_project,
    credential=credential,
    threshold=1  # Severity threshold
)

# Evaluate responses
result = evaluator(
    query="What is the capital of France?",
    response="Paris"
)

Copilot Studio

Bias mitigation i conversational AI:

Diverse training data:
- Sørg for at knowledge sources representerer diverse perspektiver
- Audit topics for cultural bias
- Test med users fra ulike demografiske grupper
Transparency practices:
- Disclose at brukeren snakker med AI
- Kommuniser hvordan agenten er designet
- Gi opt-out for sensitive topics
Human-in-the-loop:
- Escalation flows for sensitive queries
- Human review av flagged conversations
- Feedback mechanism for bias reporting
Monitoring:
- Track conversation analytics per user segment
- Alert på disparities i satisfaction scores
- Regular bias audits av conversation logs

Implementering:

# topics/bias-sensitive-topic.yaml
triggers:
  - "loan application"
  - "credit check"

nodes:
  - id: check_sensitive_features
    action: call_flow
    flow: sensitive_feature_detector

  - id: human_review_gate
    condition: sensitive_features_detected == true
    action: escalate_to_human

  - id: proceed_automated
    condition: sensitive_features_detected == false
    action: continue_conversation

Power Platform AI

AI Builder – fairness considerations:

Modelltype	Bias-risiko	Mitigation
Form Processing	Lav (objektgjenkjenning)	Test på diverse form layouts
Text Classification	Høy (språkavhengig)	Balanced training data, diverse examples
Prediction	Høy (historisk bias)	Feature audit, fairness metrics post-training
Object Detection	Middels	Test på diverse image qualities, lighting

Best practices:

Data audit: Review training data for representation
Test cohorts: Validate modell på underrepresenterte grupper
Feedback loop: Users kan flagge incorrect predictions
Regular retraining: Incorporate feedback, update data distribution

Offentlig sektor (Norge)

Juridiske krav og retningslinjer

EU AI Act (gjelder fra 2026):

Risiko-kategori	Eksempler	Krav
Uakseptabel risiko	Social scoring, subliminal manipulation	Forbudt
Høy risiko	Rekruttering, kreditt-scoring, rettsvesen	Conformity assessment, bias testing, logging, transparency
Begrenset risiko	Chatbots	Transparency disclosure
Minimal risiko	Spam-filtre	Ingen spesifikke krav

For høy-risiko AI-systemer:

✅ Bias testing påkrevd før deployment
✅ Dokumentasjon av data sources, mitigation strategies
✅ Human oversight for endelige beslutninger
✅ Audit trail med logging av alle prediksjoner
✅ Post-market monitoring for bias drift

Norsk personopplysningslov (GDPR-implementering):

Art. 22: Rett til ikke å være gjenstand for automatiserte avgjørelser (krever human review for høy-stakes)
Art. 13-14: Rett til informasjon om automatisert behandling
Art. 15: Rett til innsyn (hvilke data ble brukt?)

Diskrimineringsloven:

Forbud mot diskriminering på grunnlag av kjønn, etnisitet, religion, funksjonsnivå, etc.
Gjelder også for AI-systemer som påvirker tilgang til tjenester

NAV, Skatteetaten, offentlige etater – særlige hensyn

Transparenskrav:

Stakeholder	Informasjonsbehov	Løsning
Innbygger	Hvorfor fikk jeg dette vedtaket?	Counterfactual explanations, LIME/SHAP
Saksbehandler	Hvilke faktorer vektet modellen?	Feature importance, decision rules
Jurist/kontrollorgan	Er systemet diskriminerende?	Fairness metrics, audit reports
Datatilsynet	Overholdelse av personvern?	Privacy impact assessment, logging

Anbefalte tiltak:

Pre-deployment:
- Gjennomfør Responsible AI Impact Assessment (template fra Microsoft)
- Fairness testing på alle relevante demografiske grupper
- Juridisk review av modellbeslutninger mot diskrimineringsloven
- Dokumenter beslutning om acceptable trade-offs i ADR
Deployment:
- HITL workflow: Modellen foreslår, menneske beslutter (spesielt for vedtak)
- Explanation requirement: Alle automatiserte vedtak må ha forklaring
- Opt-out mechanism: Innbygger kan kreve manuell behandling
- Audit logging: Full sporbarhet (input, output, timestamp, versjon)
Post-deployment:
- Quarterly bias audits: Review fairness metrics per kvartal
- Citizen feedback: Klageportal for å rapportere opplevd diskriminering
- Model retraining: Ved detektert bias, retrain med corrected data
- Annual compliance report: Til Datatilsynet/kontrollorgan

Eksempel – NAV ytelsesberegning:

# Pre-deployment fairness check
fairness_report = model_evaluator.assess_fairness(
    sensitive_features=["gender", "ethnicity", "age", "disability_status"],
    metrics=["demographic_parity", "equalized_odds"],
    thresholds={"max_disparity": 0.05}  # 5% max difference
)

if fairness_report.compliant:
    # Deploy with HITL
    deploy_model(human_review_threshold=0.7)
else:
    # Apply mitigation
    mitigated_model = apply_fairlearn_mitigation(
        model=original_model,
        constraint="demographic_parity",
        sensitive_features=["gender", "ethnicity"]
    )

Spesifikke utfordringer:

Historisk bias i data: Tidligere vedtak kan reflektere diskriminering → data cleaning required
Proxy features: Features som korrelerer med sensitive attributes (f.eks. postnummer → etnisitet) må håndteres
Explainability vs. accuracy: Ofte trade-off – offentlig sektor prioriterer explainability
Språk/dialekt: NLP-modeller må fungere likt for alle norske dialekter og minoritetsspråk

Kostnad og lisensiering

Azure AI Content Safety

Pricing-modell (per 1000 text records):

Tier	Records/måned	Pris per 1000 records	Totalkostnad (NOK, ca.)
0-1M	Første 1 million	$1.00	~10 000 NOK
1M-10M	Neste 9 millioner	$0.75	~67 500 NOK (kumulativ: ~77 500)
10M+	Over 10 millioner	$0.50	Variable

Image analysis: $1.50 per 1000 images (all tiers)

Custom categories (preview): Separat pricing (kontakt Microsoft)

Viktig:

Content Safety faktureres separat fra Azure OpenAI/model inference
Default content filters på serverless deployments teller mot kvote
Region-basert pricing (US typically lowest)

Azure Machine Learning – Responsible AI Dashboard

Kostnadsdrivere:

Komponent	Ressurs	Estimert kostnad
Compute for dashboard generation	Standard_DS3_v2 (4 cores)	~6 NOK/time
Storage (dashboard artifacts)	Azure Blob Storage	~0.20 NOK/GB/måned
Fairlearn computation	CPU-intensive (50-100 models for GridSearch)	Variable (~100-500 NOK per run)
Scorecard generation	Minimal (PDF generation)	~1-5 NOK per scorecard

Typisk scenario (model fairness assessment):

Dashboard generation: 30 min compute → ~3 NOK
Storage: 500 MB artifacts → ~0.10 NOK/måned
GridSearch mitigation: 2 timer compute → ~12 NOK
Total per assessment: ~15-20 NOK

Skalering:

Dashboards kan genereres én gang per modellversjon (ikke per inference)
Re-use dashboards på tvers av stakeholders (PDF scorecard)
Batch assessments for multiple models: ~10-15 NOK per modell

Lisenskrav

Inkludert i Azure ML-lisens:

Responsible AI Dashboard (no additional license)
Fairlearn (open source, Apache 2.0)
InterpretML, EconML, DiCE (alle open source)

Krever egen lisens:

Azure AI Content Safety (pay-per-use, ingen base fee)
Azure OpenAI (separate pricing for models)

Copilot Studio:

Responsible AI features inkludert i standard Copilot Studio-lisens
No per-use charge for bias detection features

Cost optimization tips:

✅ Bruk dev/test compute for dashboard generation (50% rabatt)
✅ Cache dashboards for re-use (sett lifecycle policy for blobs)
✅ Sample data for initial fairness assessments (test på 10-20% av data først)
✅ Spot instances for Fairlearn GridSearch (kan redusere kostnad med 70-80%)
⚠️ Unngå: Real-time dashboard generation per inference (dyrt, unødvendig)

For arkitekten (Cosmo)

Når skal du anbefale bias detection/mitigation?

OBLIGATORISK for:

✅ Alle høy-risiko AI-systemer (jf. EU AI Act)
✅ Offentlig sektor-løsninger som påvirker innbyggeres rettigheter (NAV, Skatteetaten)
✅ HR/rekruttering, kreditt-scoring, forsikring (allocation harm-risk)
✅ Medisinsk diagnose, treatment recommendation (quality-of-service harm-risk)
✅ Generative AI med public-facing output (content safety)

ANBEFALT for:

🔷 Alle classification/regression-modeller i produksjon
🔷 Chatbots og conversational AI (transparency + bias monitoring)
🔷 Systemer som bruker sensitive features (kjønn, rase, alder, etc.)
🔷 ML-modeller som skal ESG-rapporteres (diversity, fairness metrics)

VALGFRITT (men good practice) for:

⚪ Interne verktøy uten bruker-facing beslutninger
⚪ Low-stakes predictions (f.eks. marketing segmentation)
⚪ Prototype/POC-fase (men planlegg for pre-prod assessment)

Spørsmål å stille stakeholders

1. Impact assessment:

"Hvilke grupper kan påvirkes negativt av modellens feil?"
"Er dette en allocation decision (hvem får tilgang?) eller quality-of-service (fungerer det likt for alle)?"
"Hva er worst-case scenario hvis modellen er biased?"

2. Data representation:

"Er training data representativ for alle brukergrupper?"
"Finnes det historisk bias i dataene?" (f.eks. tidligere diskriminerende vedtak)
"Har vi nok data for underrepresenterte grupper?"

3. Compliance og juridisk:

"Gjelder GDPR Art. 22 (automatiserte avgjørelser)?" → Krever human review
"Er dette høy-risiko iht. EU AI Act?" → Fairness testing påkrevd
"Må vi kunne forklare vedtak til innbyggere?" → Transparency requirement

4. Organizational readiness:

"Hvem er ansvarlig for å håndtere bias alerts?" (governance)
"Har vi prosess for model retraining ved detektert bias?"
"Finnes det feedback-mekanisme for brukere til å rapportere opplevd diskriminering?"

Arkitekturprinsipper for bias-resilient systems

P1: Fairness by Design

Inkluder fairness requirements i kravspesifikasjon (ikke etterpå)
Define sensitive features og parity constraints før training
Budget for fairness assessment i prosjektplan (~10-15% av ML-tid)

P2: Multi-layered Defense

Data layer: Audit for bias, resampling/reweighting
Model layer: Fairlearn mitigation algorithms
Runtime layer: Azure AI Content Safety for generative AI
Monitoring layer: Continuous fairness metrics i production

P3: Human Oversight

HITL workflows for høy-stakes decisions
Ethics committee for edge cases og trade-off decisions
User feedback loop for bias reporting

P4: Transparency og Explainability

Model interpretability (SHAP/LIME) for alle production models
Counterfactual explanations for adverse decisions
Audit trail: logg input, output, features, version, timestamp

P5: Continuous Monitoring

Fairness metrics i production dashboards
Alerts for disparity threshold violations
Scheduled bias audits (monthly for high-risk, quarterly for others)

Common pitfalls og hvordan unngå dem

Pitfall	Symptom	Root cause	Løsning
"Fairness washing"	High-level commitment, ingen praktisk implementering	Mangler konkrete metrikker og accountability	Define measurable fairness KPIs, assign ownership
Oversimplified metrics	Optimerer én metric, ignorerer trade-offs	Tror én metric = "fair system"	Bruk multiple metrics, dokumenter trade-offs i ADR
Post-hoc mitigation only	Bruker ThresholdOptimizer uten å fikse data issues	Foretrekker quick fix over root cause analysis	Start med data audit, deretter model mitigation
Ignoring proxy features	Fairness på protected features OK, men bias via proxies	F.eks. postnummer korrelerer sterkt med etnisitet	Feature correlation analysis, remove/mitigate proxies
Static assessment	Pre-deployment fairness OK, men bias utvikles over tid	Data distribution endres, ingen monitoring	Continuous fairness monitoring, scheduled retraining
Lack of domain expertise	Teknisk korrekt, men mangler kontekst	ML-engineers designer fairness uten domain input	Involve domain experts + ethics committee i design

Decision trees for Cosmo

Tree 1: Velg mitigation strategy

Start: Modell viser bias
  ↓
Kan vi retrainere modellen?
  ├─ Nei → ThresholdOptimizer (post-processing)
  └─ Ja
      ↓
      Er sensitive features binary eller categorical?
      ├─ Binary → GridSearch (fastest)
      └─ Categorical → ExponentiatedGradient
          ↓
          Hvor strenge fairness constraints?
          ├─ Strenge (offentlig sektor) → GridSearch med tight bounds
          └─ Moderate (kommersiell) → ExponentiatedGradient (bedre accuracy trade-off)

Tree 2: Content Safety konfigurering

Start: Generative AI deployment
  ↓
Public-facing eller intern?
  ├─ Intern → Medium threshold (balansert)
  └─ Public-facing
      ↓
      Målgruppe inkluderer barn/sårbare grupper?
      ├─ Ja → Low threshold (restriktivt) + custom blocklists
      └─ Nei → Medium threshold + kategori-spesifikk tuning
          ↓
          Bransjespesifikke krav?
          ├─ Helsevesen → Strict filtering (all categories)
          ├─ Finans → Focus: Hate, Violence (compliance)
          └─ Offentlig sektor → All categories + transparency disclosure

Tree 3: Monitoring strategy

Start: Production deployment
  ↓
Risikokategori (EU AI Act)?
  ├─ Høy risiko (rekruttering, kreditt)
      └─ → Weekly bias audits + real-time alerts
  ├─ Begrenset risiko (chatbot)
      └─ → Monthly audits + user feedback review
  └─ Minimal risiko
      └─ → Quarterly audits

Red flags for Cosmo å se etter

I kravspesifikasjon:

🚩 Ingen mention av fairness/bias i requirements
🚩 "Vi har ikke sensitive features" (dobbeltsjekk for proxies)
🚩 "Testing på overall accuracy holder" (ingen subgroup analysis)

I dataanalyse:

🚩 Underrepresenterte grupper (<5% av dataset)
🚩 Historiske data med kjente bias issues (f.eks. gamle HR-vedtak)
🚩 Ubalanserte labels på tvers av grupper (f.eks. 80% approval rate for group A, 40% for group B)

I modellutvikling:

🚩 Ingen fairness metrics beregnet
🚩 "Modellen er ferdig, kan vi bare kjøre Fairlearn raskt?" (bias mitigation bør ikke være afterthought)
🚩 Mangler dokumentasjon av trade-off decisions (accuracy vs. fairness)

I deployment-plan:

🚩 Ingen HITL workflow for høy-stakes decisions
🚩 Mangler monitoring-setup for production fairness metrics
🚩 Ingen definert prosess for å håndtere bias alerts

Kostnadsestimering for bias mitigation

Typisk prosjekt (norsk offentlig sektor, classification model):

Fase	Aktivitet	Tid (timer)	Kostnad (NOK, ca.)
Pre-deployment	Data audit for bias	16	Konsulent: ~20 000
	Fairness metrics beregning	8	Azure compute: ~50
	Fairlearn mitigation (GridSearch)	4	Azure compute: ~25
	Responsible AI Dashboard	2	Azure compute: ~10
	Scorecard generering og review	4	Konsulent: ~5 000
Deployment	HITL workflow-implementering	16	Utvikler: ~20 000
	Monitoring dashboard setup	8	Utvikler: ~10 000
Production (årlig)	Continuous monitoring compute	-	Azure: ~500/måned → 6 000/år
	Quarterly bias audits	16/kvartal	Konsulent: ~20 000/år
	Content Safety (1M requests/mnd)	-	Azure: ~10 000/måned → 120 000/år
Total første år			~201 000 NOK (+ løpende ~146 000/år)

Cost-benefit:

Kostnaden ved å ikke gjøre bias mitigation: Bøter (GDPR: opp til 4% av omsetning), omdømmetap, juridiske saker
ROI-perspektiv: Bias mitigation er risikoreduseringsaktivitet, ikke direkte revenue driver

Kilder og verifisering

Microsoft Learn – offisiell dokumentasjon:

Model performance and fairness (Azure ML) https://learn.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml Verifisert: 2026-02-03 | Status: GA | Confidence: ✅ High
Responsible AI dashboard https://learn.microsoft.com/en-us/azure/machine-learning/concept-responsible-ai-dashboard Verifisert: 2026-02-03 | Status: GA | Confidence: ✅ High
Fairlearn mitigation algorithms https://fairlearn.org/v0.7.0/user_guide/mitigation.html Verifisert: 2026-02-03 | Status: Open source, maintained | Confidence: ✅ High
Azure AI Content Safety overview https://learn.microsoft.com/en-us/azure/ai-services/content-safety/overview Verifisert: 2026-02-03 | Status: GA | Confidence: ✅ High
Apply responsible AI principles (Copilot Studio) https://learn.microsoft.com/en-us/microsoft-copilot-studio/guidance/responsible-ai Verifisert: 2026-02-03 | Status: GA | Confidence: ✅ High
Content filter severity levels https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/content-filter-severity-levels Verifisert: 2026-02-03 | Status: GA | Confidence: ✅ High
Monitor fairness and bias (Databricks) https://learn.microsoft.com/en-us/azure/databricks/data-quality-monitoring/data-profiling/fairness-bias Verifisert: 2026-02-03 | Status: GA | Confidence: ✅ High

Microsoft Research papers:

A Reductions Approach to Fair Classification (Agarwal et al., 2018) https://arxiv.org/abs/1803.02453 Grunnlag for ExponentiatedGradient og GridSearch algorithms | Confidence: ✅ High
Equality of Opportunity in Supervised Learning (Hardt et al., 2016) https://arxiv.org/abs/1610.02413 Grunnlag for ThresholdOptimizer | Confidence: ✅ High
Fair Regression: Quantitative Definitions and Reduction-based Algorithms (Agarwal et al., 2019) https://arxiv.org/abs/1905.12843 Regression fairness med bounded group loss | Confidence: ✅ High

Open source verktøy:

Fairlearn – https://fairlearn.org/ Microsoft-supported open source project | Confidence: ✅ High
InterpretML – https://interpret.ml/ Model interpretability framework | Confidence: ✅ High
EconML – https://github.com/Microsoft/EconML Causal inference library | Confidence: ✅ High
DiCE – https://github.com/interpretml/DiCE Counterfactual explanations | Confidence: ✅ High

Standarder og regelverk:

EU AI Act (gjelder fra 2026) https://artificialintelligenceact.eu/ Confidence: ✅ High (regulatory requirement)
NIST AI Risk Management Framework https://www.nist.gov/itl/ai-risk-management-framework Confidence: ✅ High (industry standard)
Microsoft Responsible AI Standard v2 https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf Confidence: ✅ High (Microsoft-internt rammeverk)

Pricing og lisensiering:

Azure AI Content Safety pricing https://azure.microsoft.com/pricing/details/cognitive-services/content-safety/ Verifisert: 2026-02-03 | Confidence: ✅ High (offerisielle priser)
Azure Machine Learning pricing https://azure.microsoft.com/pricing/details/machine-learning/ Verifisert: 2026-02-03 | Confidence: ✅ High

Confidence markers brukt:

✅ High: Offisiell Microsoft-dokumentasjon, peer-reviewed papers, regulatory standards
🔶 Medium: Community-bidrag, third-party case studies (ikke brukt i dette dokumentet)
⚠️ Low: Spekulativt, beta features (ikke brukt i dette dokumentet)

Viktig disclaimer:

Fairness er en sosio-teknisk utfordring, ikke en rent teknisk løsning
Kvantitative metrikker fanger ikke alle aspekter av rettferdighet (justice, due process, cultural context)
Utviklere og organisasjoner må vurdere context-spesifikke trade-offs og ta ansvar for decisions
Dette dokumentet gir tekniske verktøy, men erstatter ikke juridisk rådgivning eller etisk vurdering

39 KiB Raw Blame History Unescape Escape