Kjell Tore Guttormsen 82bd665ba0 chore(ms-ai-architect): KB checkpoint refresh — 30 files (critical 9 + high batch 1) [skip-docs]

- Critical bucket (9 files): substantive content updates basert på MCP-fetch
  - enterprise-governance: DSPM front door, AI-app-kategorier (3), single-tenant Entra ID
  - rag-cost-optimization, observability, ai-services-enterprise, multi-model-strategy: dato-bump
  - deterministic-cost: Copilot Credits offisiell common currency (2025-09-01), CCCU prepurchase
  - gpt5-gpt41-pricing: utvidet Copilot Studio modell-lineup (GPT-5.2, GPT-5.3, Claude 4.6, Grok 4.1)
  - vector-storage, request-batching: dato-bump (DS allerede dekkende)

- High batch 1 (21 files, 10-30): Last updated 2026-04→2026-05 dato-bump
  Substantive Microsoft Learn-endringer var marginale per fetch — kosmetiske oppdateringer.

Resterende: high batch 2 (filer 31-53, 23 filer) i ny sesjon. Se NEXT-SESSION-PROMPT.local.md.

2026-05-05 14:28:35 +02:00

17 KiB

Raw Blame History

Microsoft Purview Data Governance

Last updated: 2026-05 Status: GA Category: Data Engineering for AI

Introduksjon

Microsoft Purview er Microsofts samlete plattform for datastyring, risikohåndtering og compliance. For AI-løsninger er Purview avgjørende fordi det gir oversikt over hvor sensitiv data befinner seg, hvordan data flyter gjennom organisasjonen (lineage), og hvorvidt datakvaliteten er tilstrekkelig for å trene pålitelige modeller. Uten god datastyring kan AI-modeller forsterke bias, bryte personvernregler eller produsere upålitelige prediksjoner.

For norsk offentlig sektor er datahersking (data governance) regulert gjennom Forvaltningsloven, Personopplysningsloven (GDPR), og Digdir-prinsipper for informasjonsforvaltning. Purview tilbyr verktøy for automatisk klassifisering av personopplysninger, sensitivitetsmerking, og DPIA-støtte som direkte adresserer disse kravene.

Denne referansen dekker implementering av Purview-katalog, dataklassifisering, lineage-sporing på tvers av Fabric, policy-håndhevelse og compliance-auditing for AI-datapipelines.

Purview Catalog and Asset Registration

Microsoft Purview Unified Catalog

Purview Unified Catalog er den sentrale opplevelsen for å oppdage, utforske og styre data og analytiske artefakter på tvers av organisasjonen.

Komponent	Funksjon	Relevans for AI
Data Map	Automatisk skanning og katalogisering av datakilder	Finn treningsdata
Unified Catalog	Søk, bla og oppdagelse av dataassets	Feature discovery
Governance Domains	Organisering av data etter forretningsområde	Ansvarsfordeling
Data Products	Kuraterte datasett med forretningskontekst	ML-datasett
Business Glossary	Forretningsvokabular knyttet til tekniske assets	Forståelighet

Asset Registration

Datakilder som kan registreres i Purview:
┌─────────────────────────────────────────────────────────────┐
│ Microsoft Fabric                                             │
│  ├── Lakehouse (tabeller, filer)                            │
│  ├── Data Warehouse                                          │
│  ├── KQL Database                                            │
│  ├── Notebooks                                               │
│  ├── Pipelines (Data Factory)                                │
│  ├── Dataflow Gen2                                           │
│  └── Power BI (semantic models, reports, dashboards)        │
├─────────────────────────────────────────────────────────────┤
│ Azure                                                        │
│  ├── Azure SQL Database                                      │
│  ├── Azure Data Lake Storage Gen2                            │
│  ├── Azure Cosmos DB                                         │
│  ├── Azure Synapse Analytics                                 │
│  └── Azure Blob Storage                                      │
├─────────────────────────────────────────────────────────────┤
│ On-premises                                                  │
│  ├── SQL Server                                              │
│  ├── Oracle Database                                         │
│  └── File shares                                             │
└─────────────────────────────────────────────────────────────┘

Skanning av Fabric Tenant

For å registrere Fabric-assets i Purview:

Naviger til Purview portal > Unified Catalog > Catalog Management
Registrer Microsoft Fabric som datakilde
Konfigurer skanning av Fabric-tenanten
Velg workspaces som skal inkluderes

Etter skanning er følgende Fabric-elementer tilgjengelig i katalogen:

Fabric-opplevelse	Inventerte elementer
Real-Time Analytics	KQL Database, KQL Queryset
Data Science	Experiment, ML Model
Data Factory	Data Pipeline, Dataflow Gen2
Data Engineering	Lakehouse, Notebook, Spark Job Definition, SQL Analytics Endpoint
Data Warehouse	Warehouse
Power BI	Dashboard, Dataflow, Datamart, Semantic Model, Report

Data Classification and Sensitivity Labels

Automatisk klassifisering

Purview inkluderer over 200 innebygde klassifiserere for sensitive datatyper:

Kategori	Eksempler	Relevans for Norge
Personidentifisering	Fødselsnummer, passnummer	Norsk fødselsnummer (11 siffer)
Finansiell	Bankkontonummer, kredittkortnummer	IBAN, norske kontonumre
Helse	Medisinsk terminologi, diagnosekoder	Helseopplysninger (særkategori GDPR)
Kontaktinfo	E-post, telefonnummer, adresse	Personopplysninger
Autentisering	Passord, API-nøkler, tokens	Sikkerhetskritisk

Sensitivitetsmerking

Sensitivitetsnivåer (typisk norsk offentlig sektor):
┌──────────────────────────────────────────────────────┐
│ Strengt fortrolig  │ Gradert informasjon, helse      │
├──────────────────────────────────────────────────────┤
│ Fortrolig          │ Personopplysninger, intern       │
├──────────────────────────────────────────────────────┤
│ Intern             │ Forretningssensitiv, ikke-offentl│
├──────────────────────────────────────────────────────┤
│ Offentlig          │ Åpne data, publisert informasjon │
└──────────────────────────────────────────────────────┘

Klassifisering vs. sensitivitetsmerking

Aspekt	Klassifisering	Sensitivitetsmerking
Definisjon	Regex/mønster som identifiserer datatyper	Kategoritag basert på forretningspåvirkning
Eksempler	"EU National ID", "Credit Card"	"Fortrolig", "Strengt fortrolig"
Omfang	Begrenset til Data Map	Følger data på tvers av tjenester
Tilordning	Automatisk via skanning	Auto-labeling policy + manuell
Antall per asset	Flere klassifiseringer mulig	Kun én sensitivitetsmerke

Auto-labeling Policy

Opprett auto-labeling policy i Purview:

1. Purview Portal > Information Protection > Auto-labeling
2. Definer policy:
   - Navn: "PII-i-Fabric-Lakehouse"
   - Scope: Fabric Lakehouse-tabeller
   - Betingelse: Inneholder "Norwegian National ID Number"
   - Handling: Merk som "Fortrolig"
3. Aktiver i simuleringsmodus først (7 dager)
4. Etter validering: Aktiver automatisk

Lineage Tracking Across Fabric

Automatisk lineage

Purview fanger automatisk datalineage fra Fabric-elementer etter skanning:

Lineage-eksempel:

Azure SQL DB ──> Data Pipeline ──> Lakehouse (Bronze)
                                       │
                                 Notebook (PySpark)
                                       │
                                 Lakehouse (Silver)
                                       │
                                 Notebook (ML Training)
                                       │
                                 ML Model ──> Power BI Report

Støttede lineage-typer

Datakilde/prosess	Lineage-omfang
Data Factory Pipeline	Copy Activity, Data Flow
Dataflow Gen2	Alle transformasjoner
Notebook	Lakehouse-til-Lakehouse
Lakehouse	Tabell-nivå metadata
Power BI	Semantic Model → Report → Dashboard
Azure Data Factory	Copy, Data Flow, SSIS

Lineage-visning i Purview

For å se lineage:

Unified Catalog > Browse > Microsoft Fabric > Fabric Workspaces
Velg workspace og Fabric-element
Klikk "Lineage"-fanen

Kjente begrensninger

Eksterne datakilder som upstream i non-Power BI lineage støttes ikke ennå
Cross-workspace lineage for non-Power BI er begrenset
Notebook → Pipeline lineage støttes ikke

Manuell lineage via REST API

For tilfeller der automatisk lineage ikke fanges:

# Bruk Apache Atlas REST API for å registrere manuell lineage
import requests

purview_endpoint = "https://<account>.purview.azure.com"
headers = {"Authorization": f"Bearer {access_token}"}

# Definer lineage-relasjon
lineage_payload = {
    "typeName": "Process",
    "attributes": {
        "qualifiedName": "custom-ml-pipeline-v1",
        "name": "ML Feature Pipeline"
    },
    "inputs": [
        {"typeName": "azure_datalake_gen2_path",
         "uniqueAttributes": {"qualifiedName": "source_path"}}
    ],
    "outputs": [
        {"typeName": "azure_datalake_gen2_path",
         "uniqueAttributes": {"qualifiedName": "output_path"}}
    ]
}

response = requests.post(
    f"{purview_endpoint}/catalog/api/atlas/v2/entity",
    headers=headers,
    json={"entity": lineage_payload}
)

Policy Enforcement and Access Management

Data Owner Policies

Purview Data Owner Policies muliggjør sentralisert tilgangsstyring:

Policy-type	Beskrivelse	Støttede kilder
Read	Lesetilgang til data	Azure SQL, ADLS Gen2, Fabric
Modify	Skrivetilgang til data	Azure SQL, ADLS Gen2
Data Use	Bruk i analytics-opplevelser	Fabric workspaces

Governance Domains og OKR-er

Governance Domains er nå den sentrale organiseringsenhet for glossary terms i Unified Catalog. Workflow: opprett term (Draft) → rediger → publiser. Governance domain MÅ publiseres FØR terms publiseres. Termer kan linkes til data products og critical data elements på tvers av domains. Bulk edit opptil 50 terms (kun Draft-state). Flytt terms mellom domains krever Data Steward-rolle i BEGGE domains; parent-term drar med seg child-terms. Expire-funksjon gjør termen usynlig for alle unntatt Data Stewards og Domain Owners. For å slette: unpublish → fjern alle lenker → delete. (Verified MCP 2026-04)

Governance Domain: "AI og Maskinlæring"
├── Glossary Terms (Data Steward-rolle påkrevd)
│   ├── "Treningsdata" -- Definisjon og bruksregler
│   ├── "Feature Store" -- Standard for feature-lagring
│   └── "Ground Truth" -- Krav til merkede datasett
├── Critical Data Elements
│   ├── "Fødselsnummer" -- PII, krever anonymisering
│   └── "Diagnose-kode" -- Helseopplysning, særkategori
├── OKRs
│   ├── "90% av AI-datasett klassifisert innen Q2"
│   └── "100% lineage-dekning for ML-pipelines"
└── Data Products (kan linkes til glossary terms)
    ├── "Customer 360 Feature Set"
    └── "Trafikkdata for ML"

GDPR-krav	Purview-funksjon
Artikkel 30: Behandlingsprotokoll	Data Map + Lineage
Artikkel 35: DPIA	Klassifisering + sensitivitetsmerking
Artikkel 17: Rett til sletting	Asset-søk for å finne PII-lokasjon
Artikkel 20: Dataportabilitet	Data Products med eksportfunksjon
Artikkel 25: Privacy by Design	Governance Domains med policy

Compliance-dashbord

Purview Data Estate Insights gir oversikt over:

Antall klassifiserte vs. uklassifiserte assets
Distribusjon av sensitivitetsmerker
Skanningsdekning per datakilde
Lineage-hull og manglende forbindelser

Audit-sporing for AI-data

# Eksempel: Generer compliance-rapport for AI-treningsdata
# Bruker Purview REST API

def get_classified_assets(purview_endpoint, token, classification):
    """Finn alle assets med en gitt klassifisering."""
    url = f"{purview_endpoint}/catalog/api/search/query"
    headers = {"Authorization": f"Bearer {token}"}
    body = {
        "keywords": "*",
        "filter": {
            "classification": classification
        },
        "limit": 100
    }
    response = requests.post(url, headers=headers, json=body)
    return response.json()

# Finn alle assets med personnummer
pii_assets = get_classified_assets(endpoint, token, "Norwegian National ID Number")

# Generer rapport
for asset in pii_assets["value"]:
    print(f"Asset: {asset['name']}")
    print(f"  Type: {asset['entityType']}")
    print(f"  Location: {asset['qualifiedName']}")
    print(f"  Labels: {asset.get('sensitivityLabel', 'None')}")

For å håndtere "rett til sletting" i Lakehouse:

from delta.tables import DeltaTable

# Slett persondata basert på fødselsnummer
dt = DeltaTable.forPath(spark, "Tables/silver/customer_data")
dt.delete("national_id = '01019912345'")

# For Time-To-Live (TTL) basert sletting
# Slett alle rader eldre enn 13 måneder
from pyspark.sql.functions import current_date, expr
dt.delete(expr("created_date < current_date() - INTERVAL 13 MONTHS"))

# VACUUM for å fysisk fjerne data
dt.vacuum(0)  # Fjern umiddelbart (krever retentionCheck disabled)

Purview Governance for Fabric Copilots og Agenter (Verified MCP 2026-04)

Microsoft Purview gir nå governance-dekning for Fabric Copilots og agenter — et nytt område som dekker AI-generert innhold i Fabric-arbeidsmiljøer.

Funksjonalitet	Beskrivelse
Risk discovery	Oppdager sensitiv informasjon i prompts og AI-responser i Fabric Copilots
Audit coverage	Loggfører AI-interaksjoner (hvem spurte hva, når, hvilken respons) for compliance
Retention policies	Beholder og sletter AI-generert innhold etter definerte retention-regler
eDiscovery	AI-generert innhold er søkbart og kan inkluderes i juridiske eDiscovery-prosesser

Relevans for norsk offentlig sektor:

Offentlige virksomheter som bruker Copilot i Fabric-løsninger må sikre at AI-interaksjoner er sporbare og underlagt arkivlovgivningen
Purview gir mulighet for å dokumentere AI-beslutningsprosesser i henhold til Forvaltningslovens krav om begrunnelse

Referanser

Use Microsoft Purview to govern Microsoft Fabric -- Purview-Fabric-integrasjon
How to get lineage from Microsoft Fabric items into Microsoft Purview -- Lineage fra Fabric
Data lineage in classic Data Catalog -- Lineage-konsepter
Learn about sensitivity labels in Data Map -- Sensitivitetsmerking
Create and manage glossary terms -- Business glossary (Verified MCP 2026-04) — Bulk edit opptil 50 terms (Draft-state), flytt terms mellom governance domains (Data Steward i begge domains kreves), custom attribute-filter i Enterprise glossary, Expire-workflow, Delete-workflow (unpublish + fjern lenker → delete). Governance domain MÅ publiseres FØR terms publiseres. Parent-term drar med seg child-terms ved flytting. Related critical data elements kan linkes på tvers av domains.
Glossary terms in Unified Catalog -- Aktive glossary-termer
Learn about Microsoft Purview Unified Catalog -- Oversikt over Unified Catalog
Set up data quality for Fabric Lakehouse data -- Datakvalitet for Fabric
Lineage in Fabric -- Innebygd lineage-visning

For Cosmo

Bruk denne referansen når brukeren trenger datahersking for AI-prosjekter, compliance-støtte (GDPR, HIPAA), eller oversikt over datasensitivitet i treningsdata.
For norsk offentlig sektor: Purview er kritisk for å oppfylle Forvaltningslovens krav til dokumentasjon og Personopplysningslovens krav til behandlingsprotokoll. Anbefal alltid Purview som del av AI-arkitekturen.
Lineage er den viktigste AI-governance-funksjonen -- den dokumenterer hvordan treningsdata ble produsert, noe som er nødvendig for reproduserbarhet og forklarbarhet av AI-modeller.
Kombiner automatisk klassifisering med Governance Domains for å skille mellom data som kan brukes fritt til ML-trening og data som krever anonymisering eller samtykke.
Anbefal Data Products i Purview for å kuratere AI-klare datasett med dokumentert kvalitet, eierskap og bruksbetingelser -- dette bygger tillit til dataene som brukes i AI-modeller.

17 KiB Raw Blame History