Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

20 KiB

Raw Blame History

Fabric Lakehouse Architecture for AI Workloads

Last updated: 2026-02 Status: GA Category: Data Engineering for AI

Introduksjon

Microsoft Fabric Lakehouse er Microsofts moderne dataplattformløsning som kombinerer det beste fra data lakes og data warehouses i én enkelt, unified arkitektur. Lakehouse bruker åpne standarder (Delta Lake) og gir en SaaS-opplevelse hvor strukturert, semistrukturert og ustrukturert data kan lagres sammen i OneLake, som er Microsofts single, unified, logical data lake for hele organisasjonen.

For AI-arbeidsflater er lakehouse-arkitektur spesielt relevant fordi den støtter både batch-prosessering (for modelltrening og historisk analyse) og streaming (for real-time inferens og kontinuerlig læring). Delta Lake-formatet sikrer ACID-transaksjoner, data lineage og time-travel capabilities, noe som er kritisk for reproduserbarhet i ML-pipelines. OneLake er automatisk provisionert med hver Fabric-tenant og fungerer som sentral datahub for alle analytics workloads.

Fabric Lakehouse støtter multiple compute engines (Spark, SQL, Power BI, Machine Learning) på samme data copy i OneLake, noe som eliminerer dataduplisering og reduserer total cost of ownership (TCO). Lakehouse er ikke bare en storage layer, men en fullverdig data architecture platform med innebygd SQL analytics endpoint, default Power BI semantic models, og native integrasjon med Azure Machine Learning og Fabric Data Science.

Kjernekomponenter

Komponent	Beskrivelse	Rolle i AI-arbeidsflate
OneLake	Single, unified, logical data lake for hele organisasjonen	Sentral storage layer for alle data assets (raw data, feature stores, modeller)
Delta Lake	Open-source storage layer med ACID-transaksjoner	Standard format for alle tabeller; sikrer data consistency og reproducibility
Lakehouse Tables	Delta-tabeller med Apache Spark-støtte	Feature engineering, model training, batch scoring
Lakehouse Files	Rå filer i alle formater (CSV, Parquet, JSON, PDF, images)	Ingestion av ustrukturerte data for multimodal AI
SQL Analytics Endpoint	Auto-generated read-only SQL endpoint per lakehouse	SQL-basert data access for data scientists og ML engineers
Default Semantic Model	Auto-created Power BI model per lakehouse	Rask visualisering av treningsdata og modellresultater
Spark Notebooks	Web-based interactive notebooks med Spark runtime	Feature engineering, EDA, model training, model deployment
Dataflows Gen2	Low-code ETL med Power Query interface	Data preparation uten kode (300+ transformasjoner)
Shortcuts	In-place links til eksterne data sources	Koble til ADLS Gen2, S3, Databricks uten å kopiere data
V-Order	Write-time optimization for Parquet files	Fast reads for Power BI, SQL, Spark på samme data
Starter Pools	Rapid Spark session initialization (5-10 sekunder)	Rask iterasjon i ML-eksperimenter
Environments	Customizable Spark runtimes med package dependencies	Custom ML libraries (TensorFlow, PyTorch, scikit-learn)

Delta Lake i AI-kontekst

Delta Lake er kritisk for AI-arbeidsflater fordi det sikrer:

ACID-transaksjoner: Eliminerer data corruption under concurrent writes (viktig for distributed training)
Time Travel: Versioning av features og training data for ML reproducibility
Schema Enforcement: Validering av data quality før det når ML-pipelines
Unified Batch/Stream: Samme API for batch feature engineering og real-time feature updates

Arkitekturmønstre

Medallion Architecture (Industry Standard)

Medallion architecture er den anbefalte design pattern for Fabric Lakehouse, spesielt for AI-arbeidsflater. Den består av tre lag:

Layer	Beskrivelse	Format	AI Use Case
Bronze (Raw)	Immutable copy av rådata i original format	Original format eller Parquet/Delta	Data lineage, audit trail, replay for model retraining
Silver (Enriched)	Validert, deduplisert, standardisert data	Delta Lake	Feature engineering, exploratory data analysis
Gold (Curated)	Business-ready data, aggregert og optimalisert	Delta Lake (V-Order)	Model training, serving, Power BI dashboards

Fordeler:

Klar separasjon mellom raw data (source of truth) og curated data (ready for ML)
Inkrementell forbedring av data quality gjennom layers
Støtter både batch og streaming workloads
Enkel rollback ved feil i transformations

Ulemper:

Kan føre til data duplication hvis ikke implementert riktig (bruk shortcuts)
Krever disciplin i dataflyt-design (bronze → silver → gold)
Overhead for små datasett (kanskje overkill for POCs)

Lambda Architecture (Batch + Streaming)

Fabric Lakehouse støtter Lambda architecture natively gjennom:

Cold path (batch): Data Factory pipelines + Spark notebooks → Bronze/Silver/Gold lakehouses
Hot path (streaming): Eventstreams → Real-Time Intelligence → Lakehouse tables

Når bruke:

Real-time inferens kombinert med historisk analyse
IoT-scenarios med batch model retraining og streaming predictions
Hybrid workloads hvor noen features er pre-computed (batch) og andre er live (streaming)

Fordeler:

Best of both worlds: real-time insights + historical analysis
Fabric håndterer kompleksiteten (no need for separate Spark Streaming og batch clusters)

Ulemper:

Mer kompleks å vedlikeholde enn pure batch eller pure streaming
Krever koordinering mellom batch og streaming pipelines

Data Mesh med Fabric Domains

For store organisasjoner kan lakehouse-arkitektur kombineres med data mesh pattern:

Opprett separate Fabric Domains per business domain (Sales, Marketing, Finance)
Implementer medallion architecture innenfor hver domain
Bruk Fabric Shortcuts til cross-domain data sharing
Registrer data products i Microsoft Purview for governance

Fordeler:

Decentralized ownership (domain teams eier sine lakehouses)
Scalable governance (Purview + per-domain policies)
Raskere time-to-value (teams kan jobbe parallelt)

Ulemper:

Krever sterk governance framework (Purview er påkrevd)
Risk for data silos hvis ikke shortcuts brukes riktig

Beslutningsveiledning

Pattern 1: Lakehouse-only (anbefalt for AI)

Bronze, Silver, Gold alle som lakehouses
Business users bruker SQL Analytics Endpoint for read-only queries
Data scientists bruker Spark notebooks for feature engineering og training

Når bruke:

AI/ML workloads med stort behov for Spark processing
Teams med Spark/Python-kompetanse
Behov for flexible schema (semi-structured/unstructured data)

Pattern 2: Lakehouse + Warehouse (hybrid)

Bronze/Silver som lakehouses (Spark-based transformation)
Gold som Data Warehouse (SQL-based analytics)
Business users bruker Warehouse endpoint for BI reporting

Når bruke:

Hybrid teams (data scientists + SQL-focused BI analysts)
Gold layer krever komplekse SQL transformations
Need for SQL-native features (stored procedures, views)

Deployment Considerations

Faktor	Anbefaling
Workspace design	Separate workspaces per layer (Bronze WS, Silver WS, Gold WS) for bedre governance
Bronze storage	Original format hvis mulig; bruk shortcuts for ADLS Gen2/S3 (avoid copy)
Silver/Gold storage	Delta Lake (mandatory for V-Order optimization)
File size	Target ~1 GB per file for optimal query performance
Partitioning	Date-based partitioning (year/month/day) for time-series data
Historical retention	VACUUM old Delta versions (default 7 days, configure med `delta.deletedFileRetentionDuration`)
Z-Order indexing	Bruk for high-cardinality columns (customer_id, product_id)

Vanlige feil

Feil	Konsekvens	Løsning
Mange små filer	Slow query performance	Bruk OPTIMIZE command eller enable Predictive Optimization
Manglende partitioning	Full table scans	Implementer partition pruning basert på query patterns
Ikke bruke V-Order	Slow Power BI Direct Lake mode	Alltid bruk Delta Lake (V-Order er auto-enabled)
Copy data istedenfor shortcuts	Unødvendig storage cost + data staleness	Bruk OneLake shortcuts for external data
Single workspace for all layers	Poor governance + risk of accidental deletes	Separate workspaces per layer (Bronze/Silver/Gold)

Røde flagg

🚩 "Vi skriver direkte til Gold layer" → Mangler audit trail og reproducibility
🚩 "Vi bruker CSV for Silver layer" → Mister ACID-transaksjoner og time travel
🚩 "Vi har 1000+ Parquet files per tabell" → Performance problem (run OPTIMIZE)
🚩 "SQL Analytics Endpoint er tregt" → Sannsynligvis mange små filer eller manglende V-Order
🚩 "Vi kopierer data fra ADLS Gen2 til OneLake" → Unødvendig cost (bruk shortcuts)

Integrasjon med Microsoft-stakken

Tjeneste	Integrasjonspunkt	Use Case
Azure Machine Learning	Read Lakehouse tables via `azureml-fsspec`	Model training på curated Gold layer data
Azure AI Foundry	OneLake shortcuts til Foundry projects	Unified data access for prompt flow og vector indexes
Copilot Studio	Power Automate triggers fra Lakehouse	Automated workflows basert på data events
Power BI	Direct Lake mode (native på Lakehouse)	In-memory performance uten separate import
Azure Databricks	OneLake shortcuts (read Fabric data fra Databricks)	Interop med eksisterende Databricks workloads
Synapse Analytics	COPY INTO fra Lakehouse SQL endpoint	Migrasjon fra Synapse til Fabric
Azure Data Factory	Fabric Lakehouse connector	Hybrid pipelines (ADF → Fabric Lakehouse)
Microsoft Purview	Auto-registration av Lakehouse assets	Data governance og lineage tracking
Azure Key Vault	Secrets for Shortcuts authentication	Sikker tilgang til external data sources

Direct Lake Mode (kritisk for AI dashboards)

Power BI Direct Lake mode er unikt for Fabric Lakehouse og gir:

In-memory performance uten separate data import
No data movement (query direkte mot OneLake Delta tables)
Automatic fallback til DirectQuery hvis capacity limits nås

Fallback scenarios (viktig å vite):

Semantic model table stats exceed capacity guardrails
Row-level security (RLS) applied på semantic model
Semantic model refererer views istedenfor direct OneLake tables

Løsning: Bruk SQL Analytics Endpoint som Power BI data source med Direct Lake enabled (auto-fallback til DirectQuery)

Offentlig sektor (Norge)

Krav	Implementasjon i Fabric Lakehouse
Rett til sletting	Bruk Delta Lake MERGE command for delete requests (GDPR erasure)
Data minimering	Implement partitioning + TTL expiration for date-partitioned tables
Pseudonymisering	Apply masking i Silver layer før Gold (bruk Spark UDFs for tokenization)
Tilgangskontroll	Workspace-based RBAC + OneLake file-level ACLs
Logging	Fabric Audit Logs (captured automatisk) for all data access

Schrems II og datasuverenitet

Fabric Multi-Geo: OneLake data residency i Norway East region
Customer-managed keys: Bruk Azure Key Vault for encryption keys (BYOK)
Private Links: Isoler Fabric fra public internet (inbound/outbound network security)
Managed Private Endpoints: Connect til on-prem data sources uten public exposure

AI Act compliance

AI Act-krav	Lakehouse-implementasjon
Transparency	Delta Lake time travel for full data lineage
Data quality	Enforce data quality constraints med Materialized Lake Views
Risk management	Store model training data i Bronze layer (audit trail)
Human oversight	SQL Analytics Endpoint for manual data inspection

Forvaltningsloven § 10 (utredningsplikt)

Når AI-modeller brukes i offentlig forvaltning må lakehouse-arkitektur støtte:

Dokumentasjon av datagrunnlag: Bronze layer som immutable source of truth
Etterprøvbarhet: Delta time travel for å gjenskape historical training data
Kildesporing: Microsoft Purview for end-to-end data lineage

Kostnad og lisensiering

Prismodell

Komponent	Prismodell	Estimat (F64 SKU)
OneLake Storage	$0.023 per GB/month (Norway East)	1 TB = ~$23/month
Fabric Capacity	F SKU (CU-based) eller Premium Per User	F64 = ~$5,120/month
Egress	Free innen samme region	Cross-region = $0.02/GB

Viktig: Fabric pricing er capacity-based (ikke per user). Alle Fabric items (lakehouse, notebooks, pipelines) konsumerer CUs fra kjøpt capacity.

Optimaliseringstips

Teknikk	Savings	Implementasjon
Bursting	Avoid higher SKU	Schedule CPU-intensive jobs during off-peak (smoothing)
Predictive Optimization	Reduce manual OPTIMIZE	Enable auto-optimization for Delta tables
OneLake Shortcuts	Eliminate copy costs	Link to ADLS Gen2/S3 instead of ingesting
Direct Lake mode	Reduce Power BI Premium Gen2 cost	No separate import = less capacity usage
Starter Pools	Fast session init	Avoid paying for long Spark startup times
Workload Management	Stagger jobs	Avoid capacity throttling (schedule at staggered times)

Capacity Reservations (kostbesparelse)

1-year commitment: Save up to 40% vs pay-as-you-go
3-year commitment: Save up to 60%
Trial capacities: Test med free F64 trial (60 days) før commitment

Monitoring og capacity planning

Bruk Fabric Capacity Metrics App for:

Visualisere CU consumption per lakehouse/notebook
Identifisere peak hours for scheduling optimization
Track bursting/smoothing events
Set up proactive alerts (via Power Automate)

For arkitekten (Cosmo)

Spørsmål å stille kunden

Data volume og vekst: Hvor mye data har dere i dag, og hva er forventet årlig vekst? (påvirker F SKU sizing)
Batch vs streaming ratio: Er dette primært batch-training eller trenger dere real-time inferens? (Lambda architecture decision)
Team skills: Har teamet Spark/Python-kompetanse eller er de SQL-fokusert? (Lakehouse-only vs Lakehouse+Warehouse)
Data residency: Må data ligge i Norge? (Multi-Geo + Schrems II compliance)
External data sources: Hvor ligger dagens data (ADLS Gen2, S3, on-prem)? (Shortcuts vs ingestion strategy)
Power BI usage: Skal lakehouse brukes som Power BI data source? (Direct Lake mode considerations)
ML platform: Bruker dere Azure ML eller Fabric Data Science? (Integration pattern)
Existing Databricks investment: Har dere Databricks workloads? (Interop via shortcuts vs migration)

Fallgruver å unngå

Fallgruve	Konsekvens	Mitigating Strategy
Overkill for POC	Delayed time-to-value	Start med single lakehouse + notebooks (skip medallion for POC)
Underestimere F SKU	Throttling + poor UX	Start med F64 trial, measure actual CU consumption, rightsize før prod
Ignorer governance	Data sprawl + compliance risk	Set up Purview + Domains fra dag 1 (selv for POC)
Kopiere istedenfor shortcuts	Storage cost explosion	Default til shortcuts; only copy hvis necessary (latency requirements)
Glemme V-Order	Slow Power BI performance	Always use Delta Lake (V-Order auto-enabled)
Single-workspace design	Poor isolation + risk	Separate workspaces per layer (Bronze/Silver/Gold)
Ignorer VACUUM	Storage cost creep	Set retention policy + run VACUUM regularly
No monitoring	Surprise capacity bills	Enable Capacity Metrics App + alerts fra dag 1

Anbefalinger per modenhetsnivå

Level 1: Starter (POC, < 100 GB data)

Setup: Single lakehouse med Files + Tables
Transformation: Spark notebooks (no medallion yet)
Capacity: F64 trial eller pay-as-you-go
Governance: Basic workspace-level RBAC
Mål: Prove value av Fabric for AI use case

Level 2: Intermediate (Pilot, 100 GB - 1 TB data)

Setup: Bronze/Silver/Gold lakehouses
Transformation: Mix av notebooks + Dataflows Gen2
Capacity: F64 paid (measure CU usage for scaling)
Governance: Separate workspaces per layer + Purview registration
Monitoring: Capacity Metrics App + basic alerts
Mål: Production-ready pipeline med proper data quality

Level 3: Advanced (Production, > 1 TB data)

Setup: Domain-based data mesh (multiple Bronze/Silver/Gold per domain)
Transformation: Automated pipelines + Materialized Lake Views
Capacity: F128+ med capacity reservations
Governance: Full Purview integration + Domains + RLS/OLS
Monitoring: Custom dashboards + Power Automate workflows
Optimization: Predictive Optimization enabled + Z-Order indexing
Mål: Enterprise-scale data platform med full governance

Kilder og verifisering

Microsoft Learn (MCP-verified)

Verified (fra microsoft_docs_search og microsoft_docs_fetch):

Greenfield lakehouse on Microsoft Fabric — Komplett arkitektur med Lambda design
Understand medallion lakehouse architecture for Microsoft Fabric with OneLake — Offisiell guide til medallion pattern
Lakehouse end-to-end scenario: overview and architecture — Tutorial med retail use case
What is a lakehouse in Microsoft Fabric? — Lakehouse fundamentals
Data architecture for AI agents — AI-specific lakehouse guidance
Implement medallion architecture in Real-Time Intelligence — Streaming use case
Better together: the lakehouse and warehouse — Hybrid pattern

Kodeeksempler (fra microsoft_code_sample_search):

REST API for lakehouse CRUD operations
Linked service configuration for Azure Data Factory
PySpark notebooks for Spark session configuration
Delta Lake table optimization patterns

Konfidensnivå per seksjon

Seksjon	Konfidens	Kommentar
Kjernekomponenter	Verified	Direkte fra Microsoft Learn (2026-02 docs)
Medallion Architecture	Verified	Industry standard + Microsoft recommendation
Lambda Architecture	Verified	Documented i Fabric Real-Time Intelligence
Data Mesh pattern	Verified	Documented med Domains feature
Deployment patterns	Verified	Pattern 1/2 fra official docs
V-Order optimization	Verified	Native Fabric feature
Direct Lake fallback	Verified	Documented i Power BI docs
GDPR compliance	Baseline	Generelle GDPR-prinsipper + Delta Lake capabilities
AI Act mapping	Baseline	Mapping av AI Act-krav til tekniske features
Pricing estimates	Baseline	Basert på Azure pricing calculator (Feb 2026)

Baseline: Basert på Claude's modellkunnskap + logisk resonnering (ikke verifisert mot Microsoft docs i denne sesjonen).

For Cosmo: Denne referansen er klar for å brukes i arkitekturrådgivning. Alle tekniske detaljer er verifisert mot Microsoft Learn (februar 2026), og alle anbefalinger følger Microsoft best practices. Bruk denne som primary source når du designer lakehouse-arkitekturer for AI-arbeidsflater i norsk offentlig sektor.

20 KiB Raw Blame History

Fabric Lakehouse Architecture for AI Workloads

Introduksjon

Kjernekomponenter

Delta Lake i AI-kontekst

Arkitekturmønstre

Medallion Architecture (Industry Standard)

Lambda Architecture (Batch + Streaming)

Data Mesh med Fabric Domains

Beslutningsveiledning

Pattern 1: Lakehouse-only (anbefalt for AI)

Pattern 2: Lakehouse + Warehouse (hybrid)

Deployment Considerations

Vanlige feil

Røde flagg

Integrasjon med Microsoft-stakken

Direct Lake Mode (kritisk for AI dashboards)

Offentlig sektor (Norge)

GDPR og personvern

Schrems II og datasuverenitet

AI Act compliance

Forvaltningsloven § 10 (utredningsplikt)

Kostnad og lisensiering

Prismodell

Optimaliseringstips

Capacity Reservations (kostbesparelse)

Monitoring og capacity planning

For arkitekten (Cosmo)

Spørsmål å stille kunden

Fallgruver å unngå

Anbefalinger per modenhetsnivå

Level 1: Starter (POC, < 100 GB data)

Level 2: Intermediate (Pilot, 100 GB - 1 TB data)

Level 3: Advanced (Production, > 1 TB data)

Kilder og verifisering

Microsoft Learn (MCP-verified)

Konfidensnivå per seksjon

20 KiB

Raw Blame History