ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/data-engineering/fabric-lakehouse-architecture.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

20 KiB

Fabric Lakehouse Architecture for AI Workloads

Last updated: 2026-02 Status: GA Category: Data Engineering for AI


Introduksjon

Microsoft Fabric Lakehouse er Microsofts moderne dataplattformløsning som kombinerer det beste fra data lakes og data warehouses i én enkelt, unified arkitektur. Lakehouse bruker åpne standarder (Delta Lake) og gir en SaaS-opplevelse hvor strukturert, semistrukturert og ustrukturert data kan lagres sammen i OneLake, som er Microsofts single, unified, logical data lake for hele organisasjonen.

For AI-arbeidsflater er lakehouse-arkitektur spesielt relevant fordi den støtter både batch-prosessering (for modelltrening og historisk analyse) og streaming (for real-time inferens og kontinuerlig læring). Delta Lake-formatet sikrer ACID-transaksjoner, data lineage og time-travel capabilities, noe som er kritisk for reproduserbarhet i ML-pipelines. OneLake er automatisk provisionert med hver Fabric-tenant og fungerer som sentral datahub for alle analytics workloads.

Fabric Lakehouse støtter multiple compute engines (Spark, SQL, Power BI, Machine Learning) på samme data copy i OneLake, noe som eliminerer dataduplisering og reduserer total cost of ownership (TCO). Lakehouse er ikke bare en storage layer, men en fullverdig data architecture platform med innebygd SQL analytics endpoint, default Power BI semantic models, og native integrasjon med Azure Machine Learning og Fabric Data Science.

Kjernekomponenter

Komponent Beskrivelse Rolle i AI-arbeidsflate
OneLake Single, unified, logical data lake for hele organisasjonen Sentral storage layer for alle data assets (raw data, feature stores, modeller)
Delta Lake Open-source storage layer med ACID-transaksjoner Standard format for alle tabeller; sikrer data consistency og reproducibility
Lakehouse Tables Delta-tabeller med Apache Spark-støtte Feature engineering, model training, batch scoring
Lakehouse Files Rå filer i alle formater (CSV, Parquet, JSON, PDF, images) Ingestion av ustrukturerte data for multimodal AI
SQL Analytics Endpoint Auto-generated read-only SQL endpoint per lakehouse SQL-basert data access for data scientists og ML engineers
Default Semantic Model Auto-created Power BI model per lakehouse Rask visualisering av treningsdata og modellresultater
Spark Notebooks Web-based interactive notebooks med Spark runtime Feature engineering, EDA, model training, model deployment
Dataflows Gen2 Low-code ETL med Power Query interface Data preparation uten kode (300+ transformasjoner)
Shortcuts In-place links til eksterne data sources Koble til ADLS Gen2, S3, Databricks uten å kopiere data
V-Order Write-time optimization for Parquet files Fast reads for Power BI, SQL, Spark på samme data
Starter Pools Rapid Spark session initialization (5-10 sekunder) Rask iterasjon i ML-eksperimenter
Environments Customizable Spark runtimes med package dependencies Custom ML libraries (TensorFlow, PyTorch, scikit-learn)

Delta Lake i AI-kontekst

Delta Lake er kritisk for AI-arbeidsflater fordi det sikrer:

  • ACID-transaksjoner: Eliminerer data corruption under concurrent writes (viktig for distributed training)
  • Time Travel: Versioning av features og training data for ML reproducibility
  • Schema Enforcement: Validering av data quality før det når ML-pipelines
  • Unified Batch/Stream: Samme API for batch feature engineering og real-time feature updates

Arkitekturmønstre

Medallion Architecture (Industry Standard)

Medallion architecture er den anbefalte design pattern for Fabric Lakehouse, spesielt for AI-arbeidsflater. Den består av tre lag:

Layer Beskrivelse Format AI Use Case
Bronze (Raw) Immutable copy av rådata i original format Original format eller Parquet/Delta Data lineage, audit trail, replay for model retraining
Silver (Enriched) Validert, deduplisert, standardisert data Delta Lake Feature engineering, exploratory data analysis
Gold (Curated) Business-ready data, aggregert og optimalisert Delta Lake (V-Order) Model training, serving, Power BI dashboards

Fordeler:

  • Klar separasjon mellom raw data (source of truth) og curated data (ready for ML)
  • Inkrementell forbedring av data quality gjennom layers
  • Støtter både batch og streaming workloads
  • Enkel rollback ved feil i transformations

Ulemper:

  • Kan føre til data duplication hvis ikke implementert riktig (bruk shortcuts)
  • Krever disciplin i dataflyt-design (bronze → silver → gold)
  • Overhead for små datasett (kanskje overkill for POCs)

Lambda Architecture (Batch + Streaming)

Fabric Lakehouse støtter Lambda architecture natively gjennom:

  • Cold path (batch): Data Factory pipelines + Spark notebooks → Bronze/Silver/Gold lakehouses
  • Hot path (streaming): Eventstreams → Real-Time Intelligence → Lakehouse tables

Når bruke:

  • Real-time inferens kombinert med historisk analyse
  • IoT-scenarios med batch model retraining og streaming predictions
  • Hybrid workloads hvor noen features er pre-computed (batch) og andre er live (streaming)

Fordeler:

  • Best of both worlds: real-time insights + historical analysis
  • Fabric håndterer kompleksiteten (no need for separate Spark Streaming og batch clusters)

Ulemper:

  • Mer kompleks å vedlikeholde enn pure batch eller pure streaming
  • Krever koordinering mellom batch og streaming pipelines

Data Mesh med Fabric Domains

For store organisasjoner kan lakehouse-arkitektur kombineres med data mesh pattern:

  • Opprett separate Fabric Domains per business domain (Sales, Marketing, Finance)
  • Implementer medallion architecture innenfor hver domain
  • Bruk Fabric Shortcuts til cross-domain data sharing
  • Registrer data products i Microsoft Purview for governance

Fordeler:

  • Decentralized ownership (domain teams eier sine lakehouses)
  • Scalable governance (Purview + per-domain policies)
  • Raskere time-to-value (teams kan jobbe parallelt)

Ulemper:

  • Krever sterk governance framework (Purview er påkrevd)
  • Risk for data silos hvis ikke shortcuts brukes riktig

Beslutningsveiledning

Pattern 1: Lakehouse-only (anbefalt for AI)

  • Bronze, Silver, Gold alle som lakehouses
  • Business users bruker SQL Analytics Endpoint for read-only queries
  • Data scientists bruker Spark notebooks for feature engineering og training

Når bruke:

  • AI/ML workloads med stort behov for Spark processing
  • Teams med Spark/Python-kompetanse
  • Behov for flexible schema (semi-structured/unstructured data)

Pattern 2: Lakehouse + Warehouse (hybrid)

  • Bronze/Silver som lakehouses (Spark-based transformation)
  • Gold som Data Warehouse (SQL-based analytics)
  • Business users bruker Warehouse endpoint for BI reporting

Når bruke:

  • Hybrid teams (data scientists + SQL-focused BI analysts)
  • Gold layer krever komplekse SQL transformations
  • Need for SQL-native features (stored procedures, views)

Deployment Considerations

Faktor Anbefaling
Workspace design Separate workspaces per layer (Bronze WS, Silver WS, Gold WS) for bedre governance
Bronze storage Original format hvis mulig; bruk shortcuts for ADLS Gen2/S3 (avoid copy)
Silver/Gold storage Delta Lake (mandatory for V-Order optimization)
File size Target ~1 GB per file for optimal query performance
Partitioning Date-based partitioning (year/month/day) for time-series data
Historical retention VACUUM old Delta versions (default 7 days, configure med delta.deletedFileRetentionDuration)
Z-Order indexing Bruk for high-cardinality columns (customer_id, product_id)

Vanlige feil

Feil Konsekvens Løsning
Mange små filer Slow query performance Bruk OPTIMIZE command eller enable Predictive Optimization
Manglende partitioning Full table scans Implementer partition pruning basert på query patterns
Ikke bruke V-Order Slow Power BI Direct Lake mode Alltid bruk Delta Lake (V-Order er auto-enabled)
Copy data istedenfor shortcuts Unødvendig storage cost + data staleness Bruk OneLake shortcuts for external data
Single workspace for all layers Poor governance + risk of accidental deletes Separate workspaces per layer (Bronze/Silver/Gold)

Røde flagg

  • 🚩 "Vi skriver direkte til Gold layer" → Mangler audit trail og reproducibility
  • 🚩 "Vi bruker CSV for Silver layer" → Mister ACID-transaksjoner og time travel
  • 🚩 "Vi har 1000+ Parquet files per tabell" → Performance problem (run OPTIMIZE)
  • 🚩 "SQL Analytics Endpoint er tregt" → Sannsynligvis mange små filer eller manglende V-Order
  • 🚩 "Vi kopierer data fra ADLS Gen2 til OneLake" → Unødvendig cost (bruk shortcuts)

Integrasjon med Microsoft-stakken

Tjeneste Integrasjonspunkt Use Case
Azure Machine Learning Read Lakehouse tables via azureml-fsspec Model training på curated Gold layer data
Azure AI Foundry OneLake shortcuts til Foundry projects Unified data access for prompt flow og vector indexes
Copilot Studio Power Automate triggers fra Lakehouse Automated workflows basert på data events
Power BI Direct Lake mode (native på Lakehouse) In-memory performance uten separate import
Azure Databricks OneLake shortcuts (read Fabric data fra Databricks) Interop med eksisterende Databricks workloads
Synapse Analytics COPY INTO fra Lakehouse SQL endpoint Migrasjon fra Synapse til Fabric
Azure Data Factory Fabric Lakehouse connector Hybrid pipelines (ADF → Fabric Lakehouse)
Microsoft Purview Auto-registration av Lakehouse assets Data governance og lineage tracking
Azure Key Vault Secrets for Shortcuts authentication Sikker tilgang til external data sources

Direct Lake Mode (kritisk for AI dashboards)

Power BI Direct Lake mode er unikt for Fabric Lakehouse og gir:

  • In-memory performance uten separate data import
  • No data movement (query direkte mot OneLake Delta tables)
  • Automatic fallback til DirectQuery hvis capacity limits nås

Fallback scenarios (viktig å vite):

  • Semantic model table stats exceed capacity guardrails
  • Row-level security (RLS) applied på semantic model
  • Semantic model refererer views istedenfor direct OneLake tables

Løsning: Bruk SQL Analytics Endpoint som Power BI data source med Direct Lake enabled (auto-fallback til DirectQuery)

Offentlig sektor (Norge)

GDPR og personvern

Krav Implementasjon i Fabric Lakehouse
Rett til sletting Bruk Delta Lake MERGE command for delete requests (GDPR erasure)
Data minimering Implement partitioning + TTL expiration for date-partitioned tables
Pseudonymisering Apply masking i Silver layer før Gold (bruk Spark UDFs for tokenization)
Tilgangskontroll Workspace-based RBAC + OneLake file-level ACLs
Logging Fabric Audit Logs (captured automatisk) for all data access

Schrems II og datasuverenitet

  • Fabric Multi-Geo: OneLake data residency i Norway East region
  • Customer-managed keys: Bruk Azure Key Vault for encryption keys (BYOK)
  • Private Links: Isoler Fabric fra public internet (inbound/outbound network security)
  • Managed Private Endpoints: Connect til on-prem data sources uten public exposure

AI Act compliance

AI Act-krav Lakehouse-implementasjon
Transparency Delta Lake time travel for full data lineage
Data quality Enforce data quality constraints med Materialized Lake Views
Risk management Store model training data i Bronze layer (audit trail)
Human oversight SQL Analytics Endpoint for manual data inspection

Forvaltningsloven § 10 (utredningsplikt)

Når AI-modeller brukes i offentlig forvaltning må lakehouse-arkitektur støtte:

  • Dokumentasjon av datagrunnlag: Bronze layer som immutable source of truth
  • Etterprøvbarhet: Delta time travel for å gjenskape historical training data
  • Kildesporing: Microsoft Purview for end-to-end data lineage

Kostnad og lisensiering

Prismodell

Komponent Prismodell Estimat (F64 SKU)
OneLake Storage $0.023 per GB/month (Norway East) 1 TB = ~$23/month
Fabric Capacity F SKU (CU-based) eller Premium Per User F64 = ~$5,120/month
Egress Free innen samme region Cross-region = $0.02/GB

Viktig: Fabric pricing er capacity-based (ikke per user). Alle Fabric items (lakehouse, notebooks, pipelines) konsumerer CUs fra kjøpt capacity.

Optimaliseringstips

Teknikk Savings Implementasjon
Bursting Avoid higher SKU Schedule CPU-intensive jobs during off-peak (smoothing)
Predictive Optimization Reduce manual OPTIMIZE Enable auto-optimization for Delta tables
OneLake Shortcuts Eliminate copy costs Link to ADLS Gen2/S3 instead of ingesting
Direct Lake mode Reduce Power BI Premium Gen2 cost No separate import = less capacity usage
Starter Pools Fast session init Avoid paying for long Spark startup times
Workload Management Stagger jobs Avoid capacity throttling (schedule at staggered times)

Capacity Reservations (kostbesparelse)

  • 1-year commitment: Save up to 40% vs pay-as-you-go
  • 3-year commitment: Save up to 60%
  • Trial capacities: Test med free F64 trial (60 days) før commitment

Monitoring og capacity planning

Bruk Fabric Capacity Metrics App for:

  • Visualisere CU consumption per lakehouse/notebook
  • Identifisere peak hours for scheduling optimization
  • Track bursting/smoothing events
  • Set up proactive alerts (via Power Automate)

For arkitekten (Cosmo)

Spørsmål å stille kunden

  1. Data volume og vekst: Hvor mye data har dere i dag, og hva er forventet årlig vekst? (påvirker F SKU sizing)
  2. Batch vs streaming ratio: Er dette primært batch-training eller trenger dere real-time inferens? (Lambda architecture decision)
  3. Team skills: Har teamet Spark/Python-kompetanse eller er de SQL-fokusert? (Lakehouse-only vs Lakehouse+Warehouse)
  4. Data residency: Må data ligge i Norge? (Multi-Geo + Schrems II compliance)
  5. External data sources: Hvor ligger dagens data (ADLS Gen2, S3, on-prem)? (Shortcuts vs ingestion strategy)
  6. Power BI usage: Skal lakehouse brukes som Power BI data source? (Direct Lake mode considerations)
  7. ML platform: Bruker dere Azure ML eller Fabric Data Science? (Integration pattern)
  8. Existing Databricks investment: Har dere Databricks workloads? (Interop via shortcuts vs migration)

Fallgruver å unngå

Fallgruve Konsekvens Mitigating Strategy
Overkill for POC Delayed time-to-value Start med single lakehouse + notebooks (skip medallion for POC)
Underestimere F SKU Throttling + poor UX Start med F64 trial, measure actual CU consumption, rightsize før prod
Ignorer governance Data sprawl + compliance risk Set up Purview + Domains fra dag 1 (selv for POC)
Kopiere istedenfor shortcuts Storage cost explosion Default til shortcuts; only copy hvis necessary (latency requirements)
Glemme V-Order Slow Power BI performance Always use Delta Lake (V-Order auto-enabled)
Single-workspace design Poor isolation + risk Separate workspaces per layer (Bronze/Silver/Gold)
Ignorer VACUUM Storage cost creep Set retention policy + run VACUUM regularly
No monitoring Surprise capacity bills Enable Capacity Metrics App + alerts fra dag 1

Anbefalinger per modenhetsnivå

Level 1: Starter (POC, < 100 GB data)

  • Setup: Single lakehouse med Files + Tables
  • Transformation: Spark notebooks (no medallion yet)
  • Capacity: F64 trial eller pay-as-you-go
  • Governance: Basic workspace-level RBAC
  • Mål: Prove value av Fabric for AI use case

Level 2: Intermediate (Pilot, 100 GB - 1 TB data)

  • Setup: Bronze/Silver/Gold lakehouses
  • Transformation: Mix av notebooks + Dataflows Gen2
  • Capacity: F64 paid (measure CU usage for scaling)
  • Governance: Separate workspaces per layer + Purview registration
  • Monitoring: Capacity Metrics App + basic alerts
  • Mål: Production-ready pipeline med proper data quality

Level 3: Advanced (Production, > 1 TB data)

  • Setup: Domain-based data mesh (multiple Bronze/Silver/Gold per domain)
  • Transformation: Automated pipelines + Materialized Lake Views
  • Capacity: F128+ med capacity reservations
  • Governance: Full Purview integration + Domains + RLS/OLS
  • Monitoring: Custom dashboards + Power Automate workflows
  • Optimization: Predictive Optimization enabled + Z-Order indexing
  • Mål: Enterprise-scale data platform med full governance

Kilder og verifisering

Microsoft Learn (MCP-verified)

Verified (fra microsoft_docs_search og microsoft_docs_fetch):

  1. Greenfield lakehouse on Microsoft Fabric — Komplett arkitektur med Lambda design
  2. Understand medallion lakehouse architecture for Microsoft Fabric with OneLake — Offisiell guide til medallion pattern
  3. Lakehouse end-to-end scenario: overview and architecture — Tutorial med retail use case
  4. What is a lakehouse in Microsoft Fabric? — Lakehouse fundamentals
  5. Data architecture for AI agents — AI-specific lakehouse guidance
  6. Implement medallion architecture in Real-Time Intelligence — Streaming use case
  7. Better together: the lakehouse and warehouse — Hybrid pattern

Kodeeksempler (fra microsoft_code_sample_search):

  • REST API for lakehouse CRUD operations
  • Linked service configuration for Azure Data Factory
  • PySpark notebooks for Spark session configuration
  • Delta Lake table optimization patterns

Konfidensnivå per seksjon

Seksjon Konfidens Kommentar
Kjernekomponenter Verified Direkte fra Microsoft Learn (2026-02 docs)
Medallion Architecture Verified Industry standard + Microsoft recommendation
Lambda Architecture Verified Documented i Fabric Real-Time Intelligence
Data Mesh pattern Verified Documented med Domains feature
Deployment patterns Verified Pattern 1/2 fra official docs
V-Order optimization Verified Native Fabric feature
Direct Lake fallback Verified Documented i Power BI docs
GDPR compliance Baseline Generelle GDPR-prinsipper + Delta Lake capabilities
AI Act mapping Baseline Mapping av AI Act-krav til tekniske features
Pricing estimates Baseline Basert på Azure pricing calculator (Feb 2026)

Baseline: Basert på Claude's modellkunnskap + logisk resonnering (ikke verifisert mot Microsoft docs i denne sesjonen).


For Cosmo: Denne referansen er klar for å brukes i arkitekturrådgivning. Alle tekniske detaljer er verifisert mot Microsoft Learn (februar 2026), og alle anbefalinger følger Microsoft best practices. Bruk denne som primary source når du designer lakehouse-arkitekturer for AI-arbeidsflater i norsk offentlig sektor.