Initial addition of ms-ai-architect plugin to the open-source marketplace. Private content excluded: orchestrator/ (Linear tooling), docs/utredning/ (client investigation), generated test reports and PDF export script. skill-gen tooling moved from orchestrator/ to scripts/skill-gen/. Security scan: WARNING (risk 20/100) — no secrets, no injection found. False positive fixed: added gitleaks:allow to Python variable reference in output-validation-grounding-verification.md line 109. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
20 KiB
Fabric Lakehouse Architecture for AI Workloads
Last updated: 2026-02 Status: GA Category: Data Engineering for AI
Introduksjon
Microsoft Fabric Lakehouse er Microsofts moderne dataplattformløsning som kombinerer det beste fra data lakes og data warehouses i én enkelt, unified arkitektur. Lakehouse bruker åpne standarder (Delta Lake) og gir en SaaS-opplevelse hvor strukturert, semistrukturert og ustrukturert data kan lagres sammen i OneLake, som er Microsofts single, unified, logical data lake for hele organisasjonen.
For AI-arbeidsflater er lakehouse-arkitektur spesielt relevant fordi den støtter både batch-prosessering (for modelltrening og historisk analyse) og streaming (for real-time inferens og kontinuerlig læring). Delta Lake-formatet sikrer ACID-transaksjoner, data lineage og time-travel capabilities, noe som er kritisk for reproduserbarhet i ML-pipelines. OneLake er automatisk provisionert med hver Fabric-tenant og fungerer som sentral datahub for alle analytics workloads.
Fabric Lakehouse støtter multiple compute engines (Spark, SQL, Power BI, Machine Learning) på samme data copy i OneLake, noe som eliminerer dataduplisering og reduserer total cost of ownership (TCO). Lakehouse er ikke bare en storage layer, men en fullverdig data architecture platform med innebygd SQL analytics endpoint, default Power BI semantic models, og native integrasjon med Azure Machine Learning og Fabric Data Science.
Kjernekomponenter
| Komponent | Beskrivelse | Rolle i AI-arbeidsflate |
|---|---|---|
| OneLake | Single, unified, logical data lake for hele organisasjonen | Sentral storage layer for alle data assets (raw data, feature stores, modeller) |
| Delta Lake | Open-source storage layer med ACID-transaksjoner | Standard format for alle tabeller; sikrer data consistency og reproducibility |
| Lakehouse Tables | Delta-tabeller med Apache Spark-støtte | Feature engineering, model training, batch scoring |
| Lakehouse Files | Rå filer i alle formater (CSV, Parquet, JSON, PDF, images) | Ingestion av ustrukturerte data for multimodal AI |
| SQL Analytics Endpoint | Auto-generated read-only SQL endpoint per lakehouse | SQL-basert data access for data scientists og ML engineers |
| Default Semantic Model | Auto-created Power BI model per lakehouse | Rask visualisering av treningsdata og modellresultater |
| Spark Notebooks | Web-based interactive notebooks med Spark runtime | Feature engineering, EDA, model training, model deployment |
| Dataflows Gen2 | Low-code ETL med Power Query interface | Data preparation uten kode (300+ transformasjoner) |
| Shortcuts | In-place links til eksterne data sources | Koble til ADLS Gen2, S3, Databricks uten å kopiere data |
| V-Order | Write-time optimization for Parquet files | Fast reads for Power BI, SQL, Spark på samme data |
| Starter Pools | Rapid Spark session initialization (5-10 sekunder) | Rask iterasjon i ML-eksperimenter |
| Environments | Customizable Spark runtimes med package dependencies | Custom ML libraries (TensorFlow, PyTorch, scikit-learn) |
Delta Lake i AI-kontekst
Delta Lake er kritisk for AI-arbeidsflater fordi det sikrer:
- ACID-transaksjoner: Eliminerer data corruption under concurrent writes (viktig for distributed training)
- Time Travel: Versioning av features og training data for ML reproducibility
- Schema Enforcement: Validering av data quality før det når ML-pipelines
- Unified Batch/Stream: Samme API for batch feature engineering og real-time feature updates
Arkitekturmønstre
Medallion Architecture (Industry Standard)
Medallion architecture er den anbefalte design pattern for Fabric Lakehouse, spesielt for AI-arbeidsflater. Den består av tre lag:
| Layer | Beskrivelse | Format | AI Use Case |
|---|---|---|---|
| Bronze (Raw) | Immutable copy av rådata i original format | Original format eller Parquet/Delta | Data lineage, audit trail, replay for model retraining |
| Silver (Enriched) | Validert, deduplisert, standardisert data | Delta Lake | Feature engineering, exploratory data analysis |
| Gold (Curated) | Business-ready data, aggregert og optimalisert | Delta Lake (V-Order) | Model training, serving, Power BI dashboards |
Fordeler:
- Klar separasjon mellom raw data (source of truth) og curated data (ready for ML)
- Inkrementell forbedring av data quality gjennom layers
- Støtter både batch og streaming workloads
- Enkel rollback ved feil i transformations
Ulemper:
- Kan føre til data duplication hvis ikke implementert riktig (bruk shortcuts)
- Krever disciplin i dataflyt-design (bronze → silver → gold)
- Overhead for små datasett (kanskje overkill for POCs)
Lambda Architecture (Batch + Streaming)
Fabric Lakehouse støtter Lambda architecture natively gjennom:
- Cold path (batch): Data Factory pipelines + Spark notebooks → Bronze/Silver/Gold lakehouses
- Hot path (streaming): Eventstreams → Real-Time Intelligence → Lakehouse tables
Når bruke:
- Real-time inferens kombinert med historisk analyse
- IoT-scenarios med batch model retraining og streaming predictions
- Hybrid workloads hvor noen features er pre-computed (batch) og andre er live (streaming)
Fordeler:
- Best of both worlds: real-time insights + historical analysis
- Fabric håndterer kompleksiteten (no need for separate Spark Streaming og batch clusters)
Ulemper:
- Mer kompleks å vedlikeholde enn pure batch eller pure streaming
- Krever koordinering mellom batch og streaming pipelines
Data Mesh med Fabric Domains
For store organisasjoner kan lakehouse-arkitektur kombineres med data mesh pattern:
- Opprett separate Fabric Domains per business domain (Sales, Marketing, Finance)
- Implementer medallion architecture innenfor hver domain
- Bruk Fabric Shortcuts til cross-domain data sharing
- Registrer data products i Microsoft Purview for governance
Fordeler:
- Decentralized ownership (domain teams eier sine lakehouses)
- Scalable governance (Purview + per-domain policies)
- Raskere time-to-value (teams kan jobbe parallelt)
Ulemper:
- Krever sterk governance framework (Purview er påkrevd)
- Risk for data silos hvis ikke shortcuts brukes riktig
Beslutningsveiledning
Pattern 1: Lakehouse-only (anbefalt for AI)
- Bronze, Silver, Gold alle som lakehouses
- Business users bruker SQL Analytics Endpoint for read-only queries
- Data scientists bruker Spark notebooks for feature engineering og training
Når bruke:
- AI/ML workloads med stort behov for Spark processing
- Teams med Spark/Python-kompetanse
- Behov for flexible schema (semi-structured/unstructured data)
Pattern 2: Lakehouse + Warehouse (hybrid)
- Bronze/Silver som lakehouses (Spark-based transformation)
- Gold som Data Warehouse (SQL-based analytics)
- Business users bruker Warehouse endpoint for BI reporting
Når bruke:
- Hybrid teams (data scientists + SQL-focused BI analysts)
- Gold layer krever komplekse SQL transformations
- Need for SQL-native features (stored procedures, views)
Deployment Considerations
| Faktor | Anbefaling |
|---|---|
| Workspace design | Separate workspaces per layer (Bronze WS, Silver WS, Gold WS) for bedre governance |
| Bronze storage | Original format hvis mulig; bruk shortcuts for ADLS Gen2/S3 (avoid copy) |
| Silver/Gold storage | Delta Lake (mandatory for V-Order optimization) |
| File size | Target ~1 GB per file for optimal query performance |
| Partitioning | Date-based partitioning (year/month/day) for time-series data |
| Historical retention | VACUUM old Delta versions (default 7 days, configure med delta.deletedFileRetentionDuration) |
| Z-Order indexing | Bruk for high-cardinality columns (customer_id, product_id) |
Vanlige feil
| Feil | Konsekvens | Løsning |
|---|---|---|
| Mange små filer | Slow query performance | Bruk OPTIMIZE command eller enable Predictive Optimization |
| Manglende partitioning | Full table scans | Implementer partition pruning basert på query patterns |
| Ikke bruke V-Order | Slow Power BI Direct Lake mode | Alltid bruk Delta Lake (V-Order er auto-enabled) |
| Copy data istedenfor shortcuts | Unødvendig storage cost + data staleness | Bruk OneLake shortcuts for external data |
| Single workspace for all layers | Poor governance + risk of accidental deletes | Separate workspaces per layer (Bronze/Silver/Gold) |
Røde flagg
- 🚩 "Vi skriver direkte til Gold layer" → Mangler audit trail og reproducibility
- 🚩 "Vi bruker CSV for Silver layer" → Mister ACID-transaksjoner og time travel
- 🚩 "Vi har 1000+ Parquet files per tabell" → Performance problem (run OPTIMIZE)
- 🚩 "SQL Analytics Endpoint er tregt" → Sannsynligvis mange små filer eller manglende V-Order
- 🚩 "Vi kopierer data fra ADLS Gen2 til OneLake" → Unødvendig cost (bruk shortcuts)
Integrasjon med Microsoft-stakken
| Tjeneste | Integrasjonspunkt | Use Case |
|---|---|---|
| Azure Machine Learning | Read Lakehouse tables via azureml-fsspec |
Model training på curated Gold layer data |
| Azure AI Foundry | OneLake shortcuts til Foundry projects | Unified data access for prompt flow og vector indexes |
| Copilot Studio | Power Automate triggers fra Lakehouse | Automated workflows basert på data events |
| Power BI | Direct Lake mode (native på Lakehouse) | In-memory performance uten separate import |
| Azure Databricks | OneLake shortcuts (read Fabric data fra Databricks) | Interop med eksisterende Databricks workloads |
| Synapse Analytics | COPY INTO fra Lakehouse SQL endpoint | Migrasjon fra Synapse til Fabric |
| Azure Data Factory | Fabric Lakehouse connector | Hybrid pipelines (ADF → Fabric Lakehouse) |
| Microsoft Purview | Auto-registration av Lakehouse assets | Data governance og lineage tracking |
| Azure Key Vault | Secrets for Shortcuts authentication | Sikker tilgang til external data sources |
Direct Lake Mode (kritisk for AI dashboards)
Power BI Direct Lake mode er unikt for Fabric Lakehouse og gir:
- In-memory performance uten separate data import
- No data movement (query direkte mot OneLake Delta tables)
- Automatic fallback til DirectQuery hvis capacity limits nås
Fallback scenarios (viktig å vite):
- Semantic model table stats exceed capacity guardrails
- Row-level security (RLS) applied på semantic model
- Semantic model refererer views istedenfor direct OneLake tables
Løsning: Bruk SQL Analytics Endpoint som Power BI data source med Direct Lake enabled (auto-fallback til DirectQuery)
Offentlig sektor (Norge)
GDPR og personvern
| Krav | Implementasjon i Fabric Lakehouse |
|---|---|
| Rett til sletting | Bruk Delta Lake MERGE command for delete requests (GDPR erasure) |
| Data minimering | Implement partitioning + TTL expiration for date-partitioned tables |
| Pseudonymisering | Apply masking i Silver layer før Gold (bruk Spark UDFs for tokenization) |
| Tilgangskontroll | Workspace-based RBAC + OneLake file-level ACLs |
| Logging | Fabric Audit Logs (captured automatisk) for all data access |
Schrems II og datasuverenitet
- Fabric Multi-Geo: OneLake data residency i Norway East region
- Customer-managed keys: Bruk Azure Key Vault for encryption keys (BYOK)
- Private Links: Isoler Fabric fra public internet (inbound/outbound network security)
- Managed Private Endpoints: Connect til on-prem data sources uten public exposure
AI Act compliance
| AI Act-krav | Lakehouse-implementasjon |
|---|---|
| Transparency | Delta Lake time travel for full data lineage |
| Data quality | Enforce data quality constraints med Materialized Lake Views |
| Risk management | Store model training data i Bronze layer (audit trail) |
| Human oversight | SQL Analytics Endpoint for manual data inspection |
Forvaltningsloven § 10 (utredningsplikt)
Når AI-modeller brukes i offentlig forvaltning må lakehouse-arkitektur støtte:
- Dokumentasjon av datagrunnlag: Bronze layer som immutable source of truth
- Etterprøvbarhet: Delta time travel for å gjenskape historical training data
- Kildesporing: Microsoft Purview for end-to-end data lineage
Kostnad og lisensiering
Prismodell
| Komponent | Prismodell | Estimat (F64 SKU) |
|---|---|---|
| OneLake Storage | $0.023 per GB/month (Norway East) | 1 TB = ~$23/month |
| Fabric Capacity | F SKU (CU-based) eller Premium Per User | F64 = ~$5,120/month |
| Egress | Free innen samme region | Cross-region = $0.02/GB |
Viktig: Fabric pricing er capacity-based (ikke per user). Alle Fabric items (lakehouse, notebooks, pipelines) konsumerer CUs fra kjøpt capacity.
Optimaliseringstips
| Teknikk | Savings | Implementasjon |
|---|---|---|
| Bursting | Avoid higher SKU | Schedule CPU-intensive jobs during off-peak (smoothing) |
| Predictive Optimization | Reduce manual OPTIMIZE | Enable auto-optimization for Delta tables |
| OneLake Shortcuts | Eliminate copy costs | Link to ADLS Gen2/S3 instead of ingesting |
| Direct Lake mode | Reduce Power BI Premium Gen2 cost | No separate import = less capacity usage |
| Starter Pools | Fast session init | Avoid paying for long Spark startup times |
| Workload Management | Stagger jobs | Avoid capacity throttling (schedule at staggered times) |
Capacity Reservations (kostbesparelse)
- 1-year commitment: Save up to 40% vs pay-as-you-go
- 3-year commitment: Save up to 60%
- Trial capacities: Test med free F64 trial (60 days) før commitment
Monitoring og capacity planning
Bruk Fabric Capacity Metrics App for:
- Visualisere CU consumption per lakehouse/notebook
- Identifisere peak hours for scheduling optimization
- Track bursting/smoothing events
- Set up proactive alerts (via Power Automate)
For arkitekten (Cosmo)
Spørsmål å stille kunden
- Data volume og vekst: Hvor mye data har dere i dag, og hva er forventet årlig vekst? (påvirker F SKU sizing)
- Batch vs streaming ratio: Er dette primært batch-training eller trenger dere real-time inferens? (Lambda architecture decision)
- Team skills: Har teamet Spark/Python-kompetanse eller er de SQL-fokusert? (Lakehouse-only vs Lakehouse+Warehouse)
- Data residency: Må data ligge i Norge? (Multi-Geo + Schrems II compliance)
- External data sources: Hvor ligger dagens data (ADLS Gen2, S3, on-prem)? (Shortcuts vs ingestion strategy)
- Power BI usage: Skal lakehouse brukes som Power BI data source? (Direct Lake mode considerations)
- ML platform: Bruker dere Azure ML eller Fabric Data Science? (Integration pattern)
- Existing Databricks investment: Har dere Databricks workloads? (Interop via shortcuts vs migration)
Fallgruver å unngå
| Fallgruve | Konsekvens | Mitigating Strategy |
|---|---|---|
| Overkill for POC | Delayed time-to-value | Start med single lakehouse + notebooks (skip medallion for POC) |
| Underestimere F SKU | Throttling + poor UX | Start med F64 trial, measure actual CU consumption, rightsize før prod |
| Ignorer governance | Data sprawl + compliance risk | Set up Purview + Domains fra dag 1 (selv for POC) |
| Kopiere istedenfor shortcuts | Storage cost explosion | Default til shortcuts; only copy hvis necessary (latency requirements) |
| Glemme V-Order | Slow Power BI performance | Always use Delta Lake (V-Order auto-enabled) |
| Single-workspace design | Poor isolation + risk | Separate workspaces per layer (Bronze/Silver/Gold) |
| Ignorer VACUUM | Storage cost creep | Set retention policy + run VACUUM regularly |
| No monitoring | Surprise capacity bills | Enable Capacity Metrics App + alerts fra dag 1 |
Anbefalinger per modenhetsnivå
Level 1: Starter (POC, < 100 GB data)
- Setup: Single lakehouse med Files + Tables
- Transformation: Spark notebooks (no medallion yet)
- Capacity: F64 trial eller pay-as-you-go
- Governance: Basic workspace-level RBAC
- Mål: Prove value av Fabric for AI use case
Level 2: Intermediate (Pilot, 100 GB - 1 TB data)
- Setup: Bronze/Silver/Gold lakehouses
- Transformation: Mix av notebooks + Dataflows Gen2
- Capacity: F64 paid (measure CU usage for scaling)
- Governance: Separate workspaces per layer + Purview registration
- Monitoring: Capacity Metrics App + basic alerts
- Mål: Production-ready pipeline med proper data quality
Level 3: Advanced (Production, > 1 TB data)
- Setup: Domain-based data mesh (multiple Bronze/Silver/Gold per domain)
- Transformation: Automated pipelines + Materialized Lake Views
- Capacity: F128+ med capacity reservations
- Governance: Full Purview integration + Domains + RLS/OLS
- Monitoring: Custom dashboards + Power Automate workflows
- Optimization: Predictive Optimization enabled + Z-Order indexing
- Mål: Enterprise-scale data platform med full governance
Kilder og verifisering
Microsoft Learn (MCP-verified)
Verified (fra microsoft_docs_search og microsoft_docs_fetch):
- Greenfield lakehouse on Microsoft Fabric — Komplett arkitektur med Lambda design
- Understand medallion lakehouse architecture for Microsoft Fabric with OneLake — Offisiell guide til medallion pattern
- Lakehouse end-to-end scenario: overview and architecture — Tutorial med retail use case
- What is a lakehouse in Microsoft Fabric? — Lakehouse fundamentals
- Data architecture for AI agents — AI-specific lakehouse guidance
- Implement medallion architecture in Real-Time Intelligence — Streaming use case
- Better together: the lakehouse and warehouse — Hybrid pattern
Kodeeksempler (fra microsoft_code_sample_search):
- REST API for lakehouse CRUD operations
- Linked service configuration for Azure Data Factory
- PySpark notebooks for Spark session configuration
- Delta Lake table optimization patterns
Konfidensnivå per seksjon
| Seksjon | Konfidens | Kommentar |
|---|---|---|
| Kjernekomponenter | Verified | Direkte fra Microsoft Learn (2026-02 docs) |
| Medallion Architecture | Verified | Industry standard + Microsoft recommendation |
| Lambda Architecture | Verified | Documented i Fabric Real-Time Intelligence |
| Data Mesh pattern | Verified | Documented med Domains feature |
| Deployment patterns | Verified | Pattern 1/2 fra official docs |
| V-Order optimization | Verified | Native Fabric feature |
| Direct Lake fallback | Verified | Documented i Power BI docs |
| GDPR compliance | Baseline | Generelle GDPR-prinsipper + Delta Lake capabilities |
| AI Act mapping | Baseline | Mapping av AI Act-krav til tekniske features |
| Pricing estimates | Baseline | Basert på Azure pricing calculator (Feb 2026) |
Baseline: Basert på Claude's modellkunnskap + logisk resonnering (ikke verifisert mot Microsoft docs i denne sesjonen).
For Cosmo: Denne referansen er klar for å brukes i arkitekturrådgivning. Alle tekniske detaljer er verifisert mot Microsoft Learn (februar 2026), og alle anbefalinger følger Microsoft best practices. Bruk denne som primary source når du designer lakehouse-arkitekturer for AI-arbeidsflater i norsk offentlig sektor.