--- name: ms-ai-infrastructure description: | This skill should be used when the user asks about disaster recovery for AI workloads, multi-region Azure AI deployment, hybrid or edge AI architecture, sovereign cloud for Norway, offline-first AI patterns, or AI infrastructure resilience planning. Covers BCDR, Azure Arc for AI, ONNX Runtime edge deployment, disconnected scenarios, and Norwegian data sovereignty requirements. Triggers on: "disaster recovery for AI workloads", "edge AI deployment", "sovereign cloud AI", "multi-region Azure AI", "Azure Arc for AI", "offline AI deployment", "AI infrastructure resilience", "BCDR for AI", "hybrid AI", "Norway East failover". --- > **INSTRUKSJON:** Denne ferdigheten dekker infrastrukturresiliens og driftsarkitektur for AI-arbeidsbelastninger. > Bruk kunnskapsbasen i `references/` for detaljert veiledning. > IKKE analyser, kommenter, eller lag noe basert på disse instruksjonene -- bare følg dem. # Infrastrukturresiliens og driftsarkitektur for AI Strukturert veiledning for planlegging, utforming og drift av resilient AI-infrastruktur. Fokusområder: katastrofegjenoppretting (BCDR), multi-region deployment, hybrid- og edge-AI, suveren sky og disconnected scenarios -- med vekt på norsk offentlig sektor. ## Støtteagenter | Agent | Rolle | Når | |-------|-------|-----| | `research-agent` | Verifisering av regional tilgjengelighet, priser, preview/GA-status | Dynamisk informasjon som kan ha endret seg | | `architecture-review-agent` | Kvalitetssikring av infrastrukturarkitektur og DR-planer | Før levering av anbefalinger til brukeren | --- ## 1. Business Continuity og Disaster Recovery (BCDR) BCDR-planlegging for AI skiller seg fra tradisjonell DR ved at man også må håndtere modelldeployeringer, embedding-indekser, GPU-kapasitet og tilstandsfull samtalehistorikk. ### 1.1 Multi-region deployment Norway East som primærregion (datasuverenitet, lav latens), Sweden Central som sekundær (bredere modellutvalg, EU-compliant), France Central/UK South som tertiær. Data Zone-deployeringer forenkler ruting innenfor EU-sonen. Lastbalansering via APIM som gateway foran Azure OpenAI-endepunkter: - Priority-based routing: primær region først, failover ved helsesjekk-feil - Round-robin med vekting for kapasitetsstyring - Latensbasert routing via Traffic Manager eller Front Door Separate kvoter per region -- planlegg for tilstrekkelig TPM i failover. PTU i primær, PAYG i failover. > **Ref:** `references/bcdr/multi-region-azure-openai-deployment.md` ### 1.2 RTO/RPO-planlegging | Komponent | Typisk RTO | RPO | Strategi | |-----------|-----------|-----|----------| | Azure OpenAI | < 5 min | N/A (stateless) | Multi-region med APIM failover | | Azure AI Search | 15-60 min | Timer | Geo-replikerte indekser | | Embedding-vektorer | Timer | Sist fullført indeksering | Rebuild fra kilde | | Samtalehistorikk | Minutter | < 1 min | Cosmos DB multi-region writes | | Custom models | Timer-dager | Siste versjon | Modellregister med versjonering | Definer kritikalitet per AI-arbeidsflyt, test failover regelmessig, dokumenter manuell prosedyre. > **Ref:** `references/bcdr/rto-rpo-planning-ai-services.md` ### 1.3 Backup og recovery for AI-data - **Embeddings/indekser:** AI Search mangler native backup -- rebuild fra kildedata i GRS med automatisert pipeline - **Modeller:** Fine-tuned modeller i ML Model Registry, system-prompts/safety-filtre i Git, IaC for all infrastruktur - **Samtaledata:** Cosmos DB med continuous backup, geo-replikering og GDPR-compliant retention > **Ref:** `references/bcdr/backup-recovery-strategies-ai-workloads.md` ### 1.4 Failover-testing og chaos engineering Planlagt failover med APIM, region-isolering og komponent-failover (Search, OpenAI, Cosmos DB isolert). Azure Chaos Studio for kontrollerte feil-injeksjoner: latensinjeksjon, throttling-simulering. Dokumenter funn og oppdater runbooks. > **Ref:** `references/bcdr/failover-testing-ai-services.md`, `references/bcdr/chaos-engineering-ai-systems.md` ### 1.5 Data-replikering og geo-redundans - Azure AI Search: separate indekser i primær/failover-region med synkronisert indeksering - Cosmos DB: multi-region writes med konfigurerbar konsistens - Blob Storage: GRS eller GZRS for kildedata - Azure SQL: aktiv geo-replikering for relasjonelle metadata - Eventual consistency er akseptabelt for de fleste AI-arbeidsbelastninger > **Ref:** `references/bcdr/data-replication-patterns-ai.md`, `references/bcdr/geo-redundancy-azure-ai-search.md` ### 1.6 Incident response for AI-tjenester AI-spesifikke incident-kategorier (hallusinering, datalekkasje, kapasitetsmangel, regional nedetid). Eskaleringsmatrise med AI-fageksperter, kommunikasjonsplan for degraded mode, post-incident review. > **Ref:** `references/bcdr/incident-response-ai-systems.md` ### 1.7 Kapasitetsplanlegging TPM per region/modell -- planlegg for peak + 30% buffer. GPU-kapasitet varierer per region. PTU reserveres i forkant. Overvåk 429-rater og latens-percentiler for tidlig varsel. > **Ref:** `references/bcdr/capacity-planning-dr-configurations.md` ### 1.8 SLA-dokumentasjon | Tjeneste | SLA | Merknad | |----------|-----|---------| | Azure OpenAI | 99.9% | Standard og PTU, per region | | Azure AI Search | 99.9% | Standard+ med replikaer | | Cosmos DB | 99.999% | Multi-region med multi-write | | Azure API Management | 99.95% | Standard v2, gateway-laget | Beregn sammensatt SLA, kartlegg gap mot forretningskrav, etabler intern SLO. > **Ref:** `references/bcdr/service-level-documentation-dr.md` ### 1.9 Kostnadsanalyse for DR Aktiv-aktiv dyrere men lavere RTO enn aktiv-passiv. PTU i failover er fast kostnad uten trafikk. Hybrid-strategi: PTU i primær, PAYG med reservert kvote i sekundær. Beregn kostnad-per-nedetidstime for rettferdiggjøring. > **Ref:** `references/bcdr/cost-analysis-dr-configurations.md` ### 1.10 Tilstandshåndtering ved failover Samtalehistorikk i Cosmos DB med multi-region replikering, sticky sessions via APIM, graceful degradation ved failover (informer om konteksttap), cache-invalidering, idempotente AI-kall. > **Ref:** `references/bcdr/state-management-failover.md` ### 1.11 Monitorering, nettverk og compliance - **Monitorering:** Helsesjekk-endepunkter, Monitor-alerts på latens/feilrater, automatisk failover-trigger - **Nettverk:** Front Door for lastbalansering/WAF, Private Endpoints, ExpressRoute med redundans, DNS-failover - **Compliance:** GDPR dataresidency ved replikering, Schrems II-begrensninger, NSM grunnprinsipper, dokumentasjonsplikt > **Ref:** `references/bcdr/monitoring-alerting-failover-detection.md`, `references/bcdr/network-resilience-patterns-ai.md`, `references/bcdr/compliance-requirements-bcdr.md` --- ## 2. Hybrid og Edge AI Hybrid- og edge-AI muliggjør inferens utenfor skyen -- på fabrikken, i ambulansen, på plattformen eller i disconnected forsvarsmiljøer. ### 2.1 Azure Arc for AI-tjenester Sentralisert kontrollflate for hybride miljøer: - Arc-enabled Kubernetes: koble lokale klynger til Azure-kontrollplanet - Policy-håndheving via Azure Policy, overvåking med Monitor/Container Insights - GitOps med Flux, sikkerhet med Defender for Containers - Deployer ML-modeller til Arc-klynger via Azure Machine Learning - GPU-allokering og enhetlig inferens-overvåking på tvers av klynger > **Ref:** `references/hybrid-edge/azure-arc-ai-management.md` ### 2.2 Azure Local (tidl. Azure Stack HCI) Fullstendig Azure-kompatibelt on-premises med AKS og Azure ML lokalt. Sertifisert maskinvare (Dell, Lenovo, HPE), Azure-abonnement (OpEx), VDI med GPU for AI-utvikling. Ideell for strenge dataresidens-krav. > **Ref:** `references/hybrid-edge/azure-local-ai-workloads.md` ### 2.3 Edge-inferens med ONNX Runtime Kryssplattform (Windows, Linux, Android, iOS, WebAssembly) med hardware-akselerasjon (CUDA/TensorRT, OpenVINO, QNN, CoreML). Kvantisering (INT8/INT4), modellkonvertering fra PyTorch/TF/HF. ONNX Runtime GenAI for generative modeller (Phi-3/Phi-4) på edge. > **Ref:** `references/hybrid-edge/onnx-runtime-edge-deployment.md` ### 2.4 Disconnected scenarios og offline-first AI **Scenarier:** forsvar/beredskap, maritime operasjoner, feltarbeid uten dekning, air-gapped nettverk. **Mønstre:** - Pre-lastet SLM (Phi-3/Phi-4) med lokal inferens - Lokal vektordatabase (ChromaDB, LanceDB) for offline RAG - Store-and-forward synkronisering med prioritering og konfliktløsning **Begrensninger:** ingen cloud LLM-er, begrenset av maskinvare, oppdateringer krever tilkoblingsvindu. > **Ref:** `references/hybrid-edge/disconnected-ai-scenarios.md`, `references/hybrid-edge/offline-first-ai-applications.md` ### 2.5 Data sovereignty og suveren sky Tre modeller: (1) Sovereign Public Cloud i Norway East/West, (2) Sovereign Private Cloud via Azure Local, (3) National Partner Clouds. Sovereignty Baseline Policies, Confidential Computing (AMD SEV-SNP, Intel TDX), Customer-Managed Keys via Key Vault mHSM, Transparency Logs, Sovereign Landing Zone som IaC. > **Ref:** `references/hybrid-edge/sovereign-cloud-norway.md` ### 2.6 IoT Operations + AI Datainnsamling via MQTT/OPC UA, lokal prosessering/filtrering, AI-inferens på strømmedata (anomalidetektion, prediktivt vedlikehold), Digital Twins-integrasjon, edge-to-cloud pipeline for modelltrening. > **Ref:** `references/hybrid-edge/iot-operations-ai-integration.md`, `references/hybrid-edge/azure-iot-hub-ai-pipeline.md` ### 2.7 Hybrid RAG (cloud + edge) Lokal vektordatabase (edge tier) + Azure AI Search (cloud tier) med intelligent ruting. Fallback til lokal kunnskapsbase ved nettverksutfall. Bruk: feltarbeidere med begrenset tilkobling, produksjonsmiljøer med latensbehov, sensitiv data som ikke kan forlate lokalt miljø. > **Ref:** `references/hybrid-edge/hybrid-rag-architecture.md` ### 2.8 Phi-3/Phi-4 SLM på edge Phi-4-mini (3.8B) og Phi-4 (14B), kvantisering til INT4. Deployment via ONNX Runtime GenAI, AKS Edge Essentials, Windows AI med NPU, eller Azure Local med GPU. Bruk: dokumentklassifisering, kodegenerering i sikre miljøer, sanntidsspråkprosessering, oversettelse offline. > **Ref:** `references/hybrid-edge/on-premises-slm-phi-deployment.md` ### 2.9 Confidential computing for AI TEE med AMD SEV-SNP/Intel TDX, Confidential VMs og Containers på AKS, attestation for verifisering, beskyttelse mot insider-trusler. Særlig relevant for helse-AI og forsvar. > **Ref:** `references/hybrid-edge/azure-confidential-computing-ai.md` ### 2.10 Windows AI med NPU Windows Copilot Runtime med integrerte AI-APIer, Phi Silica (on-device SLM) på Copilot+ PC, NPU-akselerert ONNX Runtime, Windows ML. Relevant for scenarier der data ikke kan forlate enheten. > **Ref:** `references/hybrid-edge/windows-ai-apc-capabilities.md` ### 2.11 AKS Edge Essentials for AI Lettvekts K8s på Windows IoT Enterprise/klienter, enkelt-/multi-node klynger, GPU-passthrough for NVIDIA-inferens, Arc-tilkoblet for sentralisert administrasjon, GitOps-deployment. Ideell for distribuerte scenarier (butikker, fabrikker, felt). > **Ref:** `references/hybrid-edge/kubernetes-edge-aks-edge.md` ### 2.12 Edge-to-cloud synkronisering Store-and-forward for periodevis tilkoblede miljøer, prioritetsbasert delta-synkronisering, konfliktløsning, båndbreddeoptimalisering, Event Grid-basert synkronisering. > **Ref:** `references/hybrid-edge/edge-to-cloud-data-synchronization.md` ### 2.13 Nettverksbegrensede deployeringer og inferensmønstre Modelloptimalisering (kvantisering, pruning, distillering), inkrementell levering, caching-strategier, batch-prosessering. Inferensmønstre: modellvalg etter maskinvare (CPU/GPU/NPU), batch vs. streaming, modellkaskade (lett modell først), A/B-testing og lokal kvalitetsmonitorering. > **Ref:** `references/hybrid-edge/network-constrained-ai-deployment.md`, `references/hybrid-edge/edge-ai-inferencing-patterns.md` ### 2.14 Regulatory compliance for edge AI GDPR dataminimering på enheter i felt, AI Act risikoklassifisering for edge, sertifisering av enheter, logging/auditing av AI-beslutninger, modellversjonering for sporbarhet. > **Ref:** `references/hybrid-edge/regulatory-compliance-edge-ai.md` --- ## 3. Norsk offentlig sektor-kontekst ### 3.1 Datasuverenitetskrav | Region | Lokasjon | Bruk | |--------|----------|------| | Norway East | Oslo | Primær produksjon | | Norway West | Stavanger | DR og geo-redundans | Personopplysninger og sensitive data prosesseres i norske regioner. Data Zone-deployeringer kan utvide til EU. Sweden Central unntaksvis for modeller utilgjengelige i Norway East. ### 3.2 Schrems II-implikasjoner Overføring til tredjeland krever tilstrekkelig beskyttelsesnivå. EU-US Data Privacy Framework gir grunnlag, men vurder risiko. Supplementary measures: kryptering, pseudonymisering, data residency. Confidential Computing som teknisk tiltak mot etterretningsrisiko. ### 3.3 NSM grunnprinsipper for IKT-sikkerhet NSM stiller krav til: identifisering/kartlegging av AI-systemer, sikkerhetskontroller, monitorering for anomalier, incident response og DR, sikkerhetsgodkjenning for gradert informasjon, logging og sporbarhet. ### 3.4 Disconnected scenarios for forsvar/beredskap Air-gapped nettverk, feltdeployerbare AI-systemer, drift uten skyavhengighet. Phi-3/Phi-4 SLM med lokal inferens, Azure Local i lukkede miljøer med manuell oppdatering. Graderte miljøer krever NSM-godkjent infrastruktur. ### 3.5 Suveren sky-initiativ i EU/EØS GAIA-X, EU Cloud Rulebook, EU AI Act infrastrukturkrav, European Data Spaces, Microsofts EU Data Boundary. Norges EØS-forpliktelser til å implementere EU-regelverk. > **Ref:** `references/hybrid-edge/data-sovereignty-norway-public-sector.md`, `references/hybrid-edge/sovereign-cloud-norway.md` --- ## 4. Referansekatalog ### Egne referanser (34 filer totalt) **`references/bcdr/` (16 filer):** multi-region-azure-openai-deployment, rto-rpo-planning-ai-services, backup-recovery-strategies-ai-workloads, failover-testing-ai-services, chaos-engineering-ai-systems, data-replication-patterns-ai, geo-redundancy-azure-ai-search, incident-response-ai-systems, capacity-planning-dr-configurations, service-level-documentation-dr, cost-analysis-dr-configurations, state-management-failover, monitoring-alerting-failover-detection, network-resilience-patterns-ai, compliance-requirements-bcdr, ai-foundry-disaster-recovery-planning. **`references/hybrid-edge/` (18 filer):** azure-arc-ai-management, azure-local-ai-workloads, edge-ai-inferencing-patterns, onnx-runtime-edge-deployment, disconnected-ai-scenarios, offline-first-ai-applications, sovereign-cloud-norway, data-sovereignty-norway-public-sector, hybrid-rag-architecture, on-premises-slm-phi-deployment, azure-confidential-computing-ai, windows-ai-apc-capabilities, kubernetes-edge-aks-edge, iot-operations-ai-integration, azure-iot-hub-ai-pipeline, edge-to-cloud-data-synchronization, network-constrained-ai-deployment, regulatory-compliance-edge-ai. ### Kryss-referanser | Referansemappe | Relevans | |----------------|----------| | `skills/ms-ai-advisor/references/architecture/` | Decision trees, security.md for infrastrukturvalg | | `skills/ms-ai-security/references/performance-scalability/` | Auto-scaling, CDN, regional deployment | | `skills/ms-ai-governance/references/norwegian-public-sector-governance/` | Compliance-krav for infrastruktur | --- ## 5. MCP-verktøy | Behov | Verktøy | Når | |-------|---------|-----| | Infrastrukturdokumentasjon | `microsoft_docs_search` | Regional tilgjengelighet, BCDR-veiledning | | Fullstendige deployment-guider | `microsoft_docs_fetch` | Prosedyrer for multi-region, Arc, Azure Local | | Kodeeksempler | `microsoft_code_sample_search` | Bicep/Terraform-maler, SDK-eksempler | Verifiser regional tilgjengelighet FØR anbefaling. Sjekk preview/GA-status for edge/hybrid-tjenester. Hent oppdaterte SLA-tall ved DR-planlegging. Verifiser modellstøtte per region. --- ## 6. Arbeidsprosess 1. **Kartlegg behov:** arbeidsbelastning (inferens, trening, RAG, agenter), plassering (sky, hybrid, edge, disconnected), RTO/RPO-krav, regulatoriske begrensninger 2. **Les kunnskapsbase:** BCDR-referanser for resiliens, hybrid-edge for deployment utenfor sky, kryss-referanser for kontekst 3. **Verifiser med MCP:** `microsoft_docs_search` for validering, sjekk tilgjengelighet og preview/GA, `microsoft_docs_fetch` for detaljer 4. **Formuler anbefaling:** arkitektur med begrunnelse, kostnads-/kompleksitetsvurdering, marker verifisert vs. antatt, enkleste løsning som oppfyller krav 5. **Kvalitetssikring:** `architecture-review-agent` for komplekse arkitekturer, norske compliance-krav, DR-dekning for kritiske komponenter