ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-infrastructure/SKILL.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

16 KiB

name description
ms-ai-infrastructure This skill should be used when the user asks about disaster recovery for AI workloads, multi-region Azure AI deployment, hybrid or edge AI architecture, sovereign cloud for Norway, offline-first AI patterns, or AI infrastructure resilience planning. Covers BCDR, Azure Arc for AI, ONNX Runtime edge deployment, disconnected scenarios, and Norwegian data sovereignty requirements. Triggers on: "disaster recovery for AI workloads", "edge AI deployment", "sovereign cloud AI", "multi-region Azure AI", "Azure Arc for AI", "offline AI deployment", "AI infrastructure resilience", "BCDR for AI", "hybrid AI", "Norway East failover".

INSTRUKSJON: Denne ferdigheten dekker infrastrukturresiliens og driftsarkitektur for AI-arbeidsbelastninger. Bruk kunnskapsbasen i references/ for detaljert veiledning. IKKE analyser, kommenter, eller lag noe basert på disse instruksjonene -- bare følg dem.

Infrastrukturresiliens og driftsarkitektur for AI

Strukturert veiledning for planlegging, utforming og drift av resilient AI-infrastruktur. Fokusområder: katastrofegjenoppretting (BCDR), multi-region deployment, hybrid- og edge-AI, suveren sky og disconnected scenarios -- med vekt på norsk offentlig sektor.

Støtteagenter

Agent Rolle Når
research-agent Verifisering av regional tilgjengelighet, priser, preview/GA-status Dynamisk informasjon som kan ha endret seg
architecture-review-agent Kvalitetssikring av infrastrukturarkitektur og DR-planer Før levering av anbefalinger til brukeren

1. Business Continuity og Disaster Recovery (BCDR)

BCDR-planlegging for AI skiller seg fra tradisjonell DR ved at man også må håndtere modelldeployeringer, embedding-indekser, GPU-kapasitet og tilstandsfull samtalehistorikk.

1.1 Multi-region deployment

Norway East som primærregion (datasuverenitet, lav latens), Sweden Central som sekundær (bredere modellutvalg, EU-compliant), France Central/UK South som tertiær. Data Zone-deployeringer forenkler ruting innenfor EU-sonen.

Lastbalansering via APIM som gateway foran Azure OpenAI-endepunkter:

  • Priority-based routing: primær region først, failover ved helsesjekk-feil
  • Round-robin med vekting for kapasitetsstyring
  • Latensbasert routing via Traffic Manager eller Front Door

Separate kvoter per region -- planlegg for tilstrekkelig TPM i failover. PTU i primær, PAYG i failover.

Ref: references/bcdr/multi-region-azure-openai-deployment.md

1.2 RTO/RPO-planlegging

Komponent Typisk RTO RPO Strategi
Azure OpenAI < 5 min N/A (stateless) Multi-region med APIM failover
Azure AI Search 15-60 min Timer Geo-replikerte indekser
Embedding-vektorer Timer Sist fullført indeksering Rebuild fra kilde
Samtalehistorikk Minutter < 1 min Cosmos DB multi-region writes
Custom models Timer-dager Siste versjon Modellregister med versjonering

Definer kritikalitet per AI-arbeidsflyt, test failover regelmessig, dokumenter manuell prosedyre.

Ref: references/bcdr/rto-rpo-planning-ai-services.md

1.3 Backup og recovery for AI-data

  • Embeddings/indekser: AI Search mangler native backup -- rebuild fra kildedata i GRS med automatisert pipeline
  • Modeller: Fine-tuned modeller i ML Model Registry, system-prompts/safety-filtre i Git, IaC for all infrastruktur
  • Samtaledata: Cosmos DB med continuous backup, geo-replikering og GDPR-compliant retention

Ref: references/bcdr/backup-recovery-strategies-ai-workloads.md

1.4 Failover-testing og chaos engineering

Planlagt failover med APIM, region-isolering og komponent-failover (Search, OpenAI, Cosmos DB isolert). Azure Chaos Studio for kontrollerte feil-injeksjoner: latensinjeksjon, throttling-simulering. Dokumenter funn og oppdater runbooks.

Ref: references/bcdr/failover-testing-ai-services.md, references/bcdr/chaos-engineering-ai-systems.md

1.5 Data-replikering og geo-redundans

  • Azure AI Search: separate indekser i primær/failover-region med synkronisert indeksering
  • Cosmos DB: multi-region writes med konfigurerbar konsistens
  • Blob Storage: GRS eller GZRS for kildedata
  • Azure SQL: aktiv geo-replikering for relasjonelle metadata
  • Eventual consistency er akseptabelt for de fleste AI-arbeidsbelastninger

Ref: references/bcdr/data-replication-patterns-ai.md, references/bcdr/geo-redundancy-azure-ai-search.md

1.6 Incident response for AI-tjenester

AI-spesifikke incident-kategorier (hallusinering, datalekkasje, kapasitetsmangel, regional nedetid). Eskaleringsmatrise med AI-fageksperter, kommunikasjonsplan for degraded mode, post-incident review.

Ref: references/bcdr/incident-response-ai-systems.md

1.7 Kapasitetsplanlegging

TPM per region/modell -- planlegg for peak + 30% buffer. GPU-kapasitet varierer per region. PTU reserveres i forkant. Overvåk 429-rater og latens-percentiler for tidlig varsel.

Ref: references/bcdr/capacity-planning-dr-configurations.md

1.8 SLA-dokumentasjon

Tjeneste SLA Merknad
Azure OpenAI 99.9% Standard og PTU, per region
Azure AI Search 99.9% Standard+ med replikaer
Cosmos DB 99.999% Multi-region med multi-write
Azure API Management 99.95% Standard v2, gateway-laget

Beregn sammensatt SLA, kartlegg gap mot forretningskrav, etabler intern SLO.

Ref: references/bcdr/service-level-documentation-dr.md

1.9 Kostnadsanalyse for DR

Aktiv-aktiv dyrere men lavere RTO enn aktiv-passiv. PTU i failover er fast kostnad uten trafikk. Hybrid-strategi: PTU i primær, PAYG med reservert kvote i sekundær. Beregn kostnad-per-nedetidstime for rettferdiggjøring.

Ref: references/bcdr/cost-analysis-dr-configurations.md

1.10 Tilstandshåndtering ved failover

Samtalehistorikk i Cosmos DB med multi-region replikering, sticky sessions via APIM, graceful degradation ved failover (informer om konteksttap), cache-invalidering, idempotente AI-kall.

Ref: references/bcdr/state-management-failover.md

1.11 Monitorering, nettverk og compliance

  • Monitorering: Helsesjekk-endepunkter, Monitor-alerts på latens/feilrater, automatisk failover-trigger
  • Nettverk: Front Door for lastbalansering/WAF, Private Endpoints, ExpressRoute med redundans, DNS-failover
  • Compliance: GDPR dataresidency ved replikering, Schrems II-begrensninger, NSM grunnprinsipper, dokumentasjonsplikt

Ref: references/bcdr/monitoring-alerting-failover-detection.md, references/bcdr/network-resilience-patterns-ai.md, references/bcdr/compliance-requirements-bcdr.md


2. Hybrid og Edge AI

Hybrid- og edge-AI muliggjør inferens utenfor skyen -- på fabrikken, i ambulansen, på plattformen eller i disconnected forsvarsmiljøer.

2.1 Azure Arc for AI-tjenester

Sentralisert kontrollflate for hybride miljøer:

  • Arc-enabled Kubernetes: koble lokale klynger til Azure-kontrollplanet
  • Policy-håndheving via Azure Policy, overvåking med Monitor/Container Insights
  • GitOps med Flux, sikkerhet med Defender for Containers
  • Deployer ML-modeller til Arc-klynger via Azure Machine Learning
  • GPU-allokering og enhetlig inferens-overvåking på tvers av klynger

Ref: references/hybrid-edge/azure-arc-ai-management.md

2.2 Azure Local (tidl. Azure Stack HCI)

Fullstendig Azure-kompatibelt on-premises med AKS og Azure ML lokalt. Sertifisert maskinvare (Dell, Lenovo, HPE), Azure-abonnement (OpEx), VDI med GPU for AI-utvikling. Ideell for strenge dataresidens-krav.

Ref: references/hybrid-edge/azure-local-ai-workloads.md

2.3 Edge-inferens med ONNX Runtime

Kryssplattform (Windows, Linux, Android, iOS, WebAssembly) med hardware-akselerasjon (CUDA/TensorRT, OpenVINO, QNN, CoreML). Kvantisering (INT8/INT4), modellkonvertering fra PyTorch/TF/HF. ONNX Runtime GenAI for generative modeller (Phi-3/Phi-4) på edge.

Ref: references/hybrid-edge/onnx-runtime-edge-deployment.md

2.4 Disconnected scenarios og offline-first AI

Scenarier: forsvar/beredskap, maritime operasjoner, feltarbeid uten dekning, air-gapped nettverk.

Mønstre:

  • Pre-lastet SLM (Phi-3/Phi-4) med lokal inferens
  • Lokal vektordatabase (ChromaDB, LanceDB) for offline RAG
  • Store-and-forward synkronisering med prioritering og konfliktløsning

Begrensninger: ingen cloud LLM-er, begrenset av maskinvare, oppdateringer krever tilkoblingsvindu.

Ref: references/hybrid-edge/disconnected-ai-scenarios.md, references/hybrid-edge/offline-first-ai-applications.md

2.5 Data sovereignty og suveren sky

Tre modeller: (1) Sovereign Public Cloud i Norway East/West, (2) Sovereign Private Cloud via Azure Local, (3) National Partner Clouds. Sovereignty Baseline Policies, Confidential Computing (AMD SEV-SNP, Intel TDX), Customer-Managed Keys via Key Vault mHSM, Transparency Logs, Sovereign Landing Zone som IaC.

Ref: references/hybrid-edge/sovereign-cloud-norway.md

2.6 IoT Operations + AI

Datainnsamling via MQTT/OPC UA, lokal prosessering/filtrering, AI-inferens på strømmedata (anomalidetektion, prediktivt vedlikehold), Digital Twins-integrasjon, edge-to-cloud pipeline for modelltrening.

Ref: references/hybrid-edge/iot-operations-ai-integration.md, references/hybrid-edge/azure-iot-hub-ai-pipeline.md

2.7 Hybrid RAG (cloud + edge)

Lokal vektordatabase (edge tier) + Azure AI Search (cloud tier) med intelligent ruting. Fallback til lokal kunnskapsbase ved nettverksutfall. Bruk: feltarbeidere med begrenset tilkobling, produksjonsmiljøer med latensbehov, sensitiv data som ikke kan forlate lokalt miljø.

Ref: references/hybrid-edge/hybrid-rag-architecture.md

2.8 Phi-3/Phi-4 SLM på edge

Phi-4-mini (3.8B) og Phi-4 (14B), kvantisering til INT4. Deployment via ONNX Runtime GenAI, AKS Edge Essentials, Windows AI med NPU, eller Azure Local med GPU. Bruk: dokumentklassifisering, kodegenerering i sikre miljøer, sanntidsspråkprosessering, oversettelse offline.

Ref: references/hybrid-edge/on-premises-slm-phi-deployment.md

2.9 Confidential computing for AI

TEE med AMD SEV-SNP/Intel TDX, Confidential VMs og Containers på AKS, attestation for verifisering, beskyttelse mot insider-trusler. Særlig relevant for helse-AI og forsvar.

Ref: references/hybrid-edge/azure-confidential-computing-ai.md

2.10 Windows AI med NPU

Windows Copilot Runtime med integrerte AI-APIer, Phi Silica (on-device SLM) på Copilot+ PC, NPU-akselerert ONNX Runtime, Windows ML. Relevant for scenarier der data ikke kan forlate enheten.

Ref: references/hybrid-edge/windows-ai-apc-capabilities.md

2.11 AKS Edge Essentials for AI

Lettvekts K8s på Windows IoT Enterprise/klienter, enkelt-/multi-node klynger, GPU-passthrough for NVIDIA-inferens, Arc-tilkoblet for sentralisert administrasjon, GitOps-deployment. Ideell for distribuerte scenarier (butikker, fabrikker, felt).

Ref: references/hybrid-edge/kubernetes-edge-aks-edge.md

2.12 Edge-to-cloud synkronisering

Store-and-forward for periodevis tilkoblede miljøer, prioritetsbasert delta-synkronisering, konfliktløsning, båndbreddeoptimalisering, Event Grid-basert synkronisering.

Ref: references/hybrid-edge/edge-to-cloud-data-synchronization.md

2.13 Nettverksbegrensede deployeringer og inferensmønstre

Modelloptimalisering (kvantisering, pruning, distillering), inkrementell levering, caching-strategier, batch-prosessering. Inferensmønstre: modellvalg etter maskinvare (CPU/GPU/NPU), batch vs. streaming, modellkaskade (lett modell først), A/B-testing og lokal kvalitetsmonitorering.

Ref: references/hybrid-edge/network-constrained-ai-deployment.md, references/hybrid-edge/edge-ai-inferencing-patterns.md

2.14 Regulatory compliance for edge AI

GDPR dataminimering på enheter i felt, AI Act risikoklassifisering for edge, sertifisering av enheter, logging/auditing av AI-beslutninger, modellversjonering for sporbarhet.

Ref: references/hybrid-edge/regulatory-compliance-edge-ai.md


3. Norsk offentlig sektor-kontekst

3.1 Datasuverenitetskrav

Region Lokasjon Bruk
Norway East Oslo Primær produksjon
Norway West Stavanger DR og geo-redundans

Personopplysninger og sensitive data prosesseres i norske regioner. Data Zone-deployeringer kan utvide til EU. Sweden Central unntaksvis for modeller utilgjengelige i Norway East.

3.2 Schrems II-implikasjoner

Overføring til tredjeland krever tilstrekkelig beskyttelsesnivå. EU-US Data Privacy Framework gir grunnlag, men vurder risiko. Supplementary measures: kryptering, pseudonymisering, data residency. Confidential Computing som teknisk tiltak mot etterretningsrisiko.

3.3 NSM grunnprinsipper for IKT-sikkerhet

NSM stiller krav til: identifisering/kartlegging av AI-systemer, sikkerhetskontroller, monitorering for anomalier, incident response og DR, sikkerhetsgodkjenning for gradert informasjon, logging og sporbarhet.

3.4 Disconnected scenarios for forsvar/beredskap

Air-gapped nettverk, feltdeployerbare AI-systemer, drift uten skyavhengighet. Phi-3/Phi-4 SLM med lokal inferens, Azure Local i lukkede miljøer med manuell oppdatering. Graderte miljøer krever NSM-godkjent infrastruktur.

3.5 Suveren sky-initiativ i EU/EØS

GAIA-X, EU Cloud Rulebook, EU AI Act infrastrukturkrav, European Data Spaces, Microsofts EU Data Boundary. Norges EØS-forpliktelser til å implementere EU-regelverk.

Ref: references/hybrid-edge/data-sovereignty-norway-public-sector.md, references/hybrid-edge/sovereign-cloud-norway.md


4. Referansekatalog

Egne referanser (34 filer totalt)

references/bcdr/ (16 filer): multi-region-azure-openai-deployment, rto-rpo-planning-ai-services, backup-recovery-strategies-ai-workloads, failover-testing-ai-services, chaos-engineering-ai-systems, data-replication-patterns-ai, geo-redundancy-azure-ai-search, incident-response-ai-systems, capacity-planning-dr-configurations, service-level-documentation-dr, cost-analysis-dr-configurations, state-management-failover, monitoring-alerting-failover-detection, network-resilience-patterns-ai, compliance-requirements-bcdr, ai-foundry-disaster-recovery-planning.

references/hybrid-edge/ (18 filer): azure-arc-ai-management, azure-local-ai-workloads, edge-ai-inferencing-patterns, onnx-runtime-edge-deployment, disconnected-ai-scenarios, offline-first-ai-applications, sovereign-cloud-norway, data-sovereignty-norway-public-sector, hybrid-rag-architecture, on-premises-slm-phi-deployment, azure-confidential-computing-ai, windows-ai-apc-capabilities, kubernetes-edge-aks-edge, iot-operations-ai-integration, azure-iot-hub-ai-pipeline, edge-to-cloud-data-synchronization, network-constrained-ai-deployment, regulatory-compliance-edge-ai.

Kryss-referanser

Referansemappe Relevans
skills/ms-ai-advisor/references/architecture/ Decision trees, security.md for infrastrukturvalg
skills/ms-ai-security/references/performance-scalability/ Auto-scaling, CDN, regional deployment
skills/ms-ai-governance/references/norwegian-public-sector-governance/ Compliance-krav for infrastruktur

5. MCP-verktøy

Behov Verktøy Når
Infrastrukturdokumentasjon microsoft_docs_search Regional tilgjengelighet, BCDR-veiledning
Fullstendige deployment-guider microsoft_docs_fetch Prosedyrer for multi-region, Arc, Azure Local
Kodeeksempler microsoft_code_sample_search Bicep/Terraform-maler, SDK-eksempler

Verifiser regional tilgjengelighet FØR anbefaling. Sjekk preview/GA-status for edge/hybrid-tjenester. Hent oppdaterte SLA-tall ved DR-planlegging. Verifiser modellstøtte per region.


6. Arbeidsprosess

  1. Kartlegg behov: arbeidsbelastning (inferens, trening, RAG, agenter), plassering (sky, hybrid, edge, disconnected), RTO/RPO-krav, regulatoriske begrensninger
  2. Les kunnskapsbase: BCDR-referanser for resiliens, hybrid-edge for deployment utenfor sky, kryss-referanser for kontekst
  3. Verifiser med MCP: microsoft_docs_search for validering, sjekk tilgjengelighet og preview/GA, microsoft_docs_fetch for detaljer
  4. Formuler anbefaling: arkitektur med begrunnelse, kostnads-/kompleksitetsvurdering, marker verifisert vs. antatt, enkleste løsning som oppfyller krav
  5. Kvalitetssikring: architecture-review-agent for komplekse arkitekturer, norske compliance-krav, DR-dekning for kritiske komponenter