Kjell Tore Guttormsen ad8a411f38 docs(architect): weekly KB update — 66 files refreshed (2026-04)

Updated 66 stale knowledge base reference files (10 critical, 56 high)
across all 5 skills using Microsoft Learn MCP research.

Key factual updates:
- Groundedness Detection API: `correction` → `mitigating` param,
  `correctedText` → `correctionText` (breaking change)
- Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini);
  Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx)
- Agentic Retrieval: still public preview; 50M free tokens/month
- Azure security baselines: "Cognitive Services" → "Foundry Tools"
- Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines
- MLflow 3 GenAI: new Feedback/Expectation data model
- Token tracking doc: "Azure OpenAI in Foundry Models through a gateway"
- Agent Registry: Risks column (M365 E7), Graph API (preview)
- Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles
- ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot
- Zero Trust: CAE now via Conditional Access, Strict Location Enforcement
- Purview: new Fabric Copilots/agents governance section
- AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python)

All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added.
Build registry: 1341 URLs from 387 files (+2 new URLs).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-09 22:41:26 +02:00

26 KiB

Raw Blame History

Managed Inference Endpoints: Cost Optimization

Last updated: 2026-04 Status: GA Category: Cost Optimization & FinOps for AI

Introduksjon

Managed inference endpoints i Azure Machine Learning og Azure AI Foundry representerer en betydelig kostnadsfaktor i AI-prosjekter, men de tilbyr også omfattende muligheter for kostnadsoptimalisering gjennom riktig konfigurasjon og strategisk ressursforvaltning. Denne kunnskapsreferansen dekker både managed compute endpoints (Azure ML) og serverless API endpoints (Azure AI Foundry), med fokus på praktiske optimaliseringsstrategier som kan redusere Total Cost of Ownership (TCO) uten å kompromittere på ytelse eller tilgjengelighet.

Forskjellen mellom deployment-typer er vesentlig for kostnadsoptimalisering: Managed compute endpoints krever at du betaler for provisjonerte VM-instanser per time uavhengig av bruk, mens serverless endpoints (pay-as-you-go) belaster per token og request. Å velge riktig deployment-modell basert på trafikkprofil, konsistens og modellkrav er første skritt mot kostnadseffektiv inferencing.

Hovedutfordringen for de fleste organisasjoner er å balansere tre faktorer: kostnader (compute-timer, token-forbruk), ytelse (latency, throughput) og tilgjengelighet (SLA-krav). Autoscaling, instance-sizing, idle-capacity management og endpoint-consolidering er kjernestrategier som adresserer denne balansen direkte.

Kjernekomponenter

Deployment-typer og kostnadsmodeller

Deployment Type	Prismodell	Best for	Kostnadsprofil
Managed Online Endpoint	VM-timer (per instance, per hour)	Konsistent, forutsigbar trafikk	Fast timekostnad uavhengig av requests
Serverless API Endpoint	Pay-per-token + pay-per-request	Variabel, uforutsigbar trafikk	Kun kostnad ved faktisk bruk
Provisioned Throughput (PTU)	Fast månedskostnad for reservert kapasitet	Stable workloads med høy throughput	Lavere enhetskostnad for høy bruk
Low-Priority VMs	50-80% rabatt vs. dedicated VMs	Batch inference, ikke-kritiske workloads	Betydelig kostnadsbesparing med preemption-risiko

Autoscaling-konfigurasjonskomponenter

Parameter	Beskrivelse	Kostnadspåvirkning
Minimum instances	Laveste antall instanser som alltid kjører	Sett til 0 for non-prod for å unngå idle-kostnader
Maximum instances	Øvre grense for skalering	Beskytter mot ukontrollert kostnadsøkning
Default instances	Starttilstand ved deployment	Bør matche forventet base load
Scale-out threshold	Metric-verdi som trigger scale-out (f.eks. CPU > 70%)	Lavere threshold = mer proaktiv (dyrere), høyere = mer reaktiv
Scale-in threshold	Metric-verdi som trigger scale-in (f.eks. CPU < 30%)	Høyere threshold = raskere scale-down (billigere)
Cooldown period	Ventetid etter scale-action før ny action tillates	Forhindrer "flapping" som gir unødvendige compute-timer
Idle time before scale-down	Sekunder før idle node frigjøres (default: 120s)	Lavere = raskere kostnadsbesparing, men mer hyppig re-provisioning

Instance-størrelser og kostnad per time (estimat NOK)

VM Series	vCPU	RAM (GB)	GPU	Pris ca. NOK/time	Use Case
Standard_DS2_v2	2	7	-	~10 kr	Små modeller, dev/test
Standard_DS3_v2	4	14	-	~20 kr	Mellomstore modeller
Standard_F2s_v2	2	4	-	~8 kr	Compute-optimized, lav minne
Standard_NC4as_T4_v3	4	28	T4	~80 kr	GPU inference for DNN
Standard_NC6s_v3	6	112	V100	~300 kr	Høy-ytelse GPU inference

Priser er estimert (2026) og varierer per region. Sjekk alltid Azure Pricing Calculator for oppdaterte priser.

Metrics for autoscaling

Metric	Scope	Threshold-anbefaling	Brukstilfelle
CpuUtilizationPercentage	Deployment	Scale-out: >70%, Scale-in: <30%	Generell last-basert scaling
RequestLatency	Endpoint	Scale-out: >70ms avg 5 min	Latency-sensitiv applikasjoner
RequestsPerMinute	Endpoint	Basert på SLA-krav	Throughput-basert scaling
GpuUtilizationPercentage	Deployment (GPU)	Scale-out: >80%, Scale-in: <40%	GPU-intensive modeller
MemoryUtilizationPercentage	Deployment	Scale-out: >85%, Scale-in: <50%	Modeller med høyt minneforbruk

Arkitekturmønstre

Mønster 1: Hybrid Serverless + Managed Compute

Scenario: Organisasjonen har stabil base load med sporadiske trafikk-spikes (f.eks. morgen-rush, kampanjeperioder).

Løsning:

Managed compute endpoint med autoscaling for base load (2-4 instances)
Serverless endpoint for overflow-trafikk via API Management routing
Gateway-logikk som ruter overflow til serverless ved høy last

Kostnadsfordel:

Base load håndteres av kostnadseffektiv dedicated compute
Spikes håndteres av serverless uten å over-provisjonere managed instances
Typisk besparelse: 30-50% vs. ren managed compute med peak-dimensjonering

Implementering:

# Managed endpoint med autoscaling (base load)
from azure.mgmt.monitor.models import AutoscaleProfile, ScaleRule, MetricTrigger, ScaleAction

base_profile = AutoscaleProfile(
    name="base-load-profile",
    capacity={"minimum": 2, "maximum": 4, "default": 2},
    rules=[
        ScaleRule(
            metric_trigger=MetricTrigger(
                metric_name="CpuUtilizationPercentage",
                metric_resource_uri=deployment.id,
                time_window=datetime.timedelta(minutes=5),
                statistic="Average",
                operator="GreaterThan",
                threshold=70
            ),
            scale_action=ScaleAction(
                direction="Increase",
                type="ChangeCount",
                value=1,
                cooldown=datetime.timedelta(minutes=10)
            )
        )
    ]
)

# API Management routing-policy for overflow til serverless
# (defineres i APIM policy-XML)

Trade-offs:

Økt kompleksitet i routing-logikk
Behov for API Management (tilleggskostnad)
Latency-variasjon mellom managed/serverless

Mønster 2: Schedule-Based Scaling for Forutsigbare Mønstre

Scenario: Offentlig sektor-applikasjon med tydelig dag/natt og helge-mønster (f.eks. saksbehandlingssystemer).

Løsning:

Schedule-basert autoscaling med ulike profiler for arbeidstid, natt og helg
Aggressiv scale-down til 0 instances utenfor arbeidstid (non-prod)
Prod: minimum 1 instance for tilgjengelighet, resten schedule-basert

Kostnadsfordel:

Eliminerer idle-kostnader utenfor arbeidstid (50-70% av døgnet)
Typisk besparelse: 40-60% for workloads med tydelig mønster

Implementering:

# Arbeidstid-profil (man-fre 07:00-17:00)
workday_profile = AutoscaleProfile(
    name="workday-hours",
    capacity={"minimum": 3, "maximum": 10, "default": 3},
    recurrence=Recurrence(
        frequency="Week",
        schedule=RecurrentSchedule(
            time_zone="W. Europe Standard Time",
            days=["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"],
            hours=[7],
            minutes=[0]
        )
    )
)

# Natt/helg-profil
offhours_profile = AutoscaleProfile(
    name="offhours-minimum",
    capacity={"minimum": 0, "maximum": 2, "default": 1},  # 0 for non-prod
    recurrence=Recurrence(
        frequency="Week",
        schedule=RecurrentSchedule(
            time_zone="W. Europe Standard Time",
            days=["Saturday", "Sunday"],
            hours=[],
            minutes=[]
        )
    )
)

Trade-offs:

Cold start-latency når skalering fra 0
Krever nøyaktig analyse av trafikkprofil
Mindre fleksibel ved uforutsigbare hendelser

Mønster 3: Endpoint Consolidation med Model Registry

Scenario: Organisasjonen har mange modeller med lav individuell trafikk, hver deployet til separat endpoint.

Løsning:

Samle flere modeller i én managed endpoint med multi-model serving
Bruk model registry og dynamisk model-loading i scoring script
Én sett med autoscaling-instanser deles av alle modeller

Kostnadsfordel:

Reduserer antall idle instances (N endpoints med 1 instance hver → 1 endpoint med 2-3 instances totalt)
Typisk besparelse: 60-80% for low-traffic modell-kataloger

Implementering:

# Scoring script med multi-model support
import os
import json
from azureml.core.model import Model

def init():
    global models
    models = {}
    # Last alle modeller fra model registry
    model_dir = os.getenv("AZUREML_MODEL_DIR")
    for model_name in os.listdir(model_dir):
        model_path = os.path.join(model_dir, model_name)
        models[model_name] = load_model(model_path)

def run(raw_data):
    data = json.loads(raw_data)
    model_name = data.get("model", "default")
    input_data = data.get("data")

    if model_name not in models:
        return {"error": "Model not found"}

    return models[model_name].predict(input_data)

Trade-offs:

Økt kompleksitet i scoring script
Memory footprint øker med antall modeller (krever større instance)
Potensielt redusert isolation mellom modeller

Beslutningsveiledning

Når velge Managed Compute vs. Serverless

Faktor	Managed Compute	Serverless API
Trafikkmønster	Konsistent, forutsigbar	Sporadisk, uforutsigbar
Request volume	>10 000 requests/dag	<10 000 requests/dag
Modellstørrelse	Stor (>1GB), krever GPU	Liten-medium (<500MB)
Latency-krav	<100ms (P95)	<500ms akseptabelt
Custom runtime	Ja (BYOC support)	Begrenset (standard runtimes)
Kostnadskontroll	Forutsigbar (fixed hourly)	Variabel (token-basert)
Governance	Full kontroll over compute	Managed (mindre kontroll)

Vanlige feil og røde flagg

Anti-pattern	Konsekvens	Løsning
Minimum instances > 0 i non-prod	Kontinuerlig kostnad selv uten bruk	Sett min=0 for dev/test environments
Ingen autoscaling-regler	Over-provisioning for peak load 24/7	Implementer metric-basert autoscaling
Feil instance-størrelse	Betaler for ubrukt CPU/RAM eller dårlig ytelse	Start med profiling, juster basert på metrics
Glemt å slette failed deployments	Compute fortsetter å kjøre og koste	Automatiser cleanup via Azure Policy
Ett endpoint per modell (low traffic)	Mange idle instances	Konsolider til multi-model endpoint
Ingen cooldown-periode	Flapping (rapid scale up/down)	Sett cooldown til 5-10 minutter
For aggressive scale-in	Hyppig cold start, dårlig brukeropplevelse	Øk idle-time før scale-down til 5-10 min
Serverless for høy-volum workload	Token-kostnader eksploderer	Migrer til Provisioned Throughput (PTU) eller managed compute

Beslutningstrær

Velg deployment-type:

START
│
├─ Er trafikk konsistent (>50% av døgnet aktiv)?
│  ├─ JA → Managed Compute Endpoint
│  └─ NEI → Er total monthly requests >100k?
│     ├─ JA → Hybrid (Managed base + Serverless overflow)
│     └─ NEI → Serverless API Endpoint
│
└─ Trenger du GPU for inferencing?
   ├─ JA → Managed Compute Endpoint (GPU SKU)
   └─ NEI → (fortsett analyse over)

Velg autoscaling-strategi:

START
│
├─ Har du tydelig dag/natt eller uke/helg-mønster?
│  ├─ JA → Schedule-Based Scaling
│  └─ NEI → Metrics-Based Scaling (CPU/latency)
│
├─ Er workload mission-critical (SLA >99.9%)?
│  ├─ JA → Minimum instances ≥ 2 (HA), conservative scale-in
│  └─ NEI → Minimum instances = 0 (non-prod) eller 1 (prod)
│
└─ Er latency mer kritisk enn kostnad?
   ├─ JA → Proaktiv scaling (lavere threshold, høyere min instances)
   └─ NEI → Reaktiv scaling (høyere threshold, aggressiv scale-in)

Integrasjon med Microsoft-stakken

Azure AI Foundry

Serverless endpoints:

Provisjoneres via AI Foundry Portal eller SDK (ServerlessEndpoint)
Støtter Microsoft-modeller (Phi-3, m.fl.) og Azure Marketplace-modeller
Kostnadsoppfølging via Azure Cost Management med marketplace-meters

Managed compute (via Azure ML integration):

Krever Azure ML workspace attachment til AI Foundry hub
Deployes som ManagedOnlineEndpoint via Azure ML SDK/CLI
Full autoscaling-support via Azure Monitor

Azure Machine Learning

Managed Online Endpoints:

from azure.ai.ml.entities import ManagedOnlineEndpoint, ManagedOnlineDeployment

endpoint = ManagedOnlineEndpoint(
    name="cost-optimized-endpoint",
    auth_mode="key"
)

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint.name,
    model=model,
    instance_type="Standard_DS3_v2",  # Right-sized for workload
    instance_count=2  # Minimum for HA, autoscaling vil justere
)

Autoscaling via Azure Monitor:

from azure.mgmt.monitor import MonitorManagementClient

mon_client.autoscale_settings.create_or_update(
    resource_group,
    autoscale_settings_name,
    parameters={
        "target_resource_uri": deployment.id,
        "profiles": [base_profile, workday_profile, offhours_profile]
    }
)

Azure API Management (APIM)

Gateway for cost optimization:

Rate limiting for å kontrollere token-forbruk (serverless)
Circuit breaker for å unngå kaskerende failures og kostnader
Routing-policies for hybrid managed/serverless
Caching av inference-resultater for identiske requests

Policy-eksempel (rate limiting):

<policies>
    <inbound>
        <rate-limit calls="1000" renewal-period="60" />
        <quota calls="100000" renewal-period="86400" />
    </inbound>
</policies>

Azure Monitor & Cost Management

Cost tracking:

Managed endpoints: Tag-basert kostnadssporing (azuremlendpoint, azuremldeployment)
Serverless: Meters i Azure Cost Management (separate for Microsoft vs. Marketplace-modeller)
Budsjett-alerts for proaktiv kostnadskontroll

Metrics for optimalisering:

CpuUtilizationPercentage → Instance sizing
RequestLatency → Performance vs. cost trade-off
RequestsPerMinute → Autoscaling threshold-tuning

Offentlig sektor (Norge)

Datasuverenitet og compliance

Deployment-valg:

Managed compute: Full kontroll over compute-region (velg Norway East/West for data residency)
Serverless: Begrenset region-valg (verifiser at serverless-modeller støtter norske regioner)
Marketplace-modeller: Data kan prosesseres utenfor Norge (GDPR-vurdering nødvendig)

Compliance-krav:

Offentlige virksomheter: Foretrekk managed compute med norsk region for sensitive data
PTU-modeller (Azure OpenAI): Garantert kapasitet i spesifikk region

Budsjettprosesser

Utfordringer:

Offentlig sektor opererer ofte med årlige, faste budsjetter
Serverless (variable kostnader) kan være utfordrende å budsjettere
Behov for kostnadskontroll og forecasting

Løsninger:

Commitment tiers: Fast månedskostnad for forutsigbar budsjettplanlegging
Azure Reservations: 1-3 års commitment for managed VMs (opptil 72% rabatt)
Cost Management budgets: Automatiske alerts ved 50%, 80%, 100% av budsjett
Quarterly reviews: Analyser faktisk forbruk vs. budsjett, juster autoscaling-regler

Budget-modell for offentlig sektor:

Årlig budsjett = (Antall arbeidsdager × arbeidstimer × prod instances × timepris)
                + (Antall helg/natt-timer × min instances × timepris)
                + 20% buffer for spikes og testing

Eksempel (Standard_DS3_v2, ~20 kr/time):
- Prod: 250 dager × 10 timer × 3 instances × 20 kr = 150 000 kr
- Off-hours: 6 000 timer × 1 instance × 20 kr = 120 000 kr
- Buffer (20%): 54 000 kr
TOTAL: ~324 000 kr/år

Sikkerhetsoverveielser

Network isolation: Managed endpoints støtter private endpoints (VNet integration)
Serverless: Mindre kontroll over network-isolasjon (managed service)
Secrets management: Bruk Azure Key Vault for API-nøkler og connection strings

Kostnad og lisensiering

Prismodeller (Azure ML Managed Endpoints)

Compute-kostnader:

Betaler for VM-instanser per time (uavhengig av request-volum)
Ingen ekstra "surcharge" for managed endpoint-tjenesten
Network egress kan gi tilleggskostnader (data ut av Azure)

Kostnadskomponenter:

Total kostnad = (Instance hours × Instance price)
              + (Network egress × Data transfer price)
              + (Storage for models og logs)

Managed virtual network (optional):

Tilleggskostnad for private link og FQDN outbound rules
Kun relevant hvis VNet-isolasjon er påkrevd (typisk prod)

Prismodeller (Serverless API Endpoints)

Token-basert prising:

Pris per 1M tokens (input og output prises separat)
Pris per 1000 API requests
Quota: 200k tokens/min og 1k requests/min per deployment (standard)

Microsoft-modeller (direkte fra Azure):

Phi-3: ~10 kr per 1M input tokens, ~30 kr per 1M output tokens (estimat)
Priser vises i "Pricing and terms" tab ved deployment

Marketplace-modeller (tredjepart):

Faktureres via Azure Marketplace (SaaS-meters)
Separate meters for input/output tokens
Prisene varierer sterkt per modell og leverandør

Optimaliseringstips

Strategi	Kostnadsbesparing	Kompleksitet	Risiko
Sett min instances = 0 (non-prod)	30-50%	Lav	Lav (kun dev/test)
Implementer autoscaling	20-40%	Medium	Lav
Schedule-based scaling	40-60%	Medium	Lav
Right-size instances	15-30%	Lav	Medium (krever profiling)
Low-priority VMs (batch)	50-80%	Lav	Høy (preemption)
Azure Reservations (1-3 år)	30-72%	Lav	Medium (lock-in)
Endpoint consolidation	60-80%	Høy	Medium (shared resources)
Hybrid managed/serverless	30-50%	Høy	Lav
APIM caching	10-30%	Medium	Lav
Serverless → PTU migration	40-70%	Medium	Lav (for high-volume)

Prioritering for quick wins:

Non-prod min instances = 0 (umiddelbar 30%+ saving på non-prod)
Implementer metric-based autoscaling (20-40% saving på prod)
Right-size instances (15-30% saving, krever én gang profiling)
Schedule-based scaling for forutsigbare workloads (40-60% for offentlig sektor)

Langsiktige strategier:

Azure Reservations for stabile prod-workloads (1-års commitment)
Endpoint consolidation for low-traffic modell-kataloger
Hybrid arkitektur for variable workloads

VM-størrelser og use cases

Scenario	Anbefalt SKU	Pris ca. NOK/time	Reasoning
Små scikit-learn modeller	Standard_F2s_v2	~8 kr	Compute-optimized, lav memory
Medium PyTorch/TensorFlow	Standard_DS3_v2	~20 kr	Balansert CPU/RAM
Stor transformer-modell (CPU)	Standard_D8s_v3	~60 kr	Høy RAM for modell i minne
GPU inference (BERT, ResNet)	Standard_NC4as_T4_v3	~80 kr	T4 GPU, kostnadseffektiv
High-performance GPU (GPT, Stable Diffusion)	Standard_NC6s_v3	~300 kr	V100 GPU for tunge modeller

Valg-metodikk:

Start med smallest instance som passer modellkrav (memory footprint)
Load-test med realistisk trafikk
Analyser CPU/GPU/Memory utilization metrics i Azure Monitor
Right-size: Hvis avg utilization <40%, downgrade; hvis >80%, upgrade
Iterer til optimal balance (70-80% avg utilization under normal load)

For arkitekten (Cosmo)

Spørsmål å stille kunden

Trafikkprofil:

Hva er forventet request-volum per dag/time? Er det forutsigbart mønster (dag/natt, uke/helg)?
Hva er peak vs. average traffic ratio? (f.eks. 10x spike under kampanjer?)
Hvor kritisk er lav latency? Hva er akseptabel P95-latency? (<100ms, <500ms, <1s?)
Er det seasonality i bruken? (f.eks. skoleår vs. sommerferie for utdanningssektor)

Modell og ytelse: 5. Hva er modellstørrelse og runtime-krav? (CPU, GPU, RAM, disk) 6. Hvor lang er cold start-tiden for modellen? (viktig for autoscaling fra 0) 7. Har dere flere modeller? Hvor mange, og hva er trafikk-fordeling?

Kostnad og budsjettering: 8. Hva er budsjettramme for inference-kostnader per måned/år? 9. Har dere eksisterende Azure commitments (EA, reservations)? 10. Er dere villige til å akseptere variable kostnader (serverless) eller foretrekk forutsigbarhet?

Governance og compliance: 11. Har dere data residency-krav? (må data forbli i Norge/EU?) 12. Krever dere network isolation (VNet, private endpoints)? 13. Er det interne prosesser for cost approval og budsjett-tracking?

Fallgruver å unngå

Tekniske:

Over-provisioning for worst-case: Mange dimensjonerer for peak load 24/7. Bruk autoscaling i stedet.
Ingen monitoring før optimalisering: Implementer metrics-innsamling fra dag 1 for data-drevet tuning.
Glemt cleanup av failed deployments: Compute blir værende og koster. Automatiser cleanup.
Feil instance-sizing: Start konservativt (større instance), profiler, og downgrade. Billigere enn å re-deploye pga. OOM.

Organisatoriske:

Manglende cost governance: Sett opp Azure Cost Management budgets og alerts før deployment.
Siloed beslutninger: Inference-kostnader må ses i sammenheng med training, storage, networking (TCO).
Ingen re-evaluering: Trafikkprofil endrer seg. Quarterly reviews av autoscaling-regler er essensielt.

Offentlig sektor-spesifikke:

Budsjettrigiditet: Årsbudsjetter passer dårlig med variable cloud-kostnader. Bruk commitment tiers/reservations for forutsigbarhet.
Procurement-forsinkelser: Azure Marketplace-modeller kan kreve procurement-godkjenning. Plan for dette.
Compliance-antagelser: Ikke anta at serverless oppfyller data residency-krav. Verifiser.

Anbefalinger per modenhetsnivå

Nivå 1: Pilot/PoC (1-2 modeller, <1000 requests/dag)

Start med serverless endpoints for enkelhet og null idle-cost
Implementer basic monitoring (Azure Monitor metrics)
Sett opp cost alerts (50%, 80%, 100% av budsjett)
Ikke bruk autoscaling ennå (unødvendig kompleksitet)

Nivå 2: Production (3-10 modeller, 1k-50k requests/dag)

Migrer til managed compute endpoints med autoscaling
Implementer schedule-based scaling hvis klart mønster
Right-size instances basert på 2-4 ukers metrics
Sett opp tag-basert kostnadssporing per deployment
Vurder Azure Reservations for 1-års commitment

Nivå 3: Skalert produksjon (10+ modeller, >50k requests/dag)

Implementer hybrid arkitektur (managed base + serverless overflow)
Konsolider low-traffic modeller til multi-model endpoints
Bruk APIM for rate limiting, caching og advanced routing
Automatiser cost optimization via Azure Policy (f.eks. auto-delete idle deployments)
Quarterly FinOps-reviews med re-tuning av autoscaling-strategi

Nivå 4: Enterprise-skala (100+ modeller, millioner requests/dag)

Vurder Provisioned Throughput (PTU) for høy-volum modeller (Azure OpenAI)
Implementer multi-region deployment for geo-distribusjon og cost arbitrage
Bruk custom autoscaling-metrics (business KPIs, ikke bare CPU)
Dedikert FinOps-team for kontinuerlig optimalisering
Integrer cost-data i ML platform (kostnad per prediction synlig for data scientists)

Kostnadsforventninger og benchmarks

Typiske kostnader per 1000 predictions (estimat):

Enkel modell (scikit-learn, Standard_F2s_v2): 0,10-0,50 kr
Medium kompleksitet (PyTorch/TF, Standard_DS3_v2): 0,50-2 kr
GPU-modell (T4, Standard_NC4as_T4_v3): 2-8 kr
Serverless (Azure OpenAI GPT-4o-mini): 0,50-5 kr (avhenger av token-lengde)

ROI-indikator: Hvis inference-kostnad per prediction >10% av business value per prediction, er det rom for optimalisering.

(Verified MCP 2026-04)

Kilder og verifisering

Microsoft Learn-dokumentasjon (Verified via MCP)

Managed Online Endpoints:

Manage and optimize Azure Machine Learning costs — Verified
Autoscale online endpoints in Azure Machine Learning — Verified
View costs for an Azure Machine Learning managed online endpoint — Verified
Plan to manage costs for Azure Machine Learning — Verified

Serverless API Endpoints:

Deploy models as serverless API deployments (AI Foundry Portal) — Verified
Plan and manage costs for Microsoft Foundry — Verified
Plan to manage costs for Azure OpenAI in Azure AI Foundry Models — Verified

Cost Governance:

Govern Azure platform services (PaaS) for AI — Verified
Manage AI costs — Verified

Konfidensnivå per seksjon

Seksjon	Konfidens	Kilde
Deployment-typer og kostnadsmodeller	Verified	Microsoft Learn MCP
Autoscaling-komponenter	Verified	Microsoft Learn MCP
Instance-størrelser og priser	Baseline	Azure Pricing Calculator (generiske estimater, ikke MCP)
Arkitekturmønstre	Baseline	Modellkunnskap + Microsoft Learn patterns
Beslutningsveiledning	Baseline	Best practices fra CAF + modellkunnskap
Integrasjon med Microsoft-stakken	Verified	Microsoft Learn MCP (SDK-eksempler)
Offentlig sektor (Norge)	Baseline	Generell offentlig sektor-kontekst (ikke MCP-verifisert)
Kostnad og lisensiering	Verified	Microsoft Learn pricing docs via MCP
For arkitekten	Baseline	Konsulenterfaring-simulering (modellkunnskap)

Totalt MCP-kall: 3 (microsoft_docs_search) + 2 (microsoft_docs_fetch) + 1 (microsoft_code_sample_search) = 6 Unike kilder: 12 Microsoft Learn-artikler

Sist oppdatert: 2026-02 Versjon: 1.0 Forfatter: Cosmo Skyberg (AI-generert kunnskapsbase via MCP-research)

26 KiB Raw Blame History Unescape Escape

Managed Inference Endpoints: Cost Optimization

Introduksjon

Kjernekomponenter

Deployment-typer og kostnadsmodeller

Autoscaling-konfigurasjonskomponenter

Instance-størrelser og kostnad per time (estimat NOK)

Metrics for autoscaling

Arkitekturmønstre

Mønster 1: Hybrid Serverless + Managed Compute

Mønster 2: Schedule-Based Scaling for Forutsigbare Mønstre

Mønster 3: Endpoint Consolidation med Model Registry

Beslutningsveiledning

Når velge Managed Compute vs. Serverless

Vanlige feil og røde flagg

Beslutningstrær

Integrasjon med Microsoft-stakken

Azure AI Foundry

Azure Machine Learning

Azure API Management (APIM)

Azure Monitor & Cost Management

Offentlig sektor (Norge)

Datasuverenitet og compliance

Budsjettprosesser

Sikkerhetsoverveielser

Kostnad og lisensiering

Prismodeller (Azure ML Managed Endpoints)

Prismodeller (Serverless API Endpoints)

Optimaliseringstips

VM-størrelser og use cases

For arkitekten (Cosmo)

Spørsmål å stille kunden

Fallgruver å unngå

Anbefalinger per modenhetsnivå

Kostnadsforventninger og benchmarks

Kilder og verifisering

Microsoft Learn-dokumentasjon (Verified via MCP)

Konfidensnivå per seksjon

26 KiB

Raw Blame History