Initial addition of ms-ai-architect plugin to the open-source marketplace. Private content excluded: orchestrator/ (Linear tooling), docs/utredning/ (client investigation), generated test reports and PDF export script. skill-gen tooling moved from orchestrator/ to scripts/skill-gen/. Security scan: WARNING (risk 20/100) — no secrets, no injection found. False positive fixed: added gitleaks:allow to Python variable reference in output-validation-grounding-verification.md line 109. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
14 KiB
Azure AI Services - Pricing Models and Cost Optimization
Last updated: 2026-02 Status: GA Category: Azure AI Services (Foundry Tools)
Introduksjon
Azure AI Services (tidligere Cognitive Services) tilbyr flere prismodeller for å balansere fleksibilitet, forutsigbarhet og kostnadskontroll. Valg av riktig prismodell er kritisk for både teknisk ytelse og økonomisk bærekraft. Denne referansen dekker de tre hovedprismodellene – Pay-as-you-go, Commitment Tier og Provisioned Throughput (PTU) – samt beste praksiser for kostnadsovervåking, budsjettering og optimalisering.
Verified – Informasjon fra Microsoft Learn (januar 2026), Azure Pricing Calculator og Azure Cost Management-dokumentasjon.
Kjernekomponenter / Nøkkelegenskaper
Prismodeller
| Modell | Bruksområde | Fakturering | Forutsigbarhet | Kostnadskontroll |
|---|---|---|---|---|
| Pay-as-you-go (Standard) | Varierende eller uforutsigbar trafikk | Per transaksjon/token | Lav | Reaktiv (budsjettalarmer) |
| Commitment Tier | Jevn, forutsigbar last | Fast månedlig kostnad + overage | Høy | Proaktiv (forhåndsbetalt kvote) |
| Provisioned Throughput (PTU) | Azure OpenAI med garantert throughput | Timepris per PTU + reservasjonsrabatt | Høy | Proaktiv (dedikert kapasitet) |
Verified – Fra Microsoft Learn: Azure AI Services Commitment Tier og PTU-dokumentasjon.
Commitment Tier – Detaljer
Støttede tjenester:
- Speech to Text (Standard)
- Text to Speech (Neural)
- Text Translation (Standard)
- Language Understanding (Text Requests)
- Azure Language (Sentiment Analysis, Key Phrase Extraction, Language Detection, NER)
- Vision OCR
- Document Intelligence (Custom/Invoice)
Viktige egenskaper:
- Forpliktelsesperiode: Kalendermåned (web/connected containers) eller kalenderår (disconnected containers)
- Pro-rata fakturering: Første måned beregnes basert på gjenværende dager i måneden
- Overage: Forbruk over kvoten faktureres til samme sats som commitment tier
- Auto-renewal: Valgfritt; kan endres frem til midnatt UTC siste dag i måneden
- Ikke-refunderbar: Når kjøpt, er commitment tier ikke refunderbar
Begrensninger:
- Kan IKKE brukes med multi-service Cognitive Services-ressurs
- Krever dedikert single-service ressurs (f.eks. Speech eller Translator)
Verified – Microsoft Learn: Purchase Commitment Tier Pricing.
Provisioned Throughput Units (PTU)
PTU er en kapasitetsbasert prismodell for Azure OpenAI, primært for produksjonsscenarier med høy, forutsigbar trafikk.
Deployment-typer:
- Regional Provisioned: Data forblir i én region
- Data Zone Provisioned: Data forblir innenfor data zone (f.eks. EU, US)
- Global Provisioned: Global lastbalansering
Fakturering:
- Timepris: Beregnes per PTU per time ($/PTU/hr)
- Pro-rata: Delvis time faktureres proporsjonalt (15 min = 1/4 timepris)
- Reservasjonsrabatt: 1-års eller 3-års Azure Reservations gir betydelige rabatter (opptil 50 % besparelse)
Kapasitetsplanlegging:
- Bruk Foundry PTU Calculator (tilgjengelig i Azure AI Foundry portal)
- Input: Tokens per minute (TPM), requests per minute (RPM), prompt tokens, completion tokens
- Output: Anbefalt PTU-størrelse
- Benchmark anbefales for mest nøyaktig estimat
Viktig:
- Generations (output tokens) krever mer kapasitet enn prompts (input tokens)
- For GPT-4o og nyere modeller: TPM per PTU er satt separat for input og output tokens
- Ikke anbefalt å skalere produksjonsdeployments basert på trafikk – bruk reservasjon for stabil last
Verified – Microsoft Learn: Provisioned Throughput Concepts og PTU Cost Management.
Arkitekturmønstre
Mønster 1: Hybrid PTU + Pay-as-you-go (Overflow)
Bruksområde: Håndtere trafikk-spicer kostnadseffektivt.
Design:
- Primært endepunkt: PTU-deployment (dekker baseline trafikk)
- Overflow endepunkt: Pay-as-you-go-deployment (håndterer trafikk-spicer)
- Gateway: API Management eller generativ AI gateway for intelligent ruting
Fordeler:
- Forutsigbare kostnader for baseline
- Fleksibilitet for uforutsette lasttopper
- Maksimerer ROI på PTU-reservasjon
Verified – Microsoft Learn: Govern AI Costs (Combine PTU with consumption endpoints).
Mønster 2: Progressive Cost Optimization
Fase 1 (Pilot): Pay-as-you-go
- Etabler bruksmønstre
- Ingen forpliktelse
- Høyere per-transaksjonskostnad
Fase 2 (Produksjon – Forutsigbar trafikk): Commitment Tier eller PTU
- Bytt til commitment tier når månedlig volum er forutsigbart
- Vurder PTU for Azure OpenAI med SLA-krav
Fase 3 (Optimalisering): Reservasjoner + Tagging
- Kjøp 1-års eller 3-års PTU-reservasjon
- Bruk tags for kostnadsallokering per prosjekt/team
Verified – Microsoft Learn: Plan and Manage Costs for Azure OpenAI.
Mønster 3: Cost Governance med Azure Policy
Kontroller:
- Modell-whitelist: Azure Policy for å kun tillate kostnadseffektive modeller
- Quota limits: Sett maksimal quota per modell for å unngå overskridelser
- Automatisk shutdown: Automatisk slå av ikke-produksjonsressurser utenfor arbeidstid
Verified – Microsoft Learn: Govern AI Costs.
Beslutningsveiledning
Når bruke Pay-as-you-go
✅ Bruk når:
- Proof-of-concept eller pilot
- Uforutsigbar trafikk
- Lav volum (< 10 % av commitment tier-terskel)
- Kortsiktig prosjekt
❌ Ikke bruk når:
- Produksjon med høy, jevn trafikk
- Budsjettforutsigbarhet er kritisk
Når bruke Commitment Tier
✅ Bruk når:
- Månedlig volum er forutsigbart (> 70 % kapasitetsutnyttelse)
- Trenger 30-50 % kostnadsbesparelse vs. pay-as-you-go
- Speech, Translation, Language, Vision eller Document Intelligence
❌ Ikke bruk når:
- Trafikk varierer sterkt måned til måned
- Trenger multi-service ressurs (ikke støttet)
Når bruke Provisioned Throughput (PTU)
✅ Bruk når:
- Azure OpenAI i produksjon
- SLA-krav (latency, throughput)
- Høy, forutsigbar trafikk (> 100K tokens/dag)
- Langsiktig forpliktelse (1-3 år reservasjon gir best ROI)
❌ Ikke bruk når:
- Lav trafikk eller pilot-fase
- Ikke-Azure OpenAI-tjenester (PTU er kun for Azure OpenAI)
Verified – Microsoft Learn: When to Use Provisioned Throughput.
Integrasjon med Microsoft-stakken
Azure Cost Management
Kostnadsovervåking:
- Cost Analysis: Scope til resource group eller subscription
- Service tier filter: Bruk "Azure OpenAI" for å filtrere ut andre AI Services
- Meter-visning: Separer input tokens, output tokens og fine-tuning-kostnader
- Tag-basert allokering: Bruk deployment tags for team-/prosjektrapportering
Verified – Microsoft Learn: Monitor Costs in Azure Portal.
Budsjetter og Alarmer
| Type | Terskel | Varsel | Formål |
|---|---|---|---|
| Budget alert | 90 %, 100 %, 110 % | E-post + webhook | Faktisk forbruk vs. budsjett |
| Forecast alert | 110 % | E-post | Predikert overskridelse |
| Anomaly alert | Automatisk (ML-basert) | E-post | Uventede kostnadstopper |
Viktig:
- Azure OpenAI har INGEN hard limit-funksjonalitet (i motsetning til OpenAI)
- Automatisering via Action Groups krever custom utvikling
Verified – Microsoft Learn: Create Budgets and Alerts.
API Management (Generative AI Gateway)
Kostnadsoptimalisering via gateway:
- Token tracking: Overvåk forbruk per klient/team
- Rate limiting: Forhindre overskridelser
- Circuit breaker: Automatisk failover til billigere endepunkt
- Load balancing: Distribuer trafikk mellom PTU og pay-as-you-go
Verified – Microsoft Learn: Generative AI Gateway Capabilities.
Offentlig sektor (Norge)
Compliance og Budsjettstyring
Årlig budsjett-tilnærming:
- Offentlig sektor har ofte årlige budsjetter → Commitment Tier med årlig forpliktelse (disconnected containers) kan matche budsjettåret
- Anbefaling: Start med månedlig commitment tier, evaluer årlig reservasjon etter 6-12 måneder
Kostnadstransparens:
- Bruk tags for å allokere kostnader per virksomhetsområde
- Eksporter kostnadsdata til Excel/Power BI for rapportering
Verified – Microsoft Learn: Tag-based Cost Allocation.
Dataplassering
Regional Provisioned vs. Data Zone Provisioned:
- Regional: Data forblir i én region (f.eks. Norway East)
- Data Zone: Data forblir i EU (men kan replikeres på tvers av regioner)
- Global Provisioned: Data kan replikeres globalt
Anbefaling for Norge: Bruk Regional Provisioned for strengeste dataplasseringskrav.
Verified – Microsoft Learn: Provisioned Deployment Types.
Kostnad og lisensiering
Prissammenligning (Eksempel: Azure OpenAI GPT-4o)
| Modell | Pay-as-you-go | PTU (Hourly) | PTU (1-year reservation) | Besparelse (Reservation) |
|---|---|---|---|---|
| GPT-4o (input) | ~0.005 USD/1K tokens | 0.02 USD/PTU/time | ~0.014 USD/PTU/time | ~30 % |
| GPT-4o (output) | ~0.015 USD/1K tokens | 0.02 USD/PTU/time | ~0.014 USD/PTU/time | ~30 % |
Merk: Priser varierer per region. Bruk Azure Pricing Calculator for nøyaktige tall.
Verified – Azure Pricing Calculator (januar 2026).
Commitment Tier – Eksempel (Speech to Text)
| Volum (transaksjoner/måned) | Pay-as-you-go (USD) | Commitment Tier (USD) | Besparelse |
|---|---|---|---|
| 100 000 | 100 | 75 | 25 % |
| 500 000 | 500 | 350 | 30 % |
Verified – Microsoft Learn: Commitment Tier Pricing Examples.
TCO (Total Cost of Ownership)
Skjulte kostnader:
- Azure Storage: Knowledge store, enrichment cache (Azure AI Search)
- Azure Key Vault: Customer-managed keys for encryption
- Networking: Bandwidth charges (minimeres ved same-region deployment)
- Fine-tuning hosting: Azure OpenAI fine-tuned models faktureres per time (selv uten trafikk)
Anbefaling: Bruk Cost Management eksportfunksjon for å analysere alle relaterte kostnader.
Verified – Microsoft Learn: Understand Billing Model for Azure AI Services.
For arkitekten (Cosmo)
Kostnadsoptimalisering – Sjekkliste
Før deployment:
- Estimert månedlig volum (tokens/transaksjoner)?
- Trafikkmønster forutsigbart (> 70 % kapasitetsutnyttelse)?
- SLA-krav (latency, throughput)?
- Langsiktig forpliktelse (> 12 måneder)?
Valg av prismodell:
- Pay-as-you-go: Pilot, uforutsigbar trafikk
- Commitment Tier: Forutsigbar trafikk, Speech/Translation/Language
- PTU: Azure OpenAI, produksjon, SLA-krav
Etter deployment:
- Sett opp budsjettalarmer (90 %, 100 %, 110 %)
- Konfigurer anomali-deteksjon
- Bruk tags for kostnadsallokering
- Overvåk kapasitetsutnyttelse (commitment tier/PTU)
- Vurder reservasjon etter 3-6 måneder (PTU)
Når anbefale Commitment Tier
Spørsmål til kunden:
- "Hvor mange transaksjoner per måned forventer dere?"
- "Varierer trafikken sterkt måned til måned?"
- "Har dere budsjettforutsigbarhet som krav?"
Anbefaling:
- Hvis volum > commitment tier-terskel OG variasjon < 30 % → Anbefal commitment tier
- Hvis overage > 20 % → Oppgrader til høyere tier neste måned
Når anbefale PTU
Spørsmål til kunden:
- "Er dette Azure OpenAI i produksjon?"
- "Har dere latency/throughput-krav i SLA?"
- "Er trafikken forutsigbar (> 100K tokens/dag)?"
- "Kan dere forplikte deg til 1-3 år?"
Anbefaling:
- Hvis JA på alle → Anbefal PTU med 1-års reservasjon
- Hvis NEI på (4) → Start med PTU hourly, kjøp reservasjon etter 3-6 måneder
Red Flags (Kostnadsrisiko)
⚠️ Varseltegn:
- "Vi kjører Azure OpenAI pay-as-you-go i produksjon med 1M tokens/dag" → Anbefal PTU
- "Vi har commitment tier, men overage er 50 % hver måned" → Oppgrader tier
- "Vi vet ikke hvor mye vi bruker" → Sett opp Cost Management FØRST
- "Vi har PTU uten reservasjon i 2 år" → Kjøp reservasjon NÅ
Kilder og verifisering
Microsoft Learn (Verified)
-
Commitment Tier Pricing https://learn.microsoft.com/en-us/azure/ai-services/commitment-tier Sist sjekket: 2026-02
-
Provisioned Throughput Concepts https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/provisioned-throughput Sist sjekket: 2026-02
-
Provisioned Throughput Onboarding (PTU Cost Management) https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/provisioned-throughput-onboarding Sist sjekket: 2026-02
-
Plan and Manage Costs for Azure OpenAI https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/manage-costs Sist sjekket: 2026-02
-
Govern AI Costs (Cloud Adoption Framework) https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/ai/platform/governance Sist sjekket: 2026-02
-
Azure Cost Management – Create Budgets https://learn.microsoft.com/en-us/azure/cost-management-billing/costs/tutorial-acm-create-budgets Sist sjekket: 2026-02
-
Generative AI Gateway Capabilities (API Management) https://learn.microsoft.com/en-us/azure/api-management/genai-gateway-capabilities Sist sjekket: 2026-02
Azure Pricing Calculator (Verified)
-
Azure Pricing Calculator https://azure.microsoft.com/pricing/calculator/ Sist sjekket: 2026-02
-
Azure OpenAI Pricing https://azure.microsoft.com/pricing/details/cognitive-services/openai-service/ Sist sjekket: 2026-02
-
Cognitive Services Pricing https://azure.microsoft.com/pricing/details/cognitive-services/ Sist sjekket: 2026-02
MCP-søk (7 unique sources)
- microsoft_docs_search: "Azure AI Services pricing tiers cost optimization"
- microsoft_docs_search: "Azure AI Services reserved capacity commitment tier"
- microsoft_docs_search: "Azure AI Services budget management cost estimation"
- microsoft_docs_fetch:
/azure/ai-services/commitment-tier - microsoft_docs_fetch:
/azure/ai-foundry/openai/how-to/manage-costs - microsoft_docs_fetch:
/azure/cloud-adoption-framework/scenarios/ai/platform/governance - microsoft_docs_search: "Azure OpenAI provisioned throughput PTU cost optimization"
Total MCP calls: 6 Unique URLs: 10