ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/azure-ai-services/ai-services-cost-optimization.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

14 KiB
Raw Blame History

Azure AI Services - Pricing Models and Cost Optimization

Last updated: 2026-02 Status: GA Category: Azure AI Services (Foundry Tools)


Introduksjon

Azure AI Services (tidligere Cognitive Services) tilbyr flere prismodeller for å balansere fleksibilitet, forutsigbarhet og kostnadskontroll. Valg av riktig prismodell er kritisk for både teknisk ytelse og økonomisk bærekraft. Denne referansen dekker de tre hovedprismodellene Pay-as-you-go, Commitment Tier og Provisioned Throughput (PTU) samt beste praksiser for kostnadsovervåking, budsjettering og optimalisering.

Verified Informasjon fra Microsoft Learn (januar 2026), Azure Pricing Calculator og Azure Cost Management-dokumentasjon.


Kjernekomponenter / Nøkkelegenskaper

Prismodeller

Modell Bruksområde Fakturering Forutsigbarhet Kostnadskontroll
Pay-as-you-go (Standard) Varierende eller uforutsigbar trafikk Per transaksjon/token Lav Reaktiv (budsjettalarmer)
Commitment Tier Jevn, forutsigbar last Fast månedlig kostnad + overage Høy Proaktiv (forhåndsbetalt kvote)
Provisioned Throughput (PTU) Azure OpenAI med garantert throughput Timepris per PTU + reservasjonsrabatt Høy Proaktiv (dedikert kapasitet)

Verified Fra Microsoft Learn: Azure AI Services Commitment Tier og PTU-dokumentasjon.

Commitment Tier Detaljer

Støttede tjenester:

  • Speech to Text (Standard)
  • Text to Speech (Neural)
  • Text Translation (Standard)
  • Language Understanding (Text Requests)
  • Azure Language (Sentiment Analysis, Key Phrase Extraction, Language Detection, NER)
  • Vision OCR
  • Document Intelligence (Custom/Invoice)

Viktige egenskaper:

  • Forpliktelsesperiode: Kalendermåned (web/connected containers) eller kalenderår (disconnected containers)
  • Pro-rata fakturering: Første måned beregnes basert på gjenværende dager i måneden
  • Overage: Forbruk over kvoten faktureres til samme sats som commitment tier
  • Auto-renewal: Valgfritt; kan endres frem til midnatt UTC siste dag i måneden
  • Ikke-refunderbar: Når kjøpt, er commitment tier ikke refunderbar

Begrensninger:

  • Kan IKKE brukes med multi-service Cognitive Services-ressurs
  • Krever dedikert single-service ressurs (f.eks. Speech eller Translator)

Verified Microsoft Learn: Purchase Commitment Tier Pricing.

Provisioned Throughput Units (PTU)

PTU er en kapasitetsbasert prismodell for Azure OpenAI, primært for produksjonsscenarier med høy, forutsigbar trafikk.

Deployment-typer:

  • Regional Provisioned: Data forblir i én region
  • Data Zone Provisioned: Data forblir innenfor data zone (f.eks. EU, US)
  • Global Provisioned: Global lastbalansering

Fakturering:

  • Timepris: Beregnes per PTU per time ($/PTU/hr)
  • Pro-rata: Delvis time faktureres proporsjonalt (15 min = 1/4 timepris)
  • Reservasjonsrabatt: 1-års eller 3-års Azure Reservations gir betydelige rabatter (opptil 50 % besparelse)

Kapasitetsplanlegging:

  • Bruk Foundry PTU Calculator (tilgjengelig i Azure AI Foundry portal)
  • Input: Tokens per minute (TPM), requests per minute (RPM), prompt tokens, completion tokens
  • Output: Anbefalt PTU-størrelse
  • Benchmark anbefales for mest nøyaktig estimat

Viktig:

  • Generations (output tokens) krever mer kapasitet enn prompts (input tokens)
  • For GPT-4o og nyere modeller: TPM per PTU er satt separat for input og output tokens
  • Ikke anbefalt å skalere produksjonsdeployments basert på trafikk bruk reservasjon for stabil last

Verified Microsoft Learn: Provisioned Throughput Concepts og PTU Cost Management.


Arkitekturmønstre

Mønster 1: Hybrid PTU + Pay-as-you-go (Overflow)

Bruksområde: Håndtere trafikk-spicer kostnadseffektivt.

Design:

  • Primært endepunkt: PTU-deployment (dekker baseline trafikk)
  • Overflow endepunkt: Pay-as-you-go-deployment (håndterer trafikk-spicer)
  • Gateway: API Management eller generativ AI gateway for intelligent ruting

Fordeler:

  • Forutsigbare kostnader for baseline
  • Fleksibilitet for uforutsette lasttopper
  • Maksimerer ROI på PTU-reservasjon

Verified Microsoft Learn: Govern AI Costs (Combine PTU with consumption endpoints).

Mønster 2: Progressive Cost Optimization

Fase 1 (Pilot): Pay-as-you-go

  • Etabler bruksmønstre
  • Ingen forpliktelse
  • Høyere per-transaksjonskostnad

Fase 2 (Produksjon Forutsigbar trafikk): Commitment Tier eller PTU

  • Bytt til commitment tier når månedlig volum er forutsigbart
  • Vurder PTU for Azure OpenAI med SLA-krav

Fase 3 (Optimalisering): Reservasjoner + Tagging

  • Kjøp 1-års eller 3-års PTU-reservasjon
  • Bruk tags for kostnadsallokering per prosjekt/team

Verified Microsoft Learn: Plan and Manage Costs for Azure OpenAI.

Mønster 3: Cost Governance med Azure Policy

Kontroller:

  • Modell-whitelist: Azure Policy for å kun tillate kostnadseffektive modeller
  • Quota limits: Sett maksimal quota per modell for å unngå overskridelser
  • Automatisk shutdown: Automatisk slå av ikke-produksjonsressurser utenfor arbeidstid

Verified Microsoft Learn: Govern AI Costs.


Beslutningsveiledning

Når bruke Pay-as-you-go

Bruk når:

  • Proof-of-concept eller pilot
  • Uforutsigbar trafikk
  • Lav volum (< 10 % av commitment tier-terskel)
  • Kortsiktig prosjekt

Ikke bruk når:

  • Produksjon med høy, jevn trafikk
  • Budsjettforutsigbarhet er kritisk

Når bruke Commitment Tier

Bruk når:

  • Månedlig volum er forutsigbart (> 70 % kapasitetsutnyttelse)
  • Trenger 30-50 % kostnadsbesparelse vs. pay-as-you-go
  • Speech, Translation, Language, Vision eller Document Intelligence

Ikke bruk når:

  • Trafikk varierer sterkt måned til måned
  • Trenger multi-service ressurs (ikke støttet)

Når bruke Provisioned Throughput (PTU)

Bruk når:

  • Azure OpenAI i produksjon
  • SLA-krav (latency, throughput)
  • Høy, forutsigbar trafikk (> 100K tokens/dag)
  • Langsiktig forpliktelse (1-3 år reservasjon gir best ROI)

Ikke bruk når:

  • Lav trafikk eller pilot-fase
  • Ikke-Azure OpenAI-tjenester (PTU er kun for Azure OpenAI)

Verified Microsoft Learn: When to Use Provisioned Throughput.


Integrasjon med Microsoft-stakken

Azure Cost Management

Kostnadsovervåking:

  • Cost Analysis: Scope til resource group eller subscription
  • Service tier filter: Bruk "Azure OpenAI" for å filtrere ut andre AI Services
  • Meter-visning: Separer input tokens, output tokens og fine-tuning-kostnader
  • Tag-basert allokering: Bruk deployment tags for team-/prosjektrapportering

Verified Microsoft Learn: Monitor Costs in Azure Portal.

Budsjetter og Alarmer

Type Terskel Varsel Formål
Budget alert 90 %, 100 %, 110 % E-post + webhook Faktisk forbruk vs. budsjett
Forecast alert 110 % E-post Predikert overskridelse
Anomaly alert Automatisk (ML-basert) E-post Uventede kostnadstopper

Viktig:

  • Azure OpenAI har INGEN hard limit-funksjonalitet (i motsetning til OpenAI)
  • Automatisering via Action Groups krever custom utvikling

Verified Microsoft Learn: Create Budgets and Alerts.

API Management (Generative AI Gateway)

Kostnadsoptimalisering via gateway:

  • Token tracking: Overvåk forbruk per klient/team
  • Rate limiting: Forhindre overskridelser
  • Circuit breaker: Automatisk failover til billigere endepunkt
  • Load balancing: Distribuer trafikk mellom PTU og pay-as-you-go

Verified Microsoft Learn: Generative AI Gateway Capabilities.


Offentlig sektor (Norge)

Compliance og Budsjettstyring

Årlig budsjett-tilnærming:

  • Offentlig sektor har ofte årlige budsjetter → Commitment Tier med årlig forpliktelse (disconnected containers) kan matche budsjettåret
  • Anbefaling: Start med månedlig commitment tier, evaluer årlig reservasjon etter 6-12 måneder

Kostnadstransparens:

  • Bruk tags for å allokere kostnader per virksomhetsområde
  • Eksporter kostnadsdata til Excel/Power BI for rapportering

Verified Microsoft Learn: Tag-based Cost Allocation.

Dataplassering

Regional Provisioned vs. Data Zone Provisioned:

  • Regional: Data forblir i én region (f.eks. Norway East)
  • Data Zone: Data forblir i EU (men kan replikeres på tvers av regioner)
  • Global Provisioned: Data kan replikeres globalt

Anbefaling for Norge: Bruk Regional Provisioned for strengeste dataplasseringskrav.

Verified Microsoft Learn: Provisioned Deployment Types.


Kostnad og lisensiering

Prissammenligning (Eksempel: Azure OpenAI GPT-4o)

Modell Pay-as-you-go PTU (Hourly) PTU (1-year reservation) Besparelse (Reservation)
GPT-4o (input) ~0.005 USD/1K tokens 0.02 USD/PTU/time ~0.014 USD/PTU/time ~30 %
GPT-4o (output) ~0.015 USD/1K tokens 0.02 USD/PTU/time ~0.014 USD/PTU/time ~30 %

Merk: Priser varierer per region. Bruk Azure Pricing Calculator for nøyaktige tall.

Verified Azure Pricing Calculator (januar 2026).

Commitment Tier Eksempel (Speech to Text)

Volum (transaksjoner/måned) Pay-as-you-go (USD) Commitment Tier (USD) Besparelse
100 000 100 75 25 %
500 000 500 350 30 %

Verified Microsoft Learn: Commitment Tier Pricing Examples.

TCO (Total Cost of Ownership)

Skjulte kostnader:

  • Azure Storage: Knowledge store, enrichment cache (Azure AI Search)
  • Azure Key Vault: Customer-managed keys for encryption
  • Networking: Bandwidth charges (minimeres ved same-region deployment)
  • Fine-tuning hosting: Azure OpenAI fine-tuned models faktureres per time (selv uten trafikk)

Anbefaling: Bruk Cost Management eksportfunksjon for å analysere alle relaterte kostnader.

Verified Microsoft Learn: Understand Billing Model for Azure AI Services.


For arkitekten (Cosmo)

Kostnadsoptimalisering Sjekkliste

Før deployment:

  • Estimert månedlig volum (tokens/transaksjoner)?
  • Trafikkmønster forutsigbart (> 70 % kapasitetsutnyttelse)?
  • SLA-krav (latency, throughput)?
  • Langsiktig forpliktelse (> 12 måneder)?

Valg av prismodell:

  • Pay-as-you-go: Pilot, uforutsigbar trafikk
  • Commitment Tier: Forutsigbar trafikk, Speech/Translation/Language
  • PTU: Azure OpenAI, produksjon, SLA-krav

Etter deployment:

  • Sett opp budsjettalarmer (90 %, 100 %, 110 %)
  • Konfigurer anomali-deteksjon
  • Bruk tags for kostnadsallokering
  • Overvåk kapasitetsutnyttelse (commitment tier/PTU)
  • Vurder reservasjon etter 3-6 måneder (PTU)

Når anbefale Commitment Tier

Spørsmål til kunden:

  1. "Hvor mange transaksjoner per måned forventer dere?"
  2. "Varierer trafikken sterkt måned til måned?"
  3. "Har dere budsjettforutsigbarhet som krav?"

Anbefaling:

  • Hvis volum > commitment tier-terskel OG variasjon < 30 % → Anbefal commitment tier
  • Hvis overage > 20 % → Oppgrader til høyere tier neste måned

Når anbefale PTU

Spørsmål til kunden:

  1. "Er dette Azure OpenAI i produksjon?"
  2. "Har dere latency/throughput-krav i SLA?"
  3. "Er trafikken forutsigbar (> 100K tokens/dag)?"
  4. "Kan dere forplikte deg til 1-3 år?"

Anbefaling:

  • Hvis JA på alle → Anbefal PTU med 1-års reservasjon
  • Hvis NEI på (4) → Start med PTU hourly, kjøp reservasjon etter 3-6 måneder

Red Flags (Kostnadsrisiko)

⚠️ Varseltegn:

  • "Vi kjører Azure OpenAI pay-as-you-go i produksjon med 1M tokens/dag" → Anbefal PTU
  • "Vi har commitment tier, men overage er 50 % hver måned" → Oppgrader tier
  • "Vi vet ikke hvor mye vi bruker" → Sett opp Cost Management FØRST
  • "Vi har PTU uten reservasjon i 2 år" → Kjøp reservasjon NÅ

Kilder og verifisering

Microsoft Learn (Verified)

  1. Commitment Tier Pricing https://learn.microsoft.com/en-us/azure/ai-services/commitment-tier Sist sjekket: 2026-02

  2. Provisioned Throughput Concepts https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/provisioned-throughput Sist sjekket: 2026-02

  3. Provisioned Throughput Onboarding (PTU Cost Management) https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/provisioned-throughput-onboarding Sist sjekket: 2026-02

  4. Plan and Manage Costs for Azure OpenAI https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/manage-costs Sist sjekket: 2026-02

  5. Govern AI Costs (Cloud Adoption Framework) https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/ai/platform/governance Sist sjekket: 2026-02

  6. Azure Cost Management Create Budgets https://learn.microsoft.com/en-us/azure/cost-management-billing/costs/tutorial-acm-create-budgets Sist sjekket: 2026-02

  7. Generative AI Gateway Capabilities (API Management) https://learn.microsoft.com/en-us/azure/api-management/genai-gateway-capabilities Sist sjekket: 2026-02

Azure Pricing Calculator (Verified)

  1. Azure Pricing Calculator https://azure.microsoft.com/pricing/calculator/ Sist sjekket: 2026-02

  2. Azure OpenAI Pricing https://azure.microsoft.com/pricing/details/cognitive-services/openai-service/ Sist sjekket: 2026-02

  3. Cognitive Services Pricing https://azure.microsoft.com/pricing/details/cognitive-services/ Sist sjekket: 2026-02

MCP-søk (7 unique sources)

  • microsoft_docs_search: "Azure AI Services pricing tiers cost optimization"
  • microsoft_docs_search: "Azure AI Services reserved capacity commitment tier"
  • microsoft_docs_search: "Azure AI Services budget management cost estimation"
  • microsoft_docs_fetch: /azure/ai-services/commitment-tier
  • microsoft_docs_fetch: /azure/ai-foundry/openai/how-to/manage-costs
  • microsoft_docs_fetch: /azure/cloud-adoption-framework/scenarios/ai/platform/governance
  • microsoft_docs_search: "Azure OpenAI provisioned throughput PTU cost optimization"

Total MCP calls: 6 Unique URLs: 10