Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

38 KiB

Raw Blame History

Azure AI Foundry Cost Governance and Controls

Last updated: 2026-02 Status: GA Category: Cost Optimization & FinOps for AI

Introduksjon

Cost governance i Azure AI Foundry representerer det strukturelle rammeverket som forhindrer ukontrollert AI-forbruk og sikrer at AI-investeringer forblir innenfor budsjetterte rammer. I motsetning til tradisjonell cloud-kostnadsstyring, krever AI-arbeidsbelastninger spesialiserte kontroller som håndterer både infrastrukturkostnader (compute, storage) og forbruksbaserte kostnader (tokens, API-kall, modelldeployments).

Uten solid cost governance risikerer organisasjoner å oppleve "quota exhaustion" midt i kritiske arbeidsbelastninger, uforutsigbare månedlige regninger fra eksperimentering som ikke blir ryddet opp, og produktive team som blokkeres av for restriktive policies. Det fundamentale dilemmaet er å balansere innovasjonsfrihet med økonomisk kontroll.

Azure AI Foundry tilbyr tre komplementære kontrollmekanismer: quotas (tekniske grenser for ressursallokering), budgets (økonomiske terskler med alerting), og policies (governanceregler som begrenser hvilke modeller og ressurstyper som kan deployes). Sammen utgjør disse et komplett governance-system som lar organisasjoner skalere AI-bruk uten å miste økonomisk oversikt.

Kjernekomponenter

1. Quota Management

Quotas er tekniske grenser som kontrollerer hvor mye av en gitt ressurs en subscription eller region kan konsumere. For AI Foundry gjelder dette både infrastruktur (VM families, compute instances) og modellbruk (tokens per minute, requests per minute).

Quota Type	Scope	Default Limit	Adjustable?
Model Quota (TPM)	Per subscription, per region, per model	Varies by tier (150K-30M TPM)	Yes, via quota request
VM Family Quota	Per subscription, per region	24-300 cores (depends on subscription type)	Yes, via support request
Compute Instances	Per region	500 total compute limit	Yes, up to 2500 via quota UI, beyond via support
Serverless API Quota	Per deployment	200K TPM, 1K RPM	Yes, one deployment per model per project by default
Provisioned Throughput (PTU)	Per region, per subscription	Model-dependent	Yes, via capacity calculator and request

Quota vs. Rate Limit: Quota er total kapasitet allokert til en subscription, mens rate limit er per-deployment begrensning. Eksempel: En subscription kan ha 10M TPM quota for gpt-4o, men fordele dette på 5 deployments med 2M TPM hver.

2. Budget Controls

Budgets er økonomiske terskler konfigurert i Azure Cost Management som trigger varsler når kostnader nærmer seg eller overskrider definerte grenser.

Budget Alerting Thresholds (anbefalt struktur):

Threshold	Action	Owner	Response Time
50% av budsjett	Informational email	Team lead	Review within 48h
75% av budsjett	Alert + resource usage review	Cost owner	Review within 24h
90% av budsjett	Critical alert + freeze non-production	Finance + IT	Immediate action
100% av budsjett	Automation trigger (optional)	Platform team	Immediate

Viktig: Azure OpenAI har IKKE hard limit enforcement som OpenAI API. Budgets sender kun varsler, de stopper ikke forbruk automatisk. For å stoppe forbruk må organisasjonen enten:

Implementere custom automation via Action Groups
Bruke Azure Policy til å blokkere nye deployments
Manuelt disable API keys eller deployments

3. Azure Policy for Model Governance

Azure Policy enforcer governanceregler på platform-nivå. For AI Foundry kan policies kontrollere:

Policy Type	Purpose	Example Use Case
Allowed Model Families	Restrict which models can be deployed	Block preview models in production subscriptions
Allowed Deployment Types	Control standard vs. provisioned throughput	Require PTU for production, allow pay-as-you-go for dev
Required Tags	Enforce cost center tagging	All deployments must have "CostCenter" and "Environment" tags
Network Controls	Enforce private endpoints	Block public internet access to AI endpoints
Region Restrictions	Limit deployment regions	EU data residency requirements

Built-in Policies for AI Foundry:

Microsoft.CognitiveServices/accounts/deployments policies for model restrictions
Microsoft.MachineLearningServices policies for compute governance
Integration with Azure landing zone AI policies (OpenAI, Machine Learning, AI Search)

4. Cost Monitoring and Allocation

Cost visibility mechanisms:

Consolidated View (Azure Portal): Dashboard showing costs, quota utilization, model usage across all Foundry resources
Management Center (AI Foundry Portal): Hub-level quota view with interactive charts
Cost Analysis (Cost Management): Granular filtering by resource type, tag, region, time period
Cost Export: Daily/weekly/monthly automated export to storage account for deeper analysis

Tagging Strategy for Cost Allocation:

Mandatory tags:
- CostCenter: [department code]
- Environment: production | staging | development | sandbox
- Project: [project identifier]
- Owner: [responsible team/individual]

Optional tags:
- Application: [application name]
- Workload: [specific AI use case]
- BudgetYear: [fiscal year]

5. Dynamic Quota (Preview)

Dynamic quota lar deployments opportunistisk bruke ubrukt kapasitet utover sin baseline quota når tilgjengelig. Dette er nyttig for:

Bulk processing workloads
RAG indexing
Utviklingsmiljøer med variabel trafikk

Når bruke Dynamic Quota:

✅ Workloads som kan håndtere variabel throughput
✅ Non-critical eller batch-orienterte oppgaver
❌ Produksjonsapplikasjoner som krever forutsigbar ytelse
❌ Når du må enforce hard spending cap (dynamic quota har ingen takgrense)

Arkitekturmønstre

Mønster 1: Strict Quota Governance (High Control)

Profil: Offentlig sektor, regulerte industrier, organisasjoner med strenge budsjettkrav.

Structure:
└── Management Group: Organization Root
    ├── Policy Assignment: "Require PTU for production AI workloads"
    ├── Policy Assignment: "Block preview models"
    └── Subscription: Production
        ├── Budget: 150 000 NOK/month (alerts at 50%, 75%, 90%)
        ├── Resource Group: AI-Production-WestEurope
        │   ├── AI Foundry Hub (West Europe)
        │   │   └── Quota Allocation:
        │   │       • gpt-4o: 2M TPM (fixed, no dynamic quota)
        │   │       • gpt-4o-mini: 5M TPM
        │   │       • text-embedding-ada-002: 10M TPM
        │   └── RBAC: Only AI Platform Team has Contributor
        └── Resource Group: AI-Development-NorthEurope
            ├── AI Foundry Hub (North Europe)
            └── Quota Allocation: Shared regional quota

Governance Rules:

All deployments require approval (ITSM integration)
Monthly quota reviews by finance controller
Zero tolerance for quota overruns (alerts escalate to CTO)
Mandatory cost justification for new projects

Pros: Maksimal økonomisk kontroll, ingen overraskelser i budsjettet Cons: Kan bremse innovasjonstakt, krever overhead for godkjenningsprosesser

Mønster 2: Flexible with Alerts (Balanced Approach)

Profil: Enterprise med balanse mellom innovasjon og kontroll, typisk private organisasjoner med moderat risikotoleranse.

Structure:
└── Subscription: AI Platform
    ├── Budget: 300 000 NOK/month (alerts at 75%, 90%, 100%)
    ├── Policy: Allow GA models + approved preview models
    ├── Resource Group per Business Unit
    │   └── AI Foundry Hub per BU
    │       ├── Quota per BU (allocated from subscription total)
    │       └── Project-level quota subdivision
    └── Cost Management:
        • Weekly usage reports to BU leads
        • Monthly chargeback to business units
        • Quarterly optimization reviews

Governance Rules:

Teams self-service quotas up to allocated limit
Dynamic quota enabled for non-production environments
Automatic shutdown of idle compute instances (>7 days)
Monthly cost reviews with showback per business unit

Quota Allocation Example:

Subscription Total: 20M TPM (gpt-4o)
├── BU Sales & Marketing: 6M TPM (30%)
├── BU Customer Support: 8M TPM (40%)
├── BU Product Development: 5M TPM (25%)
└── Platform Team Reserve: 1M TPM (5%)

Pros: Balanserer autonomi med kontroll, rask innovasjon med økonomisk synlighet Cons: Krever aktiv cost monitoring, risiko for overforbruk i månedslutt

Mønster 3: Self-Service with Guardrails (High Autonomy)

Profil: Tech-forward organisasjoner, startups, R&D-avdelinger hvor innovasjonshastighet er kritisk.

Structure:
└── Subscription per Team/Squad
    ├── Budget: Team-controlled (e.g., 50 000 NOK/month)
    ├── Policy: Minimal restrictions (allow all GA models)
    ├── Teams manage own quota allocation
    ├── Platform provides:
    │   • FinOps dashboard (self-service cost visibility)
    │   • Quota request automation (instant approval up to limit)
    │   • Cost anomaly detection (ML-based alerts)
    └── Governance via incentives:
        • Teams keep 50% of savings for other initiatives
        • Public leaderboard: "most cost-efficient AI team"

Guardrails:

Hard limit on subscription level (platform team enforces max spend)
Automated cleanup of unused deployments (>14 days idle)
Quota request approval required only for >5M TPM
Mandatory tagging (enforced via Azure Policy deny effect)

Cost Optimization Automation:

# Pseudo-code: Auto-scale quotas based on usage
if deployment.usage_last_7d < 0.5 * deployment.quota:
    reduce_quota(deployment, target=usage_last_7d * 1.2)
    notify_team("Quota reduced due to low utilization")

Pros: Maksimal innovasjonshastighet, team ownership av kostnader Cons: Høyere risiko for kostnadssprekk, krever moden FinOps-kultur

Beslutningsveiledning

Velge riktig billing model

Scenario	Anbefaling	Begrunnelse
Stable, predictable workload (e.g., 24/7 chatbot)	Provisioned Throughput (PTU)	Lavere kostnad per token, forutsigbar månedlig kostnad
Variable traffic with spikes	Pay-as-you-go + PTU hybrid	PTU for baseline, overflow til consumption
Development/testing	Pay-as-you-go with quotas	Kun betale for faktisk bruk, quotas forhindrer uventede kostnader
Batch processing (periodic)	Pay-as-you-go with dynamic quota	Opportunistisk kapasitet reduserer kostnad
Budget-constrained project	Shared quota pool + strict budget alerts	Maksimal kontroll, delt ressurs på tvers av prosjekter

Quota Allocation Decision Tree

Start: Team requests additional quota
│
├─ Is this for production workload?
│  ├─ Yes → Require capacity planning document
│  │        • Expected TPM/RPM
│  │        • Growth forecast (3 months)
│  │        • Business justification
│  │        → Approve if within budget
│  │
│  └─ No (dev/test) → Approve immediately if:
│                     • Total < 500K TPM
│                     • Time-limited (auto-expire after 30d)
│                     • Tagged with project & owner
│
├─ Does request exceed regional capacity?
│  ├─ Yes → Suggest alternative region or wait for capacity
│  └─ No → Proceed to cost approval
│
└─ Is there budget remaining?
   ├─ Yes → Approve and update tracking
   └─ No → Escalate to finance for budget increase or deny

Common Cost Overrun Scenarios

Red Flag	Root Cause	Prevention
Sudden 10x cost spike in one week	Forgotten high-quota deployment running continuously	Implement idle deployment detection (usage < 5% of quota for 7d → alert)
Gradual cost creep (+20% month-over-month)	Accumulation of "temporary" test deployments	Enforce deployment expiry dates, automated cleanup policies
Quota exhaustion in production	Inadequate capacity planning	Implement quota utilization alerts (>80% = warning, >95% = critical)
Unexpected invoice from Azure Marketplace model	Team deployed third-party model without approval	Azure Policy: Require approval for Marketplace model deployments
High cost for rarely-used model	Wrong billing model selection	Monthly review: PTU models with <50% utilization → migrate to pay-as-you-go

Cost Optimization Checklist

Monthly Review:

Identify deployments with <50% quota utilization → reduce quota
Check for deployments with zero usage in 30 days → delete
Review models in use → can cheaper models suffice? (e.g., gpt-4o-mini vs. gpt-4o)
Verify tagging compliance (100% of resources tagged)
Compare actual spend vs. budget forecast (variance analysis)

Quarterly Review:

Reassess PTU vs. pay-as-you-go for each workload
Negotiate commitment tiers if usage is stable
Review quota allocation across business units (rebalance if needed)
Audit policy compliance (any governance violations?)
Capacity planning for next quarter

Annual Review:

Benchmark costs against industry standards
Evaluate new pricing models (e.g., new PTU tiers)
Update governance policies based on learnings
Total Cost of Ownership (TCO) analysis: AI Foundry vs. alternatives

Integrasjon med Microsoft-stakken

Azure Policy Integration

Custom Policy Example: Enforce Cost Center Tagging

{
  "mode": "Indexed",
  "policyRule": {
    "if": {
      "allOf": [
        {
          "field": "type",
          "equals": "Microsoft.CognitiveServices/accounts"
        },
        {
          "field": "tags['CostCenter']",
          "exists": "false"
        }
      ]
    },
    "then": {
      "effect": "deny"
    }
  }
}

Built-in Policies (examples):

Cognitive Services accounts should enable data encryption: Påkrevd for compliance, ingen kostnadspåvirkning
Cognitive Services accounts should restrict network access: Reduserer sikkerhetskostnader (datalekkasje)
Custom policies for model restrictions (se Microsoft Learn for latest)

Azure Monitor Integration

Recommended Metrics and Alerts:

Metric	Threshold	Alert Severity	Action
`QuotaUtilization`	>80%	Warning	Request additional quota
`QuotaUtilization`	>95%	Critical	Emergency quota increase + investigate
`TokensUsed` (daily)	>1.5x average	Warning	Investigate spike cause
`HTTP429Count` (rate limit errors)	>100/hour	Critical	Insufficient quota → immediate scale
`TotalCost` (daily)	>1.2x budget/30	Warning	Cost anomaly detection

Cost Anomaly Detection: Bruk Azure Monitor + Log Analytics til å detektere avvik fra normale forbruksmønstre. Eksempel-query:

AzureDiagnostics
| where ResourceProvider == "MICROSOFT.COGNITIVESERVICES"
| summarize DailyCost = sum(Quantity * UnitPrice) by bin(TimeGenerated, 1d)
| extend BaselineCost = avg(DailyCost) over (StartOfWeek(TimeGenerated), 7d)
| where DailyCost > BaselineCost * 1.5  // 50% deviation
| project TimeGenerated, DailyCost, BaselineCost, Anomaly = (DailyCost - BaselineCost) / BaselineCost

Azure API Management (APIM) Gateway

Generative AI Gateway for cost control:

APIM kan fungere som proxy foran AI Foundry endpoints og tilby:

Token-level rate limiting: Begrens tokens per bruker/app per dag (granularitet Azure-quota ikke har)
Circuit breaker: Stopp trafikk til endpoint hvis kostnad overskrider terskel
Request routing: Send billige requests til gpt-4o-mini, komplekse til gpt-4o (smart routing)
Cost tracking per consumer: Chargeback til individuelle teams/applikasjoner

Example APIM Policy (cost-based throttling):

<policies>
  <inbound>
    <quota-by-key calls="100000"
                  bandwidth="0"
                  renewal-period="86400"
                  counter-key="@(context.Request.Headers.GetValueOrDefault("api-key",""))" />

    <set-variable name="estimatedTokens"
                  value="@(context.Request.Body.As<JObject>(true)["max_tokens"])" />

    <choose>
      <when condition="@(int.Parse((string)context.Variables["estimatedTokens"]) > 4000)">
        <set-backend-service base-url="https://expensive-endpoint.openai.azure.com/" />
      </when>
      <otherwise>
        <set-backend-service base-url="https://cost-effective-endpoint.openai.azure.com/" />
      </otherwise>
    </choose>
  </inbound>
</policies>

Management Groups for Multi-Subscription Governance

For organisasjoner med mange subscriptions:

Management Group Hierarchy:
└── Root Management Group
    ├── Policy: Corporate baseline (network, tagging, compliance)
    ├── Production Management Group
    │   ├── Policy: Require PTU for OpenAI deployments
    │   ├── Policy: Block preview models
    │   └── Subscriptions: Prod-EU, Prod-US
    │
    ├── Non-Production Management Group
    │   ├── Policy: Allow all models
    │   ├── Policy: Auto-shutdown idle resources
    │   └── Subscriptions: Dev, Test, Staging
    │
    └── Sandbox Management Group
        ├── Policy: Spending cap = 10 000 NOK/month per sub
        └── Subscriptions: Sandbox-Team-A, Sandbox-Team-B

Offentlig sektor (Norge)

Budsjettprosesser og statlig økonomistyring

Offentlige virksomheter i Norge opererer under ettårlige budsjetter (statsbudsjettet) med strenge krav til budsjettstyring og periodisering. AI-kostnader må håndteres innenfor dette rammeverket:

Utfordringer for AI-kostnadsstyring i offentlig sektor:

Uforutsigbarhet: AI-forbruk kan variere kraftig (spesielt consumption-based), vanskelig å budsjettere nøyaktig
Årsavgrensning: Kostnader må periodiseres korrekt (påløpt kostnad i riktig regnskapsår)
Bindingsregler: Ikke lov å overskride bevilgning uten Stortingets godkjenning
Detaljert rapportering: Krav om presise kapittel/post-fordelinger

Anbefalt approach:

Fase	Tiltak
Budsjettplanlegging	Bruk PTU-modeller for forutsigbarhet, inkluder 20% buffer for uforutsett vekst
Løpende styring	Månedlige avstemminger mot budsjett, eskalering ved 80% forbruk
Årsavslutning	Freeze på nye deployments siste 2 uker av året for å sikre korrekt periodisering
Rapportering	Automatisert cost export → integrasjon med økonomisystem (e.g., Agresso, SAP)

Budsjettpost-struktur (eksempel):

Kapittel: Drift av IT-systemer
├── Post 01: Driftsutgifter, lønn og sosiale utgifter
│   └── (ikke AI-relatert)
├── Post 21: Spesielle driftsutgifter
│   ├── Azure AI Foundry - PTU (fast månedlig kostnad)
│   └── Azure AI Foundry - consumption (variabel kostnad)
└── Post 45: Større utstyrsanskaffelser og vedlikehold
    └── (ikke relevant for cloud AI)

Internkontroll (IKS) og kostnadsstyring

Offentlige virksomheter må ha internkontroll for økonomistyring (jf. økonomiregelverket). For AI-kostnader innebærer dette:

IKS-krav som påvirker cost governance:

Rolleseparering: Person som deployer AI-tjeneste skal ikke være samme som godkjenner kostnad
Dokumentasjon: Alle quota-forhøyelser må dokumenteres med saksnummer og begrunnelse
Etterfølgende kontroll: Månedlig kontroll av faktisk vs. budsjettert forbruk
Avviksrapportering: Kostnadsavvik >10% skal rapporteres til leder og økonomiavdeling

Implementering i Azure AI Foundry:

Rolleseparering: Utviklere får kun "Reader" rolle på subscription, må be Platform Team (Contributor) om quota-endringer
Dokumentasjon: Quota requests integreres med ITSM (ServiceNow/Jira) → saksnummer required
Kontroll: Automated monthly cost report → sendes økonomiansvarlig for review
Avviksrapportering: Azure Monitor alert ved >110% av månedlig budsjett → eskaleres til IT-leder

Riksrevisjonen og kontrollspor

Riksrevisjonen kan kreve dokumentasjon på offentlige IT-kostnader. For AI-forbruk betyr dette:

Hva Riksrevisjonen kan be om:

Fullstendig kostnadsspor: Hvilke prosjekter konsumerte AI-ressurser?
Anskaffelsesgrunnlag: Hvorfor ble Azure AI Foundry valgt? (konkurransegrunnlag, vurdering av alternativer)
Kostnadseffektivitet: Dokumentasjon på at man har optimalisert kostnader
Sikkerhet og personvern: Inkl. kostnader knyttet til disse tiltakene

Beredskapstiltak for AI Foundry:

Tagging for revisjon: Alle ressurser skal tagges med:
- Prosjektnummer: [prosjekt-ID]
- Anskaffelse: [anskaffelsessak-ID]
- Formål: [kort beskrivelse]
Cost allocation reports: Eksporteres månedlig til arkiv (minimum 5 år oppbevaringstid)
Beslutningsdokumentasjon: ADR (Architecture Decision Records) for:
- Valg av modeller (hvorfor gpt-4o vs. alternativer?)
- Valg av PTU vs. consumption
- Quota-nivåer (begrunnelse for valgt størrelse)
Optimeringstiltak dokumenteres:
- Quarterly review-rapporter som viser kostnadstrender og tiltak
- Eksempel: "Migrerte 3 workloads fra gpt-4o til gpt-4o-mini → besparelse 40%"

DFØ (Direktoratet for forvaltning og økonomistyring)

DFØ gir veiledning for økonomistyring i staten. Relevant for AI-kostnadsstyring:

DFØ-prinsipper tilpasset AI Foundry:

Kostnadsbevissthet: Teams skal ha synlighet i egne kostnader (→ implementer self-service dashboards)
Ansvarliggjøring: Tydelig eierskap til hver AI-deployment (→ enforce Owner-tag)
Effektivitet: Kontinuerlig optimering av ressursbruk (→ quarterly optimization reviews)
Sammenlignbarhet: Benchmark mot andre virksomheter (→ deltakelse i DFØ-nettverk for AI-kostnader)

Rapportering til DFØ (hvis påkrevd):

Noen sektorer må rapportere IT-kostnader til DFØ. Forbered data:

Total AI-kostnad per år (splittet consumption vs. PTU)
Kostnadsutvikling (år-over-år sammenligning)
Ressursutnyttelse (quotas allokert vs. faktisk brukt)

Eksempel-rapport til DFØ:

Virksomhet: Statens vegvesen
Periode: 2025

Azure AI Foundry:
- Total kostnad: 2 400 000 NOK
  • PTU (fast): 1 800 000 NOK (75%)
  • Consumption: 600 000 NOK (25%)
- Antall produksjonsworkloads: 12
- Gjennomsnittlig quota-utnyttelse: 73%
- Optimeringstiltak gjennomført: 8
- Estimert besparelse fra optimering: 320 000 NOK (11.8%)

Kostnad og lisensiering

Governance Tool Costs

Selve governance-verktøyene i Azure AI Foundry er stort sett inkludert uten ekstra kostnad:

Tool	Cost	Notes
Quota Management UI	Free	Built into AI Foundry portal
Azure Cost Management	Free	For supported account types (EA, MCA, etc.)
Azure Policy	Free	No charge for policy evaluation
Azure Monitor alerts	~0.10 USD per alert rule per month	Minimal cost for typical setup
Log Analytics	Pay-as-you-go (data ingestion)	~2.30 USD per GB ingested
Cost Exports to Storage	Storage costs only	Minimal (~few KB per day)
Azure APIM (optional)	From ~40 EUR/month (Consumption tier)	Only if using gateway pattern

Typisk governance-kostnad for medium organization (100-500 brukere):

Monthly governance overhead:
• Azure Monitor alerts (10 rules): ~1 EUR
• Log Analytics (5 GB/month ingestion): ~10 EUR
• Storage for cost exports: <1 EUR
• APIM Consumption tier (if used): ~40 EUR
────────────────────────────────────────
Total: ~52 EUR/month (~550 NOK/måned)

Dvs. governance-overhead er typisk <1% av total AI-kostnad

Savings Potential

Potensial besparelse fra god cost governance:

Tiltak	Typisk besparelse	Effort
Cleanup av ubrukte deployments	15-25%	Low (automated)
Migrering til riktig billing model (PTU vs. consumption)	20-40%	Medium (requires workload analysis)
Right-sizing quotas (eliminere over-provisioning)	10-15%	Low (monthly review)
Model optimization (bruk billigere modeller hvor mulig)	30-50%	High (requires testing)
Smart routing via APIM gateway	25-35%	High (infrastructure change)
Dynamic quota for batch workloads	10-20%	Low (enable feature)

Real-world eksempel (norsk offentlig virksomhet):

Utgangspunkt (Q1 2025):
• Total AI-kostnad: 150 000 NOK/måned
• 12 gpt-4o deployments, alle pay-as-you-go
• Ingen quotas, ingen tagging, minimal monitoring

Etter 6 måneders governance-implementering (Q3 2025):
• Total AI-kostnad: 95 000 NOK/måned
• 8 gpt-4o deployments (4 konsolidert), 4 migrert til gpt-4o-mini
• 5 workloads flyttet til PTU (stable baseline)
• Automated cleanup → 3 "glemte" test-deployments fjernet

Besparelse: 55 000 NOK/måned (37% reduksjon)
ROI på governance-implementering: <3 måneder

Cost Optimization Tips (Konkrete Tips)

1. Batch Processing Optimization:

For workloads som ikke er latency-sensitive (e.g., nattlige rapporter, bulk email-generering):

Bruk dynamic quota for å opportunistisk bruke ledig kapasitet
Kjør batch jobs utenfor business hours (mindre konkurranse om quota)
Vurder Batch API (når tilgjengelig) som ofte har lavere pricing

2. Model Selection Matrix:

Use Case	Avoid	Prefer	Savings
Simple classification	gpt-4o	gpt-4o-mini	80% lower cost
JSON extraction	gpt-4o	gpt-4o-mini	80% lower cost
Semantic search embeddings	text-embedding-ada-002 (if overkill)	Check if smaller embedding models available	Varies
Complex reasoning	gpt-4o-mini	gpt-4o	(don't downgrade here)

3. Quota Right-Sizing Formula:

Optimal Quota = (Peak TPM observed * 1.2) + Buffer for growth

Example:
• Observed peak over 30 days: 1.2M TPM
• Safety margin (20%): 1.2M * 1.2 = 1.44M TPM
• Recommended quota: 1.5M TPM (round up)

Current allocation: 3M TPM
→ Reduce quota by 50% → frees up quota for other projects

4. PTU Break-Even Calculator:

Break-even point = Fixed PTU cost / (consumption cost per million tokens * expected monthly tokens)

Example (gpt-4o):
• PTU cost: 15 000 NOK/month (1 PTU, hypothetical)
• Consumption cost: 0.60 NOK per 1K tokens = 600 NOK per 1M tokens
• Expected usage: 30M tokens/month

Consumption cost if pay-as-you-go: 30M * 0.60 / 1000 = 18 000 NOK/month
PTU cost: 15 000 NOK/month

Savings with PTU: 3 000 NOK/month (17% reduction)

Tommelfingerregel: PTU lønner seg når forbruk er >80% av quota capacity, konsistent over tid.

For arkitekten (Cosmo)

Spørsmål å stille klienten

Økonomisk modenhet:
- "Har dere eksisterende FinOps-praksis for cloud-kostnader, eller er dette første gang dere skal håndtere consumption-based AI-kostnader?"
- "Hva er organisasjonens risikotoleranse for budsjettsprekksprekk? (Hvor kritisk er det med forutsigbare månedlige kostnader?)"
Organisasjonsstruktur:
- "Hvordan er ansvaret for AI-kostnader fordelt? (Sentralt IT-budsjett vs. chargeback til forretningsenheter?)"
- "Hvem skal ha ansvar for å godkjenne quota-forhøyelser? (IT, finans, eller forretningseier?)"
Workload-karakteristikk:
- "Kan dere beskrive topp 3 AI-workloads deres?" (→ identifiser PTU-kandidater)
- "Hvor kritisk er forutsigbar ytelse vs. kostnadskontroll for hver workload?"
Compliance og regulering:
- "Er dere underlagt spesifikke regulatoriske krav for kostnadsstyring?" (Offentlig sektor, børsnotert, etc.)
- "Trenger dere revisjonsspor for AI-kostnader?" (→ påvirker tagging og logging strategy)
Teknisk kapasitet:
- "Har dere folk med kompetanse på Azure Policy, ARM templates, eller Infrastructure as Code?" (→ avgjør hvor mye automation som er realistisk)
- "Bruker dere allerede Azure landing zones eller management groups?" (→ kan leverage eksisterende governance struktur)
Fremtidig vekst:
- "Hva er forventet vekst i AI-forbruk de neste 12 månedene?" (10x? 2x? Flat?)
- "Planlegger dere å ekspandere til flere regioner?" (→ påvirker multi-region quota strategy)
Existing challenges:
- "Har dere opplevd quota exhaustion eller uventede kostnader tidligere?"
- "Hva er største bekymring rundt AI-kostnader akkurat nå?"
Decision-making speed:
- "Hvor raskt trenger team å kunne øke quotas?" (Samme dag? 1 uke SLA?)
- "Hvor mye godkjenningsprosess tåler organisasjonen før innovasjonstakten bremses?"

Fallgruver og røde flagg

Anti-patterns å advare mot:

"Vi setter bare quota til max og ser hva som skjer"
- Problem: Ingen økonomisk kontroll, team over-provisioner "for sikkerhets skyld"
- Konsekvens: 30-50% higher costs enn nødvendig
- Løsning: Start konservativt, øk basert på faktisk bruk
"Vi bruker kun budgets uten quotas"
- Problem: Budgets stopper ikke forbruk, kun varsler
- Konsekvens: Team får quota exhaustion midt i måned, ELLER bruker for mye fordi det ikke er teknisk begrensning
- Løsning: Kombiner budgets (økonomisk) + quotas (teknisk) + policies (governance)
"Vi gir alle Contributor-tilgang for å slippe overhead"
- Problem: Ingen kontroll, alle kan deploye uten godkjenning
- Konsekvens: Shadow AI-tjenester, ingen cost allocation, compliance-problemer
- Løsning: Least privilege, bruk Reader default + automation for godkjenningsflyt
"Vi setter opp governance men kommuniserer det ikke til utviklere"
- Problem: Policies blokkerer utviklere uten at de forstår hvorfor
- Konsekvens: Frustrasjon, workarounds, shadow IT
- Løsning: Tydelig dokumentasjon, self-service portaler, synlig escalation path
"Vi implementerer hard-limit automation som stopper produksjon ved 100% budsjett"
- Problem: Business-kritisk AI-tjeneste går ned midt i arbeidstid fordi budsjettet ble nådd
- Konsekvens: Revenue loss, reputasjonsskade, stress
- Løsning: Hard limits kun for non-production, produksjon har alerts + manual intervention
"Vi har ikke skilt dev/test/prod subscriptions"
- Problem: Eksperimentering i dev bruker quota som prod trenger
- Konsekvens: Produksjonsworkload throttles pga. dev-aktivitet
- Løsning: Separate subscriptions med egne quotas, eller dedikert quota allocation per environment

Anbefalinger per modenhet

Modenhetsnivå 1: Initial (Ingen eksisterende governance)

Akseptansekriterier:

Organisasjonen har nettopp startet med AI Foundry
Ingen etablerte FinOps-prosesser
1-5 AI-workloads i produksjon

Anbefalt approach:

Uke 1-2: Visibility
- Implementer tagging (mandatory: CostCenter, Environment, Owner)
- Sett opp Azure Cost Management + weekly email reports
- Opprett ett samlet budget på subscription-nivå
Uke 3-4: Basic Controls
- Sett konservative quotas basert på current usage * 2
- Opprett alerts ved 75% og 90% quota utilization
- Dokumenter escalation path for quota requests
Måned 2-3: Process
- Etabler monthly cost review (30 min møte med IT + finance)
- Start quota right-sizing (identifiser over-provisioned deployments)
- Pilot PTU for 1-2 stable workloads

KPIs for modenhet 1 → 2:

100% tagging compliance
<20% kostnadsspredning mellom måneder
Zero quota exhaustion incidents
Monthly cost reviews gjennomført 3 måneder på rad

Modenhetsnivå 2: Managed (Basic governance på plass)

Akseptansekriterier:

Tagging og budgets på plass
Månedlige cost reviews fungerer
5-20 AI-workloads i produksjon

Anbefalt approach:

Automation:
- Implementer automated cleanup av idle deployments (>14d uten bruk)
- Azure Policy for model restrictions (e.g., block preview in production)
- Automated quota requests via self-service portal (e.g., ServiceNow integration)
Chargeback:
- Implementer cost allocation per business unit (via tagging)
- Monthly chargeback reports til BU-ledere
- Incentivize savings (BUs keep 50% of optimization savings)
Optimization:
- Quarterly deep-dive: Workload-by-workload cost/benefit analysis
- Identify PTU migration candidates (>5M tokens/month, stable)
- Model substitution testing (can gpt-4o-mini replace gpt-4o for specific tasks?)

KPIs for modenhet 2 → 3:

>30% av workloads på PTU (hvis applicable)
<10% month-over-month cost variance (better predictability)
Automated quota requests (<4 hour SLA)
Documented cost optimization per quarter (savings target: >15%)

Modenhetsnivå 3: Optimized (Advanced FinOps for AI)

Akseptansekriterier:

Mature governance + automation
20+ AI-workloads
Multi-region, multi-subscription

Anbefalt approach:

Advanced Analytics:
- ML-based anomaly detection for cost spikes (Azure Monitor + custom analytics)
- Predictive modeling for quota demand (forecast 3 months ahead)
- Total Cost of Ownership (TCO) tracking inkl. governance overhead
Platform Engineering:
- Azure APIM gateway for smart routing (cost-based + latency-based)
- Custom quota management portal (beyond native Azure UI)
- Integration med CI/CD: Cost estimation i pull requests (preview cost impact av endringer)
Continuous Optimization:
- A/B testing for model selection (measure quality vs. cost tradeoff)
- Dynamic quota reallocation (ML-driven, adjusts quotas based on demand patterns)
- Benchmarking mot industry standards (e.g., "cost per customer interaction")

KPIs for sustained excellence:

<5% month-over-month variance
>40% savings vs. unoptimized baseline
Zero manual quota approvals (100% automated for requests <2M TPM)
Cost-per-AI-transaction trending downward YoY

Kilder og verifisering

Microsoft Learn (Verified via MCP):

Govern Azure platform services (PaaS) for AI URL: https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/ai/platform/governance Confidence: Verified (Feb 2026) — Comprehensive governance framework, 8-step cost governance process
Manage and increase quotas for hub resources URL: https://learn.microsoft.com/en-us/azure/ai-foundry/how-to/hub-quota Confidence: Verified (Feb 2026) — Quota management UI, VM quota, model quota allocation
Plan and manage costs for Microsoft Foundry URL: https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/manage-costs Confidence: Verified (Feb 2026) — Budget creation, cost monitoring, RBAC for cost visibility
Azure OpenAI Dynamic quota (Preview) URL: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/dynamic-quota Confidence: Verified (Feb 2026) — When to use dynamic quota, cost implications
Consolidated view for Foundry Tools in the Azure portal URL: https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/ai-foundry-consolidated-view Confidence: Verified (Feb 2026) — Dashboard for costs, quota utilization, alerts
Azure OpenAI quotas and limits URL: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/quotas-limits Confidence: Verified (Feb 2026) — Model-specific TPM/RPM limits by tier
Azure OpenAI in Azure AI Foundry Models quota management URL: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/quota Confidence: Verified (Feb 2026) — Quota view, request increases, migrating deployments
Manage AI costs (Cloud Adoption Framework) URL: https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/ai/manage#manage-ai-costs Confidence: Verified (Feb 2026) — Monthly reviews, model selection optimization
Microsoft Foundry rollout across organization (Governance section) URL: https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/planning#governance Confidence: Verified (Feb 2026) — Azure Policy for model access, TPM limits at deployment level
Azure API Management generative AI gateway capabilities URL: https://learn.microsoft.com/en-us/azure/api-management/genai-gateway-capabilities Confidence: Verified (Feb 2026) — Gateway controls for cost management

Code Samples (MCP):

Azure Quota Management client library (Python) URL: https://learn.microsoft.com/en-us/python/api/overview/azure/mgmt-quota-readme Confidence: Verified — Programmatic quota management
Cognitive Services account usage retrieval (Azure CLI) URL: https://learn.microsoft.com/en-us/azure/ai-services/multi-service-resource Confidence: Verified — az cognitiveservices account list-usage command

Baseline Knowledge (Model Training Data):

Offentlig sektor Norge — økonomistyring Confidence: Baseline — DFØ principles, Riksrevisjonen audit requirements, statsbudsjett-prosesser (Basert på generell kunnskap om norsk offentlig forvaltning, ikke spesifikk MCP-kilde)
Cost optimization patterns Confidence: Baseline — TCO analysis, break-even calculations, PTU vs. consumption tradeoffs (Basert på generelle FinOps-prinsipper)

Confidence Summary per Section:

Section	Confidence Level	Notes
Quota Management	Verified	Directly from Microsoft Learn quota docs
Budget Controls	Verified	Azure Cost Management official docs
Azure Policy	Verified	CAF governance guidance
Cost Monitoring	Verified	Consolidated view + cost analysis docs
Dynamic Quota	Verified	Preview feature documentation
Architecture Patterns	Baseline	Synthesized from best practices, not single source
Decision Guidance	Baseline	Derived from governance principles + experience
Azure Integration (Policy, Monitor, APIM)	Verified	Official docs for each service
Offentlig sektor Norge	Baseline	No specific MCP source for Norwegian public sector
Cost & Licensing	Verified (pricing) + Baseline (optimization tips)	Pricing from Learn, tips synthesized
For arkitekten	Baseline	Advisory guidance, not documented feature

Total MCP Calls: 4 (3x microsoft_docs_search, 1x microsoft_docs_fetch, 1x microsoft_code_sample_search) Unique Source URLs: 12 (Microsoft Learn verified) Baseline sections: 4 (Architecture patterns, Norwegian public sector, decision guidance, advisory)

38 KiB Raw Blame History

Azure AI Foundry Cost Governance and Controls

Introduksjon

Kjernekomponenter

1. Quota Management

2. Budget Controls

3. Azure Policy for Model Governance

4. Cost Monitoring and Allocation

5. Dynamic Quota (Preview)

Arkitekturmønstre

Mønster 1: Strict Quota Governance (High Control)

Mønster 2: Flexible with Alerts (Balanced Approach)

Mønster 3: Self-Service with Guardrails (High Autonomy)

Beslutningsveiledning

Velge riktig billing model

Quota Allocation Decision Tree

Common Cost Overrun Scenarios

Cost Optimization Checklist

Integrasjon med Microsoft-stakken

Azure Policy Integration

Azure Monitor Integration

Azure API Management (APIM) Gateway

Management Groups for Multi-Subscription Governance

Offentlig sektor (Norge)

Budsjettprosesser og statlig økonomistyring

Internkontroll (IKS) og kostnadsstyring

Riksrevisjonen og kontrollspor

DFØ (Direktoratet for forvaltning og økonomistyring)

Kostnad og lisensiering

Governance Tool Costs

Savings Potential

Cost Optimization Tips (Konkrete Tips)

For arkitekten (Cosmo)

Spørsmål å stille klienten

Fallgruver og røde flagg

Anbefalinger per modenhet

Modenhetsnivå 1: Initial (Ingen eksisterende governance)

Modenhetsnivå 2: Managed (Basic governance på plass)

Modenhetsnivå 3: Optimized (Advanced FinOps for AI)

Kilder og verifisering

38 KiB

Raw Blame History