Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

23 KiB

Raw Blame History

PTU vs Pay-as-You-Go: Economic Decision Framework

Last updated: 2026-02 Status: GA Category: Cost Optimization & FinOps for AI

Introduksjon

Valget mellom Provisioned Throughput Units (PTU) og Pay-as-You-Go (PayGo) for Azure OpenAI-deployments er en kritisk arkitektur- og økonomibeslutning som påvirker både kostnader, ytelse og operasjonell kompleksitet. PTU tilbyr forutsigbar kapasitet og kostnader mot en timebasert commitment, mens PayGo gir fleksibilitet med token-basert fakturering. Begge modellene har sine optimale bruksområder, og feilvalg kan raskt føre til enten overforbruk eller underutnyttelse av ressurser.

Azure OpenAI tilbyr nå tre deployment-typer for provisioned throughput: Global Provisioned, Data Zone Provisioned og Regional Provisioned. Alle tre faktureres per time basert på antall deployede PTUer, med betydelige rabatter tilgjengelig gjennom Azure Reservations (1 måned eller 1 år commitment). PayGo-modellen, derimot, fakturerer per token (både input og output tokens) og har ingen forhåndsforpliktelser.

En hybrid tilnærming, der man kombinerer PTU for stabil baseline-traffic og PayGo for burstiness, er ofte den mest kostnadseffektive løsningen for produksjonssystemer. Dette dokumentet gir arkitekten verktøyene for å navigere denne beslutningen med konfidensgradering basert på faktiske Microsoft Learn-data.

Kjernekomponenter / Nøkkelegenskaper

PTU-prismodell

Komponent	Beskrivelse	Verified
Provisioned Throughput Unit (PTU)	Generisk enhet for modellprosesseringskapasitet. Ikke modellspesifikk – samme PTU-quota kan brukes på tvers av Azure OpenAI-modeller og Foundry-modeller (DeepSeek, Llama, etc.).	✅ Verified
Hourly billing	Faktureres per time: `$/PTU/hr × antall PTUer`. Proratert ved partial hours (15 min = 1/4 av time-rate).	✅ Verified
Azure Reservations	1-måned eller 1-år commitments gir betydelige rabatter (ofte 50%+). Reservasjoner kjøpes i Azure Portal, ikke AI Foundry.	✅ Verified
Deployment types	Global Provisioned (multi-region), Data Zone Provisioned (data residency), Regional Provisioned (single-region). Hver type krever separat reservation.	✅ Verified
Minimum PTU	Varierer per modell: GPT-4o (50 PTU regional, 15 PTU global), GPT-4o-mini (25 PTU regional, 15 PTU global), DeepSeek-R1 (100 PTU global, ingen regional).	✅ Verified
Throughput per PTU	For nyere modeller (GPT-4.1+): Separate input/output TPM per PTU. Eksempel: GPT-5 har 4750 input TPM per PTU. Output tokens "koster" mer kapasitet enn input.	✅ Verified
Utilization metric	Azure Monitor: `Provisioned-Managed Utilization V2` måler utnyttelse. Ved 100% returneres HTTP 429.	✅ Verified

PayGo-prismodell

Komponent	Beskrivelse	Verified
Token-based billing	Faktureres per 1000 tokens (1K tokens). Input og output har ulike priser (output er dyrere).	✅ Verified
Dynamic quota (preview)	Lar standard-deployments opportunistisk bruke mer quota når tilgjengelig, uten ekstra konfigurasjon. Faktureres fortsatt per token.	✅ Verified
TPM-quota	Tokens Per Minute (TPM) quota definerer maks throughput. Kan økes via quota-request.	✅ Verified
Rate limiting	Custom rate limiting basert på estimert traffic load. Kan gi HTTP 429 før quota nås hvis traffic er ujevnt distribuert.	✅ Verified
No minimum commitment	Ingen forhåndskostnader eller minimum deployment-størrelse. Betaler kun for faktisk forbruk.	✅ Verified

Breakeven-analyse

Formel: Breakeven (tokens/måned) = (PTU hourly cost × 730 timer) / (PayGo token price)

Eksempel (GPT-4o i NOK, forenklede tall):

PTU hourly rate (uten reservation): ~50 NOK/PTU/time
PayGo input: ~0.50 NOK/1K tokens, output: ~1.50 NOK/1K tokens
100 PTU deployment: 50 × 100 × 730 = 3 650 000 NOK/måned
Med 1-år reservation (50% rabatt): ~1 825 000 NOK/måned

Breakeven-punkt (input-heavy workload, 80/20 input/output):

Gjennomsnittlig token-pris: (0.50 × 0.8) + (1.50 × 0.2) = 0.70 NOK/1K tokens
Breakeven: 1 825 000 / 0.70 = ~2 607 millioner tokens/måned
TPM ved jevn fordeling: ~59 600 TPM

Tommelfingerregel: PTU blir kostnadseffektivt ved consistent high-volume workloads (>50% utilization over tid). PayGo er bedre for bursty/unpredictable traffic.

Arkitekturmønstre

Mønster 1: Pure PTU

Beskrivelse: All trafikk går til provisioned deployment. Ingen PayGo-fallback.

Fordeler:

Forutsigbare kostnader (fixed monthly bill)
Garantert latency (SLA på latency targets per modell)
Ingen rate limiting på token-basis (kun utilization-basert)
Best TCO for høy, stabil throughput

Ulemper:

Risiko for underutnyttelse ved variabel trafikk
HTTP 429 ved traffic spikes over kapasitet
Kapasitet må pre-allokeres (quota ≠ capacity guarantee)
Mindre fleksibilitet for ad-hoc testing

Bruk når:

Produksjonssystem med forutsigbar trafikk
Real-time/latency-sensitive applikasjoner
Kostnadsmodellering viser >60% utilization over tid
Compliance krever dedikert kapasitet

Mønster 2: Pure PayGo

Beskrivelse: All trafikk går til standard (token-based) deployment.

Fordeler:

Ingen forhåndskostnader eller commitments
Perfekt for variable/bursty workloads
Enkel skalering (TPM quota økning)
Lavest risiko for overprovisjonering

Ulemper:

Uforutsigbare kostnader ved traffic spikes
Mindre forutsigbar latency (ingen SLA)
Høyere cost per token ved høy throughput
Rate limiting kan være mer aggressiv

Bruk når:

Utvikling, testing, prototyping
Proof-of-Concept eller hackathon
Traffic er høyst variabel (ukentlige/sesongmessige spikes)
Lavt totalt volum (<30% av PTU breakeven)

Mønster 3: Hybrid PTU + PayGo (anbefalt for produksjon)

Beskrivelse: PTU for baseline traffic + PayGo fallback for bursts. Kan bruke spillover feature (preview) for automatisk routing.

Fordeler:

Optimalisert kostnad: PTU for baseline (med reservation), PayGo for peaks
Ingen HTTP 429 tap ved spikes (fallback til PayGo)
Fleksibilitet til å teste nye modeller/versjoner på PayGo
Best practice ifølge Microsoft (ref: "not recommended to scale PTU with traffic")

Ulemper:

Mer kompleks arkitektur (routing logic, monitoring to deployments)
Krever monitoring av PTU utilization for å optimalisere sizing
Må håndtere fallback-logikk (client retry eller API Management)

Implementering:

1. Deploy PTU for baseline (eksempel: 100 PTU)
2. Deploy PayGo for samme modell/versjon
3. Option A: Spillover feature (preview) – automatisk routing ved PTU=100%
4. Option B: Application-level routing – ved HTTP 429 fra PTU, retry til PayGo
5. Monitor: PTU utilization + PayGo token consumption
6. Optimize: Juster PTU sizing basert på faktisk baseline

Bruk når:

Produksjonssystem med kjent baseline + variable peaks
Kostnadsoptimalisering er kritisk
Kan akseptere noe arkitekturkompleksitet
Ønsker å minimere risiko for både under- og overprovisjonering

Beslutningsveiledning

Beslutningstabell

Kriterium	PTU	PayGo	Hybrid
Traffic pattern	Stabil, forutsigbar	Variabel, bursty	Kjent baseline + spikes
Latency requirements	Real-time (<100ms p99)	Best-effort	Mixed (PTU for critical, PayGo for bulk)
Cost predictability	Høy (fixed monthly)	Lav (variabel)	Middels (PTU fixed + PayGo variabel)
TCO optimization	Best ved >60% utilization	Best ved lav/variabel volum	Best for de fleste produksjonssystemer
Operational complexity	Lav (en deployment)	Lav (en deployment)	Middels-høy (to deployments + routing)
Scale-up latency	Ingen (kapasitet pre-allokert)	Umiddelbar (quota tillater)	Hybrid (PTU instant, PayGo instant)
Commitment risk	Høy (må forplikte PTU-antall)	Ingen	Lav-middels (kun baseline PTU)

Vanlige feil

Feil 1: Kjøpe reservation før deployment
- Problem: Quota ≠ capacity. Man kan ha quota, men ingen tilgjengelig kapasitet i region.
- Fix: Alltid deploy FØRST, deretter kjøp reservation som matcher deployed PTU.
Feil 2: Scale PTU opp/ned basert på traffic
- Problem: a) Dyrere å betale hourly enn reservation, b) Ingen garanti for at capacity finnes når du scaler opp.
- Fix: Bruk hybrid approach – fast PTU baseline (med reservation) + PayGo for peaks.
Feil 3: Ikke spesifisere max_tokens
- Problem: Service estimerer generation size, kan føre til lavere concurrency enn forventet.
- Fix: Alltid sett max_tokens så nært faktisk generation size som mulig.
Feil 4: Blande reservation scopes
- Problem: Global/Data Zone/Regional reservations er IKKE interchangeable.
- Fix: Kjøp separat reservation per deployment type.
Feil 5: Ignorere utilization metrics
- Problem: PTU deployment kan være underutnyttet (sløsing) eller overutnyttet (HTTP 429).
- Fix: Monitor Provisioned-Managed Utilization V2 i Azure Monitor. Mål: 70-85% gjennomsnitt.

Røde flagg (PTU er feil valg)

Traffic er uforutsigbar og varierer >10x mellom peak/trough
Proof-of-Concept eller testing (ikke produksjon)
Totalt volum er <30% av PTU breakeven point
Kan ikke committe til 1-måned eller 1-år (hourly PTU er ofte dyrere enn PayGo)
Ingen monitorering/alerting på utilization

Røde flagg (PayGo er feil valg)

Real-time latency requirements (<100ms p99)
Stabil, høy throughput (>50% av PTU breakeven)
Kostnadsforutsigbarhet er kritisk (budsjettrestriksjoner)
Compliance krever dedikert kapasitet (ikke delt infrastruktur)

Integrasjon med Microsoft-stakken

Azure Cost Management

Cost analysis: Analyser PTU hourly charges vs. PayGo token charges per deployment.
Budgets & alerts: Sett budsjetter per resource group. Alert ved 80% av monthly budget.
Reservations dashboard: Monitor reservation utilization (mål: >80% utilization).
Anomaly detection: Påslå for PayGo deployments – detect unforventede cost spikes.

Azure API Management (APIM)

Use case: GenAI Gateway pattern for PTU + PayGo routing.

Pattern:

APIM som frontend for alle OpenAI-kall
High-priority requests → PTU deployment
Low-priority requests → Queue (processed kun hvis PTU <100%)
Ved PTU utilization >80% → Throttle low-priority, route til PayGo
Monitor PTU utilization via Azure Monitor eller custom events fra APIM

Referanse: Maximize PTU utilization with APIM

Azure Monitor

Metrics:

Provisioned-Managed Utilization V2 (PTU) – Split by deployment name
Processed Prompt Tokens (PTU & PayGo)
Generated Completion Tokens (PTU & PayGo)
Azure OpenAI Requests (count, status codes)

Alerts:

PTU utilization >90% sustained for 5 min → Consider scaling or routing to PayGo
PTU utilization <40% sustained for 1 week → Consider downsizing PTU
HTTP 429 count >100/min → Capacity issue or routing failure

Capacity Calculator

Tool: AI Foundry PTU Calculator

Inputs:

Model & version
Peak calls per minute (RPM)
Tokens in prompt call (average)
Tokens in model response (average)

Output:

Estimated PTU required (rounded to deployment increment)
Raw PTU estimate (before rounding)

Best practice: Benchmark med real traffic (ikke kun calculator). Calculator er estimat, faktisk utilization avhenger av call distribution.

Offentlig sektor (Norge)

Regional Provisioned: Data residency i valgt region (eksempel: Norway East, West Europe). Best for GDPR compliance.
Data Zone Provisioned: Data residency i EU data zone (12 regioner). Backup for Regional hvis capacity mangler.
Global Provisioned: Multi-region routing, ingen data residency garanti. Ikke anbefalt for persondata uten grundig risikovurdering.

Anbefaling for offentlig sektor: Bruk Regional eller Data Zone. Verifiser data residency requirements med DPO.

AI Act (EU AI Act)

High-risk AI systems: Krever dokumentasjon av modellvalg, deployment type, capacity planning.
PTU advantage: Forutsigbar ytelse og kapasitet letter compliance-dokumentasjon.
PayGo risk: Variabel latency kan være utfordrende å dokumentere for real-time high-risk systemer.

Forvaltningsloven (transparens)

Vedtakssystemer: Krever transparens i hvordan AI-modellen brukes. PTU gir forutsigbar responstid, enklere å dokumentere.
Logging: Både PTU og PayGo støtter same logging/tracing. Ingen forskjell i transparens-compliance.

Datasuverenitet

Regional Provisioned: Best for datasuverenitet (Norge, EU-regioner).
Global/Data Zone: Akseptabelt hvis DPO godkjenner.
Reservations: Kan kjøpes i hvilken som helst region/subscription scope – påvirker ikke data residency.

Budsjettprosesser

PTU: Fixed monthly cost → Enklere budsjettplanlegging. Anbefalt for offentlig sektor.
PayGo: Variable cost → Krever buffers (20-30% margin). Risiko for budsjettoverskridelse.
Hybrid: PTU baseline (fast) + PayGo (variabel) → Kombiner fast baseline med controlled variable.

Best practice: Bruk PTU med 1-års reservation for produksjonssystemer. Sett PayGo-deployment med spending cap (Azure Cost Management alert) for peaks.

Kostnad og lisensiering

Prismodell-oversikt (forenklede NOK-tall, februar 2026)

Disclaimer: Priser varierer per region og endres jevnlig. Bruk Azure Pricing Calculator for eksakte tall.

Modell	PTU Hourly (Regional)	PTU 1-år Reservation	PayGo Input	PayGo Output
GPT-4o	~50 NOK/PTU/time	~25 NOK/PTU/time (50% rabatt)	~0.50 NOK/1K	~1.50 NOK/1K
GPT-4o-mini	~12 NOK/PTU/time	~6 NOK/PTU/time	~0.15 NOK/1K	~0.60 NOK/1K
GPT-5	~80 NOK/PTU/time	~40 NOK/PTU/time	~1.00 NOK/1K	~3.00 NOK/1K
DeepSeek-R1 (Global)	~60 NOK/PTU/time	~30 NOK/PTU/time	~0.80 NOK/1K	~2.40 NOK/1K

Note: Global/Data Zone Provisioned ofte har ulike priser enn Regional. Sjekk pricing calculator.

Optimaliseringstips

Bruk reservations for produksjon: 40-50% kostnadsbesparelse på PTU.
Right-size PTU deployment:
- Start med capacity calculator estimate
- Deploy og benchmark med real traffic
- Juster basert på utilization metrics (mål: 70-85%)
Leveraged shared PTU reservations:
- Kjøp reservation på subscription/management group level
- Del kapasitet på tvers av prosjekter/teams
- Monitor per-deployment utilization
Prompt caching: PTU får 100% rabatt på cached tokens i utilization. Optimaliserer prompts for cache-hits.
Batch processing på PayGo: For non-real-time workloads, bruk PayGo batch processing (lavere prioritet, lavere cost).
Monitor spillover: Hvis hybrid, track hvor mye traffic går til PayGo vs. PTU. Juster PTU sizing for å minimere PayGo overspill.

Konkrete priseksempler (monthly TCO)

Scenario 1: Høy, stabil throughput (kundeservice chatbot)

Traffic: 100M tokens/måned (80% input, 20% output)
Modell: GPT-4o

PayGo:

Input: 80M × 0.50/1K = 40 000 NOK
Output: 20M × 1.50/1K = 30 000 NOK
Total: 70 000 NOK/måned

PTU (100 PTU, 1-år reservation):

100 PTU × 25 NOK/time × 730 timer = 1 825 000 NOK/måned
Total: 1 825 000 NOK/måned

Konklusjon: PayGo er klart billigst for dette volumet. PTU krever ~2.6 milliarder tokens/måned for breakeven.

Scenario 2: Meget høy throughput (enterprise search)

Traffic: 5 milliarder tokens/måned (70% input, 30% output)
Modell: GPT-4o-mini

PayGo:

Input: 3.5B × 0.15/1K = 525 000 NOK
Output: 1.5B × 0.60/1K = 900 000 NOK
Total: 1 425 000 NOK/måned

PTU (200 PTU, 1-år reservation):

200 PTU × 6 NOK/time × 730 timer = 876 000 NOK/måned
Total: 876 000 NOK/måned

Konklusjon: PTU er 39% billigere. Hybrid kan være enda bedre (150 PTU baseline + PayGo for peaks).

Scenario 3: Hybrid (variable workload)

Baseline: 2 milliarder tokens/måned
Peaks: +1 milliard tokens/måned (sporadisk)
Modell: GPT-4o

Hybrid (100 PTU + PayGo spillover):

PTU: 100 PTU × 25 NOK/time × 730 = 1 825 000 NOK/måned
PayGo (peaks, 30% av total): 1B × ((0.50×0.8)+(1.50×0.2))/1K = 700 000 NOK
Total: 2 525 000 NOK/måned

Pure PayGo (samme volum):

3B × ((0.50×0.8)+(1.50×0.2))/1K = 2 100 000 NOK/måned

Konklusjon: Hybrid er dyrere i dette tilfellet. Pure PayGo eller større PTU (200 PTU) ville vært bedre.

For arkitekten (Cosmo)

5-8 spørsmål å stille kunden

Traffic pattern: Har dere historisk data på tokens per time/dag/måned? Hvor stor variasjon er det mellom peak og gjennomsnitt?
Latency requirements: Har dere SLA-krav på responstid? Er systemet real-time (chatbot) eller batch (rapport-generering)?
Budget constraints: Forutsigbar monthly cost eller akseptabel variance? Hva er maksimal akseptabel cost spike?
Compliance/data residency: Krav til data residency (Norge, EU)? GDPR/AI Act compliance-dokumentasjon nødvendig?
Modenhet: Proof-of-Concept, pilot eller produksjon? Kan dere committe til 1-års reservation?
Monitoring capability: Har dere kapasitet til å monitore PTU utilization og optimalisere sizing?
Failover/redundancy: Akseptabelt med HTTP 429 ved spikes, eller kreves garantert capacity?
Model switching: Planlegger dere å teste flere modeller/versjoner? (PTU er model-independent, kan bytte innenfor samme deployment type)

Fallgruver å unngå

Quota ≠ Capacity: Ikke anta at quota garanterer deployment-capacity. Test i target region først.
Reservation timing: IKKE kjøp reservation før deployment er bekreftet fungerende.
Scope mismatch: Global/Data Zone/Regional reservations matcher IKKE på tvers. Separat reservation per type.
Underestimere variability: Hvis traffic varierer >5x, er pure PTU risikabelt. Vurder hybrid.
Overfokus på unit cost: Total Cost of Ownership (TCO) inkluderer overhead for monitoring, routing logic (hybrid), samt risiko for underutnyttelse (PTU) eller cost spikes (PayGo).

Anbefalinger per modenhetsnivå

Level 1: Proof-of-Concept / Utforskning

Anbefaling: Pure PayGo
Hvorfor: Ingen commitment, fleksibilitet til å teste modeller, lav risiko.
Watch out: Sett spending cap for å unngå ukontrollerte kostnader.

Level 2: Pilot / Begrenset produksjon

Anbefaling: PayGo med overvåking, vurder PTU hvis volumet vokser.
Hvorfor: PayGo gir fortsatt fleksibilitet, men start monitoring av token consumption for breakeven-analyse.
Watch out: Hvis throughput blir forutsigbart høy (>60% av PTU breakeven), planlegg migrering til PTU.

Level 3: Produksjon (stabil traffic)

Anbefaling: PTU med 1-års reservation
Hvorfor: Best TCO, forutsigbar cost, latency SLA.
Watch out: Monitor utilization (70-85%). Hvis <50%, downsize PTU. Hvis >90%, vurder hybrid med PayGo fallback.

Level 4: Produksjon (variable traffic)

Anbefaling: Hybrid (PTU baseline + PayGo spillover)
Hvorfor: Optimaliserer cost (PTU for baseline med reservation) og resilience (PayGo for peaks).
Watch out: Krever arkitekturkompleksitet (routing, monitoring). Vurder APIM GenAI Gateway pattern.

Level 5: Enterprise-scale (multi-workload)

Anbefaling: Shared PTU reservations (management group scope) + PayGo per workload
Hvorfor: Maksimer reservation utilization på tvers av teams, gi fleksibilitet til individuelle workloads.
Watch out: Krever governance for PTU allocation og chargeback-modell for teams.

Kilder og verifisering

Microsoft Learn-ressurser (MCP-verified, februar 2026):

Provisioned Throughput Concepts: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/provisioned-throughput Confidence: Verified – Offisiell kilde på PTU-konsepter, deployment types, benefits.
PTU Cost Management: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/provisioned-throughput-onboarding Confidence: Verified – Detaljert prisinformasjon, hourly billing, reservations, capacity calculator.
Provisioned Get Started Guide: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/provisioned-get-started Confidence: Verified – Deployment workflow, quota vs. capacity, utilization monitoring.
Provisioned Migration (Payment Model Framework): https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/provisioned-migration Confidence: Verified – Commitment vs. Reservation models, coexistence, best practices.
Performance and Latency: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/latency Confidence: Verified – Throughput vs. latency, TPM estimation, monitoring metrics.
GenAI Gateway (APIM + PTU Optimization): https://learn.microsoft.com/en-us/ai/playbook/solutions/genai-gateway/reference-architectures/maximise-ptu-utilization Confidence: Verified – Hybrid architecture pattern for maximizing PTU utilization.
Azure Reservations for Azure OpenAI: https://learn.microsoft.com/en-us/azure/cost-management-billing/reservations/azure-openai Confidence: Verified – Reservation purchase, scope, discounts, management.
Dynamic Quota (Preview): https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/dynamic-quota Confidence: Verified – PayGo deployment optimization, opportunistic quota increase.
Spillover Traffic Management (Preview): https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/spillover-traffic-management Confidence: Verified – Automatic routing fra PTU til PayGo ved capacity limit.

Code samples (MCP-verified):

Python deployment examples for PTU/PayGo
Azure CLI commands for provisioned deployments
REST API examples for deployment management

Konfidensnivå per seksjon:

Prismodell (PTU & PayGo): Verified (direkte fra Microsoft Learn + pricing calculator)
Breakeven-analyse: Baseline (formel er standard, men eksakte tall varierer per region/tid)
Arkitekturmønstre: Verified (APIM GenAI Gateway pattern fra Microsoft docs)
Offentlig sektor Norge: Baseline (GDPR/AI Act er faktisk, men norske tolkninger er baseline knowledge)
Kostnadseksempler: Baseline (basert på forenklede NOK-konverteringer, må verifiseres i pricing calculator)
Beslutningstabell: Verified (synthesis av Microsoft best practices)

Oppdateringsfrekvens: Dette dokumentet bør oppdateres hver 3. måned (pricing changes, nye deployment types, preview features blir GA).

23 KiB Raw Blame History Unescape Escape

PTU vs Pay-as-You-Go: Economic Decision Framework

Introduksjon

Kjernekomponenter / Nøkkelegenskaper

PTU-prismodell

PayGo-prismodell

Breakeven-analyse

Arkitekturmønstre

Mønster 1: Pure PTU

Mønster 2: Pure PayGo

Mønster 3: Hybrid PTU + PayGo (anbefalt for produksjon)

Beslutningsveiledning

Beslutningstabell

Vanlige feil

Røde flagg (PTU er feil valg)

Røde flagg (PayGo er feil valg)

Integrasjon med Microsoft-stakken

Azure Cost Management

Azure API Management (APIM)

Azure Monitor

Capacity Calculator

Offentlig sektor (Norge)

GDPR og Schrems II

AI Act (EU AI Act)

Forvaltningsloven (transparens)

Datasuverenitet

Budsjettprosesser

Kostnad og lisensiering

Prismodell-oversikt (forenklede NOK-tall, februar 2026)

Optimaliseringstips

Konkrete priseksempler (monthly TCO)

For arkitekten (Cosmo)

5-8 spørsmål å stille kunden

Fallgruver å unngå

Anbefalinger per modenhetsnivå

Kilder og verifisering

23 KiB

Raw Blame History