# RAG Query Cost Optimization

**Last updated:** 2026-04
**Status:** GA
**Category:** Cost Optimization & FinOps for AI

---

## Introduksjon

Retrieval Augmented Generation (RAG) representerer en av de mest kostnadsintensive delene av AI-applikasjoner i produksjon. Mens utvikling og testing av RAG-løsninger kan virke rimelig, eskalerer kostnadene raskt når systemet møter produksjonsvolumer med hundrevis eller tusenvis av queries daglig. Hver query utløser en pipeline med minimum to LLM-kall (intent generation og response generation), embedding-operasjoner, search-queries mot Azure AI Search, og potensielt semantic ranking. For organisasjoner som bygger chat-løsninger eller copilots på Microsoft-stakken, er query-kostnader ofte den største driftskostnaden.

Optimalisering av RAG query-kostnader handler ikke bare om å redusere regningen. Det handler om å bygge sustainable AI-løsninger som kan skalere uten å eksplodere budsjettet. En typisk RAG-query i Azure OpenAI On Your Data kan forbruke mellom 4 000 og 6 000 tokens totalt, avhengig av modell og konfigurasjon. Med GPT-4, som koster betydelig mer enn GPT-3.5-Turbo, kan dette raskt bli en betydelig post i IT-budsjettet. Samtidig må man balansere kostnadsreduksjon mot kvalitet – aggressive optimaliseringer kan føre til dårligere svar og lavere brukertilfredshet.

Dette dokumentet dekker hele spekteret av kostnadsdrivere i RAG-pipelines: token-forbruk i LLM-kall, Azure AI Search-tier-kostnader, semantic ranking-avgifter, embedding-operasjoner, og infrastrukturkostnader. Du vil lære konkrete teknikker for å redusere kostnader med opptil 60-80% uten å kompromittere svarkvalitet, samt hvordan du bygger kostnadsbevisste arkitekturer fra start.

## Kjernekomponenter

### RAG Query Pipeline Cost Breakdown

En typisk Azure OpenAI On Your Data query gjennomløper følgende kostnadselementer:

| Komponent | Kostnadselement | Typisk andel av totalkostnad | Optimaliserings-potensial |
|-----------|-----------------|------------------------------|---------------------------|
| **Intent Generation** | LLM tokens (input + output) | 15-20% | Middels (kan elimineres i enkelte scenarios) |
| **Embedding Operations** | Azure OpenAI embeddings (text-embedding-ada-002) | 5-10% | Lav (nødvendig for vector search) |
| **Azure AI Search Query** | Search tier (QPS, replicas, partitions) | 20-30% | Høy (tier-optimalisering, query reduction) |
| **Semantic Ranking** | Per-query semantic ranking fee | 10-15% | Høy (bruk kun når nødvendig) |
| **Response Generation** | LLM tokens (input + output) | 35-45% | Høy (chunk reduction, token optimization) |
| **Network/Storage** | Bandwidth, blob storage for caching | <5% | Lav |

### Token Consumption per Model (Azure OpenAI On Your Data)

Basert på Microsoft Learn-data for standard konfigurasjon (5 retrieved documents, strictness=3, chunk size=1024):

| Model | Generation Prompt | Intent Prompt | Response Output | Intent Output | **Total Avg** |
|-------|-------------------|---------------|-----------------|---------------|---------------|
| **gpt-35-turbo-16k** | 4 297 | 1 366 | 111 | 25 | **5 799** |
| **gpt-4-0613** | 3 997 | 1 385 | 118 | 18 | **5 518** |
| **gpt-4-1106-preview** | 4 538 | 811 | 119 | 27 | **5 495** |
| **gpt-35-turbo-1106** | 4 854 | 1 372 | 110 | 26 | **6 362** |

**Verified (Microsoft Learn):** Disse tallene er hentet fra offisiell Microsoft-dokumentasjon basert på testing med 191 samtaler, 250 spørsmål, 10 tokens per spørsmål i snitt, og 4 samtale-turns per samtale.

### Azure AI Search Tier Costs (Estimated NOK/month)

| Tier | Partitions | Replicas | QPS Capacity | Storage | ~NOK/month | Best For |
|------|------------|----------|--------------|---------|------------|----------|
| **Basic** | 1 | 3 | Moderate | 2 GB | 1 200 | Proof-of-concept, lav trafikk |
| **S1** | 12 | 12 | High | 25 GB/partition | 2 800 | Produksjon, moderate volumer |
| **S2** | 12 | 12 | Very High | 100 GB/partition | 11 200 | High-volume produksjon |
| **S3** | 12 | 12 | Enterprise | 200 GB/partition | 22 400 | Enterprise-skala |

**Baseline (Modellkunnskap):** Prisene er omregnet fra USD til NOK (1 USD ≈ 11 NOK, februar 2026) og er veiledende.

### Semantic Ranking Costs

**Verified (Microsoft Learn):** Semantic ranking er en premium-funksjon som påløper ekstra kostnader per query. Kostnaden er progressiv og varierer basert på volum:

- **Første 1000 queries/måned:** Inkludert i Basic tier eller høyere
- **Påfølgende queries:** Per-query avgift (se Azure pricing calculator for eksakte tall)

Semantic ranking forbedrer relevansscore betydelig, men kan øke query-kostnaden med 15-25% for høyvolumapplikasjoner.

## Arkitekturmønstre

### 1. Lean Retrieval Pipeline

**Prinsipp:** Reduser antall tokens sendt til LLM ved å optimalisere retrieval-parametere og chunk-størrelser.

**Implementering:**
- **Juster `topNDocuments`:** Start med 3 i stedet for default 5. Test om svarkvaliteten holder seg.
- **Optimaliser chunk size:** Bruk 512 eller 768 tokens i stedet for 1024 for faktabaserte datasets.
- **Øk `strictness`:** Sett til 4 eller 5 for å filtrere bort irrelevante dokumenter.
- **Limit responses to data:** Alltid `inScope=true` for å redusere prompt-lengde.

**Kostnadsreduksjon:** 25-40% reduksjon i token-forbruk per query.

**Trade-off:** Kan misse kontekstuell informasjon i komplekse spørsmål. Krever testing.

**Eksempel (Python API):**
```python
{
    "data_sources": [{
        "type": "AzureCognitiveSearch",
        "parameters": {
            "endpoint": SEARCH_ENDPOINT,
            "indexName": INDEX_NAME,
            "topNDocuments": 3,  # Redusert fra 5
            "strictness": 4,      # Økt fra 3
            "inScope": true
        }
    }],
    "messages": [{"role": "user", "content": "Hva er SLA for tjenesten?"}]
}
```

### 2. Cached RAG (Cache-Aside Pattern)

**Prinsipp:** Bruk caching for å unngå gjentatte LLM-kall og search-operasjoner for identiske eller semantisk like queries.

**Implementering:**
- **Query hash caching:** Hash user query og returner cachet svar hvis match.
- **Semantic cache:** Bruk embedding similarity for å finne lignende tidligere queries (threshold ~0.95).
- **Azure Redis Cache:** Lagre (query_hash → response) med TTL basert på data freshness-krav.
- **Enrichment caching:** Bruk Azure AI Search enrichment cache for å gjenbruke chunking/embedding-resultater.

**Kostnadsreduksjon:** 50-70% for applikasjoner med repeterende spørsmål (FAQ, support bots).

**Arkitektur:**
```
User Query → Hash → Redis Lookup → [Cache Hit: Return]
                                 → [Cache Miss: RAG Pipeline → Cache Result]
```

**Verified (Microsoft Learn):** Enrichment caching er en built-in Azure AI Search-funksjon som lagrer mellomresultater fra AI enrichment-pipelines. Selv om caching medfører storage-kostnader, reduserer det den kumulative kostnaden for AI enrichment betydelig.

### 3. Tiered Retrieval (Hybrid Cost-Quality)

**Prinsipp:** Bruk billige modeller for intent detection og enkel retrieval, reserve dyre modeller for komplekse svar.

**Implementering:**
- **Tier 1 (Keyword Search):** Gratis utover search tier-kostnad. Bruk for enkle faktaspørsmål.
- **Tier 2 (Vector Search):** Påløper embedding-kostnader. Bruk for semantisk søk.
- **Tier 3 (Hybrid + Semantic):** Dyreste, men beste kvalitet. Reserve for kritiske queries.
- **Model routing:** Bruk GPT-3.5-Turbo for 80% av queries, GPT-4 for komplekse/kritiske queries.

**Kostnadsreduksjon:** 40-60% ved å bruke riktig search type og modell per query-type.

**Beslutningslogikk:**
```python
if is_simple_fact_query(user_query):
    search_type = "keyword"
    model = "gpt-35-turbo"
elif is_semantic_query(user_query):
    search_type = "vector"
    model = "gpt-35-turbo"
else:  # Complex reasoning
    search_type = "hybrid_semantic"
    model = "gpt-4"
```

### 4. Agentic Retrieval (Cost-Aware)

**Status: Public Preview** — Agentic Retrieval er foreløpig i public preview (ikke GA). *(Verified MCP 2026-04)*

**Prinsipp:** Azure AI Search Agentic Retrieval bruker LLM til å generere subqueries som kjøres parallelt. Dette kan være dyrt, men også mer effektivt enn multiple sequential queries.

**Prismodell (public preview):**
- **Free tier:** 50 millioner gratis agentic reasoning tokens/måned inkludert (på Basic tier og høyere)
- **Standard tier:** Pay-as-you-go etter at gratis kvota er brukt

**Kostnadseksempel (Verified - Microsoft Learn):**
- **2000 agentic retrievals** med 3 subqueries per plan:
  - Reranking: ~$3.30 (150M tokens @ $0.022/token)
  - Input tokens (query planning): $0.60 (4M tokens @ $0.15/M)
  - Output tokens (query planning): $0.42 (700K tokens @ $0.60/M)
  - **Total:** ~$4.32 per 2000 queries = $0.00216 per query

**Når bruke:**
- Komplekse multi-facet spørsmål som ville krevd multiple manual queries.
- Når answer quality er kritisk og kostnaden kan rettferdiggjøres.

**Cost control:**
- 50M gratis tokens/mnd dekker typisk moderat bruk i utviklings- og testmiljøer.
- Sett `reasoning_effort` til `minimal` eller `low` (ikke `medium`).
- Begrens antall subqueries per plan.

## Beslutningsveiledning

### Når bruke hvilken search type?

| Search Type | Kostnad | Kvalitet | Best For | Unngå Når |
|-------------|---------|----------|----------|-----------|
| **Keyword** | Lavest | God for eksakte match | FAQ, produkt-IDs, enkle fakta | Semantisk forståelse nødvendig |
| **Semantic** | Moderat (+15-25%) | Bedre relevans | Kontekstuelle spørsmål, lignende begreper | Budsjettbegrensninger, høy QPS |
| **Vector** | Moderat (embedding cost) | Beste semantic match | Cross-lingual, similarity search | Small datasets, keyword-baserte behov |
| **Hybrid** | Høy (embedding + compute) | Balansert presisjon og recall | Generelle RAG-applikasjoner | Budsjettkritiske scenarios |
| **Hybrid + Semantic** | Høyest | Best overall | Enterprise-kritiske applikasjoner | Høyvolum, lavbudsjett |

### Runtime Parameter Tuning for Cost Reduction

| Parameter | Default | Cost-Optimized | Quality-Optimized | Impact |
|-----------|---------|----------------|-------------------|--------|
| `topNDocuments` | 5 | 3 | 10 | Høy: Direkte token reduction |
| `strictness` | 3 | 4-5 | 1-2 | Moderat: Filtrerer chunks |
| `chunk_size` | 1024 | 512-768 | 1536 | Høy: Påvirker token/chunk |
| `inScope` | true | true | false | Moderat: Reduserer prompt complexity |
| `max_tokens` (response) | 800 | 400 | 1500 | Høy: Direkte output cost |

### Vanlige Feil

1. **Over-retrieval:** Hente 10+ dokumenter når 3 holder. **Fix:** Start med 3, øk kun hvis nødvendig.
2. **Semantic ranking always-on:** Bruke semantic ranking for alle queries. **Fix:** Enable kun for complex queries.
3. **Large chunk sizes:** Bruke 1536 tokens for enkle FAQ. **Fix:** Test 512 tokens for faktabaserte datasets.
4. **No caching:** Kjøre full RAG pipeline for identiske queries. **Fix:** Implementer Redis cache.
5. **Wrong model choice:** Bruke GPT-4 for alle queries. **Fix:** Route 80% til GPT-3.5-Turbo.
6. **Ignoring conversation history:** Sende full history i hver query. **Fix:** Truncate til siste 2-3 turns.

### Røde Flagg

- **Token explosion:** Queries som konsumerer >8000 tokens regelmessig.
- **Low cache hit rate:** <20% cache hits i FAQ/support scenarios.
- **High semantic ranking costs:** Semantic ranking brukt i >70% av queries.
- **Oversized search tier:** S3 tier for <1000 queries/dag.
- **No query monitoring:** Manglende Cost Management dashboards.

## Integrasjon med Microsoft-stakken

### Azure OpenAI On Your Data

**Verified (Microsoft Learn):** Azure OpenAI On Your Data er den native RAG-løsningen i Microsoft-stakken. Kostnadsoptimalisering krever forståelse av hele pipeline:

1. **Intent Generation (LLM call 1):**
   - Reformulerer user query til search intents.
   - Kan **elimineres** ved å bruke direct query-to-search mapping for enkle use cases.
   - Kostnadsreduksjon: ~20% ved å skippe intent generation for FAQ-bots.

2. **Retrieval (Azure AI Search):**
   - Keyword/vector/semantic/hybrid search.
   - Kostnad avhenger av tier, QPS, og search type.

3. **Response Generation (LLM call 2):**
   - Største token consumer (35-45% av total).
   - Optimaliser via chunk reduction og system message truncation.

### Azure AI Search Optimization

**Verified (Microsoft Learn):** Kostnadsoptimalisering for Azure AI Search:

- **Tier-riktig sizing:** Basic for POC/dev, S1 for produksjon, S2+ for enterprise. Ikke overprovisjon.
- **Partition optimization:** Øk partitions kun når index size krever det, ikke for QPS.
- **Replica optimization:** Øk replicas kun ved høy QPS eller HA-krav.
- **Autoscaling:** Implementer code for å scale up/down basert på workload patterns.
- **Region placement:** Velg region med høyere storage per partition (April/May 2024 upgrade).
- **Vector compression:** Bruk scalar quantization for å redusere vector storage med opptil 92.5%.

**Verified (Microsoft Learn):** Vector compression techniques i Azure AI Search kan kutte vector-kostnader med opptil 92.5% via scalar/binary quantization uten betydelig kvalitetstap.

### Azure Container Apps Load Balancing

**Verified (Microsoft Learn):** For å unngå throttling (429 errors) og quota limits:

- **Multi-region deployment:** Deploy Azure OpenAI resources i flere regioner.
- **Container Apps load balancer:** Bruk Azure Container Apps som load balancer foran multiple Azure OpenAI endpoints.
- **Retry logic:** Automatic retry til annen resource ved throttling.
- **TPM quota management:** Start med 30K TPM per instance, juster basert på behov.

**Arkitektur:**
```
User → Container App LB → [Azure OpenAI Region 1]
                        → [Azure OpenAI Region 2]
                        → [Azure OpenAI Region 3]
```

### Prompt Flow & Azure Machine Learning

**Verified (Microsoft Learn):** Azure ML Pipelines gir granular kontroll over RAG workflow:

- **Custom chunking strategies:** Implementer dokumentspesifikk chunking for bedre token efficiency.
- **Pipeline components:** Data chunking, embeddings generation, test data creation, evaluation.
- **Cost tracking:** Logg token usage per pipeline step for granular cost analysis.

### Copilot Studio Integration

**Verified (Microsoft Learn):** Deploy til Copilot Studio (preview) for multi-channel support:

- **Single deployment cost:** Deploy én gang, bruk i Teams, web, Dynamics 365.
- **Tenant-level caching:** Potensial for cross-user cache hits.
- **Built-in analytics:** Track query volume og cost per channel.

## Offentlig sektor (Norge)

### GDPR og Datasuverenitet

- **Data residency:** Velg Norway East/West regions for Azure AI Search og Azure OpenAI for å holde data innenfor EU/EØS.
- **Logging constraints:** Query logging for cost analysis må følge GDPR-krav for PII-data i queries.
- **Caching compliance:** Cached responses må følge samme retention policies som original data.

### Budsjettprosesser

- **Årlig budsjettcyklus:** Implementer cost forecasting basert på forventet query volume.
- **Cost allocation:** Tag resources per avdeling/prosjekt for intern budsjettallokering.
- **CapEx vs OpEx:** RAG query-kostnader er typisk OpEx (pay-as-you-go). Vurder reserved instances for forutsigbare workloads.

### Anskaffelsesprosesser

- **Ramme-avtaler:** Bruk statlige rammeavtaler for Azure-tjenester (SSA-avtaler).
- **Cost transparency:** Dokumenter kostnadsdrivere for å rettferdiggjøre AI-investeringer i politiske prosesser.
- **Vendor lock-in mitigation:** Design for portability mellom search providers (Azure AI Search, Elasticsearch, etc.).

## Kostnad og lisensiering

### Azure OpenAI Pricing (Estimated NOK)

**Baseline (Modellkunnskap):** Priser per 1M tokens (omregnet til NOK, februar 2026):

| Model | Input (NOK/1M tokens) | Output (NOK/1M tokens) | Best For |
|-------|----------------------|------------------------|----------|
| **gpt-35-turbo** | 5.5 | 17 | Høyvolum, cost-sensitive |
| **gpt-35-turbo-16k** | 33 | 44 | Moderate volumer, lenger context |
| **gpt-4-0613** | 330 | 660 | Kompleks reasoning, lav volum |
| **gpt-4-turbo** | 110 | 330 | Balansert cost/quality |
| **gpt-4o** | 55 | 165 | Multimodal (text only i On Your Data) |

### Embeddings Pricing

**Verified (Microsoft Learn):** text-embedding-ada-002 (kun supported model for On Your Data vector search):
- **Cost:** ~1.1 NOK per 1M tokens
- **Use case:** Vector search, semantic similarity
- **Optimization:** Cache embeddings for static documents, ikke regenerer.

### Azure AI Search Pricing Summary

**Verified (Microsoft Learn):**
- **Fixed cost:** Search tier (Basic: ~1200 NOK/mnd, S1: ~2800 NOK/mnd, S2: ~11200 NOK/mnd)
- **Variable cost:** Semantic ranking per query (progressiv pricing etter 1000 queries/mnd)
- **No query-based charges:** Ikke per-query kostnad for keyword/vector search utover tier-kostnad.

### Optimaliseringstips

1. **Model switching:** Bruk GPT-3.5-Turbo for 80% av queries, spare 70-80% på LLM-kostnader.
2. **Batch processing:** Hvis mulig, batch lignende queries for å redusere overhead.
3. **Reserved capacity:** Vurder reserved capacity for Azure OpenAI ved forutsigbare workloads (20-40% rabatt).
4. **Spot instances:** Ikke tilgjengelig for Azure OpenAI, men kan brukes for surrounding infrastructure.
5. **Data lifecycle:** Slett gamle indexes/caches for å redusere storage costs.

### Total Cost of Ownership (TCO) Eksempel

**Scenario:** 10 000 queries/måned, hybrid search, GPT-3.5-Turbo

| Komponent | Beregning | NOK/måned |
|-----------|-----------|-----------|
| Azure AI Search (S1) | 1 tier | 2 800 |
| LLM tokens (avg 5800/query) | 10K queries × 5800 tokens × 0.011 NOK/1K | 638 |
| Embeddings | 10K queries × 50 tokens × 0.0011 NOK/1K | 0.55 |
| Semantic ranking | 9K queries @ ~0.5 NOK/query | 4 500 |
| Storage (caching) | 50 GB @ 2 NOK/GB | 100 |
| **Total** | | **8 038** |

**Optimalisert scenario (samme kvalitet):**

| Endring | Besparelse |
|---------|------------|
| Caching (50% hit rate) | -4 269 NOK (50% av LLM + semantic) |
| Keyword search for 30% av queries | -1 350 NOK |
| Reduser topNDocuments til 3 | -191 NOK |
| **Ny total** | **2 228 NOK/måned** |
| **Besparelse** | **72%** |

## For arkitekten (Cosmo)

### Spørsmål å Stille Kunden

1. **Query volume:** "Hvor mange queries forventer dere per dag/måned i produksjon? Hva er peak vs. average?"
2. **Query complexity:** "Er spørsmålene typisk enkle fakta-oppslag, eller komplekse multi-hop reasoning?"
3. **Data characteristics:** "Hvor ofte endres datakilden? Kan vi cache aggressivt?"
4. **Quality requirements:** "Hva er akseptabel presisjon? Kan vi trade noe kvalitet for kostnad?"
5. **Budget constraints:** "Hva er månedsbudsjettet for RAG-kostnader? Er dette CapEx eller OpEx?"
6. **Compliance:** "Må data holdes i Norge/EU? Kan vi cache queries med PII?"
7. **SLA:** "Hva er akseptabel latency? Kan vi bruke async processing?"
8. **Monitoring:** "Har dere eksisterende Cost Management dashboards? Hvem eier budsjettet?"

### Fallgruver å Unngå

1. **Premature optimization:** Ikke optimaliser før du har baseline-metrics. Mål først, optimaliser deretter.
2. **Over-caching:** Caching av stale data kan gi feil svar. Sett riktig TTL basert på data freshness.
3. **Under-provisioned search:** Basic tier for produksjon fører til throttling og dårlig UX.
4. **Ignoring conversation history costs:** Lange samtaler kan eksplodere token usage. Truncate aggressivt.
5. **No cost attribution:** Manglende tagging gjør det umulig å spore kostnader per team/prosjekt.
6. **Wrong embedding model:** Bruk av andre embeddings enn text-embedding-ada-002 støttes ikke av On Your Data.
7. **Semantic ranking everywhere:** Bruk kun semantic ranking når keyword/vector search er utilstrekkelig.
8. **No monitoring:** Deploy uten Azure Monitor dashboards for cost/performance.

### Anbefalinger per Modenhetsnivå

**Nivå 1: Proof of Concept**
- Bruk Basic tier for Azure AI Search.
- GPT-3.5-Turbo for alle queries.
- Keyword search kun.
- Ingen caching (kompleksitet ikke verdt det).
- **Forventet kostnad:** 1 500-3 000 NOK/måned for <1000 queries.

**Nivå 2: Pilot/MVP**
- Oppgrader til S1 tier.
- Implementer enkel Redis cache for FAQ.
- Hybrid search for semantic queries.
- GPT-3.5-Turbo som default, GPT-4 for <10% komplekse queries.
- Azure Monitor dashboards.
- **Forventet kostnad:** 5 000-15 000 NOK/måned for 5K-20K queries.

**Nivå 3: Produksjon**
- S1/S2 tier basert på load testing.
- Semantic cache (embedding similarity).
- Tiered retrieval (keyword/vector/semantic based on query type).
- Model routing (GPT-3.5/GPT-4).
- Autoscaling for search replicas.
- Cost attribution per team.
- **Forventet kostnad:** 20 000-100 000 NOK/måned for 50K-500K queries.

**Nivå 4: Enterprise Scale**
- Multi-region deployment med load balancing.
- Advanced caching strategies (query rewriting, semantic cache).
- Agentic retrieval for komplekse scenarios.
- Reserved capacity for Azure OpenAI.
- Real-time cost anomaly detection.
- FinOps team ownership.
- **Forventet kostnad:** 100 000-1 000 000+ NOK/måned for millions of queries.

### Arkitekturmønster per Scenario

**Scenario A: FAQ Bot (høy repetisjon)**
- **Search:** Keyword only
- **Caching:** Aggressive (Redis, 80%+ hit rate)
- **Model:** GPT-3.5-Turbo
- **Cost reduction:** 60-80%

**Scenario B: Dokumentasjonssøk (moderat repetisjon)**
- **Search:** Hybrid (vector + keyword)
- **Caching:** Semantic cache (50% hit rate)
- **Model:** GPT-3.5-Turbo (90%), GPT-4 (10%)
- **Cost reduction:** 40-60%

**Scenario C: Kompleks analyse (lav repetisjon)**
- **Search:** Hybrid + Semantic
- **Caching:** Minimal (data freshness kritisk)
- **Model:** GPT-4 majority, GPT-4o for multimodal
- **Cost reduction:** 20-30% (via parameter tuning)

## Kilder og verifisering

### Microsoft Learn Sources

**Verified:**
1. [Plan and manage costs of an Azure AI Search service](https://learn.microsoft.com/en-us/azure/search/search-sku-manage-costs) - Comprehensive cost minimization strategies, tier pricing, indexing optimization.
2. [Azure OpenAI On Your Data - Token usage estimation](https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/use-your-data) - Exact token consumption per model, RAG pipeline breakdown, parameter impacts.
3. [RAG chunking phase - Understand chunking economics](https://learn.microsoft.com/en-us/azure/architecture/ai-ml/guide/rag/rag-chunking-phase) - Cache-Aside pattern, cost factors for chunking strategies.
4. [Agentic retrieval in Azure AI Search - Pricing example](https://learn.microsoft.com/en-us/azure/search/agentic-retrieval-overview) - Detailed cost calculation for agentic retrieval with subqueries.
5. [Tips for better performance in Azure AI Search](https://learn.microsoft.com/en-us/azure/search/search-performance-tips) - Query design optimization, search tier switching, cost-performance balance.
6. [Retrieval-augmented Generation (RAG) in Azure AI Search](https://learn.microsoft.com/en-us/azure/search/retrieval-augmented-generation-overview) - RAG challenges, solution patterns, security, performance optimization.
7. [Scale OpenAI chat with Azure Container Apps](https://learn.microsoft.com/en-us/azure/developer/python/get-started-app-chat-scaling-with-azure-container-apps) - Load balancing architecture, TPM quota management, throttling mitigation.

**Baseline (Modellkunnskap):**
- NOK pricing conversions (USD to NOK estimates)
- FinOps best practices for cloud cost optimization
- General RAG architecture patterns

### Konfidensnivå per Seksjon

| Seksjon | Konfidens | Kilde |
|---------|-----------|-------|
| Token consumption table | **Verified** | Microsoft Learn official data |
| Azure AI Search tier costs | **Baseline** | Converted from USD pricing |
| Semantic ranking costs | **Verified** | Microsoft Learn |
| RAG pipeline breakdown | **Verified** | Microsoft Learn |
| Caching patterns | **Verified** | Microsoft Learn (Cache-Aside) |
| Vector compression | **Verified** | Microsoft Learn (92.5% reduction) |
| Agentic retrieval costs | **Verified** | Microsoft Learn example calculation |
| Model routing patterns | **Baseline** | Industry best practices |
| FinOps recommendations | **Baseline** | General cloud FinOps |

---

**Oppdateringsfrekvens:** Dette dokumentet bør oppdateres kvartalsvis eller ved store endringer i Azure pricing/features.