Updated 66 stale knowledge base reference files (10 critical, 56 high) across all 5 skills using Microsoft Learn MCP research. Key factual updates: - Groundedness Detection API: `correction` → `mitigating` param, `correctedText` → `correctionText` (breaking change) - Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini); Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx) - Agentic Retrieval: still public preview; 50M free tokens/month - Azure security baselines: "Cognitive Services" → "Foundry Tools" - Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines - MLflow 3 GenAI: new Feedback/Expectation data model - Token tracking doc: "Azure OpenAI in Foundry Models through a gateway" - Agent Registry: Risks column (M365 E7), Graph API (preview) - Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles - ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot - Zero Trust: CAE now via Conditional Access, Strict Location Enforcement - Purview: new Fabric Copilots/agents governance section - AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python) All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added. Build registry: 1341 URLs from 387 files (+2 new URLs). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
24 KiB
RAG Query Cost Optimization
Last updated: 2026-04 Status: GA Category: Cost Optimization & FinOps for AI
Introduksjon
Retrieval Augmented Generation (RAG) representerer en av de mest kostnadsintensive delene av AI-applikasjoner i produksjon. Mens utvikling og testing av RAG-løsninger kan virke rimelig, eskalerer kostnadene raskt når systemet møter produksjonsvolumer med hundrevis eller tusenvis av queries daglig. Hver query utløser en pipeline med minimum to LLM-kall (intent generation og response generation), embedding-operasjoner, search-queries mot Azure AI Search, og potensielt semantic ranking. For organisasjoner som bygger chat-løsninger eller copilots på Microsoft-stakken, er query-kostnader ofte den største driftskostnaden.
Optimalisering av RAG query-kostnader handler ikke bare om å redusere regningen. Det handler om å bygge sustainable AI-løsninger som kan skalere uten å eksplodere budsjettet. En typisk RAG-query i Azure OpenAI On Your Data kan forbruke mellom 4 000 og 6 000 tokens totalt, avhengig av modell og konfigurasjon. Med GPT-4, som koster betydelig mer enn GPT-3.5-Turbo, kan dette raskt bli en betydelig post i IT-budsjettet. Samtidig må man balansere kostnadsreduksjon mot kvalitet – aggressive optimaliseringer kan føre til dårligere svar og lavere brukertilfredshet.
Dette dokumentet dekker hele spekteret av kostnadsdrivere i RAG-pipelines: token-forbruk i LLM-kall, Azure AI Search-tier-kostnader, semantic ranking-avgifter, embedding-operasjoner, og infrastrukturkostnader. Du vil lære konkrete teknikker for å redusere kostnader med opptil 60-80% uten å kompromittere svarkvalitet, samt hvordan du bygger kostnadsbevisste arkitekturer fra start.
Kjernekomponenter
RAG Query Pipeline Cost Breakdown
En typisk Azure OpenAI On Your Data query gjennomløper følgende kostnadselementer:
| Komponent | Kostnadselement | Typisk andel av totalkostnad | Optimaliserings-potensial |
|---|---|---|---|
| Intent Generation | LLM tokens (input + output) | 15-20% | Middels (kan elimineres i enkelte scenarios) |
| Embedding Operations | Azure OpenAI embeddings (text-embedding-ada-002) | 5-10% | Lav (nødvendig for vector search) |
| Azure AI Search Query | Search tier (QPS, replicas, partitions) | 20-30% | Høy (tier-optimalisering, query reduction) |
| Semantic Ranking | Per-query semantic ranking fee | 10-15% | Høy (bruk kun når nødvendig) |
| Response Generation | LLM tokens (input + output) | 35-45% | Høy (chunk reduction, token optimization) |
| Network/Storage | Bandwidth, blob storage for caching | <5% | Lav |
Token Consumption per Model (Azure OpenAI On Your Data)
Basert på Microsoft Learn-data for standard konfigurasjon (5 retrieved documents, strictness=3, chunk size=1024):
| Model | Generation Prompt | Intent Prompt | Response Output | Intent Output | Total Avg |
|---|---|---|---|---|---|
| gpt-35-turbo-16k | 4 297 | 1 366 | 111 | 25 | 5 799 |
| gpt-4-0613 | 3 997 | 1 385 | 118 | 18 | 5 518 |
| gpt-4-1106-preview | 4 538 | 811 | 119 | 27 | 5 495 |
| gpt-35-turbo-1106 | 4 854 | 1 372 | 110 | 26 | 6 362 |
Verified (Microsoft Learn): Disse tallene er hentet fra offisiell Microsoft-dokumentasjon basert på testing med 191 samtaler, 250 spørsmål, 10 tokens per spørsmål i snitt, og 4 samtale-turns per samtale.
Azure AI Search Tier Costs (Estimated NOK/month)
| Tier | Partitions | Replicas | QPS Capacity | Storage | ~NOK/month | Best For |
|---|---|---|---|---|---|---|
| Basic | 1 | 3 | Moderate | 2 GB | 1 200 | Proof-of-concept, lav trafikk |
| S1 | 12 | 12 | High | 25 GB/partition | 2 800 | Produksjon, moderate volumer |
| S2 | 12 | 12 | Very High | 100 GB/partition | 11 200 | High-volume produksjon |
| S3 | 12 | 12 | Enterprise | 200 GB/partition | 22 400 | Enterprise-skala |
Baseline (Modellkunnskap): Prisene er omregnet fra USD til NOK (1 USD ≈ 11 NOK, februar 2026) og er veiledende.
Semantic Ranking Costs
Verified (Microsoft Learn): Semantic ranking er en premium-funksjon som påløper ekstra kostnader per query. Kostnaden er progressiv og varierer basert på volum:
- Første 1000 queries/måned: Inkludert i Basic tier eller høyere
- Påfølgende queries: Per-query avgift (se Azure pricing calculator for eksakte tall)
Semantic ranking forbedrer relevansscore betydelig, men kan øke query-kostnaden med 15-25% for høyvolumapplikasjoner.
Arkitekturmønstre
1. Lean Retrieval Pipeline
Prinsipp: Reduser antall tokens sendt til LLM ved å optimalisere retrieval-parametere og chunk-størrelser.
Implementering:
- Juster
topNDocuments: Start med 3 i stedet for default 5. Test om svarkvaliteten holder seg. - Optimaliser chunk size: Bruk 512 eller 768 tokens i stedet for 1024 for faktabaserte datasets.
- Øk
strictness: Sett til 4 eller 5 for å filtrere bort irrelevante dokumenter. - Limit responses to data: Alltid
inScope=truefor å redusere prompt-lengde.
Kostnadsreduksjon: 25-40% reduksjon i token-forbruk per query.
Trade-off: Kan misse kontekstuell informasjon i komplekse spørsmål. Krever testing.
Eksempel (Python API):
{
"data_sources": [{
"type": "AzureCognitiveSearch",
"parameters": {
"endpoint": SEARCH_ENDPOINT,
"indexName": INDEX_NAME,
"topNDocuments": 3, # Redusert fra 5
"strictness": 4, # Økt fra 3
"inScope": true
}
}],
"messages": [{"role": "user", "content": "Hva er SLA for tjenesten?"}]
}
2. Cached RAG (Cache-Aside Pattern)
Prinsipp: Bruk caching for å unngå gjentatte LLM-kall og search-operasjoner for identiske eller semantisk like queries.
Implementering:
- Query hash caching: Hash user query og returner cachet svar hvis match.
- Semantic cache: Bruk embedding similarity for å finne lignende tidligere queries (threshold ~0.95).
- Azure Redis Cache: Lagre (query_hash → response) med TTL basert på data freshness-krav.
- Enrichment caching: Bruk Azure AI Search enrichment cache for å gjenbruke chunking/embedding-resultater.
Kostnadsreduksjon: 50-70% for applikasjoner med repeterende spørsmål (FAQ, support bots).
Arkitektur:
User Query → Hash → Redis Lookup → [Cache Hit: Return]
→ [Cache Miss: RAG Pipeline → Cache Result]
Verified (Microsoft Learn): Enrichment caching er en built-in Azure AI Search-funksjon som lagrer mellomresultater fra AI enrichment-pipelines. Selv om caching medfører storage-kostnader, reduserer det den kumulative kostnaden for AI enrichment betydelig.
3. Tiered Retrieval (Hybrid Cost-Quality)
Prinsipp: Bruk billige modeller for intent detection og enkel retrieval, reserve dyre modeller for komplekse svar.
Implementering:
- Tier 1 (Keyword Search): Gratis utover search tier-kostnad. Bruk for enkle faktaspørsmål.
- Tier 2 (Vector Search): Påløper embedding-kostnader. Bruk for semantisk søk.
- Tier 3 (Hybrid + Semantic): Dyreste, men beste kvalitet. Reserve for kritiske queries.
- Model routing: Bruk GPT-3.5-Turbo for 80% av queries, GPT-4 for komplekse/kritiske queries.
Kostnadsreduksjon: 40-60% ved å bruke riktig search type og modell per query-type.
Beslutningslogikk:
if is_simple_fact_query(user_query):
search_type = "keyword"
model = "gpt-35-turbo"
elif is_semantic_query(user_query):
search_type = "vector"
model = "gpt-35-turbo"
else: # Complex reasoning
search_type = "hybrid_semantic"
model = "gpt-4"
4. Agentic Retrieval (Cost-Aware)
Status: Public Preview — Agentic Retrieval er foreløpig i public preview (ikke GA). (Verified MCP 2026-04)
Prinsipp: Azure AI Search Agentic Retrieval bruker LLM til å generere subqueries som kjøres parallelt. Dette kan være dyrt, men også mer effektivt enn multiple sequential queries.
Prismodell (public preview):
- Free tier: 50 millioner gratis agentic reasoning tokens/måned inkludert (på Basic tier og høyere)
- Standard tier: Pay-as-you-go etter at gratis kvota er brukt
Kostnadseksempel (Verified - Microsoft Learn):
- 2000 agentic retrievals med 3 subqueries per plan:
- Reranking: ~$3.30 (150M tokens @ $0.022/token)
- Input tokens (query planning): $0.60 (4M tokens @ $0.15/M)
- Output tokens (query planning): $0.42 (700K tokens @ $0.60/M)
- Total: ~$4.32 per 2000 queries = $0.00216 per query
Når bruke:
- Komplekse multi-facet spørsmål som ville krevd multiple manual queries.
- Når answer quality er kritisk og kostnaden kan rettferdiggjøres.
Cost control:
- 50M gratis tokens/mnd dekker typisk moderat bruk i utviklings- og testmiljøer.
- Sett
reasoning_efforttilminimalellerlow(ikkemedium). - Begrens antall subqueries per plan.
Beslutningsveiledning
Når bruke hvilken search type?
| Search Type | Kostnad | Kvalitet | Best For | Unngå Når |
|---|---|---|---|---|
| Keyword | Lavest | God for eksakte match | FAQ, produkt-IDs, enkle fakta | Semantisk forståelse nødvendig |
| Semantic | Moderat (+15-25%) | Bedre relevans | Kontekstuelle spørsmål, lignende begreper | Budsjettbegrensninger, høy QPS |
| Vector | Moderat (embedding cost) | Beste semantic match | Cross-lingual, similarity search | Small datasets, keyword-baserte behov |
| Hybrid | Høy (embedding + compute) | Balansert presisjon og recall | Generelle RAG-applikasjoner | Budsjettkritiske scenarios |
| Hybrid + Semantic | Høyest | Best overall | Enterprise-kritiske applikasjoner | Høyvolum, lavbudsjett |
Runtime Parameter Tuning for Cost Reduction
| Parameter | Default | Cost-Optimized | Quality-Optimized | Impact |
|---|---|---|---|---|
topNDocuments |
5 | 3 | 10 | Høy: Direkte token reduction |
strictness |
3 | 4-5 | 1-2 | Moderat: Filtrerer chunks |
chunk_size |
1024 | 512-768 | 1536 | Høy: Påvirker token/chunk |
inScope |
true | true | false | Moderat: Reduserer prompt complexity |
max_tokens (response) |
800 | 400 | 1500 | Høy: Direkte output cost |
Vanlige Feil
- Over-retrieval: Hente 10+ dokumenter når 3 holder. Fix: Start med 3, øk kun hvis nødvendig.
- Semantic ranking always-on: Bruke semantic ranking for alle queries. Fix: Enable kun for complex queries.
- Large chunk sizes: Bruke 1536 tokens for enkle FAQ. Fix: Test 512 tokens for faktabaserte datasets.
- No caching: Kjøre full RAG pipeline for identiske queries. Fix: Implementer Redis cache.
- Wrong model choice: Bruke GPT-4 for alle queries. Fix: Route 80% til GPT-3.5-Turbo.
- Ignoring conversation history: Sende full history i hver query. Fix: Truncate til siste 2-3 turns.
Røde Flagg
- Token explosion: Queries som konsumerer >8000 tokens regelmessig.
- Low cache hit rate: <20% cache hits i FAQ/support scenarios.
- High semantic ranking costs: Semantic ranking brukt i >70% av queries.
- Oversized search tier: S3 tier for <1000 queries/dag.
- No query monitoring: Manglende Cost Management dashboards.
Integrasjon med Microsoft-stakken
Azure OpenAI On Your Data
Verified (Microsoft Learn): Azure OpenAI On Your Data er den native RAG-løsningen i Microsoft-stakken. Kostnadsoptimalisering krever forståelse av hele pipeline:
-
Intent Generation (LLM call 1):
- Reformulerer user query til search intents.
- Kan elimineres ved å bruke direct query-to-search mapping for enkle use cases.
- Kostnadsreduksjon: ~20% ved å skippe intent generation for FAQ-bots.
-
Retrieval (Azure AI Search):
- Keyword/vector/semantic/hybrid search.
- Kostnad avhenger av tier, QPS, og search type.
-
Response Generation (LLM call 2):
- Største token consumer (35-45% av total).
- Optimaliser via chunk reduction og system message truncation.
Azure AI Search Optimization
Verified (Microsoft Learn): Kostnadsoptimalisering for Azure AI Search:
- Tier-riktig sizing: Basic for POC/dev, S1 for produksjon, S2+ for enterprise. Ikke overprovisjon.
- Partition optimization: Øk partitions kun når index size krever det, ikke for QPS.
- Replica optimization: Øk replicas kun ved høy QPS eller HA-krav.
- Autoscaling: Implementer code for å scale up/down basert på workload patterns.
- Region placement: Velg region med høyere storage per partition (April/May 2024 upgrade).
- Vector compression: Bruk scalar quantization for å redusere vector storage med opptil 92.5%.
Verified (Microsoft Learn): Vector compression techniques i Azure AI Search kan kutte vector-kostnader med opptil 92.5% via scalar/binary quantization uten betydelig kvalitetstap.
Azure Container Apps Load Balancing
Verified (Microsoft Learn): For å unngå throttling (429 errors) og quota limits:
- Multi-region deployment: Deploy Azure OpenAI resources i flere regioner.
- Container Apps load balancer: Bruk Azure Container Apps som load balancer foran multiple Azure OpenAI endpoints.
- Retry logic: Automatic retry til annen resource ved throttling.
- TPM quota management: Start med 30K TPM per instance, juster basert på behov.
Arkitektur:
User → Container App LB → [Azure OpenAI Region 1]
→ [Azure OpenAI Region 2]
→ [Azure OpenAI Region 3]
Prompt Flow & Azure Machine Learning
Verified (Microsoft Learn): Azure ML Pipelines gir granular kontroll over RAG workflow:
- Custom chunking strategies: Implementer dokumentspesifikk chunking for bedre token efficiency.
- Pipeline components: Data chunking, embeddings generation, test data creation, evaluation.
- Cost tracking: Logg token usage per pipeline step for granular cost analysis.
Copilot Studio Integration
Verified (Microsoft Learn): Deploy til Copilot Studio (preview) for multi-channel support:
- Single deployment cost: Deploy én gang, bruk i Teams, web, Dynamics 365.
- Tenant-level caching: Potensial for cross-user cache hits.
- Built-in analytics: Track query volume og cost per channel.
Offentlig sektor (Norge)
GDPR og Datasuverenitet
- Data residency: Velg Norway East/West regions for Azure AI Search og Azure OpenAI for å holde data innenfor EU/EØS.
- Logging constraints: Query logging for cost analysis må følge GDPR-krav for PII-data i queries.
- Caching compliance: Cached responses må følge samme retention policies som original data.
Budsjettprosesser
- Årlig budsjettcyklus: Implementer cost forecasting basert på forventet query volume.
- Cost allocation: Tag resources per avdeling/prosjekt for intern budsjettallokering.
- CapEx vs OpEx: RAG query-kostnader er typisk OpEx (pay-as-you-go). Vurder reserved instances for forutsigbare workloads.
Anskaffelsesprosesser
- Ramme-avtaler: Bruk statlige rammeavtaler for Azure-tjenester (SSA-avtaler).
- Cost transparency: Dokumenter kostnadsdrivere for å rettferdiggjøre AI-investeringer i politiske prosesser.
- Vendor lock-in mitigation: Design for portability mellom search providers (Azure AI Search, Elasticsearch, etc.).
Kostnad og lisensiering
Azure OpenAI Pricing (Estimated NOK)
Baseline (Modellkunnskap): Priser per 1M tokens (omregnet til NOK, februar 2026):
| Model | Input (NOK/1M tokens) | Output (NOK/1M tokens) | Best For |
|---|---|---|---|
| gpt-35-turbo | 5.5 | 17 | Høyvolum, cost-sensitive |
| gpt-35-turbo-16k | 33 | 44 | Moderate volumer, lenger context |
| gpt-4-0613 | 330 | 660 | Kompleks reasoning, lav volum |
| gpt-4-turbo | 110 | 330 | Balansert cost/quality |
| gpt-4o | 55 | 165 | Multimodal (text only i On Your Data) |
Embeddings Pricing
Verified (Microsoft Learn): text-embedding-ada-002 (kun supported model for On Your Data vector search):
- Cost: ~1.1 NOK per 1M tokens
- Use case: Vector search, semantic similarity
- Optimization: Cache embeddings for static documents, ikke regenerer.
Azure AI Search Pricing Summary
Verified (Microsoft Learn):
- Fixed cost: Search tier (Basic: ~1200 NOK/mnd, S1: ~2800 NOK/mnd, S2: ~11200 NOK/mnd)
- Variable cost: Semantic ranking per query (progressiv pricing etter 1000 queries/mnd)
- No query-based charges: Ikke per-query kostnad for keyword/vector search utover tier-kostnad.
Optimaliseringstips
- Model switching: Bruk GPT-3.5-Turbo for 80% av queries, spare 70-80% på LLM-kostnader.
- Batch processing: Hvis mulig, batch lignende queries for å redusere overhead.
- Reserved capacity: Vurder reserved capacity for Azure OpenAI ved forutsigbare workloads (20-40% rabatt).
- Spot instances: Ikke tilgjengelig for Azure OpenAI, men kan brukes for surrounding infrastructure.
- Data lifecycle: Slett gamle indexes/caches for å redusere storage costs.
Total Cost of Ownership (TCO) Eksempel
Scenario: 10 000 queries/måned, hybrid search, GPT-3.5-Turbo
| Komponent | Beregning | NOK/måned |
|---|---|---|
| Azure AI Search (S1) | 1 tier | 2 800 |
| LLM tokens (avg 5800/query) | 10K queries × 5800 tokens × 0.011 NOK/1K | 638 |
| Embeddings | 10K queries × 50 tokens × 0.0011 NOK/1K | 0.55 |
| Semantic ranking | 9K queries @ ~0.5 NOK/query | 4 500 |
| Storage (caching) | 50 GB @ 2 NOK/GB | 100 |
| Total | 8 038 |
Optimalisert scenario (samme kvalitet):
| Endring | Besparelse |
|---|---|
| Caching (50% hit rate) | -4 269 NOK (50% av LLM + semantic) |
| Keyword search for 30% av queries | -1 350 NOK |
| Reduser topNDocuments til 3 | -191 NOK |
| Ny total | 2 228 NOK/måned |
| Besparelse | 72% |
For arkitekten (Cosmo)
Spørsmål å Stille Kunden
- Query volume: "Hvor mange queries forventer dere per dag/måned i produksjon? Hva er peak vs. average?"
- Query complexity: "Er spørsmålene typisk enkle fakta-oppslag, eller komplekse multi-hop reasoning?"
- Data characteristics: "Hvor ofte endres datakilden? Kan vi cache aggressivt?"
- Quality requirements: "Hva er akseptabel presisjon? Kan vi trade noe kvalitet for kostnad?"
- Budget constraints: "Hva er månedsbudsjettet for RAG-kostnader? Er dette CapEx eller OpEx?"
- Compliance: "Må data holdes i Norge/EU? Kan vi cache queries med PII?"
- SLA: "Hva er akseptabel latency? Kan vi bruke async processing?"
- Monitoring: "Har dere eksisterende Cost Management dashboards? Hvem eier budsjettet?"
Fallgruver å Unngå
- Premature optimization: Ikke optimaliser før du har baseline-metrics. Mål først, optimaliser deretter.
- Over-caching: Caching av stale data kan gi feil svar. Sett riktig TTL basert på data freshness.
- Under-provisioned search: Basic tier for produksjon fører til throttling og dårlig UX.
- Ignoring conversation history costs: Lange samtaler kan eksplodere token usage. Truncate aggressivt.
- No cost attribution: Manglende tagging gjør det umulig å spore kostnader per team/prosjekt.
- Wrong embedding model: Bruk av andre embeddings enn text-embedding-ada-002 støttes ikke av On Your Data.
- Semantic ranking everywhere: Bruk kun semantic ranking når keyword/vector search er utilstrekkelig.
- No monitoring: Deploy uten Azure Monitor dashboards for cost/performance.
Anbefalinger per Modenhetsnivå
Nivå 1: Proof of Concept
- Bruk Basic tier for Azure AI Search.
- GPT-3.5-Turbo for alle queries.
- Keyword search kun.
- Ingen caching (kompleksitet ikke verdt det).
- Forventet kostnad: 1 500-3 000 NOK/måned for <1000 queries.
Nivå 2: Pilot/MVP
- Oppgrader til S1 tier.
- Implementer enkel Redis cache for FAQ.
- Hybrid search for semantic queries.
- GPT-3.5-Turbo som default, GPT-4 for <10% komplekse queries.
- Azure Monitor dashboards.
- Forventet kostnad: 5 000-15 000 NOK/måned for 5K-20K queries.
Nivå 3: Produksjon
- S1/S2 tier basert på load testing.
- Semantic cache (embedding similarity).
- Tiered retrieval (keyword/vector/semantic based on query type).
- Model routing (GPT-3.5/GPT-4).
- Autoscaling for search replicas.
- Cost attribution per team.
- Forventet kostnad: 20 000-100 000 NOK/måned for 50K-500K queries.
Nivå 4: Enterprise Scale
- Multi-region deployment med load balancing.
- Advanced caching strategies (query rewriting, semantic cache).
- Agentic retrieval for komplekse scenarios.
- Reserved capacity for Azure OpenAI.
- Real-time cost anomaly detection.
- FinOps team ownership.
- Forventet kostnad: 100 000-1 000 000+ NOK/måned for millions of queries.
Arkitekturmønster per Scenario
Scenario A: FAQ Bot (høy repetisjon)
- Search: Keyword only
- Caching: Aggressive (Redis, 80%+ hit rate)
- Model: GPT-3.5-Turbo
- Cost reduction: 60-80%
Scenario B: Dokumentasjonssøk (moderat repetisjon)
- Search: Hybrid (vector + keyword)
- Caching: Semantic cache (50% hit rate)
- Model: GPT-3.5-Turbo (90%), GPT-4 (10%)
- Cost reduction: 40-60%
Scenario C: Kompleks analyse (lav repetisjon)
- Search: Hybrid + Semantic
- Caching: Minimal (data freshness kritisk)
- Model: GPT-4 majority, GPT-4o for multimodal
- Cost reduction: 20-30% (via parameter tuning)
Kilder og verifisering
Microsoft Learn Sources
Verified:
- Plan and manage costs of an Azure AI Search service - Comprehensive cost minimization strategies, tier pricing, indexing optimization.
- Azure OpenAI On Your Data - Token usage estimation - Exact token consumption per model, RAG pipeline breakdown, parameter impacts.
- RAG chunking phase - Understand chunking economics - Cache-Aside pattern, cost factors for chunking strategies.
- Agentic retrieval in Azure AI Search - Pricing example - Detailed cost calculation for agentic retrieval with subqueries.
- Tips for better performance in Azure AI Search - Query design optimization, search tier switching, cost-performance balance.
- Retrieval-augmented Generation (RAG) in Azure AI Search - RAG challenges, solution patterns, security, performance optimization.
- Scale OpenAI chat with Azure Container Apps - Load balancing architecture, TPM quota management, throttling mitigation.
Baseline (Modellkunnskap):
- NOK pricing conversions (USD to NOK estimates)
- FinOps best practices for cloud cost optimization
- General RAG architecture patterns
Konfidensnivå per Seksjon
| Seksjon | Konfidens | Kilde |
|---|---|---|
| Token consumption table | Verified | Microsoft Learn official data |
| Azure AI Search tier costs | Baseline | Converted from USD pricing |
| Semantic ranking costs | Verified | Microsoft Learn |
| RAG pipeline breakdown | Verified | Microsoft Learn |
| Caching patterns | Verified | Microsoft Learn (Cache-Aside) |
| Vector compression | Verified | Microsoft Learn (92.5% reduction) |
| Agentic retrieval costs | Verified | Microsoft Learn example calculation |
| Model routing patterns | Baseline | Industry best practices |
| FinOps recommendations | Baseline | General cloud FinOps |
Oppdateringsfrekvens: Dette dokumentet bør oppdateres kvartalsvis eller ved store endringer i Azure pricing/features.