ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-security/references/cost-optimization/rag-query-cost-reduction.md
Kjell Tore Guttormsen ad8a411f38 docs(architect): weekly KB update — 66 files refreshed (2026-04)
Updated 66 stale knowledge base reference files (10 critical, 56 high)
across all 5 skills using Microsoft Learn MCP research.

Key factual updates:
- Groundedness Detection API: `correction` → `mitigating` param,
  `correctedText` → `correctionText` (breaking change)
- Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini);
  Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx)
- Agentic Retrieval: still public preview; 50M free tokens/month
- Azure security baselines: "Cognitive Services" → "Foundry Tools"
- Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines
- MLflow 3 GenAI: new Feedback/Expectation data model
- Token tracking doc: "Azure OpenAI in Foundry Models through a gateway"
- Agent Registry: Risks column (M365 E7), Graph API (preview)
- Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles
- ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot
- Zero Trust: CAE now via Conditional Access, Strict Location Enforcement
- Purview: new Fabric Copilots/agents governance section
- AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python)

All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added.
Build registry: 1341 URLs from 387 files (+2 new URLs).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-09 22:41:26 +02:00

24 KiB
Raw Blame History

RAG Query Cost Optimization

Last updated: 2026-04 Status: GA Category: Cost Optimization & FinOps for AI


Introduksjon

Retrieval Augmented Generation (RAG) representerer en av de mest kostnadsintensive delene av AI-applikasjoner i produksjon. Mens utvikling og testing av RAG-løsninger kan virke rimelig, eskalerer kostnadene raskt når systemet møter produksjonsvolumer med hundrevis eller tusenvis av queries daglig. Hver query utløser en pipeline med minimum to LLM-kall (intent generation og response generation), embedding-operasjoner, search-queries mot Azure AI Search, og potensielt semantic ranking. For organisasjoner som bygger chat-løsninger eller copilots på Microsoft-stakken, er query-kostnader ofte den største driftskostnaden.

Optimalisering av RAG query-kostnader handler ikke bare om å redusere regningen. Det handler om å bygge sustainable AI-løsninger som kan skalere uten å eksplodere budsjettet. En typisk RAG-query i Azure OpenAI On Your Data kan forbruke mellom 4 000 og 6 000 tokens totalt, avhengig av modell og konfigurasjon. Med GPT-4, som koster betydelig mer enn GPT-3.5-Turbo, kan dette raskt bli en betydelig post i IT-budsjettet. Samtidig må man balansere kostnadsreduksjon mot kvalitet aggressive optimaliseringer kan føre til dårligere svar og lavere brukertilfredshet.

Dette dokumentet dekker hele spekteret av kostnadsdrivere i RAG-pipelines: token-forbruk i LLM-kall, Azure AI Search-tier-kostnader, semantic ranking-avgifter, embedding-operasjoner, og infrastrukturkostnader. Du vil lære konkrete teknikker for å redusere kostnader med opptil 60-80% uten å kompromittere svarkvalitet, samt hvordan du bygger kostnadsbevisste arkitekturer fra start.

Kjernekomponenter

RAG Query Pipeline Cost Breakdown

En typisk Azure OpenAI On Your Data query gjennomløper følgende kostnadselementer:

Komponent Kostnadselement Typisk andel av totalkostnad Optimaliserings-potensial
Intent Generation LLM tokens (input + output) 15-20% Middels (kan elimineres i enkelte scenarios)
Embedding Operations Azure OpenAI embeddings (text-embedding-ada-002) 5-10% Lav (nødvendig for vector search)
Azure AI Search Query Search tier (QPS, replicas, partitions) 20-30% Høy (tier-optimalisering, query reduction)
Semantic Ranking Per-query semantic ranking fee 10-15% Høy (bruk kun når nødvendig)
Response Generation LLM tokens (input + output) 35-45% Høy (chunk reduction, token optimization)
Network/Storage Bandwidth, blob storage for caching <5% Lav

Token Consumption per Model (Azure OpenAI On Your Data)

Basert på Microsoft Learn-data for standard konfigurasjon (5 retrieved documents, strictness=3, chunk size=1024):

Model Generation Prompt Intent Prompt Response Output Intent Output Total Avg
gpt-35-turbo-16k 4 297 1 366 111 25 5 799
gpt-4-0613 3 997 1 385 118 18 5 518
gpt-4-1106-preview 4 538 811 119 27 5 495
gpt-35-turbo-1106 4 854 1 372 110 26 6 362

Verified (Microsoft Learn): Disse tallene er hentet fra offisiell Microsoft-dokumentasjon basert på testing med 191 samtaler, 250 spørsmål, 10 tokens per spørsmål i snitt, og 4 samtale-turns per samtale.

Azure AI Search Tier Costs (Estimated NOK/month)

Tier Partitions Replicas QPS Capacity Storage ~NOK/month Best For
Basic 1 3 Moderate 2 GB 1 200 Proof-of-concept, lav trafikk
S1 12 12 High 25 GB/partition 2 800 Produksjon, moderate volumer
S2 12 12 Very High 100 GB/partition 11 200 High-volume produksjon
S3 12 12 Enterprise 200 GB/partition 22 400 Enterprise-skala

Baseline (Modellkunnskap): Prisene er omregnet fra USD til NOK (1 USD ≈ 11 NOK, februar 2026) og er veiledende.

Semantic Ranking Costs

Verified (Microsoft Learn): Semantic ranking er en premium-funksjon som påløper ekstra kostnader per query. Kostnaden er progressiv og varierer basert på volum:

  • Første 1000 queries/måned: Inkludert i Basic tier eller høyere
  • Påfølgende queries: Per-query avgift (se Azure pricing calculator for eksakte tall)

Semantic ranking forbedrer relevansscore betydelig, men kan øke query-kostnaden med 15-25% for høyvolumapplikasjoner.

Arkitekturmønstre

1. Lean Retrieval Pipeline

Prinsipp: Reduser antall tokens sendt til LLM ved å optimalisere retrieval-parametere og chunk-størrelser.

Implementering:

  • Juster topNDocuments: Start med 3 i stedet for default 5. Test om svarkvaliteten holder seg.
  • Optimaliser chunk size: Bruk 512 eller 768 tokens i stedet for 1024 for faktabaserte datasets.
  • Øk strictness: Sett til 4 eller 5 for å filtrere bort irrelevante dokumenter.
  • Limit responses to data: Alltid inScope=true for å redusere prompt-lengde.

Kostnadsreduksjon: 25-40% reduksjon i token-forbruk per query.

Trade-off: Kan misse kontekstuell informasjon i komplekse spørsmål. Krever testing.

Eksempel (Python API):

{
    "data_sources": [{
        "type": "AzureCognitiveSearch",
        "parameters": {
            "endpoint": SEARCH_ENDPOINT,
            "indexName": INDEX_NAME,
            "topNDocuments": 3,  # Redusert fra 5
            "strictness": 4,      # Økt fra 3
            "inScope": true
        }
    }],
    "messages": [{"role": "user", "content": "Hva er SLA for tjenesten?"}]
}

2. Cached RAG (Cache-Aside Pattern)

Prinsipp: Bruk caching for å unngå gjentatte LLM-kall og search-operasjoner for identiske eller semantisk like queries.

Implementering:

  • Query hash caching: Hash user query og returner cachet svar hvis match.
  • Semantic cache: Bruk embedding similarity for å finne lignende tidligere queries (threshold ~0.95).
  • Azure Redis Cache: Lagre (query_hash → response) med TTL basert på data freshness-krav.
  • Enrichment caching: Bruk Azure AI Search enrichment cache for å gjenbruke chunking/embedding-resultater.

Kostnadsreduksjon: 50-70% for applikasjoner med repeterende spørsmål (FAQ, support bots).

Arkitektur:

User Query → Hash → Redis Lookup → [Cache Hit: Return]
                                 → [Cache Miss: RAG Pipeline → Cache Result]

Verified (Microsoft Learn): Enrichment caching er en built-in Azure AI Search-funksjon som lagrer mellomresultater fra AI enrichment-pipelines. Selv om caching medfører storage-kostnader, reduserer det den kumulative kostnaden for AI enrichment betydelig.

3. Tiered Retrieval (Hybrid Cost-Quality)

Prinsipp: Bruk billige modeller for intent detection og enkel retrieval, reserve dyre modeller for komplekse svar.

Implementering:

  • Tier 1 (Keyword Search): Gratis utover search tier-kostnad. Bruk for enkle faktaspørsmål.
  • Tier 2 (Vector Search): Påløper embedding-kostnader. Bruk for semantisk søk.
  • Tier 3 (Hybrid + Semantic): Dyreste, men beste kvalitet. Reserve for kritiske queries.
  • Model routing: Bruk GPT-3.5-Turbo for 80% av queries, GPT-4 for komplekse/kritiske queries.

Kostnadsreduksjon: 40-60% ved å bruke riktig search type og modell per query-type.

Beslutningslogikk:

if is_simple_fact_query(user_query):
    search_type = "keyword"
    model = "gpt-35-turbo"
elif is_semantic_query(user_query):
    search_type = "vector"
    model = "gpt-35-turbo"
else:  # Complex reasoning
    search_type = "hybrid_semantic"
    model = "gpt-4"

4. Agentic Retrieval (Cost-Aware)

Status: Public Preview — Agentic Retrieval er foreløpig i public preview (ikke GA). (Verified MCP 2026-04)

Prinsipp: Azure AI Search Agentic Retrieval bruker LLM til å generere subqueries som kjøres parallelt. Dette kan være dyrt, men også mer effektivt enn multiple sequential queries.

Prismodell (public preview):

  • Free tier: 50 millioner gratis agentic reasoning tokens/måned inkludert (på Basic tier og høyere)
  • Standard tier: Pay-as-you-go etter at gratis kvota er brukt

Kostnadseksempel (Verified - Microsoft Learn):

  • 2000 agentic retrievals med 3 subqueries per plan:
    • Reranking: ~$3.30 (150M tokens @ $0.022/token)
    • Input tokens (query planning): $0.60 (4M tokens @ $0.15/M)
    • Output tokens (query planning): $0.42 (700K tokens @ $0.60/M)
    • Total: ~$4.32 per 2000 queries = $0.00216 per query

Når bruke:

  • Komplekse multi-facet spørsmål som ville krevd multiple manual queries.
  • Når answer quality er kritisk og kostnaden kan rettferdiggjøres.

Cost control:

  • 50M gratis tokens/mnd dekker typisk moderat bruk i utviklings- og testmiljøer.
  • Sett reasoning_effort til minimal eller low (ikke medium).
  • Begrens antall subqueries per plan.

Beslutningsveiledning

Når bruke hvilken search type?

Search Type Kostnad Kvalitet Best For Unngå Når
Keyword Lavest God for eksakte match FAQ, produkt-IDs, enkle fakta Semantisk forståelse nødvendig
Semantic Moderat (+15-25%) Bedre relevans Kontekstuelle spørsmål, lignende begreper Budsjettbegrensninger, høy QPS
Vector Moderat (embedding cost) Beste semantic match Cross-lingual, similarity search Small datasets, keyword-baserte behov
Hybrid Høy (embedding + compute) Balansert presisjon og recall Generelle RAG-applikasjoner Budsjettkritiske scenarios
Hybrid + Semantic Høyest Best overall Enterprise-kritiske applikasjoner Høyvolum, lavbudsjett

Runtime Parameter Tuning for Cost Reduction

Parameter Default Cost-Optimized Quality-Optimized Impact
topNDocuments 5 3 10 Høy: Direkte token reduction
strictness 3 4-5 1-2 Moderat: Filtrerer chunks
chunk_size 1024 512-768 1536 Høy: Påvirker token/chunk
inScope true true false Moderat: Reduserer prompt complexity
max_tokens (response) 800 400 1500 Høy: Direkte output cost

Vanlige Feil

  1. Over-retrieval: Hente 10+ dokumenter når 3 holder. Fix: Start med 3, øk kun hvis nødvendig.
  2. Semantic ranking always-on: Bruke semantic ranking for alle queries. Fix: Enable kun for complex queries.
  3. Large chunk sizes: Bruke 1536 tokens for enkle FAQ. Fix: Test 512 tokens for faktabaserte datasets.
  4. No caching: Kjøre full RAG pipeline for identiske queries. Fix: Implementer Redis cache.
  5. Wrong model choice: Bruke GPT-4 for alle queries. Fix: Route 80% til GPT-3.5-Turbo.
  6. Ignoring conversation history: Sende full history i hver query. Fix: Truncate til siste 2-3 turns.

Røde Flagg

  • Token explosion: Queries som konsumerer >8000 tokens regelmessig.
  • Low cache hit rate: <20% cache hits i FAQ/support scenarios.
  • High semantic ranking costs: Semantic ranking brukt i >70% av queries.
  • Oversized search tier: S3 tier for <1000 queries/dag.
  • No query monitoring: Manglende Cost Management dashboards.

Integrasjon med Microsoft-stakken

Azure OpenAI On Your Data

Verified (Microsoft Learn): Azure OpenAI On Your Data er den native RAG-løsningen i Microsoft-stakken. Kostnadsoptimalisering krever forståelse av hele pipeline:

  1. Intent Generation (LLM call 1):

    • Reformulerer user query til search intents.
    • Kan elimineres ved å bruke direct query-to-search mapping for enkle use cases.
    • Kostnadsreduksjon: ~20% ved å skippe intent generation for FAQ-bots.
  2. Retrieval (Azure AI Search):

    • Keyword/vector/semantic/hybrid search.
    • Kostnad avhenger av tier, QPS, og search type.
  3. Response Generation (LLM call 2):

    • Største token consumer (35-45% av total).
    • Optimaliser via chunk reduction og system message truncation.

Azure AI Search Optimization

Verified (Microsoft Learn): Kostnadsoptimalisering for Azure AI Search:

  • Tier-riktig sizing: Basic for POC/dev, S1 for produksjon, S2+ for enterprise. Ikke overprovisjon.
  • Partition optimization: Øk partitions kun når index size krever det, ikke for QPS.
  • Replica optimization: Øk replicas kun ved høy QPS eller HA-krav.
  • Autoscaling: Implementer code for å scale up/down basert på workload patterns.
  • Region placement: Velg region med høyere storage per partition (April/May 2024 upgrade).
  • Vector compression: Bruk scalar quantization for å redusere vector storage med opptil 92.5%.

Verified (Microsoft Learn): Vector compression techniques i Azure AI Search kan kutte vector-kostnader med opptil 92.5% via scalar/binary quantization uten betydelig kvalitetstap.

Azure Container Apps Load Balancing

Verified (Microsoft Learn): For å unngå throttling (429 errors) og quota limits:

  • Multi-region deployment: Deploy Azure OpenAI resources i flere regioner.
  • Container Apps load balancer: Bruk Azure Container Apps som load balancer foran multiple Azure OpenAI endpoints.
  • Retry logic: Automatic retry til annen resource ved throttling.
  • TPM quota management: Start med 30K TPM per instance, juster basert på behov.

Arkitektur:

User → Container App LB → [Azure OpenAI Region 1]
                        → [Azure OpenAI Region 2]
                        → [Azure OpenAI Region 3]

Prompt Flow & Azure Machine Learning

Verified (Microsoft Learn): Azure ML Pipelines gir granular kontroll over RAG workflow:

  • Custom chunking strategies: Implementer dokumentspesifikk chunking for bedre token efficiency.
  • Pipeline components: Data chunking, embeddings generation, test data creation, evaluation.
  • Cost tracking: Logg token usage per pipeline step for granular cost analysis.

Copilot Studio Integration

Verified (Microsoft Learn): Deploy til Copilot Studio (preview) for multi-channel support:

  • Single deployment cost: Deploy én gang, bruk i Teams, web, Dynamics 365.
  • Tenant-level caching: Potensial for cross-user cache hits.
  • Built-in analytics: Track query volume og cost per channel.

Offentlig sektor (Norge)

GDPR og Datasuverenitet

  • Data residency: Velg Norway East/West regions for Azure AI Search og Azure OpenAI for å holde data innenfor EU/EØS.
  • Logging constraints: Query logging for cost analysis må følge GDPR-krav for PII-data i queries.
  • Caching compliance: Cached responses må følge samme retention policies som original data.

Budsjettprosesser

  • Årlig budsjettcyklus: Implementer cost forecasting basert på forventet query volume.
  • Cost allocation: Tag resources per avdeling/prosjekt for intern budsjettallokering.
  • CapEx vs OpEx: RAG query-kostnader er typisk OpEx (pay-as-you-go). Vurder reserved instances for forutsigbare workloads.

Anskaffelsesprosesser

  • Ramme-avtaler: Bruk statlige rammeavtaler for Azure-tjenester (SSA-avtaler).
  • Cost transparency: Dokumenter kostnadsdrivere for å rettferdiggjøre AI-investeringer i politiske prosesser.
  • Vendor lock-in mitigation: Design for portability mellom search providers (Azure AI Search, Elasticsearch, etc.).

Kostnad og lisensiering

Azure OpenAI Pricing (Estimated NOK)

Baseline (Modellkunnskap): Priser per 1M tokens (omregnet til NOK, februar 2026):

Model Input (NOK/1M tokens) Output (NOK/1M tokens) Best For
gpt-35-turbo 5.5 17 Høyvolum, cost-sensitive
gpt-35-turbo-16k 33 44 Moderate volumer, lenger context
gpt-4-0613 330 660 Kompleks reasoning, lav volum
gpt-4-turbo 110 330 Balansert cost/quality
gpt-4o 55 165 Multimodal (text only i On Your Data)

Embeddings Pricing

Verified (Microsoft Learn): text-embedding-ada-002 (kun supported model for On Your Data vector search):

  • Cost: ~1.1 NOK per 1M tokens
  • Use case: Vector search, semantic similarity
  • Optimization: Cache embeddings for static documents, ikke regenerer.

Azure AI Search Pricing Summary

Verified (Microsoft Learn):

  • Fixed cost: Search tier (Basic: ~1200 NOK/mnd, S1: ~2800 NOK/mnd, S2: ~11200 NOK/mnd)
  • Variable cost: Semantic ranking per query (progressiv pricing etter 1000 queries/mnd)
  • No query-based charges: Ikke per-query kostnad for keyword/vector search utover tier-kostnad.

Optimaliseringstips

  1. Model switching: Bruk GPT-3.5-Turbo for 80% av queries, spare 70-80% på LLM-kostnader.
  2. Batch processing: Hvis mulig, batch lignende queries for å redusere overhead.
  3. Reserved capacity: Vurder reserved capacity for Azure OpenAI ved forutsigbare workloads (20-40% rabatt).
  4. Spot instances: Ikke tilgjengelig for Azure OpenAI, men kan brukes for surrounding infrastructure.
  5. Data lifecycle: Slett gamle indexes/caches for å redusere storage costs.

Total Cost of Ownership (TCO) Eksempel

Scenario: 10 000 queries/måned, hybrid search, GPT-3.5-Turbo

Komponent Beregning NOK/måned
Azure AI Search (S1) 1 tier 2 800
LLM tokens (avg 5800/query) 10K queries × 5800 tokens × 0.011 NOK/1K 638
Embeddings 10K queries × 50 tokens × 0.0011 NOK/1K 0.55
Semantic ranking 9K queries @ ~0.5 NOK/query 4 500
Storage (caching) 50 GB @ 2 NOK/GB 100
Total 8 038

Optimalisert scenario (samme kvalitet):

Endring Besparelse
Caching (50% hit rate) -4 269 NOK (50% av LLM + semantic)
Keyword search for 30% av queries -1 350 NOK
Reduser topNDocuments til 3 -191 NOK
Ny total 2 228 NOK/måned
Besparelse 72%

For arkitekten (Cosmo)

Spørsmål å Stille Kunden

  1. Query volume: "Hvor mange queries forventer dere per dag/måned i produksjon? Hva er peak vs. average?"
  2. Query complexity: "Er spørsmålene typisk enkle fakta-oppslag, eller komplekse multi-hop reasoning?"
  3. Data characteristics: "Hvor ofte endres datakilden? Kan vi cache aggressivt?"
  4. Quality requirements: "Hva er akseptabel presisjon? Kan vi trade noe kvalitet for kostnad?"
  5. Budget constraints: "Hva er månedsbudsjettet for RAG-kostnader? Er dette CapEx eller OpEx?"
  6. Compliance: "Må data holdes i Norge/EU? Kan vi cache queries med PII?"
  7. SLA: "Hva er akseptabel latency? Kan vi bruke async processing?"
  8. Monitoring: "Har dere eksisterende Cost Management dashboards? Hvem eier budsjettet?"

Fallgruver å Unngå

  1. Premature optimization: Ikke optimaliser før du har baseline-metrics. Mål først, optimaliser deretter.
  2. Over-caching: Caching av stale data kan gi feil svar. Sett riktig TTL basert på data freshness.
  3. Under-provisioned search: Basic tier for produksjon fører til throttling og dårlig UX.
  4. Ignoring conversation history costs: Lange samtaler kan eksplodere token usage. Truncate aggressivt.
  5. No cost attribution: Manglende tagging gjør det umulig å spore kostnader per team/prosjekt.
  6. Wrong embedding model: Bruk av andre embeddings enn text-embedding-ada-002 støttes ikke av On Your Data.
  7. Semantic ranking everywhere: Bruk kun semantic ranking når keyword/vector search er utilstrekkelig.
  8. No monitoring: Deploy uten Azure Monitor dashboards for cost/performance.

Anbefalinger per Modenhetsnivå

Nivå 1: Proof of Concept

  • Bruk Basic tier for Azure AI Search.
  • GPT-3.5-Turbo for alle queries.
  • Keyword search kun.
  • Ingen caching (kompleksitet ikke verdt det).
  • Forventet kostnad: 1 500-3 000 NOK/måned for <1000 queries.

Nivå 2: Pilot/MVP

  • Oppgrader til S1 tier.
  • Implementer enkel Redis cache for FAQ.
  • Hybrid search for semantic queries.
  • GPT-3.5-Turbo som default, GPT-4 for <10% komplekse queries.
  • Azure Monitor dashboards.
  • Forventet kostnad: 5 000-15 000 NOK/måned for 5K-20K queries.

Nivå 3: Produksjon

  • S1/S2 tier basert på load testing.
  • Semantic cache (embedding similarity).
  • Tiered retrieval (keyword/vector/semantic based on query type).
  • Model routing (GPT-3.5/GPT-4).
  • Autoscaling for search replicas.
  • Cost attribution per team.
  • Forventet kostnad: 20 000-100 000 NOK/måned for 50K-500K queries.

Nivå 4: Enterprise Scale

  • Multi-region deployment med load balancing.
  • Advanced caching strategies (query rewriting, semantic cache).
  • Agentic retrieval for komplekse scenarios.
  • Reserved capacity for Azure OpenAI.
  • Real-time cost anomaly detection.
  • FinOps team ownership.
  • Forventet kostnad: 100 000-1 000 000+ NOK/måned for millions of queries.

Arkitekturmønster per Scenario

Scenario A: FAQ Bot (høy repetisjon)

  • Search: Keyword only
  • Caching: Aggressive (Redis, 80%+ hit rate)
  • Model: GPT-3.5-Turbo
  • Cost reduction: 60-80%

Scenario B: Dokumentasjonssøk (moderat repetisjon)

  • Search: Hybrid (vector + keyword)
  • Caching: Semantic cache (50% hit rate)
  • Model: GPT-3.5-Turbo (90%), GPT-4 (10%)
  • Cost reduction: 40-60%

Scenario C: Kompleks analyse (lav repetisjon)

  • Search: Hybrid + Semantic
  • Caching: Minimal (data freshness kritisk)
  • Model: GPT-4 majority, GPT-4o for multimodal
  • Cost reduction: 20-30% (via parameter tuning)

Kilder og verifisering

Microsoft Learn Sources

Verified:

  1. Plan and manage costs of an Azure AI Search service - Comprehensive cost minimization strategies, tier pricing, indexing optimization.
  2. Azure OpenAI On Your Data - Token usage estimation - Exact token consumption per model, RAG pipeline breakdown, parameter impacts.
  3. RAG chunking phase - Understand chunking economics - Cache-Aside pattern, cost factors for chunking strategies.
  4. Agentic retrieval in Azure AI Search - Pricing example - Detailed cost calculation for agentic retrieval with subqueries.
  5. Tips for better performance in Azure AI Search - Query design optimization, search tier switching, cost-performance balance.
  6. Retrieval-augmented Generation (RAG) in Azure AI Search - RAG challenges, solution patterns, security, performance optimization.
  7. Scale OpenAI chat with Azure Container Apps - Load balancing architecture, TPM quota management, throttling mitigation.

Baseline (Modellkunnskap):

  • NOK pricing conversions (USD to NOK estimates)
  • FinOps best practices for cloud cost optimization
  • General RAG architecture patterns

Konfidensnivå per Seksjon

Seksjon Konfidens Kilde
Token consumption table Verified Microsoft Learn official data
Azure AI Search tier costs Baseline Converted from USD pricing
Semantic ranking costs Verified Microsoft Learn
RAG pipeline breakdown Verified Microsoft Learn
Caching patterns Verified Microsoft Learn (Cache-Aside)
Vector compression Verified Microsoft Learn (92.5% reduction)
Agentic retrieval costs Verified Microsoft Learn example calculation
Model routing patterns Baseline Industry best practices
FinOps recommendations Baseline General cloud FinOps

Oppdateringsfrekvens: Dette dokumentet bør oppdateres kvartalsvis eller ved store endringer i Azure pricing/features.