Kjell Tore Guttormsen ad8a411f38 docs(architect): weekly KB update — 66 files refreshed (2026-04)

Updated 66 stale knowledge base reference files (10 critical, 56 high)
across all 5 skills using Microsoft Learn MCP research.

Key factual updates:
- Groundedness Detection API: `correction` → `mitigating` param,
  `correctedText` → `correctionText` (breaking change)
- Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini);
  Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx)
- Agentic Retrieval: still public preview; 50M free tokens/month
- Azure security baselines: "Cognitive Services" → "Foundry Tools"
- Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines
- MLflow 3 GenAI: new Feedback/Expectation data model
- Token tracking doc: "Azure OpenAI in Foundry Models through a gateway"
- Agent Registry: Risks column (M365 E7), Graph API (preview)
- Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles
- ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot
- Zero Trust: CAE now via Conditional Access, Strict Location Enforcement
- Purview: new Fabric Copilots/agents governance section
- AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python)

All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added.
Build registry: 1341 URLs from 387 files (+2 new URLs).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-09 22:41:26 +02:00

24 KiB

Raw Blame History

RAG Query Cost Optimization

Last updated: 2026-04 Status: GA Category: Cost Optimization & FinOps for AI

Introduksjon

Retrieval Augmented Generation (RAG) representerer en av de mest kostnadsintensive delene av AI-applikasjoner i produksjon. Mens utvikling og testing av RAG-løsninger kan virke rimelig, eskalerer kostnadene raskt når systemet møter produksjonsvolumer med hundrevis eller tusenvis av queries daglig. Hver query utløser en pipeline med minimum to LLM-kall (intent generation og response generation), embedding-operasjoner, search-queries mot Azure AI Search, og potensielt semantic ranking. For organisasjoner som bygger chat-løsninger eller copilots på Microsoft-stakken, er query-kostnader ofte den største driftskostnaden.

Optimalisering av RAG query-kostnader handler ikke bare om å redusere regningen. Det handler om å bygge sustainable AI-løsninger som kan skalere uten å eksplodere budsjettet. En typisk RAG-query i Azure OpenAI On Your Data kan forbruke mellom 4 000 og 6 000 tokens totalt, avhengig av modell og konfigurasjon. Med GPT-4, som koster betydelig mer enn GPT-3.5-Turbo, kan dette raskt bli en betydelig post i IT-budsjettet. Samtidig må man balansere kostnadsreduksjon mot kvalitet – aggressive optimaliseringer kan føre til dårligere svar og lavere brukertilfredshet.

Dette dokumentet dekker hele spekteret av kostnadsdrivere i RAG-pipelines: token-forbruk i LLM-kall, Azure AI Search-tier-kostnader, semantic ranking-avgifter, embedding-operasjoner, og infrastrukturkostnader. Du vil lære konkrete teknikker for å redusere kostnader med opptil 60-80% uten å kompromittere svarkvalitet, samt hvordan du bygger kostnadsbevisste arkitekturer fra start.

Kjernekomponenter

RAG Query Pipeline Cost Breakdown

En typisk Azure OpenAI On Your Data query gjennomløper følgende kostnadselementer:

Komponent	Kostnadselement	Typisk andel av totalkostnad	Optimaliserings-potensial
Intent Generation	LLM tokens (input + output)	15-20%	Middels (kan elimineres i enkelte scenarios)
Embedding Operations	Azure OpenAI embeddings (text-embedding-ada-002)	5-10%	Lav (nødvendig for vector search)
Azure AI Search Query	Search tier (QPS, replicas, partitions)	20-30%	Høy (tier-optimalisering, query reduction)
Semantic Ranking	Per-query semantic ranking fee	10-15%	Høy (bruk kun når nødvendig)
Response Generation	LLM tokens (input + output)	35-45%	Høy (chunk reduction, token optimization)
Network/Storage	Bandwidth, blob storage for caching	<5%	Lav

Token Consumption per Model (Azure OpenAI On Your Data)

Basert på Microsoft Learn-data for standard konfigurasjon (5 retrieved documents, strictness=3, chunk size=1024):

Model	Generation Prompt	Intent Prompt	Response Output	Intent Output	Total Avg
gpt-35-turbo-16k	4 297	1 366	111	25	5 799
gpt-4-0613	3 997	1 385	118	18	5 518
gpt-4-1106-preview	4 538	811	119	27	5 495
gpt-35-turbo-1106	4 854	1 372	110	26	6 362

Verified (Microsoft Learn): Disse tallene er hentet fra offisiell Microsoft-dokumentasjon basert på testing med 191 samtaler, 250 spørsmål, 10 tokens per spørsmål i snitt, og 4 samtale-turns per samtale.

Azure AI Search Tier Costs (Estimated NOK/month)

Tier	Partitions	Replicas	QPS Capacity	Storage	~NOK/month	Best For
Basic	1	3	Moderate	2 GB	1 200	Proof-of-concept, lav trafikk
S1	12	12	High	25 GB/partition	2 800	Produksjon, moderate volumer
S2	12	12	Very High	100 GB/partition	11 200	High-volume produksjon
S3	12	12	Enterprise	200 GB/partition	22 400	Enterprise-skala

Baseline (Modellkunnskap): Prisene er omregnet fra USD til NOK (1 USD ≈ 11 NOK, februar 2026) og er veiledende.

Semantic Ranking Costs

Verified (Microsoft Learn): Semantic ranking er en premium-funksjon som påløper ekstra kostnader per query. Kostnaden er progressiv og varierer basert på volum:

Første 1000 queries/måned: Inkludert i Basic tier eller høyere
Påfølgende queries: Per-query avgift (se Azure pricing calculator for eksakte tall)

Semantic ranking forbedrer relevansscore betydelig, men kan øke query-kostnaden med 15-25% for høyvolumapplikasjoner.

Arkitekturmønstre

1. Lean Retrieval Pipeline

Prinsipp: Reduser antall tokens sendt til LLM ved å optimalisere retrieval-parametere og chunk-størrelser.

Implementering:

Juster topNDocuments: Start med 3 i stedet for default 5. Test om svarkvaliteten holder seg.
Optimaliser chunk size: Bruk 512 eller 768 tokens i stedet for 1024 for faktabaserte datasets.
Øk strictness: Sett til 4 eller 5 for å filtrere bort irrelevante dokumenter.
Limit responses to data: Alltid inScope=true for å redusere prompt-lengde.

Kostnadsreduksjon: 25-40% reduksjon i token-forbruk per query.

Trade-off: Kan misse kontekstuell informasjon i komplekse spørsmål. Krever testing.

Eksempel (Python API):

{
    "data_sources": [{
        "type": "AzureCognitiveSearch",
        "parameters": {
            "endpoint": SEARCH_ENDPOINT,
            "indexName": INDEX_NAME,
            "topNDocuments": 3,  # Redusert fra 5
            "strictness": 4,      # Økt fra 3
            "inScope": true
        }
    }],
    "messages": [{"role": "user", "content": "Hva er SLA for tjenesten?"}]
}

2. Cached RAG (Cache-Aside Pattern)

Prinsipp: Bruk caching for å unngå gjentatte LLM-kall og search-operasjoner for identiske eller semantisk like queries.

Implementering:

Query hash caching: Hash user query og returner cachet svar hvis match.
Semantic cache: Bruk embedding similarity for å finne lignende tidligere queries (threshold ~0.95).
Azure Redis Cache: Lagre (query_hash → response) med TTL basert på data freshness-krav.
Enrichment caching: Bruk Azure AI Search enrichment cache for å gjenbruke chunking/embedding-resultater.

Kostnadsreduksjon: 50-70% for applikasjoner med repeterende spørsmål (FAQ, support bots).

Arkitektur:

User Query → Hash → Redis Lookup → [Cache Hit: Return]
                                 → [Cache Miss: RAG Pipeline → Cache Result]

Verified (Microsoft Learn): Enrichment caching er en built-in Azure AI Search-funksjon som lagrer mellomresultater fra AI enrichment-pipelines. Selv om caching medfører storage-kostnader, reduserer det den kumulative kostnaden for AI enrichment betydelig.

3. Tiered Retrieval (Hybrid Cost-Quality)

Prinsipp: Bruk billige modeller for intent detection og enkel retrieval, reserve dyre modeller for komplekse svar.

Implementering:

Tier 1 (Keyword Search): Gratis utover search tier-kostnad. Bruk for enkle faktaspørsmål.
Tier 2 (Vector Search): Påløper embedding-kostnader. Bruk for semantisk søk.
Tier 3 (Hybrid + Semantic): Dyreste, men beste kvalitet. Reserve for kritiske queries.
Model routing: Bruk GPT-3.5-Turbo for 80% av queries, GPT-4 for komplekse/kritiske queries.

Kostnadsreduksjon: 40-60% ved å bruke riktig search type og modell per query-type.

Beslutningslogikk:

if is_simple_fact_query(user_query):
    search_type = "keyword"
    model = "gpt-35-turbo"
elif is_semantic_query(user_query):
    search_type = "vector"
    model = "gpt-35-turbo"
else:  # Complex reasoning
    search_type = "hybrid_semantic"
    model = "gpt-4"

4. Agentic Retrieval (Cost-Aware)

Status: Public Preview — Agentic Retrieval er foreløpig i public preview (ikke GA). (Verified MCP 2026-04)

Prinsipp: Azure AI Search Agentic Retrieval bruker LLM til å generere subqueries som kjøres parallelt. Dette kan være dyrt, men også mer effektivt enn multiple sequential queries.

Prismodell (public preview):

Free tier: 50 millioner gratis agentic reasoning tokens/måned inkludert (på Basic tier og høyere)
Standard tier: Pay-as-you-go etter at gratis kvota er brukt

Kostnadseksempel (Verified - Microsoft Learn):

2000 agentic retrievals med 3 subqueries per plan:
- Reranking: ~$3.30 (150M tokens @ $0.022/token)
- Input tokens (query planning): $0.60 (4M tokens @ $0.15/M)
- Output tokens (query planning): $0.42 (700K tokens @ $0.60/M)
- Total: ~$4.32 per 2000 queries = $0.00216 per query

Når bruke:

Komplekse multi-facet spørsmål som ville krevd multiple manual queries.
Når answer quality er kritisk og kostnaden kan rettferdiggjøres.

Cost control:

50M gratis tokens/mnd dekker typisk moderat bruk i utviklings- og testmiljøer.
Sett reasoning_effort til minimal eller low (ikke medium).
Begrens antall subqueries per plan.

Beslutningsveiledning

Når bruke hvilken search type?

Search Type	Kostnad	Kvalitet	Best For	Unngå Når
Keyword	Lavest	God for eksakte match	FAQ, produkt-IDs, enkle fakta	Semantisk forståelse nødvendig
Semantic	Moderat (+15-25%)	Bedre relevans	Kontekstuelle spørsmål, lignende begreper	Budsjettbegrensninger, høy QPS
Vector	Moderat (embedding cost)	Beste semantic match	Cross-lingual, similarity search	Small datasets, keyword-baserte behov
Hybrid	Høy (embedding + compute)	Balansert presisjon og recall	Generelle RAG-applikasjoner	Budsjettkritiske scenarios
Hybrid + Semantic	Høyest	Best overall	Enterprise-kritiske applikasjoner	Høyvolum, lavbudsjett

Runtime Parameter Tuning for Cost Reduction

Parameter	Default	Cost-Optimized	Quality-Optimized	Impact
`topNDocuments`	5	3	10	Høy: Direkte token reduction
`strictness`	3	4-5	1-2	Moderat: Filtrerer chunks
`chunk_size`	1024	512-768	1536	Høy: Påvirker token/chunk
`inScope`	true	true	false	Moderat: Reduserer prompt complexity
`max_tokens` (response)	800	400	1500	Høy: Direkte output cost

Vanlige Feil

Over-retrieval: Hente 10+ dokumenter når 3 holder. Fix: Start med 3, øk kun hvis nødvendig.
Semantic ranking always-on: Bruke semantic ranking for alle queries. Fix: Enable kun for complex queries.
Large chunk sizes: Bruke 1536 tokens for enkle FAQ. Fix: Test 512 tokens for faktabaserte datasets.
No caching: Kjøre full RAG pipeline for identiske queries. Fix: Implementer Redis cache.
Wrong model choice: Bruke GPT-4 for alle queries. Fix: Route 80% til GPT-3.5-Turbo.
Ignoring conversation history: Sende full history i hver query. Fix: Truncate til siste 2-3 turns.

Røde Flagg

Token explosion: Queries som konsumerer >8000 tokens regelmessig.
Low cache hit rate: <20% cache hits i FAQ/support scenarios.
High semantic ranking costs: Semantic ranking brukt i >70% av queries.
Oversized search tier: S3 tier for <1000 queries/dag.
No query monitoring: Manglende Cost Management dashboards.

Integrasjon med Microsoft-stakken

Azure OpenAI On Your Data

Verified (Microsoft Learn): Azure OpenAI On Your Data er den native RAG-løsningen i Microsoft-stakken. Kostnadsoptimalisering krever forståelse av hele pipeline:

Intent Generation (LLM call 1):
- Reformulerer user query til search intents.
- Kan elimineres ved å bruke direct query-to-search mapping for enkle use cases.
- Kostnadsreduksjon: ~20% ved å skippe intent generation for FAQ-bots.
Retrieval (Azure AI Search):
- Keyword/vector/semantic/hybrid search.
- Kostnad avhenger av tier, QPS, og search type.
Response Generation (LLM call 2):
- Største token consumer (35-45% av total).
- Optimaliser via chunk reduction og system message truncation.

Azure AI Search Optimization

Verified (Microsoft Learn): Kostnadsoptimalisering for Azure AI Search:

Tier-riktig sizing: Basic for POC/dev, S1 for produksjon, S2+ for enterprise. Ikke overprovisjon.
Partition optimization: Øk partitions kun når index size krever det, ikke for QPS.
Replica optimization: Øk replicas kun ved høy QPS eller HA-krav.
Autoscaling: Implementer code for å scale up/down basert på workload patterns.
Region placement: Velg region med høyere storage per partition (April/May 2024 upgrade).
Vector compression: Bruk scalar quantization for å redusere vector storage med opptil 92.5%.

Verified (Microsoft Learn): Vector compression techniques i Azure AI Search kan kutte vector-kostnader med opptil 92.5% via scalar/binary quantization uten betydelig kvalitetstap.

Azure Container Apps Load Balancing

Verified (Microsoft Learn): For å unngå throttling (429 errors) og quota limits:

Multi-region deployment: Deploy Azure OpenAI resources i flere regioner.
Container Apps load balancer: Bruk Azure Container Apps som load balancer foran multiple Azure OpenAI endpoints.
Retry logic: Automatic retry til annen resource ved throttling.
TPM quota management: Start med 30K TPM per instance, juster basert på behov.

Arkitektur:

User → Container App LB → [Azure OpenAI Region 1]
                        → [Azure OpenAI Region 2]
                        → [Azure OpenAI Region 3]

Prompt Flow & Azure Machine Learning

Verified (Microsoft Learn): Azure ML Pipelines gir granular kontroll over RAG workflow:

Custom chunking strategies: Implementer dokumentspesifikk chunking for bedre token efficiency.
Pipeline components: Data chunking, embeddings generation, test data creation, evaluation.
Cost tracking: Logg token usage per pipeline step for granular cost analysis.

Copilot Studio Integration

Verified (Microsoft Learn): Deploy til Copilot Studio (preview) for multi-channel support:

Single deployment cost: Deploy én gang, bruk i Teams, web, Dynamics 365.
Tenant-level caching: Potensial for cross-user cache hits.
Built-in analytics: Track query volume og cost per channel.

Offentlig sektor (Norge)

Data residency: Velg Norway East/West regions for Azure AI Search og Azure OpenAI for å holde data innenfor EU/EØS.
Logging constraints: Query logging for cost analysis må følge GDPR-krav for PII-data i queries.
Caching compliance: Cached responses må følge samme retention policies som original data.

Budsjettprosesser

Årlig budsjettcyklus: Implementer cost forecasting basert på forventet query volume.
Cost allocation: Tag resources per avdeling/prosjekt for intern budsjettallokering.
CapEx vs OpEx: RAG query-kostnader er typisk OpEx (pay-as-you-go). Vurder reserved instances for forutsigbare workloads.

Anskaffelsesprosesser

Ramme-avtaler: Bruk statlige rammeavtaler for Azure-tjenester (SSA-avtaler).
Cost transparency: Dokumenter kostnadsdrivere for å rettferdiggjøre AI-investeringer i politiske prosesser.
Vendor lock-in mitigation: Design for portability mellom search providers (Azure AI Search, Elasticsearch, etc.).

Kostnad og lisensiering

Azure OpenAI Pricing (Estimated NOK)

Baseline (Modellkunnskap): Priser per 1M tokens (omregnet til NOK, februar 2026):

Model	Input (NOK/1M tokens)	Output (NOK/1M tokens)	Best For
gpt-35-turbo	5.5	17	Høyvolum, cost-sensitive
gpt-35-turbo-16k	33	44	Moderate volumer, lenger context
gpt-4-0613	330	660	Kompleks reasoning, lav volum
gpt-4-turbo	110	330	Balansert cost/quality
gpt-4o	55	165	Multimodal (text only i On Your Data)

Embeddings Pricing

Verified (Microsoft Learn): text-embedding-ada-002 (kun supported model for On Your Data vector search):

Cost: ~1.1 NOK per 1M tokens
Use case: Vector search, semantic similarity
Optimization: Cache embeddings for static documents, ikke regenerer.

Azure AI Search Pricing Summary

Verified (Microsoft Learn):

Fixed cost: Search tier (Basic: ~1200 NOK/mnd, S1: ~2800 NOK/mnd, S2: ~11200 NOK/mnd)
Variable cost: Semantic ranking per query (progressiv pricing etter 1000 queries/mnd)
No query-based charges: Ikke per-query kostnad for keyword/vector search utover tier-kostnad.

Optimaliseringstips

Model switching: Bruk GPT-3.5-Turbo for 80% av queries, spare 70-80% på LLM-kostnader.
Batch processing: Hvis mulig, batch lignende queries for å redusere overhead.
Reserved capacity: Vurder reserved capacity for Azure OpenAI ved forutsigbare workloads (20-40% rabatt).
Spot instances: Ikke tilgjengelig for Azure OpenAI, men kan brukes for surrounding infrastructure.
Data lifecycle: Slett gamle indexes/caches for å redusere storage costs.

Total Cost of Ownership (TCO) Eksempel

Scenario: 10 000 queries/måned, hybrid search, GPT-3.5-Turbo

Komponent	Beregning	NOK/måned
Azure AI Search (S1)	1 tier	2 800
LLM tokens (avg 5800/query)	10K queries × 5800 tokens × 0.011 NOK/1K	638
Embeddings	10K queries × 50 tokens × 0.0011 NOK/1K	0.55
Semantic ranking	9K queries @ ~0.5 NOK/query	4 500
Storage (caching)	50 GB @ 2 NOK/GB	100
Total		8 038

Optimalisert scenario (samme kvalitet):

Endring	Besparelse
Caching (50% hit rate)	-4 269 NOK (50% av LLM + semantic)
Keyword search for 30% av queries	-1 350 NOK
Reduser topNDocuments til 3	-191 NOK
Ny total	2 228 NOK/måned
Besparelse	72%

For arkitekten (Cosmo)

Spørsmål å Stille Kunden

Query volume: "Hvor mange queries forventer dere per dag/måned i produksjon? Hva er peak vs. average?"
Query complexity: "Er spørsmålene typisk enkle fakta-oppslag, eller komplekse multi-hop reasoning?"
Data characteristics: "Hvor ofte endres datakilden? Kan vi cache aggressivt?"
Quality requirements: "Hva er akseptabel presisjon? Kan vi trade noe kvalitet for kostnad?"
Budget constraints: "Hva er månedsbudsjettet for RAG-kostnader? Er dette CapEx eller OpEx?"
Compliance: "Må data holdes i Norge/EU? Kan vi cache queries med PII?"
SLA: "Hva er akseptabel latency? Kan vi bruke async processing?"
Monitoring: "Har dere eksisterende Cost Management dashboards? Hvem eier budsjettet?"

Fallgruver å Unngå

Premature optimization: Ikke optimaliser før du har baseline-metrics. Mål først, optimaliser deretter.
Over-caching: Caching av stale data kan gi feil svar. Sett riktig TTL basert på data freshness.
Under-provisioned search: Basic tier for produksjon fører til throttling og dårlig UX.
Ignoring conversation history costs: Lange samtaler kan eksplodere token usage. Truncate aggressivt.
No cost attribution: Manglende tagging gjør det umulig å spore kostnader per team/prosjekt.
Wrong embedding model: Bruk av andre embeddings enn text-embedding-ada-002 støttes ikke av On Your Data.
Semantic ranking everywhere: Bruk kun semantic ranking når keyword/vector search er utilstrekkelig.
No monitoring: Deploy uten Azure Monitor dashboards for cost/performance.

Anbefalinger per Modenhetsnivå

Nivå 1: Proof of Concept

Bruk Basic tier for Azure AI Search.
GPT-3.5-Turbo for alle queries.
Keyword search kun.
Ingen caching (kompleksitet ikke verdt det).
Forventet kostnad: 1 500-3 000 NOK/måned for <1000 queries.

Nivå 2: Pilot/MVP

Oppgrader til S1 tier.
Implementer enkel Redis cache for FAQ.
Hybrid search for semantic queries.
GPT-3.5-Turbo som default, GPT-4 for <10% komplekse queries.
Azure Monitor dashboards.
Forventet kostnad: 5 000-15 000 NOK/måned for 5K-20K queries.

Nivå 3: Produksjon

S1/S2 tier basert på load testing.
Semantic cache (embedding similarity).
Tiered retrieval (keyword/vector/semantic based on query type).
Model routing (GPT-3.5/GPT-4).
Autoscaling for search replicas.
Cost attribution per team.
Forventet kostnad: 20 000-100 000 NOK/måned for 50K-500K queries.

Nivå 4: Enterprise Scale

Multi-region deployment med load balancing.
Advanced caching strategies (query rewriting, semantic cache).
Agentic retrieval for komplekse scenarios.
Reserved capacity for Azure OpenAI.
Real-time cost anomaly detection.
FinOps team ownership.
Forventet kostnad: 100 000-1 000 000+ NOK/måned for millions of queries.

Arkitekturmønster per Scenario

Scenario A: FAQ Bot (høy repetisjon)

Search: Keyword only
Caching: Aggressive (Redis, 80%+ hit rate)
Model: GPT-3.5-Turbo
Cost reduction: 60-80%

Scenario B: Dokumentasjonssøk (moderat repetisjon)

Search: Hybrid (vector + keyword)
Caching: Semantic cache (50% hit rate)
Model: GPT-3.5-Turbo (90%), GPT-4 (10%)
Cost reduction: 40-60%

Scenario C: Kompleks analyse (lav repetisjon)

Search: Hybrid + Semantic
Caching: Minimal (data freshness kritisk)
Model: GPT-4 majority, GPT-4o for multimodal
Cost reduction: 20-30% (via parameter tuning)

Kilder og verifisering

Microsoft Learn Sources

Verified:

Plan and manage costs of an Azure AI Search service - Comprehensive cost minimization strategies, tier pricing, indexing optimization.
Azure OpenAI On Your Data - Token usage estimation - Exact token consumption per model, RAG pipeline breakdown, parameter impacts.
RAG chunking phase - Understand chunking economics - Cache-Aside pattern, cost factors for chunking strategies.
Agentic retrieval in Azure AI Search - Pricing example - Detailed cost calculation for agentic retrieval with subqueries.
Tips for better performance in Azure AI Search - Query design optimization, search tier switching, cost-performance balance.
Retrieval-augmented Generation (RAG) in Azure AI Search - RAG challenges, solution patterns, security, performance optimization.
Scale OpenAI chat with Azure Container Apps - Load balancing architecture, TPM quota management, throttling mitigation.

Baseline (Modellkunnskap):

NOK pricing conversions (USD to NOK estimates)
FinOps best practices for cloud cost optimization
General RAG architecture patterns

Konfidensnivå per Seksjon

Seksjon	Konfidens	Kilde
Token consumption table	Verified	Microsoft Learn official data
Azure AI Search tier costs	Baseline	Converted from USD pricing
Semantic ranking costs	Verified	Microsoft Learn
RAG pipeline breakdown	Verified	Microsoft Learn
Caching patterns	Verified	Microsoft Learn (Cache-Aside)
Vector compression	Verified	Microsoft Learn (92.5% reduction)
Agentic retrieval costs	Verified	Microsoft Learn example calculation
Model routing patterns	Baseline	Industry best practices
FinOps recommendations	Baseline	General cloud FinOps

Oppdateringsfrekvens: Dette dokumentet bør oppdateres kvartalsvis eller ved store endringer i Azure pricing/features.

24 KiB Raw Blame History Unescape Escape

RAG Query Cost Optimization

Introduksjon

Kjernekomponenter

RAG Query Pipeline Cost Breakdown

Token Consumption per Model (Azure OpenAI On Your Data)

Azure AI Search Tier Costs (Estimated NOK/month)

Semantic Ranking Costs

Arkitekturmønstre

1. Lean Retrieval Pipeline

2. Cached RAG (Cache-Aside Pattern)

3. Tiered Retrieval (Hybrid Cost-Quality)

4. Agentic Retrieval (Cost-Aware)

Beslutningsveiledning

Når bruke hvilken search type?

Runtime Parameter Tuning for Cost Reduction

Vanlige Feil

Røde Flagg

Integrasjon med Microsoft-stakken

Azure OpenAI On Your Data

Azure AI Search Optimization

Azure Container Apps Load Balancing

Prompt Flow & Azure Machine Learning

Copilot Studio Integration

Offentlig sektor (Norge)

GDPR og Datasuverenitet

Budsjettprosesser

Anskaffelsesprosesser

Kostnad og lisensiering

Azure OpenAI Pricing (Estimated NOK)

Embeddings Pricing

Azure AI Search Pricing Summary

Optimaliseringstips

Total Cost of Ownership (TCO) Eksempel

For arkitekten (Cosmo)

Spørsmål å Stille Kunden

Fallgruver å Unngå

Anbefalinger per Modenhetsnivå

Arkitekturmønster per Scenario

Kilder og verifisering

Microsoft Learn Sources

Konfidensnivå per Seksjon

24 KiB

Raw Blame History