Initial addition of ms-ai-architect plugin to the open-source marketplace. Private content excluded: orchestrator/ (Linear tooling), docs/utredning/ (client investigation), generated test reports and PDF export script. skill-gen tooling moved from orchestrator/ to scripts/skill-gen/. Security scan: WARNING (risk 20/100) — no secrets, no injection found. False positive fixed: added gitleaks:allow to Python variable reference in output-validation-grounding-verification.md line 109. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
11 KiB
Agentic RAG Patterns — Agent-styrt retrieval
Last updated: 2026-02 Status: GA (Semantic Kernel), Preview (Azure AI Search agentic retrieval) Category: RAG Architecture & Semantic Search
Introduksjon
Agentic RAG representerer et paradigmeskifte fra statisk til autonom retrieval. I tradisjonell RAG er retrieval-flyten hardkodet: embed query → søk → generer svar. I agentic RAG bestemmer LLM-en selv om, når og hvilke kilder den henter fra, basert på dynamisk vurdering av informasjonsbehov.
Microsoft tilbyr tre primære implementeringsveier: Semantic Kernel (code-first RAG med TextSearchProvider), Microsoft Agent Framework (produksjonsklart, merged fra AutoGen + SK), og Azure AI Search agentic retrieval (managed service med automatisk query decomposition).
Agentic RAG gir dokumentert 34% bedre accuracy og 28% reduksjon i hallusinasjoner sammenlignet med single-query RAG, fordi agenter kan reformulere spørsmål, velge optimal kilde, og iterere til svaret er tilfredsstillende.
Kjernekomponenter
Agentic retrieval loop
Loop:
Agent vurderer informasjonsbehov
├─ Tilstrekkelig info? → Generer svar
└─ Utilstrekkelig? → Velg verktøy → Hent data → Vurder → Fortsett
Semantic Kernel — Retrieval timing
| Modus | Beskrivelse | Brukstilfelle |
|---|---|---|
| BeforeAIInvoke (default) | Automatisk søk før hver agent-invokasjon | Enkel RAG, konsistent kontekst |
| OnDemandFunctionCalling | Agent bestemmer selv når den søker | Agentic RAG, selektiv retrieval |
Azure AI Search agentic retrieval — 4-stegs prosess
- Workflow initiation: App sender query + konversasjonshistorikk til knowledge base
- Query planning: LLM dekomponerer kompleks query i fokuserte subqueries
- Query execution: Subqueries kjøres parallelt med semantic reranking per subquery
- Result synthesis: 3-delt respons: Grounding Data + Reference Data + Activity Plan
Sammenligning: Klassisk RAG vs. Agentic Retrieval
| Aspekt | Klassisk single-query | Agentic multi-query |
|---|---|---|
| Query-tilnærming | Én «catch-all» query | Multiple fokuserte subqueries |
| Kontekstbruk | Begrenset | Full chat history |
| Dekomponering | Manuell/statisk | LLM-driven, automatisert |
| Eksekvering | Sekvensiell | Parallell |
| Reranking | Standard L2 | Semantisk reranking per subquery |
| Prismodell | Per query (1 000 queries) | Token-basert (1M tokens) |
Arkitekturmønstre
Mønster 1: Semantic Kernel RAG med TextSearchProvider
Arkitektur: Semantic Kernel Agent → TextSearchProvider → Azure AI Search VectorStore → Embedding
Implementering (C#):
var embeddingGenerator = new AzureOpenAIClient(
new Uri("<endpoint>"), new AzureCliCredential())
.GetEmbeddingClient("<deployment>")
.AsIEmbeddingGenerator(1536);
var vectorStore = new InMemoryVectorStore(
new() { EmbeddingGenerator = embeddingGenerator });
using var textSearchStore = new TextSearchStore<string>(
vectorStore, "KnowledgeBase", vectorDimensions: 1536);
ChatCompletionAgent agent = new()
{
Name = "Assistant",
Instructions = "Use search to find relevant information",
Kernel = kernel,
UseImmutableKernel = true // Kreves for OnDemandFunctionCalling
};
ChatHistoryAgentThread agentThread = new();
agentThread.AIContextProviders.Add(
new TextSearchProvider(textSearchStore));
Fordeler:
- Full kontroll over retrieval-logikk
- Støtter Azure AI Search, Qdrant, Pinecone, Redis
- Namespace-filtrering for multi-tenant
Status: Eksperimentell (subject to change).
Mønster 2: Tool-basert RAG med multiple retrieval-backends
Arkitektur: Agent → [Tool 1: Product Search] + [Tool 2: Policy Search] + [Tool 3: SQL Query] → Fusjonert svar
Implementering (Python, Microsoft Agent Framework):
product_search = product_collection.create_search_function(
function_name="search_products",
description="Search for product information and specs.",
search_type="semantic_hybrid",
).as_agent_framework_tool()
policy_search = policy_collection.create_search_function(
function_name="search_policies",
description="Search for company policies and procedures.",
search_type="keyword_hybrid",
).as_agent_framework_tool()
agent = chat_client.as_agent(
instructions="Use appropriate search tool before answering. Cite sources.",
tools=[product_search, policy_search]
)
Nøkkel: Agenten analyserer query og velger riktig tool basert på description — ingen hardkodet routing.
Fordeler:
- Skalerbar: legg til nye kilder som tools
- LLM-drevet routing (ikke regelbasert)
- Kan kombinere resultater fra flere backends
Anbefalt for: Enterprise med multiple kunnskapskilder.
Mønster 3: Azure AI Search managed agentic retrieval
Arkitektur: App → Azure AI Search Knowledge Agent → Automatisk query decomposition → Parallelle subqueries → Reranked results
Fordeler:
- Fully managed — ingen custom orchestration-kode
- Automatisk query planning basert på chat history
- Built-in semantic reranking per subquery
- 3-delt response med grounding + citations + activity plan
Begrensninger:
- Kun single index per agentic retrieval instance
- Krever semantic ranker (S1+ tier)
- Preview status (API 2025-11-01-preview)
Prising:
- Free tier: 50M agentic reasoning tokens/mnd
- Standard: Token-basert ($0.022/token)
Anbefalt for: Teams som vil ha agentic RAG uten custom infrastruktur.
Mønster 4: Multi-agent RAG orchestration
Arkitektur: Orchestrator Agent → [Specialist Agent 1] + [Specialist Agent 2] + ... → Aggregert svar
Orchestration patterns (Semantic Kernel):
| Pattern | Beskrivelse | Brukstilfelle |
|---|---|---|
| Sequential | Pipeline — agents i rekkefølge | Draft → Review → Polish |
| Concurrent | Parallell analyse | Finans fra ulike perspektiver |
| Handoff | Dynamisk delegering | Kundeservice triage |
| Group Chat | Collaborative diskusjon | Kvalitetsvalidering |
Anbefalt for: Komplekse use cases der ulike domeneeksperter trengs.
Beslutningsveiledning
Beslutningstabell
| Scenario | Query-kompleksitet | Anbefalt mønster |
|---|---|---|
| Enkel Q&A | Lav | Mønster 1 (BeforeAIInvoke) |
| Multiple kilder | Middels | Mønster 2 (tool-basert) |
| Konversasjonell AI | Høy | Mønster 3 (managed agentic) |
| Domene-ekspertise | Høy | Mønster 4 (multi-agent) |
| Budsjett-begrenset | Alle | Mønster 1 (BeforeAIInvoke) |
Vanlige feil
| Feil | Konsekvens | Løsning |
|---|---|---|
| Multi-agent uten behov | Økt kompleksitet og kostnad | Vurder single agent med multiple tools først |
Glemmer UseImmutableKernel = true |
OnDemandFunctionCalling feiler | Alltid sett dette for agentic RAG i SK |
| Ingen timeout/retry | Agent henger ved LLM-feil | Implementer circuit breaker og retry logic |
| For mange agents i group chat | Infinite loops | Begrens til 3 agenter |
Røde flagg
- Agentic RAG for enkle lookup-queries (overkill)
- Ingen observability/logging av agent-beslutninger
- Preview-tjenester i produksjon uten fallback-plan
- Multi-agent uten tydelig spesialisering per agent
Integrasjon med Microsoft-stakken
| Tjeneste | Integrasjonspunkt |
|---|---|
| Azure AI Search | Agentic retrieval (preview), vector store, hybrid search |
| Semantic Kernel | TextSearchProvider, agent orchestration patterns |
| Microsoft Agent Framework | VectorStore bridge, tool-basert RAG |
| Azure AI Foundry | Prompt Flow for visual DAG orchestration |
| Azure OpenAI | GPT-4o for query planning, function calling |
| Application Insights | Agent decision logging, token tracking |
Offentlig sektor (Norge)
Dataplassering
- Azure AI Search agentic retrieval: Sjekk regional tilgjengelighet (endres)
- Semantic Kernel: Kjøres i egen infrastruktur — full kontroll
- Azure OpenAI (function calling): Sweden Central — data i EU/EØS
Relevante vurderinger
| Krav | Implikasjon |
|---|---|
| AI Act | Agent-beslutninger må logges og forklares |
| Forvaltningsloven | Automatiserte avgjørelser krever human oversight |
| GDPR | Agent-logger som inneholder persondata krever databehandleravtale |
| NSM | Gradert info → on-premises agent-infrastruktur |
Kostnad og lisensiering
Kostnadssammenligning
| Mønster | Kostnad per query | Notat |
|---|---|---|
| Klassisk RAG (single query) | ~1 NOK | Embedding + search + LLM |
| Agentic retrieval (managed) | ~2-5 NOK | Token-basert, query decomposition |
| Tool-basert RAG (2-3 tools) | ~3-8 NOK | Multiple search + LLM calls |
| Multi-agent (3 agents) | ~5-15 NOK | Flere LLM-kall per query |
Optimaliseringstips
- Bruk gpt-4o-mini for query planning (raskere, billigere)
- Implementer semantic caching for gjentatte queries
- BeforeAIInvoke for enkle queries (sparer tool-calling overhead)
- Monitor token usage via Application Insights
For arkitekten (Cosmo)
Spørsmål å stille kunden
- "Hvor komplekse er typiske bruker-spørsmål?" — Enkle lookup → klassisk RAG, komplekse → agentic
- "Har dere multiple kunnskapskilder?" — >2 kilder → tool-basert RAG
- "Er konversasjonshistorikk viktig?" — Ja → agentic retrieval med chat history
- "Hva er akseptabel kostnad per query?" — Agentic = 2-15x dyrere
- "Trenger dere forklarbare agent-beslutninger?" — Compliance → logging av activity plan
Fallgruver
- Agentic for alt: Single-query RAG dekker 70% av use cases — start der
- Preview-avhengighet: Azure AI Search agentic retrieval er preview — ha fallback
- Agent-explosion: For mange spesialist-agenter = uforutsigbar oppførsel
Anbefalinger per modenhetsnivå
| Modenhet | Anbefaling |
|---|---|
| Prototyp | Klassisk RAG med hybrid search + semantic ranker. |
| Pilot | Semantic Kernel med BeforeAIInvoke + single tool. |
| Produksjon | Tool-basert RAG med 2-3 backends. OnDemandFunctionCalling. |
| Enterprise | Azure AI Search agentic retrieval + multi-agent for komplekse workflows. |
Kilder og verifisering
| Kilde | Konfidens | URL |
|---|---|---|
| Adding RAG to Semantic Kernel Agents | Verified | learn.microsoft.com |
| Agentic Retrieval (Azure AI Search) | Verified | learn.microsoft.com |
| Agent RAG (Microsoft Agent Framework) | Verified | learn.microsoft.com |
| AI Agent Design Patterns | Verified | learn.microsoft.com |
| Semantic Kernel Agent Orchestration | Verified | learn.microsoft.com |
| Multi-agent performance (34% accuracy) | Baseline | Community source (ragaboutit.com) |