Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering, ms-ai-governance, ms-ai-security, ms-ai-infrastructure. Key changes: - Language Services (Custom Text Classification, Text Analytics, QnA): retirement warning 2029-03-31, migration guides to Foundry/GPT-4o - Agentic Retrieval: 50M free reasoning tokens/month (Public Preview) - Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models - Agent Registry: Risks column (M365 E7), user-shared/org-published types - Declarative agents: schema v1.5 → v1.6, Store validation requirements - MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code - AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python) - Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access - Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned - Fast Transcription API: phrase lists, 14-language multi-lingual transcription - Azure Monitor Workbooks: Bicep support, RBAC specifics - Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA) - RAG security-rbac: 4-approach table (GA + 3 preview access control methods) - IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns - Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP) All 106 files: Last updated 2026-04 | Verified: MCP 2026-04 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
14 KiB
Multimodal RAG — Bilder, tabeller og dokumenter i RAG
Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA (Document Intelligence, Content Understanding), Preview (multimodal embeddings) Category: RAG Architecture & Semantic Search
Introduksjon
Multimodal RAG utvider tradisjonell tekstbasert retrieval til å inkludere bilder, tabeller, diagrammer og andre visuelle elementer i RAG-pipelinen. For enterprise-organisasjoner betyr dette at PDF-rapporter med grafer, tekniske tegninger, og presentasjoner med figurer kan indekseres og hentes med full visuell kontekst.
Azure-stakken tilbyr tre komplementære tilnærminger: Image verbalization (GPT-4o/4v konverterer bilder til tekst), direkte multimodale embeddings (Azure Vision genererer vektorer for bilder og tekst i samme vektorrom), og Azure Content Understanding (GA nov 2025) som konverterer komplekse dokumenter til Markdown med LaTeX-equations, HTML-tables og semantic chunking.
Microsoft ISE-teamet anbefaler en kombinert tilnærming: GPT-4v for bildeberikelse (bedre recall) og GPT-4o for inferens (bedre kvalitet, hastighet og kostnad).
Kjernekomponenter
Ekstraksjonsskills
| Skill | Tekst | Bilder | Tabeller | Kryss-sideenheter | Formater |
|---|---|---|---|---|---|
| Document Extraction | Nei | Ja | Nei | N/A | Kun PDF |
| Document Layout | Ja | Ja | Nei | Kun innen side | Flere formater |
| Content Understanding | Ja | Ja | Ja (kryss-side) | Ja | PDF, DOCX, XLSX, PPTX |
Anbefaling: Azure Content Understanding for moderne multimodal RAG-pipelines.
Multimodal embedding-tilnærminger
| Tilnærming | Metode | Fordel | Ulempe |
|---|---|---|---|
| Image verbalization | GPT-4o/4v → tekst → text embedding | Semantisk forståelse, gode captions | LLM-kall per bilde, økt tid |
| Direct multimodal embeddings | Azure Vision → bilde/tekst-vektor | Rask, effektiv, visuell likhet | Mangler semantisk kontekst |
| Kombinert (anbefalt) | Verbalize diagrammer + direct embed fotos | Maksimerer begge styrker | Kompleksere pipeline |
Azure Vision multimodal embeddings
- Modell: Azure Vision multimodal via Microsoft Foundry
- Dimensjoner: 1024 per vektor (tekst og bilde)
- Nøkkel: Tekst og bilder projiseres i samme vektorrom
Arkitekturmønstre
Mønster 1: Image verbalization + text embeddings
Arkitektur: Blob Storage → Indexer → Image extraction → GenAI Prompt skill (GPT-4o/4v) → Text description → Azure OpenAI Embedding → Index
Pipeline:
Dokument → Document Layout skill (ekstraher bilder)
→ GenAI Prompt skill:
"Beskriv dette bildet i kontekst av dokumentet: {image}"
→ Text embedding skill (text-embedding-3-large)
→ Index (med image description + embedding)
Fordeler:
- Tolker relasjoner og entiteter i diagrammer
- Ferdiglagde captions for RAG-bruk
- Semantisk forståelse for AI-agenter
- Returner relevante snippets med grunnlagsdata
Brukstilfelle: Rapporter med flytdiagrammer, organisasjonskart, arkitekturdiagrammer.
Mønster 2: Direct multimodal embeddings
Arkitektur: Blob Storage → Indexer → Image extraction → Azure Vision Vectorize skill → Index
Skill-konfigurasjon:
{
"@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
"name": "image-embedding-skill",
"context": "/document/normalized_images/*",
"modelVersion": "2023-04-15",
"inputs": [{"name": "image", "source": "/document/normalized_images/*"}],
"outputs": [{"name": "vector", "targetName": "image_vector"}]
}
Fordeler:
- Enkel konfigurasjon — ingen LLM-kall
- Effektiv for visuell likhetssøk
- Ideell for «finn noe som ligner»-scenarier
Brukstilfelle: Fotoarkiver, produktbilder, skjermbilder.
Mønster 3: Combined multimodal pipeline (anbefalt)
Arkitektur: Router basert på bildetype → [Diagram: verbalize] + [Foto: direct embed] → Felles index med multi-vector felt
Index-schema:
{
"fields": [
{ "name": "content_embedding", "type": "Collection(Edm.Single)",
"dimensions": 1024, "searchable": true,
"vectorSearchProfile": "hnsw" },
{ "name": "content_text", "type": "Edm.String", "searchable": true },
{ "name": "content_path", "type": "Edm.String", "retrievable": true },
{ "name": "page_number", "type": "Edm.Int32", "filterable": true },
{ "name": "content_type", "type": "Edm.String", "filterable": true }
]
}
Index projections (tekst + bilder i samme indeks):
{
"indexProjections": {
"selectors": [
{
"targetIndexName": "multimodal-index",
"parentKeyFieldName": "text_document_id",
"sourceContext": "/document/pages/*",
"mappings": [
{"name": "content_embedding", "source": "/document/pages/*/text_vector"},
{"name": "content_text", "source": "/document/pages/*"}
]
},
{
"targetKeyFieldName": "image_document_id",
"sourceContext": "/document/normalized_images/*",
"mappings": [
{"name": "content_embedding", "source": "/document/normalized_images/*/image_vector"},
{"name": "content_path", "source": "/document/normalized_images/*/imagePath"}
]
}
]
}
}
Azure Content Understanding for RAG
Markdown-output (GA nov 2025)
Content Understanding konverterer dokumenter til GitHub Flavored Markdown:
| Innholdstype | Representasjon | Eksempel |
|---|---|---|
| Tabeller | HTML markup med rowspan/colspan |
<table><tr><th>Header</th></tr></table> |
| Ligninger | LaTeX | $$a^2 + b^2 = c^2$$ |
| Diagrammer | Chart.js JSON eller Mermaid | Interaktiv grafgjengivelse |
| Bilder |  |
Med valgfri analyse |
| Sidemetadata | HTML-kommentarer | <!-- PageNumber="1" --> |
Konfigurasjon for RAG-pipelines
outputContentFormat=markdown
enableFigureAnalysis=true
enableAnnotation=true
chartFormat=markdown
RAG-fordeler:
- HTML-basert tabellrekonstruksjon bevarer struktur
- LaTeX-formatering for matematisk presisjon
- Semantic chunking for intelligent dokumentsegmentering
Beslutningsveiledning
Beslutningstabell
| Dokumenttype | Visuelt innhold | Anbefalt tilnærming |
|---|---|---|
| Tekniske rapporter med diagrammer | Flytdiagrammer, arkitektur | Image verbalization (GPT-4v) |
| Fotoarkiv / produktbilder | Fotografier | Direct multimodal embeddings |
| PDF med tabeller over flere sider | Tabeller, ligninger | Content Understanding |
| Blandet innhold (tekst + bilder) | Alt | Combined pipeline (mønster 3) |
| Kun tekstdokumenter | Ingen | Standard RAG (ikke multimodal) |
GPT-4v vs GPT-4o for multimodal RAG
| Modell | Best for | Begrunnelse |
|---|---|---|
| GPT-4v (vision-preview) | Bildeberikelse, summary-generering | Bedre på å generere bildesummaries → forbedrer recall |
| GPT-4o | Inferens, spørsmålsbesvaring | Bedre på QA → forbedringer i kvalitet, hastighet, kostnad |
Vanlige feil
| Feil | Konsekvens | Løsning |
|---|---|---|
| Ignorerer bilder i RAG | Mister visuell informasjon | Aktiver imageAction: generateNormalizedImages |
| Kun direct embeddings for diagrammer | Taper semantisk forståelse | Bruk verbalization for diagrammer |
| Mangler spatial metadata | Ingen sidehenvisning i citations | Inkluder bounding_polygons og page_number |
| Bruker Free tier for multimodal | Ikke støttet | Minimum Basic tier for Azure AI Search |
Integrasjon med Microsoft-stakken
| Tjeneste | Integrasjonspunkt |
|---|---|
| Azure AI Search | Multi-vector indeks, index projections, knowledge store |
| Azure AI Document Intelligence | Document Layout skill for bildeekstraksjon |
| Azure Content Understanding | Markdown-output med tabeller, ligninger, semantisk chunking |
| Azure Vision | Multimodal embeddings (1024-dim) for bilder og tekst |
| Azure OpenAI | GPT-4o/4v for bildeverbalisering, text-embedding-3 for tekst |
| Azure Blob Storage | Knowledge store for projiserte bilder |
Query-patterns
| Query-type | Implementasjon | Brukstilfelle |
|---|---|---|
| Fulltekstsøk | {"search": "energy", "select": "content_text, content_path"} |
Søk på tvers av tekst og bilder |
| Filtrer kun bilder | {"filter": "image_document_id ne null"} |
Visuelt innhold |
| Hybrid query | Fulltekst + vektor + semantic ranking | Best relevans |
| Bildebasert query | Multimodal embedding av query-bilde | Visuell likhetssøk |
Offentlig sektor (Norge)
Dataplassering
- Azure Content Understanding: Sjekk regional tilgjengelighet (endres hyppig)
- Azure Vision: West Europe — bildeprosessering i EU
- Azure AI Search: Norway East — indeks i Norge
Relevante vurderinger
| Krav | Implikasjon |
|---|---|
| Universell utforming (WCAG) | Bildeverbalisering genererer alt-text — støtter tilgjengelighet |
| Arkivloven | Spatial metadata (sidetall, posisjon) støtter dokumentreferanser |
| GDPR | Bilder med persondata (ansikter) krever spesiell behandling |
| AI Act | Dokumenter multimodal pipeline-arkitektur som del av AI-system |
Kostnad og lisensiering
Kostnadskomponenter
| Komponent | Prismodell | Estimat |
|---|---|---|
| Document Intelligence (bildeeekstraksjon) | Per side | ~$0.01-0.05/side |
| Content Understanding | Per dokument/side | Varierer |
| GPT-4v verbalization | Per token (input: bilde + prompt) | ~$0.01-0.03/bilde |
| Azure Vision embedding | Per API-kall | ~$0.001/bilde |
| Vektorlagring (multimodal) | Per GB | ~50% mer enn kun tekst |
Optimaliseringstips
- Bruk direct embeddings for foto, verbalization for diagrammer — balanserer kostnad og kvalitet
- Sett
stored: falsepå bildevektorer — sparer lagring - Batch-prosesser bilder off-peak — lavere compute-kostnad
- Aktiver enrichment cache — unngår re-prosessering ved re-indeksering
Forutsetninger
- Microsoft Foundry resource (for Vision multimodal embeddings) — regionbegrenset
- Azure AI Search Basic tier eller høyere (ikke Free tier)
- Azure Storage for dokumenter og knowledge store
- Managed identity med riktige rolletildelinger
For arkitekten (Cosmo)
Spørsmål å stille kunden
- "Inneholder dokumentene visuelt innhold (bilder, tabeller, diagrammer)?" — Nei → standard RAG
- "Hva slags visuelt innhold?" — Diagrammer → verbalization, fotos → direct embeddings
- "Er tabeller på tvers av sider vanlig?" — Ja → Content Understanding (ikke Document Layout)
- "Trenger brukerne å søke basert på bilder?" — Ja → multimodal embeddings
- "Har dokumentene LaTeX/ligninger?" — Ja → Content Understanding med LaTeX-støtte
Fallgruver
- Multimodal for rent tekstinnhold: Økt kostnad uten gevinst
- Kun direct embeddings for alt: Diagrammer trenger semantisk tolkning
- Ignorerer Content Understanding: Ny service (GA nov 2025) som løser mange multimodale utfordringer
- Glemmer spatial metadata: Uten sidetall og posisjon mister du citation-kvalitet
Anbefalinger per modenhetsnivå
| Modenhet | Anbefaling |
|---|---|
| Prototyp | Document Layout skill. Ignorer bilder initialt. Fokuser på tekst-RAG. |
| Pilot | Legg til image verbalization for nøkkeldokumenttyper. Test retrieval-kvalitet. |
| Produksjon | Combined pipeline (mønster 3). Content Understanding for tabeller. |
| Enterprise | Full multimodal pipeline + Azure Vision embeddings + spatial metadata. |
Kilder og verifisering
| Kilde | Konfidens | URL |
|---|---|---|
| Multimodal Search Concepts (Azure AI Search) | Verified | learn.microsoft.com |
| Tutorial: Vectorize images and text | Verified | learn.microsoft.com |
| Content Understanding: Markdown representation | Verified | learn.microsoft.com |
| Multimodal RAG with Vision (ISE DevBlog) | Verified | devblogs.microsoft.com |
| RAG Time Journey 4: Advanced Multimodal Indexing | Verified | techcommunity.microsoft.com |
| Azure-Samples/multimodal-rag-code-execution | Baseline | github.com |
Azure AI Search Multimodal Pipeline (oppdatert 2026-04)
Azure AI Search multimodal pipeline (GA) støtter nå en fullstendig 5-stegs prosess:
- Ekstraksjon — Document Extraction, Document Layout, eller Content Understanding skill
- Tekst-chunking — Text Split skill for håndterbare biter
- Bildebeskriving — GenAI Prompt skill verbaliserer bilder via LLM
- Embedding — Azure OpenAI, Microsoft Foundry, eller Azure Vision embedding
- Bildestoring — Knowledge store lagrer ekstraherte bilder for annotation i klientapp
Hybrid queries kombinerer full-text search, vector search, og semantic ranking for å svare på spørsmål der svaret befinner seg i et innebygd diagram i en PDF.
Querytidsstøtte: GenAI Prompt skill-baserte pipelines støtter hybrid queries over tekst og verbaliserte bilder. For bilde-til-vektor-queries (søk med bilde som input), bruk Azure Vision multimodal embedding skill med en tilsvarende vectorizer.