Kjell Tore Guttormsen ff6a50d14f docs(architect): weekly KB update — 106 files refreshed (2026-04)

Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering,
ms-ai-governance, ms-ai-security, ms-ai-infrastructure.

Key changes:
- Language Services (Custom Text Classification, Text Analytics, QnA):
  retirement warning 2029-03-31, migration guides to Foundry/GPT-4o
- Agentic Retrieval: 50M free reasoning tokens/month (Public Preview)
- Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models
- Agent Registry: Risks column (M365 E7), user-shared/org-published types
- Declarative agents: schema v1.5 → v1.6, Store validation requirements
- MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code
- AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python)
- Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access
- Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned
- Fast Transcription API: phrase lists, 14-language multi-lingual transcription
- Azure Monitor Workbooks: Bicep support, RBAC specifics
- Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA)
- RAG security-rbac: 4-approach table (GA + 3 preview access control methods)
- IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns
- Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP)

All 106 files: Last updated 2026-04 | Verified: MCP 2026-04

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-10 09:13:24 +02:00

14 KiB

Raw Blame History

Multimodal RAG — Bilder, tabeller og dokumenter i RAG

Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA (Document Intelligence, Content Understanding), Preview (multimodal embeddings) Category: RAG Architecture & Semantic Search

Introduksjon

Multimodal RAG utvider tradisjonell tekstbasert retrieval til å inkludere bilder, tabeller, diagrammer og andre visuelle elementer i RAG-pipelinen. For enterprise-organisasjoner betyr dette at PDF-rapporter med grafer, tekniske tegninger, og presentasjoner med figurer kan indekseres og hentes med full visuell kontekst.

Azure-stakken tilbyr tre komplementære tilnærminger: Image verbalization (GPT-4o/4v konverterer bilder til tekst), direkte multimodale embeddings (Azure Vision genererer vektorer for bilder og tekst i samme vektorrom), og Azure Content Understanding (GA nov 2025) som konverterer komplekse dokumenter til Markdown med LaTeX-equations, HTML-tables og semantic chunking.

Microsoft ISE-teamet anbefaler en kombinert tilnærming: GPT-4v for bildeberikelse (bedre recall) og GPT-4o for inferens (bedre kvalitet, hastighet og kostnad).

Kjernekomponenter

Ekstraksjonsskills

Skill	Tekst	Bilder	Tabeller	Kryss-sideenheter	Formater
Document Extraction	Nei	Ja	Nei	N/A	Kun PDF
Document Layout	Ja	Ja	Nei	Kun innen side	Flere formater
Content Understanding	Ja	Ja	Ja (kryss-side)	Ja	PDF, DOCX, XLSX, PPTX

Anbefaling: Azure Content Understanding for moderne multimodal RAG-pipelines.

Multimodal embedding-tilnærminger

Tilnærming	Metode	Fordel	Ulempe
Image verbalization	GPT-4o/4v → tekst → text embedding	Semantisk forståelse, gode captions	LLM-kall per bilde, økt tid
Direct multimodal embeddings	Azure Vision → bilde/tekst-vektor	Rask, effektiv, visuell likhet	Mangler semantisk kontekst
Kombinert (anbefalt)	Verbalize diagrammer + direct embed fotos	Maksimerer begge styrker	Kompleksere pipeline

Azure Vision multimodal embeddings

Modell: Azure Vision multimodal via Microsoft Foundry
Dimensjoner: 1024 per vektor (tekst og bilde)
Nøkkel: Tekst og bilder projiseres i samme vektorrom

Arkitekturmønstre

Mønster 1: Image verbalization + text embeddings

Arkitektur: Blob Storage → Indexer → Image extraction → GenAI Prompt skill (GPT-4o/4v) → Text description → Azure OpenAI Embedding → Index

Pipeline:

Dokument → Document Layout skill (ekstraher bilder)
  → GenAI Prompt skill:
    "Beskriv dette bildet i kontekst av dokumentet: {image}"
  → Text embedding skill (text-embedding-3-large)
  → Index (med image description + embedding)

Fordeler:

Tolker relasjoner og entiteter i diagrammer
Ferdiglagde captions for RAG-bruk
Semantisk forståelse for AI-agenter
Returner relevante snippets med grunnlagsdata

Brukstilfelle: Rapporter med flytdiagrammer, organisasjonskart, arkitekturdiagrammer.

Mønster 2: Direct multimodal embeddings

Arkitektur: Blob Storage → Indexer → Image extraction → Azure Vision Vectorize skill → Index

Skill-konfigurasjon:

{
  "@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
  "name": "image-embedding-skill",
  "context": "/document/normalized_images/*",
  "modelVersion": "2023-04-15",
  "inputs": [{"name": "image", "source": "/document/normalized_images/*"}],
  "outputs": [{"name": "vector", "targetName": "image_vector"}]
}

Fordeler:

Enkel konfigurasjon — ingen LLM-kall
Effektiv for visuell likhetssøk
Ideell for «finn noe som ligner»-scenarier

Brukstilfelle: Fotoarkiver, produktbilder, skjermbilder.

Mønster 3: Combined multimodal pipeline (anbefalt)

Arkitektur: Router basert på bildetype → [Diagram: verbalize] + [Foto: direct embed] → Felles index med multi-vector felt

Index-schema:

{
  "fields": [
    { "name": "content_embedding", "type": "Collection(Edm.Single)",
      "dimensions": 1024, "searchable": true,
      "vectorSearchProfile": "hnsw" },
    { "name": "content_text", "type": "Edm.String", "searchable": true },
    { "name": "content_path", "type": "Edm.String", "retrievable": true },
    { "name": "page_number", "type": "Edm.Int32", "filterable": true },
    { "name": "content_type", "type": "Edm.String", "filterable": true }
  ]
}

Index projections (tekst + bilder i samme indeks):

{
  "indexProjections": {
    "selectors": [
      {
        "targetIndexName": "multimodal-index",
        "parentKeyFieldName": "text_document_id",
        "sourceContext": "/document/pages/*",
        "mappings": [
          {"name": "content_embedding", "source": "/document/pages/*/text_vector"},
          {"name": "content_text", "source": "/document/pages/*"}
        ]
      },
      {
        "targetKeyFieldName": "image_document_id",
        "sourceContext": "/document/normalized_images/*",
        "mappings": [
          {"name": "content_embedding", "source": "/document/normalized_images/*/image_vector"},
          {"name": "content_path", "source": "/document/normalized_images/*/imagePath"}
        ]
      }
    ]
  }
}

Azure Content Understanding for RAG

Markdown-output (GA nov 2025)

Content Understanding konverterer dokumenter til GitHub Flavored Markdown:

Innholdstype	Representasjon	Eksempel
Tabeller	HTML markup med `rowspan`/`colspan`	`<table><tr><th>Header</th></tr></table>`
Ligninger	LaTeX	`$$a^2 + b^2 = c^2$$`
Diagrammer	Chart.js JSON eller Mermaid	Interaktiv grafgjengivelse
Bilder	`![text](path "description")`	Med valgfri analyse
Sidemetadata	HTML-kommentarer	`<!-- PageNumber="1" -->`

Konfigurasjon for RAG-pipelines

outputContentFormat=markdown
enableFigureAnalysis=true
enableAnnotation=true
chartFormat=markdown

RAG-fordeler:

HTML-basert tabellrekonstruksjon bevarer struktur
LaTeX-formatering for matematisk presisjon
Semantic chunking for intelligent dokumentsegmentering

Beslutningsveiledning

Beslutningstabell

Dokumenttype	Visuelt innhold	Anbefalt tilnærming
Tekniske rapporter med diagrammer	Flytdiagrammer, arkitektur	Image verbalization (GPT-4v)
Fotoarkiv / produktbilder	Fotografier	Direct multimodal embeddings
PDF med tabeller over flere sider	Tabeller, ligninger	Content Understanding
Blandet innhold (tekst + bilder)	Alt	Combined pipeline (mønster 3)
Kun tekstdokumenter	Ingen	Standard RAG (ikke multimodal)

GPT-4v vs GPT-4o for multimodal RAG

Modell	Best for	Begrunnelse
GPT-4v (vision-preview)	Bildeberikelse, summary-generering	Bedre på å generere bildesummaries → forbedrer recall
GPT-4o	Inferens, spørsmålsbesvaring	Bedre på QA → forbedringer i kvalitet, hastighet, kostnad

Vanlige feil

Feil	Konsekvens	Løsning
Ignorerer bilder i RAG	Mister visuell informasjon	Aktiver `imageAction: generateNormalizedImages`
Kun direct embeddings for diagrammer	Taper semantisk forståelse	Bruk verbalization for diagrammer
Mangler spatial metadata	Ingen sidehenvisning i citations	Inkluder `bounding_polygons` og `page_number`
Bruker Free tier for multimodal	Ikke støttet	Minimum Basic tier for Azure AI Search

Integrasjon med Microsoft-stakken

Tjeneste	Integrasjonspunkt
Azure AI Search	Multi-vector indeks, index projections, knowledge store
Azure AI Document Intelligence	Document Layout skill for bildeekstraksjon
Azure Content Understanding	Markdown-output med tabeller, ligninger, semantisk chunking
Azure Vision	Multimodal embeddings (1024-dim) for bilder og tekst
Azure OpenAI	GPT-4o/4v for bildeverbalisering, text-embedding-3 for tekst
Azure Blob Storage	Knowledge store for projiserte bilder

Query-patterns

Query-type	Implementasjon	Brukstilfelle
Fulltekstsøk	`{"search": "energy", "select": "content_text, content_path"}`	Søk på tvers av tekst og bilder
Filtrer kun bilder	`{"filter": "image_document_id ne null"}`	Visuelt innhold
Hybrid query	Fulltekst + vektor + semantic ranking	Best relevans
Bildebasert query	Multimodal embedding av query-bilde	Visuell likhetssøk

Offentlig sektor (Norge)

Dataplassering

Azure Content Understanding: Sjekk regional tilgjengelighet (endres hyppig)
Azure Vision: West Europe — bildeprosessering i EU
Azure AI Search: Norway East — indeks i Norge

Relevante vurderinger

Krav	Implikasjon
Universell utforming (WCAG)	Bildeverbalisering genererer alt-text — støtter tilgjengelighet
Arkivloven	Spatial metadata (sidetall, posisjon) støtter dokumentreferanser
GDPR	Bilder med persondata (ansikter) krever spesiell behandling
AI Act	Dokumenter multimodal pipeline-arkitektur som del av AI-system

Kostnad og lisensiering

Kostnadskomponenter

Komponent	Prismodell	Estimat
Document Intelligence (bildeeekstraksjon)	Per side	~$0.01-0.05/side
Content Understanding	Per dokument/side	Varierer
GPT-4v verbalization	Per token (input: bilde + prompt)	~$0.01-0.03/bilde
Azure Vision embedding	Per API-kall	~$0.001/bilde
Vektorlagring (multimodal)	Per GB	~50% mer enn kun tekst

Optimaliseringstips

Bruk direct embeddings for foto, verbalization for diagrammer — balanserer kostnad og kvalitet
Sett stored: false på bildevektorer — sparer lagring
Batch-prosesser bilder off-peak — lavere compute-kostnad
Aktiver enrichment cache — unngår re-prosessering ved re-indeksering

Forutsetninger

Microsoft Foundry resource (for Vision multimodal embeddings) — regionbegrenset
Azure AI Search Basic tier eller høyere (ikke Free tier)
Azure Storage for dokumenter og knowledge store
Managed identity med riktige rolletildelinger

For arkitekten (Cosmo)

Spørsmål å stille kunden

"Inneholder dokumentene visuelt innhold (bilder, tabeller, diagrammer)?" — Nei → standard RAG
"Hva slags visuelt innhold?" — Diagrammer → verbalization, fotos → direct embeddings
"Er tabeller på tvers av sider vanlig?" — Ja → Content Understanding (ikke Document Layout)
"Trenger brukerne å søke basert på bilder?" — Ja → multimodal embeddings
"Har dokumentene LaTeX/ligninger?" — Ja → Content Understanding med LaTeX-støtte

Fallgruver

Multimodal for rent tekstinnhold: Økt kostnad uten gevinst
Kun direct embeddings for alt: Diagrammer trenger semantisk tolkning
Ignorerer Content Understanding: Ny service (GA nov 2025) som løser mange multimodale utfordringer
Glemmer spatial metadata: Uten sidetall og posisjon mister du citation-kvalitet

Anbefalinger per modenhetsnivå

Modenhet	Anbefaling
Prototyp	Document Layout skill. Ignorer bilder initialt. Fokuser på tekst-RAG.
Pilot	Legg til image verbalization for nøkkeldokumenttyper. Test retrieval-kvalitet.
Produksjon	Combined pipeline (mønster 3). Content Understanding for tabeller.
Enterprise	Full multimodal pipeline + Azure Vision embeddings + spatial metadata.

Kilder og verifisering

Kilde	Konfidens	URL
Multimodal Search Concepts (Azure AI Search)	Verified	learn.microsoft.com
Tutorial: Vectorize images and text	Verified	learn.microsoft.com
Content Understanding: Markdown representation	Verified	learn.microsoft.com
Multimodal RAG with Vision (ISE DevBlog)	Verified	devblogs.microsoft.com
RAG Time Journey 4: Advanced Multimodal Indexing	Verified	techcommunity.microsoft.com
Azure-Samples/multimodal-rag-code-execution	Baseline	github.com

Azure AI Search Multimodal Pipeline (oppdatert 2026-04)

Azure AI Search multimodal pipeline (GA) støtter nå en fullstendig 5-stegs prosess:

Ekstraksjon — Document Extraction, Document Layout, eller Content Understanding skill
Tekst-chunking — Text Split skill for håndterbare biter
Bildebeskriving — GenAI Prompt skill verbaliserer bilder via LLM
Embedding — Azure OpenAI, Microsoft Foundry, eller Azure Vision embedding
Bildestoring — Knowledge store lagrer ekstraherte bilder for annotation i klientapp

Hybrid queries kombinerer full-text search, vector search, og semantic ranking for å svare på spørsmål der svaret befinner seg i et innebygd diagram i en PDF.

Querytidsstøtte: GenAI Prompt skill-baserte pipelines støtter hybrid queries over tekst og verbaliserte bilder. For bilde-til-vektor-queries (søk med bilde som input), bruk Azure Vision multimodal embedding skill med en tilsvarende vectorizer.

14 KiB Raw Blame History