Initial addition of ms-ai-architect plugin to the open-source marketplace. Private content excluded: orchestrator/ (Linear tooling), docs/utredning/ (client investigation), generated test reports and PDF export script. skill-gen tooling moved from orchestrator/ to scripts/skill-gen/. Security scan: WARNING (risk 20/100) — no secrets, no injection found. False positive fixed: added gitleaks:allow to Python variable reference in output-validation-grounding-verification.md line 109. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
13 KiB
Document Intelligence and Vision Processing
Last updated: 2026-02 Status: GA Category: Multi-Modal AI
Introduksjon
Azure AI Document Intelligence (tidlegare Form Recognizer) er ein spesialisert teneste for automatisert dokumentbehandling som kombinerer bransjeleiande OCR med djuplæringsmodellar for å ekstrahere tekst, tabellar, strukturar og felt frå dokument. Tenesta støttar eit breitt spekter av dokumenttypar — PDF, bilete, Office-filer og HTML — med ein enkelt API-kall, og leverer resultat i Markdown-format som er optimalisert for integrasjon med LLM-ar i RAG-pipelines.
For norsk offentleg sektor er Document Intelligence særleg relevant for digitalisering av arkiv, automatisert saksbehandling, fakturahåndtering og analyse av regulatoriske dokument. Tenesta støttar 309 trykte og 12 handskrivne språk, inkludert norsk, og gir confidence scores for kvar ekstraksjon slik at ein kan bygge robuste kvalitetskontrollrutinar.
Azure AI Foundry tilbyr no også Content Understanding som eit komplementært alternativ for meir semantisk dokumentanalyse. Valet mellom Document Intelligence og Content Understanding avheng av bruksscenarioet: Document Intelligence for presis, strukturert ekstraksjon med låg latency, og Content Understanding for meir generaliserande, LLM-driven analyse.
Kjernekomponentar
| Komponent | Formål | Teknologi |
|---|---|---|
| Read OCR | Tekst-ekstraksjon frå trykte og handskrivne dokument | Document Intelligence Read API v4.0 |
| Layout Analysis | Strukturanalyse med tabellar, avsnitt, seksjonshovud | Document Intelligence Layout API |
| Prebuilt Models | Ferdig trena modellar for faktura, kvittering, ID, skatt | Document Intelligence Prebuilt API |
| Custom Models | Trenable modellar for eigendefinerte dokumenttypar | Custom Template / Neural Models |
| Classification | Identifisering og splitting av dokumenttypar | Document Intelligence Classifier |
| Batch Analysis | Bulkbehandling av store dokumentmengder | Batch Analysis API |
Document Layout Analysis
Korleis Layout-modellen fungerer
Layout-modellen analyserer dokumentstruktur gjennom to typar roller:
- Geometriske roller — Tekst, tabellar, figurar og avkryssingsfelt
- Logiske roller — Titlar, overskrifter, sidefot og seksjonar
Modellen returnerer resultat i Markdown-format, noko som gjer det enkelt å mate innhaldet direkte inn i LLM-ar for vidare analyse.
Python-implementering
from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.core.credentials import AzureKeyCredential
endpoint = "https://<resource>.cognitiveservices.azure.com/"
credential = AzureKeyCredential("<api-key>")
client = DocumentIntelligenceClient(endpoint, credential)
# Analyser layout frå ein PDF-fil
with open("dokument.pdf", "rb") as f:
poller = client.begin_analyze_document(
"prebuilt-layout",
body=f,
content_type="application/pdf",
output_content_format="markdown"
)
result = poller.result()
# Markdown-output optimalisert for LLM-inntak
print(result.content)
# Iterer over tabellar
for table in result.tables:
print(f"Tabell: {table.row_count} rader x {table.column_count} kolonnar")
for cell in table.cells:
print(f" [{cell.row_index},{cell.column_index}]: {cell.content}")
C#-implementering
using Azure;
using Azure.AI.DocumentIntelligence;
var client = new DocumentIntelligenceClient(
new Uri("https://<resource>.cognitiveservices.azure.com/"),
new AzureKeyCredential("<api-key>")
);
var content = new AnalyzeDocumentContent()
{
UrlSource = new Uri("https://example.com/document.pdf")
};
var operation = await client.AnalyzeDocumentAsync(
WaitUntil.Completed,
"prebuilt-layout",
content,
outputContentFormat: ContentFormat.Markdown
);
AnalyzeResult result = operation.Value;
// Strukturert Markdown-output
Console.WriteLine(result.Content);
// Prosesser tabellar
foreach (var table in result.Tables)
{
Console.WriteLine($"Tabell: {table.RowCount}x{table.ColumnCount}");
foreach (var cell in table.Cells)
{
Console.WriteLine($" [{cell.RowIndex},{cell.ColumnIndex}]: {cell.Content}");
}
}
Tabell- og skjemaekstraksjon
Tabellekstraksjon
Document Intelligence identifiserer tabellar automatisk og ekstraherer:
- Celleinnhald med tekst og bounding boxes
- Rad- og kolonnespenn (merged cells)
- Overskriftsrader og kolonne-hovud
- Confidence scores per celle
Skjemaekstraksjon med Prebuilt Models
| Modell | Bruksområde | Nøkkelfelt |
|---|---|---|
prebuilt-invoice |
Fakturabehandling | Leverandør, beløp, forfallsdato, linjeposter |
prebuilt-receipt |
Kvitteringsanalyse | Butikk, dato, totalbeløp, varer |
prebuilt-idDocument |
ID-verifisering | Namn, fødselsdato, dokumentnummer |
prebuilt-tax.us |
Amerikanske skatteskjema | W-2, 1098, 1099, 1040 |
prebuilt-healthInsuranceCard.us |
Helseforsikring | Medlem, gruppe, forsikringsgivar |
prebuilt-bankStatement |
Bankkontoutskrift | Saldo, transaksjonar, kontoinformasjon |
Custom Neural Models
For eigendefinerte dokumenttypar kan ein trene custom models:
# Trening av custom extraction model
from azure.ai.documentintelligence import DocumentIntelligenceAdministrationClient
admin_client = DocumentIntelligenceAdministrationClient(endpoint, credential)
# Start trening med labelerte eksempel
poller = admin_client.begin_build_document_model(
build_request={
"modelId": "vedtak-modell",
"description": "Ekstraksjon av vedtaksfelt",
"buildMode": "neural",
"azureBlobSource": {
"containerUrl": "<sas-url-til-treningsdata>"
}
}
)
model = poller.result()
print(f"Modell-ID: {model.model_id}, Status: {model.status}")
Handskriftgjenkjenning
Document Intelligence har bransjens beste handskriftgjenkjenning med støtte for 12 handskrivne språk. Systemet identifiserer automatisk om tekst er handskriven eller trykt og returnerer confidence scores.
Handskriftsdeteksjon i JSON-respons
{
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
],
"isHandwritten": true
}
]
}
Avkryssingsfelt (Selection Marks)
Layout-modellen identifiserer også avkryssingsfelt i skjema:
if page.selection_marks:
for mark in page.selection_marks:
print(
f"Avkryssingsfelt: '{mark.state}' "
f"innanfor polygon '{mark.polygon}' "
f"med confidence {mark.confidence}"
)
Pre- og postprosessering
Pre-prosessering
| Steg | Teknikk | Formål |
|---|---|---|
| Bildekvalitet | Oppløysingssjekk (min 50x50 px) | Sikre lesbar input |
| Formatvalidering | JPEG, PNG, PDF, TIFF, DOCX, XLSX, PPTX, HTML | Verifiser støtta format |
| Filstorleik | Max 500 MB for standard, 25 MB for gratis tier | Unngå API-avvisning |
| Siderotasjon | Automatisk rotasjonsdeteksjon | Korriger skannarar |
| Dokumentklassifisering | Custom Classifier | Rut til rett modell |
Postprosessering
def postprocess_extraction(result, confidence_threshold=0.85):
"""Kvalitetskontroll av Document Intelligence-resultat."""
high_confidence = []
needs_review = []
for document in result.documents:
for name, field in document.fields.items():
if field.confidence >= confidence_threshold:
high_confidence.append({
"felt": name,
"verdi": field.value_string or field.content,
"confidence": field.confidence
})
else:
needs_review.append({
"felt": name,
"verdi": field.value_string or field.content,
"confidence": field.confidence,
"grunn": "Låg confidence"
})
return {
"godkjende": high_confidence,
"til_manuell_gjennomgang": needs_review,
"automatiseringsgrad": len(high_confidence) /
(len(high_confidence) + len(needs_review)) * 100
}
RAG-integrasjon med Semantic Chunking
Document Intelligence sin Markdown-output eignar seg godt for semantic chunking i RAG-pipelines:
from azure.ai.documentintelligence import DocumentIntelligenceClient
def chunk_document_for_rag(result):
"""Chunk Document Intelligence Markdown-output for RAG."""
chunks = []
current_chunk = ""
current_heading = ""
for line in result.content.split("\n"):
if line.startswith("#"):
if current_chunk:
chunks.append({
"heading": current_heading,
"content": current_chunk.strip(),
"type": "section"
})
current_heading = line
current_chunk = ""
else:
current_chunk += line + "\n"
# Legg til tabellar som separate chunks
for table in result.tables:
table_md = f"| {'|'.join(['---'] * table.column_count)} |\n"
for cell in table.cells:
table_md += f"| {cell.content} "
chunks.append({
"heading": "Tabell",
"content": table_md,
"type": "table"
})
return chunks
Implementeringsmønstre
Mønster 1: Intelligent Document Processing Pipeline
Dokument → Classification → Routing → Extraction → Validation → Output
↓ ↓ ↓ ↓
Custom Classifier Prebuilt/ Layout/ Confidence
Custom Neural Threshold
Model Model Check
Mønster 2: Hybrid OCR + LLM
For komplekse dokument der rein ekstraksjon ikkje er nok:
- Document Intelligence for presis OCR og strukturekstraksjon
- GPT-4o for semantisk forståing og oppsummering
- Kombinert pipeline som brukar styrken til begge
Mønster 3: Batch Processing
# Batch-analyse av mange dokument
poller = client.begin_analyze_batch_documents(
"prebuilt-invoice",
body={
"azureBlobSource": {
"containerUrl": "<sas-url>",
"prefix": "fakturaer/"
},
"resultContainerUrl": "<resultat-sas-url>",
"resultPrefix": "resultat/"
}
)
Norsk offentleg sektor
Relevante bruksområde
- NAV: Automatisert behandling av legeerklæringar, søknader og vedlegg
- Skatteetaten: Ekstrahering av data frå skatteskjema og næringsoppgåver
- Kommunar: Byggesaksbehandling med automatisk ekstraksjon frå teikningar
- Arkivverket: Digitalisering av historiske dokument og handskrivne protokollar
Compliance-omsyn
| Krav | Løysing |
|---|---|
| GDPR | Data prosessert i EU-regionar (Norway East, West Europe) |
| Schrems II | Ingen dataoverføring til USA med EU-deployment |
| Arkivlova | Markdown-output kan lagrast som arkivverdig format |
| Offentleglova | Automatisk sladding av persondata med postprosessering |
| Sikkerheitslova | Customer Managed Keys for kryptering |
Dataminimering
Document Intelligence returnerer berre etterspurte felt. Ved bruk av prebuilt models kan ein filtrere output til berre relevante felt, i tråd med GDPR sin dataminimeringsprinsipp.
Beslutningsrammeverk
| Scenario | Anbefaling | Begrunnelse |
|---|---|---|
| Standardiserte faktura/kvitteringar | Prebuilt Invoice/Receipt | Høg nøyaktigheit utan trening |
| Eigendefinerte norske skjema | Custom Neural Model | Fleksibel, generaliserande |
| Historiske handskrivne dokument | Layout + GPT-4o hybrid | OCR + semantisk tolking |
| Stor-skala dokumentdigitalisering | Batch API + Layout | Skalerbar, kostnadseffektiv |
| RAG-pipeline inntak | Layout med Markdown output | LLM-vennleg format |
| Klassifisering av blanda dokument | Custom Classifier → Router | Automatisk dokumenttype-ruting |
| Sensitive dokument (helse, rettsvesen) | On-premises container + CMK | Maksimal datakontroll |
For Cosmo
- Document Intelligence v4.0 GA er bransjeleiande for OCR og strukturekstraksjon — 309 trykte og 12 handskrivne språk, inkludert norsk, med Markdown-output optimalisert for LLM-integrasjon
- Prebuilt models (invoice, receipt, ID, tax) gir umiddelbar verdi utan treningskostnad, medan Custom Neural Models handterer eigendefinerte norske dokumenttypar
- Batch Analysis API muliggjer kostnadseffektiv prosessering av store dokumentmengder — kritisk for digitaliseringsprosjekt i offentleg sektor
- Hybrid-mønsteret Document Intelligence + GPT-4o kombinerer presis ekstraksjon med semantisk forståing — bruk DI for strukturdata og GPT-4o for tolking og oppsummering
- Content Understanding er det nye alternativet for meir generalisert dokumentanalyse — evaluer begge for kvar brukscase og vel basert på behov for presisjon vs. fleksibilitet