ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/multi-modal/document-vision-processing.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

13 KiB

Document Intelligence and Vision Processing

Last updated: 2026-02 Status: GA Category: Multi-Modal AI


Introduksjon

Azure AI Document Intelligence (tidlegare Form Recognizer) er ein spesialisert teneste for automatisert dokumentbehandling som kombinerer bransjeleiande OCR med djuplæringsmodellar for å ekstrahere tekst, tabellar, strukturar og felt frå dokument. Tenesta støttar eit breitt spekter av dokumenttypar — PDF, bilete, Office-filer og HTML — med ein enkelt API-kall, og leverer resultat i Markdown-format som er optimalisert for integrasjon med LLM-ar i RAG-pipelines.

For norsk offentleg sektor er Document Intelligence særleg relevant for digitalisering av arkiv, automatisert saksbehandling, fakturahåndtering og analyse av regulatoriske dokument. Tenesta støttar 309 trykte og 12 handskrivne språk, inkludert norsk, og gir confidence scores for kvar ekstraksjon slik at ein kan bygge robuste kvalitetskontrollrutinar.

Azure AI Foundry tilbyr no også Content Understanding som eit komplementært alternativ for meir semantisk dokumentanalyse. Valet mellom Document Intelligence og Content Understanding avheng av bruksscenarioet: Document Intelligence for presis, strukturert ekstraksjon med låg latency, og Content Understanding for meir generaliserande, LLM-driven analyse.


Kjernekomponentar

Komponent Formål Teknologi
Read OCR Tekst-ekstraksjon frå trykte og handskrivne dokument Document Intelligence Read API v4.0
Layout Analysis Strukturanalyse med tabellar, avsnitt, seksjonshovud Document Intelligence Layout API
Prebuilt Models Ferdig trena modellar for faktura, kvittering, ID, skatt Document Intelligence Prebuilt API
Custom Models Trenable modellar for eigendefinerte dokumenttypar Custom Template / Neural Models
Classification Identifisering og splitting av dokumenttypar Document Intelligence Classifier
Batch Analysis Bulkbehandling av store dokumentmengder Batch Analysis API

Document Layout Analysis

Korleis Layout-modellen fungerer

Layout-modellen analyserer dokumentstruktur gjennom to typar roller:

  1. Geometriske roller — Tekst, tabellar, figurar og avkryssingsfelt
  2. Logiske roller — Titlar, overskrifter, sidefot og seksjonar

Modellen returnerer resultat i Markdown-format, noko som gjer det enkelt å mate innhaldet direkte inn i LLM-ar for vidare analyse.

Python-implementering

from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.core.credentials import AzureKeyCredential

endpoint = "https://<resource>.cognitiveservices.azure.com/"
credential = AzureKeyCredential("<api-key>")
client = DocumentIntelligenceClient(endpoint, credential)

# Analyser layout frå ein PDF-fil
with open("dokument.pdf", "rb") as f:
    poller = client.begin_analyze_document(
        "prebuilt-layout",
        body=f,
        content_type="application/pdf",
        output_content_format="markdown"
    )

result = poller.result()

# Markdown-output optimalisert for LLM-inntak
print(result.content)

# Iterer over tabellar
for table in result.tables:
    print(f"Tabell: {table.row_count} rader x {table.column_count} kolonnar")
    for cell in table.cells:
        print(f"  [{cell.row_index},{cell.column_index}]: {cell.content}")

C#-implementering

using Azure;
using Azure.AI.DocumentIntelligence;

var client = new DocumentIntelligenceClient(
    new Uri("https://<resource>.cognitiveservices.azure.com/"),
    new AzureKeyCredential("<api-key>")
);

var content = new AnalyzeDocumentContent()
{
    UrlSource = new Uri("https://example.com/document.pdf")
};

var operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed,
    "prebuilt-layout",
    content,
    outputContentFormat: ContentFormat.Markdown
);

AnalyzeResult result = operation.Value;

// Strukturert Markdown-output
Console.WriteLine(result.Content);

// Prosesser tabellar
foreach (var table in result.Tables)
{
    Console.WriteLine($"Tabell: {table.RowCount}x{table.ColumnCount}");
    foreach (var cell in table.Cells)
    {
        Console.WriteLine($"  [{cell.RowIndex},{cell.ColumnIndex}]: {cell.Content}");
    }
}

Tabell- og skjemaekstraksjon

Tabellekstraksjon

Document Intelligence identifiserer tabellar automatisk og ekstraherer:

  • Celleinnhald med tekst og bounding boxes
  • Rad- og kolonnespenn (merged cells)
  • Overskriftsrader og kolonne-hovud
  • Confidence scores per celle

Skjemaekstraksjon med Prebuilt Models

Modell Bruksområde Nøkkelfelt
prebuilt-invoice Fakturabehandling Leverandør, beløp, forfallsdato, linjeposter
prebuilt-receipt Kvitteringsanalyse Butikk, dato, totalbeløp, varer
prebuilt-idDocument ID-verifisering Namn, fødselsdato, dokumentnummer
prebuilt-tax.us Amerikanske skatteskjema W-2, 1098, 1099, 1040
prebuilt-healthInsuranceCard.us Helseforsikring Medlem, gruppe, forsikringsgivar
prebuilt-bankStatement Bankkontoutskrift Saldo, transaksjonar, kontoinformasjon

Custom Neural Models

For eigendefinerte dokumenttypar kan ein trene custom models:

# Trening av custom extraction model
from azure.ai.documentintelligence import DocumentIntelligenceAdministrationClient

admin_client = DocumentIntelligenceAdministrationClient(endpoint, credential)

# Start trening med labelerte eksempel
poller = admin_client.begin_build_document_model(
    build_request={
        "modelId": "vedtak-modell",
        "description": "Ekstraksjon av vedtaksfelt",
        "buildMode": "neural",
        "azureBlobSource": {
            "containerUrl": "<sas-url-til-treningsdata>"
        }
    }
)

model = poller.result()
print(f"Modell-ID: {model.model_id}, Status: {model.status}")

Handskriftgjenkjenning

Document Intelligence har bransjens beste handskriftgjenkjenning med støtte for 12 handskrivne språk. Systemet identifiserer automatisk om tekst er handskriven eller trykt og returnerer confidence scores.

Handskriftsdeteksjon i JSON-respons

{
  "styles": [
    {
      "confidence": 0.95,
      "spans": [
        {
          "offset": 509,
          "length": 24
        }
      ],
      "isHandwritten": true
    }
  ]
}

Avkryssingsfelt (Selection Marks)

Layout-modellen identifiserer også avkryssingsfelt i skjema:

if page.selection_marks:
    for mark in page.selection_marks:
        print(
            f"Avkryssingsfelt: '{mark.state}' "
            f"innanfor polygon '{mark.polygon}' "
            f"med confidence {mark.confidence}"
        )

Pre- og postprosessering

Pre-prosessering

Steg Teknikk Formål
Bildekvalitet Oppløysingssjekk (min 50x50 px) Sikre lesbar input
Formatvalidering JPEG, PNG, PDF, TIFF, DOCX, XLSX, PPTX, HTML Verifiser støtta format
Filstorleik Max 500 MB for standard, 25 MB for gratis tier Unngå API-avvisning
Siderotasjon Automatisk rotasjonsdeteksjon Korriger skannarar
Dokumentklassifisering Custom Classifier Rut til rett modell

Postprosessering

def postprocess_extraction(result, confidence_threshold=0.85):
    """Kvalitetskontroll av Document Intelligence-resultat."""

    high_confidence = []
    needs_review = []

    for document in result.documents:
        for name, field in document.fields.items():
            if field.confidence >= confidence_threshold:
                high_confidence.append({
                    "felt": name,
                    "verdi": field.value_string or field.content,
                    "confidence": field.confidence
                })
            else:
                needs_review.append({
                    "felt": name,
                    "verdi": field.value_string or field.content,
                    "confidence": field.confidence,
                    "grunn": "Låg confidence"
                })

    return {
        "godkjende": high_confidence,
        "til_manuell_gjennomgang": needs_review,
        "automatiseringsgrad": len(high_confidence) /
            (len(high_confidence) + len(needs_review)) * 100
    }

RAG-integrasjon med Semantic Chunking

Document Intelligence sin Markdown-output eignar seg godt for semantic chunking i RAG-pipelines:

from azure.ai.documentintelligence import DocumentIntelligenceClient

def chunk_document_for_rag(result):
    """Chunk Document Intelligence Markdown-output for RAG."""

    chunks = []
    current_chunk = ""
    current_heading = ""

    for line in result.content.split("\n"):
        if line.startswith("#"):
            if current_chunk:
                chunks.append({
                    "heading": current_heading,
                    "content": current_chunk.strip(),
                    "type": "section"
                })
            current_heading = line
            current_chunk = ""
        else:
            current_chunk += line + "\n"

    # Legg til tabellar som separate chunks
    for table in result.tables:
        table_md = f"| {'|'.join(['---'] * table.column_count)} |\n"
        for cell in table.cells:
            table_md += f"| {cell.content} "
        chunks.append({
            "heading": "Tabell",
            "content": table_md,
            "type": "table"
        })

    return chunks

Implementeringsmønstre

Mønster 1: Intelligent Document Processing Pipeline

Dokument → Classification → Routing → Extraction → Validation → Output
            ↓                  ↓           ↓            ↓
        Custom Classifier  Prebuilt/   Layout/      Confidence
                          Custom       Neural       Threshold
                          Model        Model        Check

Mønster 2: Hybrid OCR + LLM

For komplekse dokument der rein ekstraksjon ikkje er nok:

  1. Document Intelligence for presis OCR og strukturekstraksjon
  2. GPT-4o for semantisk forståing og oppsummering
  3. Kombinert pipeline som brukar styrken til begge

Mønster 3: Batch Processing

# Batch-analyse av mange dokument
poller = client.begin_analyze_batch_documents(
    "prebuilt-invoice",
    body={
        "azureBlobSource": {
            "containerUrl": "<sas-url>",
            "prefix": "fakturaer/"
        },
        "resultContainerUrl": "<resultat-sas-url>",
        "resultPrefix": "resultat/"
    }
)

Norsk offentleg sektor

Relevante bruksområde

  • NAV: Automatisert behandling av legeerklæringar, søknader og vedlegg
  • Skatteetaten: Ekstrahering av data frå skatteskjema og næringsoppgåver
  • Kommunar: Byggesaksbehandling med automatisk ekstraksjon frå teikningar
  • Arkivverket: Digitalisering av historiske dokument og handskrivne protokollar

Compliance-omsyn

Krav Løysing
GDPR Data prosessert i EU-regionar (Norway East, West Europe)
Schrems II Ingen dataoverføring til USA med EU-deployment
Arkivlova Markdown-output kan lagrast som arkivverdig format
Offentleglova Automatisk sladding av persondata med postprosessering
Sikkerheitslova Customer Managed Keys for kryptering

Dataminimering

Document Intelligence returnerer berre etterspurte felt. Ved bruk av prebuilt models kan ein filtrere output til berre relevante felt, i tråd med GDPR sin dataminimeringsprinsipp.


Beslutningsrammeverk

Scenario Anbefaling Begrunnelse
Standardiserte faktura/kvitteringar Prebuilt Invoice/Receipt Høg nøyaktigheit utan trening
Eigendefinerte norske skjema Custom Neural Model Fleksibel, generaliserande
Historiske handskrivne dokument Layout + GPT-4o hybrid OCR + semantisk tolking
Stor-skala dokumentdigitalisering Batch API + Layout Skalerbar, kostnadseffektiv
RAG-pipeline inntak Layout med Markdown output LLM-vennleg format
Klassifisering av blanda dokument Custom Classifier → Router Automatisk dokumenttype-ruting
Sensitive dokument (helse, rettsvesen) On-premises container + CMK Maksimal datakontroll

For Cosmo

  • Document Intelligence v4.0 GA er bransjeleiande for OCR og strukturekstraksjon — 309 trykte og 12 handskrivne språk, inkludert norsk, med Markdown-output optimalisert for LLM-integrasjon
  • Prebuilt models (invoice, receipt, ID, tax) gir umiddelbar verdi utan treningskostnad, medan Custom Neural Models handterer eigendefinerte norske dokumenttypar
  • Batch Analysis API muliggjer kostnadseffektiv prosessering av store dokumentmengder — kritisk for digitaliseringsprosjekt i offentleg sektor
  • Hybrid-mønsteret Document Intelligence + GPT-4o kombinerer presis ekstraksjon med semantisk forståing — bruk DI for strukturdata og GPT-4o for tolking og oppsummering
  • Content Understanding er det nye alternativet for meir generalisert dokumentanalyse — evaluer begge for kvar brukscase og vel basert på behov for presisjon vs. fleksibilitet