# Document Intelligence and Vision Processing

**Last updated:** 2026-02
**Status:** GA
**Category:** Multi-Modal AI

---

## Introduksjon

Azure AI Document Intelligence (tidlegare Form Recognizer) er ein spesialisert teneste for automatisert dokumentbehandling som kombinerer bransjeleiande OCR med djuplæringsmodellar for å ekstrahere tekst, tabellar, strukturar og felt frå dokument. Tenesta støttar eit breitt spekter av dokumenttypar — PDF, bilete, Office-filer og HTML — med ein enkelt API-kall, og leverer resultat i Markdown-format som er optimalisert for integrasjon med LLM-ar i RAG-pipelines.

For norsk offentleg sektor er Document Intelligence særleg relevant for digitalisering av arkiv, automatisert saksbehandling, fakturahåndtering og analyse av regulatoriske dokument. Tenesta støttar 309 trykte og 12 handskrivne språk, inkludert norsk, og gir confidence scores for kvar ekstraksjon slik at ein kan bygge robuste kvalitetskontrollrutinar.

Azure AI Foundry tilbyr no også Content Understanding som eit komplementært alternativ for meir semantisk dokumentanalyse. Valet mellom Document Intelligence og Content Understanding avheng av bruksscenarioet: Document Intelligence for presis, strukturert ekstraksjon med låg latency, og Content Understanding for meir generaliserande, LLM-driven analyse.

---

## Kjernekomponentar

| Komponent | Formål | Teknologi |
|-----------|--------|-----------|
| **Read OCR** | Tekst-ekstraksjon frå trykte og handskrivne dokument | Document Intelligence Read API v4.0 |
| **Layout Analysis** | Strukturanalyse med tabellar, avsnitt, seksjonshovud | Document Intelligence Layout API |
| **Prebuilt Models** | Ferdig trena modellar for faktura, kvittering, ID, skatt | Document Intelligence Prebuilt API |
| **Custom Models** | Trenable modellar for eigendefinerte dokumenttypar | Custom Template / Neural Models |
| **Classification** | Identifisering og splitting av dokumenttypar | Document Intelligence Classifier |
| **Batch Analysis** | Bulkbehandling av store dokumentmengder | Batch Analysis API |

---

## Document Layout Analysis

### Korleis Layout-modellen fungerer

Layout-modellen analyserer dokumentstruktur gjennom to typar roller:

1. **Geometriske roller** — Tekst, tabellar, figurar og avkryssingsfelt
2. **Logiske roller** — Titlar, overskrifter, sidefot og seksjonar

Modellen returnerer resultat i Markdown-format, noko som gjer det enkelt å mate innhaldet direkte inn i LLM-ar for vidare analyse.

### Python-implementering

```python
from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.core.credentials import AzureKeyCredential

endpoint = "https://<resource>.cognitiveservices.azure.com/"
credential = AzureKeyCredential("<api-key>")
client = DocumentIntelligenceClient(endpoint, credential)

# Analyser layout frå ein PDF-fil
with open("dokument.pdf", "rb") as f:
    poller = client.begin_analyze_document(
        "prebuilt-layout",
        body=f,
        content_type="application/pdf",
        output_content_format="markdown"
    )

result = poller.result()

# Markdown-output optimalisert for LLM-inntak
print(result.content)

# Iterer over tabellar
for table in result.tables:
    print(f"Tabell: {table.row_count} rader x {table.column_count} kolonnar")
    for cell in table.cells:
        print(f"  [{cell.row_index},{cell.column_index}]: {cell.content}")
```

### C#-implementering

```csharp
using Azure;
using Azure.AI.DocumentIntelligence;

var client = new DocumentIntelligenceClient(
    new Uri("https://<resource>.cognitiveservices.azure.com/"),
    new AzureKeyCredential("<api-key>")
);

var content = new AnalyzeDocumentContent()
{
    UrlSource = new Uri("https://example.com/document.pdf")
};

var operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed,
    "prebuilt-layout",
    content,
    outputContentFormat: ContentFormat.Markdown
);

AnalyzeResult result = operation.Value;

// Strukturert Markdown-output
Console.WriteLine(result.Content);

// Prosesser tabellar
foreach (var table in result.Tables)
{
    Console.WriteLine($"Tabell: {table.RowCount}x{table.ColumnCount}");
    foreach (var cell in table.Cells)
    {
        Console.WriteLine($"  [{cell.RowIndex},{cell.ColumnIndex}]: {cell.Content}");
    }
}
```

---

## Tabell- og skjemaekstraksjon

### Tabellekstraksjon

Document Intelligence identifiserer tabellar automatisk og ekstraherer:

- **Celleinnhald** med tekst og bounding boxes
- **Rad- og kolonnespenn** (merged cells)
- **Overskriftsrader** og kolonne-hovud
- **Confidence scores** per celle

### Skjemaekstraksjon med Prebuilt Models

| Modell | Bruksområde | Nøkkelfelt |
|--------|-------------|-----------|
| `prebuilt-invoice` | Fakturabehandling | Leverandør, beløp, forfallsdato, linjeposter |
| `prebuilt-receipt` | Kvitteringsanalyse | Butikk, dato, totalbeløp, varer |
| `prebuilt-idDocument` | ID-verifisering | Namn, fødselsdato, dokumentnummer |
| `prebuilt-tax.us` | Amerikanske skatteskjema | W-2, 1098, 1099, 1040 |
| `prebuilt-healthInsuranceCard.us` | Helseforsikring | Medlem, gruppe, forsikringsgivar |
| `prebuilt-bankStatement` | Bankkontoutskrift | Saldo, transaksjonar, kontoinformasjon |

### Custom Neural Models

For eigendefinerte dokumenttypar kan ein trene custom models:

```python
# Trening av custom extraction model
from azure.ai.documentintelligence import DocumentIntelligenceAdministrationClient

admin_client = DocumentIntelligenceAdministrationClient(endpoint, credential)

# Start trening med labelerte eksempel
poller = admin_client.begin_build_document_model(
    build_request={
        "modelId": "vedtak-modell",
        "description": "Ekstraksjon av vedtaksfelt",
        "buildMode": "neural",
        "azureBlobSource": {
            "containerUrl": "<sas-url-til-treningsdata>"
        }
    }
)

model = poller.result()
print(f"Modell-ID: {model.model_id}, Status: {model.status}")
```

---

## Handskriftgjenkjenning

Document Intelligence har bransjens beste handskriftgjenkjenning med støtte for 12 handskrivne språk. Systemet identifiserer automatisk om tekst er handskriven eller trykt og returnerer confidence scores.

### Handskriftsdeteksjon i JSON-respons

```json
{
  "styles": [
    {
      "confidence": 0.95,
      "spans": [
        {
          "offset": 509,
          "length": 24
        }
      ],
      "isHandwritten": true
    }
  ]
}
```

### Avkryssingsfelt (Selection Marks)

Layout-modellen identifiserer også avkryssingsfelt i skjema:

```python
if page.selection_marks:
    for mark in page.selection_marks:
        print(
            f"Avkryssingsfelt: '{mark.state}' "
            f"innanfor polygon '{mark.polygon}' "
            f"med confidence {mark.confidence}"
        )
```

---

## Pre- og postprosessering

### Pre-prosessering

| Steg | Teknikk | Formål |
|------|---------|--------|
| **Bildekvalitet** | Oppløysingssjekk (min 50x50 px) | Sikre lesbar input |
| **Formatvalidering** | JPEG, PNG, PDF, TIFF, DOCX, XLSX, PPTX, HTML | Verifiser støtta format |
| **Filstorleik** | Max 500 MB for standard, 25 MB for gratis tier | Unngå API-avvisning |
| **Siderotasjon** | Automatisk rotasjonsdeteksjon | Korriger skannarar |
| **Dokumentklassifisering** | Custom Classifier | Rut til rett modell |

### Postprosessering

```python
def postprocess_extraction(result, confidence_threshold=0.85):
    """Kvalitetskontroll av Document Intelligence-resultat."""

    high_confidence = []
    needs_review = []

    for document in result.documents:
        for name, field in document.fields.items():
            if field.confidence >= confidence_threshold:
                high_confidence.append({
                    "felt": name,
                    "verdi": field.value_string or field.content,
                    "confidence": field.confidence
                })
            else:
                needs_review.append({
                    "felt": name,
                    "verdi": field.value_string or field.content,
                    "confidence": field.confidence,
                    "grunn": "Låg confidence"
                })

    return {
        "godkjende": high_confidence,
        "til_manuell_gjennomgang": needs_review,
        "automatiseringsgrad": len(high_confidence) /
            (len(high_confidence) + len(needs_review)) * 100
    }
```

### RAG-integrasjon med Semantic Chunking

Document Intelligence sin Markdown-output eignar seg godt for semantic chunking i RAG-pipelines:

```python
from azure.ai.documentintelligence import DocumentIntelligenceClient

def chunk_document_for_rag(result):
    """Chunk Document Intelligence Markdown-output for RAG."""

    chunks = []
    current_chunk = ""
    current_heading = ""

    for line in result.content.split("\n"):
        if line.startswith("#"):
            if current_chunk:
                chunks.append({
                    "heading": current_heading,
                    "content": current_chunk.strip(),
                    "type": "section"
                })
            current_heading = line
            current_chunk = ""
        else:
            current_chunk += line + "\n"

    # Legg til tabellar som separate chunks
    for table in result.tables:
        table_md = f"| {'|'.join(['---'] * table.column_count)} |\n"
        for cell in table.cells:
            table_md += f"| {cell.content} "
        chunks.append({
            "heading": "Tabell",
            "content": table_md,
            "type": "table"
        })

    return chunks
```

---

## Implementeringsmønstre

### Mønster 1: Intelligent Document Processing Pipeline

```
Dokument → Classification → Routing → Extraction → Validation → Output
            ↓                  ↓           ↓            ↓
        Custom Classifier  Prebuilt/   Layout/      Confidence
                          Custom       Neural       Threshold
                          Model        Model        Check
```

### Mønster 2: Hybrid OCR + LLM

For komplekse dokument der rein ekstraksjon ikkje er nok:

1. **Document Intelligence** for presis OCR og strukturekstraksjon
2. **GPT-4o** for semantisk forståing og oppsummering
3. **Kombinert pipeline** som brukar styrken til begge

### Mønster 3: Batch Processing

```python
# Batch-analyse av mange dokument
poller = client.begin_analyze_batch_documents(
    "prebuilt-invoice",
    body={
        "azureBlobSource": {
            "containerUrl": "<sas-url>",
            "prefix": "fakturaer/"
        },
        "resultContainerUrl": "<resultat-sas-url>",
        "resultPrefix": "resultat/"
    }
)
```

---

## Norsk offentleg sektor

### Relevante bruksområde

- **NAV**: Automatisert behandling av legeerklæringar, søknader og vedlegg
- **Skatteetaten**: Ekstrahering av data frå skatteskjema og næringsoppgåver
- **Kommunar**: Byggesaksbehandling med automatisk ekstraksjon frå teikningar
- **Arkivverket**: Digitalisering av historiske dokument og handskrivne protokollar

### Compliance-omsyn

| Krav | Løysing |
|------|---------|
| **GDPR** | Data prosessert i EU-regionar (Norway East, West Europe) |
| **Schrems II** | Ingen dataoverføring til USA med EU-deployment |
| **Arkivlova** | Markdown-output kan lagrast som arkivverdig format |
| **Offentleglova** | Automatisk sladding av persondata med postprosessering |
| **Sikkerheitslova** | Customer Managed Keys for kryptering |

### Dataminimering

Document Intelligence returnerer berre etterspurte felt. Ved bruk av prebuilt models kan ein filtrere output til berre relevante felt, i tråd med GDPR sin dataminimeringsprinsipp.

---

## Beslutningsrammeverk

| Scenario | Anbefaling | Begrunnelse |
|----------|------------|-------------|
| Standardiserte faktura/kvitteringar | Prebuilt Invoice/Receipt | Høg nøyaktigheit utan trening |
| Eigendefinerte norske skjema | Custom Neural Model | Fleksibel, generaliserande |
| Historiske handskrivne dokument | Layout + GPT-4o hybrid | OCR + semantisk tolking |
| Stor-skala dokumentdigitalisering | Batch API + Layout | Skalerbar, kostnadseffektiv |
| RAG-pipeline inntak | Layout med Markdown output | LLM-vennleg format |
| Klassifisering av blanda dokument | Custom Classifier → Router | Automatisk dokumenttype-ruting |
| Sensitive dokument (helse, rettsvesen) | On-premises container + CMK | Maksimal datakontroll |

---

## For Cosmo

- **Document Intelligence v4.0 GA** er bransjeleiande for OCR og strukturekstraksjon — 309 trykte og 12 handskrivne språk, inkludert norsk, med Markdown-output optimalisert for LLM-integrasjon
- **Prebuilt models** (invoice, receipt, ID, tax) gir umiddelbar verdi utan treningskostnad, medan Custom Neural Models handterer eigendefinerte norske dokumenttypar
- **Batch Analysis API** muliggjer kostnadseffektiv prosessering av store dokumentmengder — kritisk for digitaliseringsprosjekt i offentleg sektor
- **Hybrid-mønsteret Document Intelligence + GPT-4o** kombinerer presis ekstraksjon med semantisk forståing — bruk DI for strukturdata og GPT-4o for tolking og oppsummering
- **Content Understanding** er det nye alternativet for meir generalisert dokumentanalyse — evaluer begge for kvar brukscase og vel basert på behov for presisjon vs. fleksibilitet