ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/multi-modal/ocr-pipeline-architecture.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

15 KiB

OCR Pipelines and Text Extraction Architecture

Last updated: 2026-02 Status: GA Category: Multi-Modal AI


Introduksjon

Optical Character Recognition (OCR) er ein grunnleggjande kapabilitet for digitalisering av offentleg forvaltning. Microsoft tilbyr to hovudtenester for OCR: Azure AI Document Intelligence (tidlegare Form Recognizer) som er optimalisert for dokument med høg oppløysing, og Azure AI Vision Image Analysis (Read API) som er optimalisert for generelle bilete som skiltar, plakatar og scena-tekst.

Document Intelligence opererer på høgare oppløysing enn Vision Read og støttar utvinning av både trykt og handskriven tekst frå PDF-dokument, skanna bilete, Microsoft Office-filer (Word, Excel, PowerPoint) og HTML. Tenesta inkluderer paragrafdeteksjon, tabellgjenkjenning, figurar, utvalgsmerke og språkdeteksjon. Read-modellen er OCR-motoren som ligg under alle andre Document Intelligence-modellar (Layout, Invoice, Receipt, ID Document, osv.).

For norsk offentleg sektor er robust OCR kritisk for digitalisering av arkiv, automatisering av saksbehandling, uttrekk av data frå skjema og faktura, og tilgjengeleggjering av historiske dokument. Azure Document Intelligence v4.0 (GA) tilbyr Batch API for store volum, searchable PDF-output, og add-on capabilities som høgoppløyseleg OCR, språkdeteksjon og query fields.


Kjernekomponentar

Komponent Formål Teknologi
Document Intelligence Read Dokument-optimalisert OCR med paragrafar Azure AI Document Intelligence v4.0
Document Intelligence Layout Strukturert uttrekk (tabellar, figurar) Azure AI Document Intelligence v4.0
Vision Read API Generell scene-tekst OCR Azure AI Vision 4.0
Prebuilt Models Feltuttrekk frå faktura, kvittering, ID Azure AI Document Intelligence
Custom Models Trenable modellar for eigne dokumenttypar Azure AI Document Intelligence
Document Classifier Automatisk dokumentklassifisering og splitting Azure AI Document Intelligence
Content Understanding Generativ AI-basert dokumentforståing Azure AI Foundry (preview)
Batch API Volumbasert asynkron prosessering Azure AI Document Intelligence v4.0

Image Preprocessing og Quality Assessment

Bildekvalitetskrav

Parameter Document Intelligence Vision Read
Format PDF, JPEG, PNG, BMP, TIFF, HEIF, DOCX, XLSX, PPTX, HTML JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF, MPO
Maks filstorleik 500 MB (Standard), 4 MB (Free) 20 MB
Maks dimensjonar 10 000 x 10 000 px (standard) 16 000 x 16 000 px
Min dimensjonar 50 x 50 px 50 x 50 px
Maks sider 2000 sider per dokument N/A (enkeltbilete)

Preprocessing-pipeline

from PIL import Image, ImageEnhance, ImageFilter
import io

def preprocess_for_ocr(image_path: str) -> bytes:
    """Optimaliser bilete for best OCR-resultat."""
    img = Image.open(image_path)

    # Steg 1: Konverter til gråskala om ikkje allereie
    if img.mode != 'L':
        img = img.convert('L')

    # Steg 2: Oppskaler låg-oppløyselege bilete
    min_dimension = 1024
    if min(img.size) < min_dimension:
        scale = min_dimension / min(img.size)
        new_size = (int(img.width * scale), int(img.height * scale))
        img = img.resize(new_size, Image.LANCZOS)

    # Steg 3: Kontrastforbetring
    enhancer = ImageEnhance.Contrast(img)
    img = enhancer.enhance(1.5)

    # Steg 4: Skarpheit
    img = img.filter(ImageFilter.SHARPEN)

    # Steg 5: Binarisering for svært dårlege skanningar
    # (valfritt — bruk berre for ekstremt dårlege bilete)
    # threshold = 128
    # img = img.point(lambda p: 255 if p > threshold else 0)

    buffer = io.BytesIO()
    img.save(buffer, format="PNG", dpi=(300, 300))
    return buffer.getvalue()

Kvalitetsmetrikkar

def assess_image_quality(image_path: str) -> dict:
    """Vurder bildekvalitet for OCR."""
    img = Image.open(image_path)

    quality = {
        "resolution": {
            "width": img.width,
            "height": img.height,
            "dpi_estimated": min(img.width, img.height) / 8.27,
            "sufficient": min(img.width, img.height) >= 500
        },
        "format": {
            "mode": img.mode,
            "format": img.format,
            "is_optimal": img.format in ["PNG", "TIFF"]
        },
        "recommendation": []
    }

    if quality["resolution"]["dpi_estimated"] < 150:
        quality["recommendation"].append(
            "Oppløysing er låg — bruk OCR_HIGH_RESOLUTION add-on"
        )
    if img.mode == "RGBA":
        quality["recommendation"].append(
            "Konverter frå RGBA til RGB for raskare prosessering"
        )

    return quality

OCR Engine Selection og Configuration

Hovudval: Document Intelligence vs Vision Read

Kriterium Document Intelligence Read Vision Read API
Brukscase Dokument (PDF, skanningar, Office) Scene-tekst (skiltar, plakatar)
Oppløysing Høgare (doc-optimalisert) Standard
Handskrift Ja — premium Ja — grunnleggjande
Tabellar Ja (Layout-modell) Nei
Strukturert output Paragrafar, seksjonar, figurar Liner og ord
Fleirspråkleg 300+ språk/lokalar 100+ språk
Batch Ja (Batch API) Nei (synkron)
Output til PDF Searchable PDF Nei

Document Intelligence Read — Python SDK

import os
from azure.core.credentials import AzureKeyCredential
from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.ai.documentintelligence.models import (
    AnalyzeResult,
    AnalyzeDocumentRequest,
    DocumentAnalysisFeature
)

client = DocumentIntelligenceClient(
    endpoint=os.environ["DI_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["DI_KEY"])
)

# Analyser dokument med high-resolution OCR
with open("scanned_document.pdf", "rb") as f:
    poller = client.begin_analyze_document(
        "prebuilt-read",
        body=f,
        features=[DocumentAnalysisFeature.OCR_HIGH_RESOLUTION]
    )

result: AnalyzeResult = poller.result()

# Utvinne språkdeteksjon
if result.languages:
    for lang in result.languages:
        print(f"Språk: {lang.locale} "
              f"(confidence: {lang.confidence:.2f})")

# Utvinne handskrift-stil
if result.styles:
    for style in result.styles:
        if style.is_handwritten:
            text = ",".join([
                result.content[s.offset:s.offset + s.length]
                for s in style.spans
            ])
            print(f"Handskriven tekst: {text}")

# Utvinne paragrafar
for para in result.paragraphs:
    print(f"[{para.role}] {para.content}")

# Utvinne sider, liner og ord
for page in result.pages:
    print(f"--- Side {page.page_number} ---")
    print(f"Dimensjonar: {page.width}x{page.height} {page.unit}")
    for line in page.lines:
        print(f"  Linje: {line.content}")
        for word in page.words:
            if word.confidence < 0.7:
                print(f"    [LAV CONFIDENCE] {word.content}: "
                      f"{word.confidence:.2f}")

Layout-modellen for strukturert uttrekk

# Layout gir tabellar, figurar og seksjonar i tillegg til OCR
poller = client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=document_url)
)
result = poller.result()

# Tabellar
for table_idx, table in enumerate(result.tables):
    print(f"Tabell {table_idx}: "
          f"{table.row_count} rader x {table.column_count} kolonnar")
    for cell in table.cells:
        print(f"  [{cell.row_index}][{cell.column_index}]: "
              f"{cell.content}")

# Figurar (med bounding regions)
if result.figures:
    for fig in result.figures:
        print(f"Figur: {fig.caption.content if fig.caption else 'Utan caption'}")

Text Normalization og Correction

Post-OCR normalisering

import re
from typing import Optional

def normalize_ocr_text(raw_text: str,
                       locale: str = "nb-NO") -> str:
    """Normaliser OCR-tekst for norsk kontekst."""

    text = raw_text

    # Fiks vanlege OCR-feil i norsk tekst
    ocr_corrections = {
        r'\b0\b(?=[a-zA-Z])': 'O',      # 0 → O framfor bokstavar
        r'(?<=[a-zA-Z])\b0\b': 'o',      # 0 → o etter bokstavar
        r'l(?=[0-9])': '1',               # l → 1 framfor tal
        r'(?<=[0-9])O': '0',             # O → 0 etter tal
        r'æ\s': 'æ',                      # Fjern spacing i æøå
        r'ø\s': 'ø',
        r'å\s': 'å',
    }

    for pattern, replacement in ocr_corrections.items():
        text = re.sub(pattern, replacement, text)

    # Normaliser personnummer-format
    text = re.sub(
        r'(\d{6})\s*(\d{5})',
        r'\1 \2',
        text
    )

    # Normaliser organisasjonsnummer
    text = re.sub(
        r'(\d{3})\s*(\d{3})\s*(\d{3})',
        r'\1 \2 \3',
        text
    )

    # Fjern OCR-artifact (stray pikslar som vert tolka som teikn)
    text = re.sub(r'[^\w\s.,;:!?()@\-/\\æøåÆØÅ€£$%&#+*]', '', text)

    return text.strip()


def extract_structured_fields(ocr_result: AnalyzeResult) -> dict:
    """Utvinne strukturerte felt frå OCR-resultat."""
    fields = {}

    for para in ocr_result.paragraphs:
        content = para.content.strip()

        # Detekter datoar
        date_match = re.search(
            r'(\d{1,2})[./-](\d{1,2})[./-](\d{2,4})',
            content
        )
        if date_match:
            fields.setdefault("dates", []).append(date_match.group())

        # Detekter beløp (NOK)
        amount_match = re.search(
            r'kr\.?\s*([\d\s]+[,.]?\d*)',
            content, re.IGNORECASE
        )
        if amount_match:
            fields.setdefault("amounts", []).append(
                amount_match.group(1).strip()
            )

    return fields

Integration with Document Understanding

End-to-end OCR Pipeline

Innkommande dokument (PDF/bilete)
    → Steg 1: Kvalitetsvurdering (preprocessing)
    → Steg 2: Dokumentklassifisering (Custom Classifier)
    → Steg 3: OCR + Strukturert uttrekk
        → Faktura → prebuilt-invoice
        → Kvittering → prebuilt-receipt
        → ID-dokument → prebuilt-idDocument
        → Generelt → prebuilt-layout + query fields
    → Steg 4: Post-processing (normalisering, validering)
    → Steg 5: Integrasjon (Cosmos DB, AI Search, Power Automate)

Query Fields for fleksibelt feltuttrekk

# Utvinne spesifikke felt utan modelltrening
poller = client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=doc_url),
    features=[DocumentAnalysisFeature.QUERY_FIELDS],
    query_fields=["Saksnummer", "Vedtaksdato", "Klagerist",
                   "Ansvarlig saksbehandler"]
)
result = poller.result()

for doc in result.documents:
    for field_name, field_value in doc.fields.items():
        print(f"{field_name}: {field_value.get('valueString')}")

Searchable PDF Output

from azure.ai.documentintelligence.models import AnalyzeOutputOption

# Konverter skanna PDF til søkbar PDF
with open("scanned.pdf", "rb") as f:
    poller = client.begin_analyze_document(
        "prebuilt-read",
        body=f,
        output=[AnalyzeOutputOption.PDF]
    )

result = poller.result()
operation_id = poller.details["operation_id"]

# Last ned searchable PDF
response = client.get_analyze_result_pdf(
    model_id=result.model_id,
    result_id=operation_id
)

with open("searchable_output.pdf", "wb") as writer:
    writer.writelines(response)

Azure AI Search Integration

{
  "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
  "context": "/document/normalized_images/*",
  "detectOrientation": true,
  "inputs": [
    {"name": "image", "source": "/document/normalized_images/*"}
  ],
  "outputs": [
    {"name": "text", "targetName": "ocrText"},
    {"name": "layoutText", "targetName": "ocrLayoutText"}
  ]
}

Kombiner med Text Merge skill for å slå saman OCR-tekst med dokumenttekst:

{
  "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
  "context": "/document",
  "inputs": [
    {"name": "text", "source": "/document/content"},
    {"name": "itemsToInsert", "source": "/document/normalized_images/*/ocrText"}
  ],
  "outputs": [
    {"name": "mergedText", "targetName": "merged_content"}
  ]
}

Norsk offentleg sektor

Bruksområde

  • Arkivdigitalisering: OCR av historiske dokument og protokollar
  • Saksbehandling: Automatisk uttrekk frå innkomne dokument
  • Fakturaprosessering: Prebuilt invoice model for leverandørfaktura
  • ID-verifisering: Prebuilt ID document model for pass og førarkort
  • Byggesak: Uttrekk av informasjon frå teikningar og plankartet

Språkstøtte for norsk

  • Document Intelligence: Norsk bokmål (nb) og nynorsk (nn) støtta
  • Handskriftgjenkjenning: Støttar norske teikn (æ, ø, å)
  • High-resolution OCR: Forbetrar resultat for gamle, dårlege skanningar

GDPR og personvern

  • Document Intelligence er stateless — ingen lagring etter analyse
  • For PDF med personnummer: Sladding etter OCR-uttrekk
  • Batch API-resultat lagrast i Microsoft-managed container eller eigen Azure Storage
  • Anbefaling: Bruk customer-managed key for kryptering av mellomlagring

Beslutningsrammeverk

Scenario Anbefaling Grunngjeving
PDF-dokumentanalyse Document Intelligence Read/Layout Beste OCR for dokument
Skiltar og scene-tekst Vision Read API Optimalisert for generelle bilete
Faktura/kvittering Document Intelligence prebuilt Ferdig modell med feltuttrekk
Eigendefinerte skjema Custom Model + query fields Fleksibelt utan full modelltrening
Store volum (10K+ dokument) Batch API Asynkron, kostnadseffektiv
Historiske dokument (dårleg kvalitet) OCR_HIGH_RESOLUTION add-on Høgare oppløysing for betre resultat
Søkbar PDF frå skanning Read + AnalyzeOutputOption.PDF Innebygd searchable PDF
RAG-pipeline AI Search + OCR Skill + Text Merge End-to-end indeksering

For Cosmo

  • Azure AI Document Intelligence v4.0 er standard for dokument-OCR — høgare oppløysing enn Vision Read, støttar PDF/Office/HTML, og inkluderer paragrafdeteksjon, tabellar og handskrift med confidence scores per ord.
  • Prebuilt-modellar eliminerer behovet for trening — invoice, receipt, ID document og layout dekkjer dei vanlegaste scenarioa i offentleg forvaltning, med query fields for fleksibelt feltuttrekk utan modelltrening.
  • Batch API er essensielt for volum-digitalisering — asynkron prosessering av tusenvis av dokument med resultat i Azure Blob Storage, eigna for arkivdigitaliseringsprosjekt.
  • Searchable PDF er ein game-changer for arkiv — konverter skanna dokument til søkbare PDF-ar med innebygd tekst-layer, direkte brukbare i saksbehandlingssystem og arkivløysingar.
  • OCR_HIGH_RESOLUTION add-on er kritisk for dårlege skanningar — aktiverer høgare oppløysing for historiske dokument, handskrivne notat og låg-kvalitets-kopiar som er vanlege i offentlege arkiv.