Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

13 KiB

Raw Blame History

Document Intelligence and Vision Processing

Last updated: 2026-02 Status: GA Category: Multi-Modal AI

Introduksjon

Azure AI Document Intelligence (tidlegare Form Recognizer) er ein spesialisert teneste for automatisert dokumentbehandling som kombinerer bransjeleiande OCR med djuplæringsmodellar for å ekstrahere tekst, tabellar, strukturar og felt frå dokument. Tenesta støttar eit breitt spekter av dokumenttypar — PDF, bilete, Office-filer og HTML — med ein enkelt API-kall, og leverer resultat i Markdown-format som er optimalisert for integrasjon med LLM-ar i RAG-pipelines.

For norsk offentleg sektor er Document Intelligence særleg relevant for digitalisering av arkiv, automatisert saksbehandling, fakturahåndtering og analyse av regulatoriske dokument. Tenesta støttar 309 trykte og 12 handskrivne språk, inkludert norsk, og gir confidence scores for kvar ekstraksjon slik at ein kan bygge robuste kvalitetskontrollrutinar.

Azure AI Foundry tilbyr no også Content Understanding som eit komplementært alternativ for meir semantisk dokumentanalyse. Valet mellom Document Intelligence og Content Understanding avheng av bruksscenarioet: Document Intelligence for presis, strukturert ekstraksjon med låg latency, og Content Understanding for meir generaliserande, LLM-driven analyse.

Kjernekomponentar

Komponent	Formål	Teknologi
Read OCR	Tekst-ekstraksjon frå trykte og handskrivne dokument	Document Intelligence Read API v4.0
Layout Analysis	Strukturanalyse med tabellar, avsnitt, seksjonshovud	Document Intelligence Layout API
Prebuilt Models	Ferdig trena modellar for faktura, kvittering, ID, skatt	Document Intelligence Prebuilt API
Custom Models	Trenable modellar for eigendefinerte dokumenttypar	Custom Template / Neural Models
Classification	Identifisering og splitting av dokumenttypar	Document Intelligence Classifier
Batch Analysis	Bulkbehandling av store dokumentmengder	Batch Analysis API

Document Layout Analysis

Korleis Layout-modellen fungerer

Layout-modellen analyserer dokumentstruktur gjennom to typar roller:

Geometriske roller — Tekst, tabellar, figurar og avkryssingsfelt
Logiske roller — Titlar, overskrifter, sidefot og seksjonar

Modellen returnerer resultat i Markdown-format, noko som gjer det enkelt å mate innhaldet direkte inn i LLM-ar for vidare analyse.

Python-implementering

from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.core.credentials import AzureKeyCredential

endpoint = "https://<resource>.cognitiveservices.azure.com/"
credential = AzureKeyCredential("<api-key>")
client = DocumentIntelligenceClient(endpoint, credential)

# Analyser layout frå ein PDF-fil
with open("dokument.pdf", "rb") as f:
    poller = client.begin_analyze_document(
        "prebuilt-layout",
        body=f,
        content_type="application/pdf",
        output_content_format="markdown"
    )

result = poller.result()

# Markdown-output optimalisert for LLM-inntak
print(result.content)

# Iterer over tabellar
for table in result.tables:
    print(f"Tabell: {table.row_count} rader x {table.column_count} kolonnar")
    for cell in table.cells:
        print(f"  [{cell.row_index},{cell.column_index}]: {cell.content}")

C#-implementering

using Azure;
using Azure.AI.DocumentIntelligence;

var client = new DocumentIntelligenceClient(
    new Uri("https://<resource>.cognitiveservices.azure.com/"),
    new AzureKeyCredential("<api-key>")
);

var content = new AnalyzeDocumentContent()
{
    UrlSource = new Uri("https://example.com/document.pdf")
};

var operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed,
    "prebuilt-layout",
    content,
    outputContentFormat: ContentFormat.Markdown
);

AnalyzeResult result = operation.Value;

// Strukturert Markdown-output
Console.WriteLine(result.Content);

// Prosesser tabellar
foreach (var table in result.Tables)
{
    Console.WriteLine($"Tabell: {table.RowCount}x{table.ColumnCount}");
    foreach (var cell in table.Cells)
    {
        Console.WriteLine($"  [{cell.RowIndex},{cell.ColumnIndex}]: {cell.Content}");
    }
}

Tabell- og skjemaekstraksjon

Tabellekstraksjon

Document Intelligence identifiserer tabellar automatisk og ekstraherer:

Celleinnhald med tekst og bounding boxes
Rad- og kolonnespenn (merged cells)
Overskriftsrader og kolonne-hovud
Confidence scores per celle

Skjemaekstraksjon med Prebuilt Models

Modell	Bruksområde	Nøkkelfelt
`prebuilt-invoice`	Fakturabehandling	Leverandør, beløp, forfallsdato, linjeposter
`prebuilt-receipt`	Kvitteringsanalyse	Butikk, dato, totalbeløp, varer
`prebuilt-idDocument`	ID-verifisering	Namn, fødselsdato, dokumentnummer
`prebuilt-tax.us`	Amerikanske skatteskjema	W-2, 1098, 1099, 1040
`prebuilt-healthInsuranceCard.us`	Helseforsikring	Medlem, gruppe, forsikringsgivar
`prebuilt-bankStatement`	Bankkontoutskrift	Saldo, transaksjonar, kontoinformasjon

Custom Neural Models

For eigendefinerte dokumenttypar kan ein trene custom models:

# Trening av custom extraction model
from azure.ai.documentintelligence import DocumentIntelligenceAdministrationClient

admin_client = DocumentIntelligenceAdministrationClient(endpoint, credential)

# Start trening med labelerte eksempel
poller = admin_client.begin_build_document_model(
    build_request={
        "modelId": "vedtak-modell",
        "description": "Ekstraksjon av vedtaksfelt",
        "buildMode": "neural",
        "azureBlobSource": {
            "containerUrl": "<sas-url-til-treningsdata>"
        }
    }
)

model = poller.result()
print(f"Modell-ID: {model.model_id}, Status: {model.status}")

Handskriftgjenkjenning

Document Intelligence har bransjens beste handskriftgjenkjenning med støtte for 12 handskrivne språk. Systemet identifiserer automatisk om tekst er handskriven eller trykt og returnerer confidence scores.

Handskriftsdeteksjon i JSON-respons

{
  "styles": [
    {
      "confidence": 0.95,
      "spans": [
        {
          "offset": 509,
          "length": 24
        }
      ],
      "isHandwritten": true
    }
  ]
}

Avkryssingsfelt (Selection Marks)

Layout-modellen identifiserer også avkryssingsfelt i skjema:

if page.selection_marks:
    for mark in page.selection_marks:
        print(
            f"Avkryssingsfelt: '{mark.state}' "
            f"innanfor polygon '{mark.polygon}' "
            f"med confidence {mark.confidence}"
        )

Pre- og postprosessering

Pre-prosessering

Steg	Teknikk	Formål
Bildekvalitet	Oppløysingssjekk (min 50x50 px)	Sikre lesbar input
Formatvalidering	JPEG, PNG, PDF, TIFF, DOCX, XLSX, PPTX, HTML	Verifiser støtta format
Filstorleik	Max 500 MB for standard, 25 MB for gratis tier	Unngå API-avvisning
Siderotasjon	Automatisk rotasjonsdeteksjon	Korriger skannarar
Dokumentklassifisering	Custom Classifier	Rut til rett modell

Postprosessering

def postprocess_extraction(result, confidence_threshold=0.85):
    """Kvalitetskontroll av Document Intelligence-resultat."""

    high_confidence = []
    needs_review = []

    for document in result.documents:
        for name, field in document.fields.items():
            if field.confidence >= confidence_threshold:
                high_confidence.append({
                    "felt": name,
                    "verdi": field.value_string or field.content,
                    "confidence": field.confidence
                })
            else:
                needs_review.append({
                    "felt": name,
                    "verdi": field.value_string or field.content,
                    "confidence": field.confidence,
                    "grunn": "Låg confidence"
                })

    return {
        "godkjende": high_confidence,
        "til_manuell_gjennomgang": needs_review,
        "automatiseringsgrad": len(high_confidence) /
            (len(high_confidence) + len(needs_review)) * 100
    }

RAG-integrasjon med Semantic Chunking

Document Intelligence sin Markdown-output eignar seg godt for semantic chunking i RAG-pipelines:

from azure.ai.documentintelligence import DocumentIntelligenceClient

def chunk_document_for_rag(result):
    """Chunk Document Intelligence Markdown-output for RAG."""

    chunks = []
    current_chunk = ""
    current_heading = ""

    for line in result.content.split("\n"):
        if line.startswith("#"):
            if current_chunk:
                chunks.append({
                    "heading": current_heading,
                    "content": current_chunk.strip(),
                    "type": "section"
                })
            current_heading = line
            current_chunk = ""
        else:
            current_chunk += line + "\n"

    # Legg til tabellar som separate chunks
    for table in result.tables:
        table_md = f"| {'|'.join(['---'] * table.column_count)} |\n"
        for cell in table.cells:
            table_md += f"| {cell.content} "
        chunks.append({
            "heading": "Tabell",
            "content": table_md,
            "type": "table"
        })

    return chunks

Implementeringsmønstre

Mønster 1: Intelligent Document Processing Pipeline

Dokument → Classification → Routing → Extraction → Validation → Output
            ↓                  ↓           ↓            ↓
        Custom Classifier  Prebuilt/   Layout/      Confidence
                          Custom       Neural       Threshold
                          Model        Model        Check

Mønster 2: Hybrid OCR + LLM

For komplekse dokument der rein ekstraksjon ikkje er nok:

Document Intelligence for presis OCR og strukturekstraksjon
GPT-4o for semantisk forståing og oppsummering
Kombinert pipeline som brukar styrken til begge

Mønster 3: Batch Processing

# Batch-analyse av mange dokument
poller = client.begin_analyze_batch_documents(
    "prebuilt-invoice",
    body={
        "azureBlobSource": {
            "containerUrl": "<sas-url>",
            "prefix": "fakturaer/"
        },
        "resultContainerUrl": "<resultat-sas-url>",
        "resultPrefix": "resultat/"
    }
)

Norsk offentleg sektor

Relevante bruksområde

NAV: Automatisert behandling av legeerklæringar, søknader og vedlegg
Skatteetaten: Ekstrahering av data frå skatteskjema og næringsoppgåver
Kommunar: Byggesaksbehandling med automatisk ekstraksjon frå teikningar
Arkivverket: Digitalisering av historiske dokument og handskrivne protokollar

Compliance-omsyn

Krav	Løysing
GDPR	Data prosessert i EU-regionar (Norway East, West Europe)
Schrems II	Ingen dataoverføring til USA med EU-deployment
Arkivlova	Markdown-output kan lagrast som arkivverdig format
Offentleglova	Automatisk sladding av persondata med postprosessering
Sikkerheitslova	Customer Managed Keys for kryptering

Dataminimering

Document Intelligence returnerer berre etterspurte felt. Ved bruk av prebuilt models kan ein filtrere output til berre relevante felt, i tråd med GDPR sin dataminimeringsprinsipp.

Beslutningsrammeverk

Scenario	Anbefaling	Begrunnelse
Standardiserte faktura/kvitteringar	Prebuilt Invoice/Receipt	Høg nøyaktigheit utan trening
Eigendefinerte norske skjema	Custom Neural Model	Fleksibel, generaliserande
Historiske handskrivne dokument	Layout + GPT-4o hybrid	OCR + semantisk tolking
Stor-skala dokumentdigitalisering	Batch API + Layout	Skalerbar, kostnadseffektiv
RAG-pipeline inntak	Layout med Markdown output	LLM-vennleg format
Klassifisering av blanda dokument	Custom Classifier → Router	Automatisk dokumenttype-ruting
Sensitive dokument (helse, rettsvesen)	On-premises container + CMK	Maksimal datakontroll

For Cosmo

Document Intelligence v4.0 GA er bransjeleiande for OCR og strukturekstraksjon — 309 trykte og 12 handskrivne språk, inkludert norsk, med Markdown-output optimalisert for LLM-integrasjon
Prebuilt models (invoice, receipt, ID, tax) gir umiddelbar verdi utan treningskostnad, medan Custom Neural Models handterer eigendefinerte norske dokumenttypar
Batch Analysis API muliggjer kostnadseffektiv prosessering av store dokumentmengder — kritisk for digitaliseringsprosjekt i offentleg sektor
Hybrid-mønsteret Document Intelligence + GPT-4o kombinerer presis ekstraksjon med semantisk forståing — bruk DI for strukturdata og GPT-4o for tolking og oppsummering
Content Understanding er det nye alternativet for meir generalisert dokumentanalyse — evaluer begge for kvar brukscase og vel basert på behov for presisjon vs. fleksibilitet

13 KiB Raw Blame History