# Document Intelligence and Vision Processing **Last updated:** 2026-02 **Status:** GA **Category:** Multi-Modal AI --- ## Introduksjon Azure AI Document Intelligence (tidlegare Form Recognizer) er ein spesialisert teneste for automatisert dokumentbehandling som kombinerer bransjeleiande OCR med djuplæringsmodellar for å ekstrahere tekst, tabellar, strukturar og felt frå dokument. Tenesta støttar eit breitt spekter av dokumenttypar — PDF, bilete, Office-filer og HTML — med ein enkelt API-kall, og leverer resultat i Markdown-format som er optimalisert for integrasjon med LLM-ar i RAG-pipelines. For norsk offentleg sektor er Document Intelligence særleg relevant for digitalisering av arkiv, automatisert saksbehandling, fakturahåndtering og analyse av regulatoriske dokument. Tenesta støttar 309 trykte og 12 handskrivne språk, inkludert norsk, og gir confidence scores for kvar ekstraksjon slik at ein kan bygge robuste kvalitetskontrollrutinar. Azure AI Foundry tilbyr no også Content Understanding som eit komplementært alternativ for meir semantisk dokumentanalyse. Valet mellom Document Intelligence og Content Understanding avheng av bruksscenarioet: Document Intelligence for presis, strukturert ekstraksjon med låg latency, og Content Understanding for meir generaliserande, LLM-driven analyse. --- ## Kjernekomponentar | Komponent | Formål | Teknologi | |-----------|--------|-----------| | **Read OCR** | Tekst-ekstraksjon frå trykte og handskrivne dokument | Document Intelligence Read API v4.0 | | **Layout Analysis** | Strukturanalyse med tabellar, avsnitt, seksjonshovud | Document Intelligence Layout API | | **Prebuilt Models** | Ferdig trena modellar for faktura, kvittering, ID, skatt | Document Intelligence Prebuilt API | | **Custom Models** | Trenable modellar for eigendefinerte dokumenttypar | Custom Template / Neural Models | | **Classification** | Identifisering og splitting av dokumenttypar | Document Intelligence Classifier | | **Batch Analysis** | Bulkbehandling av store dokumentmengder | Batch Analysis API | --- ## Document Layout Analysis ### Korleis Layout-modellen fungerer Layout-modellen analyserer dokumentstruktur gjennom to typar roller: 1. **Geometriske roller** — Tekst, tabellar, figurar og avkryssingsfelt 2. **Logiske roller** — Titlar, overskrifter, sidefot og seksjonar Modellen returnerer resultat i Markdown-format, noko som gjer det enkelt å mate innhaldet direkte inn i LLM-ar for vidare analyse. ### Python-implementering ```python from azure.ai.documentintelligence import DocumentIntelligenceClient from azure.core.credentials import AzureKeyCredential endpoint = "https://.cognitiveservices.azure.com/" credential = AzureKeyCredential("") client = DocumentIntelligenceClient(endpoint, credential) # Analyser layout frå ein PDF-fil with open("dokument.pdf", "rb") as f: poller = client.begin_analyze_document( "prebuilt-layout", body=f, content_type="application/pdf", output_content_format="markdown" ) result = poller.result() # Markdown-output optimalisert for LLM-inntak print(result.content) # Iterer over tabellar for table in result.tables: print(f"Tabell: {table.row_count} rader x {table.column_count} kolonnar") for cell in table.cells: print(f" [{cell.row_index},{cell.column_index}]: {cell.content}") ``` ### C#-implementering ```csharp using Azure; using Azure.AI.DocumentIntelligence; var client = new DocumentIntelligenceClient( new Uri("https://.cognitiveservices.azure.com/"), new AzureKeyCredential("") ); var content = new AnalyzeDocumentContent() { UrlSource = new Uri("https://example.com/document.pdf") }; var operation = await client.AnalyzeDocumentAsync( WaitUntil.Completed, "prebuilt-layout", content, outputContentFormat: ContentFormat.Markdown ); AnalyzeResult result = operation.Value; // Strukturert Markdown-output Console.WriteLine(result.Content); // Prosesser tabellar foreach (var table in result.Tables) { Console.WriteLine($"Tabell: {table.RowCount}x{table.ColumnCount}"); foreach (var cell in table.Cells) { Console.WriteLine($" [{cell.RowIndex},{cell.ColumnIndex}]: {cell.Content}"); } } ``` --- ## Tabell- og skjemaekstraksjon ### Tabellekstraksjon Document Intelligence identifiserer tabellar automatisk og ekstraherer: - **Celleinnhald** med tekst og bounding boxes - **Rad- og kolonnespenn** (merged cells) - **Overskriftsrader** og kolonne-hovud - **Confidence scores** per celle ### Skjemaekstraksjon med Prebuilt Models | Modell | Bruksområde | Nøkkelfelt | |--------|-------------|-----------| | `prebuilt-invoice` | Fakturabehandling | Leverandør, beløp, forfallsdato, linjeposter | | `prebuilt-receipt` | Kvitteringsanalyse | Butikk, dato, totalbeløp, varer | | `prebuilt-idDocument` | ID-verifisering | Namn, fødselsdato, dokumentnummer | | `prebuilt-tax.us` | Amerikanske skatteskjema | W-2, 1098, 1099, 1040 | | `prebuilt-healthInsuranceCard.us` | Helseforsikring | Medlem, gruppe, forsikringsgivar | | `prebuilt-bankStatement` | Bankkontoutskrift | Saldo, transaksjonar, kontoinformasjon | ### Custom Neural Models For eigendefinerte dokumenttypar kan ein trene custom models: ```python # Trening av custom extraction model from azure.ai.documentintelligence import DocumentIntelligenceAdministrationClient admin_client = DocumentIntelligenceAdministrationClient(endpoint, credential) # Start trening med labelerte eksempel poller = admin_client.begin_build_document_model( build_request={ "modelId": "vedtak-modell", "description": "Ekstraksjon av vedtaksfelt", "buildMode": "neural", "azureBlobSource": { "containerUrl": "" } } ) model = poller.result() print(f"Modell-ID: {model.model_id}, Status: {model.status}") ``` --- ## Handskriftgjenkjenning Document Intelligence har bransjens beste handskriftgjenkjenning med støtte for 12 handskrivne språk. Systemet identifiserer automatisk om tekst er handskriven eller trykt og returnerer confidence scores. ### Handskriftsdeteksjon i JSON-respons ```json { "styles": [ { "confidence": 0.95, "spans": [ { "offset": 509, "length": 24 } ], "isHandwritten": true } ] } ``` ### Avkryssingsfelt (Selection Marks) Layout-modellen identifiserer også avkryssingsfelt i skjema: ```python if page.selection_marks: for mark in page.selection_marks: print( f"Avkryssingsfelt: '{mark.state}' " f"innanfor polygon '{mark.polygon}' " f"med confidence {mark.confidence}" ) ``` --- ## Pre- og postprosessering ### Pre-prosessering | Steg | Teknikk | Formål | |------|---------|--------| | **Bildekvalitet** | Oppløysingssjekk (min 50x50 px) | Sikre lesbar input | | **Formatvalidering** | JPEG, PNG, PDF, TIFF, DOCX, XLSX, PPTX, HTML | Verifiser støtta format | | **Filstorleik** | Max 500 MB for standard, 25 MB for gratis tier | Unngå API-avvisning | | **Siderotasjon** | Automatisk rotasjonsdeteksjon | Korriger skannarar | | **Dokumentklassifisering** | Custom Classifier | Rut til rett modell | ### Postprosessering ```python def postprocess_extraction(result, confidence_threshold=0.85): """Kvalitetskontroll av Document Intelligence-resultat.""" high_confidence = [] needs_review = [] for document in result.documents: for name, field in document.fields.items(): if field.confidence >= confidence_threshold: high_confidence.append({ "felt": name, "verdi": field.value_string or field.content, "confidence": field.confidence }) else: needs_review.append({ "felt": name, "verdi": field.value_string or field.content, "confidence": field.confidence, "grunn": "Låg confidence" }) return { "godkjende": high_confidence, "til_manuell_gjennomgang": needs_review, "automatiseringsgrad": len(high_confidence) / (len(high_confidence) + len(needs_review)) * 100 } ``` ### RAG-integrasjon med Semantic Chunking Document Intelligence sin Markdown-output eignar seg godt for semantic chunking i RAG-pipelines: ```python from azure.ai.documentintelligence import DocumentIntelligenceClient def chunk_document_for_rag(result): """Chunk Document Intelligence Markdown-output for RAG.""" chunks = [] current_chunk = "" current_heading = "" for line in result.content.split("\n"): if line.startswith("#"): if current_chunk: chunks.append({ "heading": current_heading, "content": current_chunk.strip(), "type": "section" }) current_heading = line current_chunk = "" else: current_chunk += line + "\n" # Legg til tabellar som separate chunks for table in result.tables: table_md = f"| {'|'.join(['---'] * table.column_count)} |\n" for cell in table.cells: table_md += f"| {cell.content} " chunks.append({ "heading": "Tabell", "content": table_md, "type": "table" }) return chunks ``` --- ## Implementeringsmønstre ### Mønster 1: Intelligent Document Processing Pipeline ``` Dokument → Classification → Routing → Extraction → Validation → Output ↓ ↓ ↓ ↓ Custom Classifier Prebuilt/ Layout/ Confidence Custom Neural Threshold Model Model Check ``` ### Mønster 2: Hybrid OCR + LLM For komplekse dokument der rein ekstraksjon ikkje er nok: 1. **Document Intelligence** for presis OCR og strukturekstraksjon 2. **GPT-4o** for semantisk forståing og oppsummering 3. **Kombinert pipeline** som brukar styrken til begge ### Mønster 3: Batch Processing ```python # Batch-analyse av mange dokument poller = client.begin_analyze_batch_documents( "prebuilt-invoice", body={ "azureBlobSource": { "containerUrl": "", "prefix": "fakturaer/" }, "resultContainerUrl": "", "resultPrefix": "resultat/" } ) ``` --- ## Norsk offentleg sektor ### Relevante bruksområde - **NAV**: Automatisert behandling av legeerklæringar, søknader og vedlegg - **Skatteetaten**: Ekstrahering av data frå skatteskjema og næringsoppgåver - **Kommunar**: Byggesaksbehandling med automatisk ekstraksjon frå teikningar - **Arkivverket**: Digitalisering av historiske dokument og handskrivne protokollar ### Compliance-omsyn | Krav | Løysing | |------|---------| | **GDPR** | Data prosessert i EU-regionar (Norway East, West Europe) | | **Schrems II** | Ingen dataoverføring til USA med EU-deployment | | **Arkivlova** | Markdown-output kan lagrast som arkivverdig format | | **Offentleglova** | Automatisk sladding av persondata med postprosessering | | **Sikkerheitslova** | Customer Managed Keys for kryptering | ### Dataminimering Document Intelligence returnerer berre etterspurte felt. Ved bruk av prebuilt models kan ein filtrere output til berre relevante felt, i tråd med GDPR sin dataminimeringsprinsipp. --- ## Beslutningsrammeverk | Scenario | Anbefaling | Begrunnelse | |----------|------------|-------------| | Standardiserte faktura/kvitteringar | Prebuilt Invoice/Receipt | Høg nøyaktigheit utan trening | | Eigendefinerte norske skjema | Custom Neural Model | Fleksibel, generaliserande | | Historiske handskrivne dokument | Layout + GPT-4o hybrid | OCR + semantisk tolking | | Stor-skala dokumentdigitalisering | Batch API + Layout | Skalerbar, kostnadseffektiv | | RAG-pipeline inntak | Layout med Markdown output | LLM-vennleg format | | Klassifisering av blanda dokument | Custom Classifier → Router | Automatisk dokumenttype-ruting | | Sensitive dokument (helse, rettsvesen) | On-premises container + CMK | Maksimal datakontroll | --- ## For Cosmo - **Document Intelligence v4.0 GA** er bransjeleiande for OCR og strukturekstraksjon — 309 trykte og 12 handskrivne språk, inkludert norsk, med Markdown-output optimalisert for LLM-integrasjon - **Prebuilt models** (invoice, receipt, ID, tax) gir umiddelbar verdi utan treningskostnad, medan Custom Neural Models handterer eigendefinerte norske dokumenttypar - **Batch Analysis API** muliggjer kostnadseffektiv prosessering av store dokumentmengder — kritisk for digitaliseringsprosjekt i offentleg sektor - **Hybrid-mønsteret Document Intelligence + GPT-4o** kombinerer presis ekstraksjon med semantisk forståing — bruk DI for strukturdata og GPT-4o for tolking og oppsummering - **Content Understanding** er det nye alternativet for meir generalisert dokumentanalyse — evaluer begge for kvar brukscase og vel basert på behov for presisjon vs. fleksibilitet