# Azure AI Vision - OCR and Document Processing

**Last updated:** 2026-04 | Verified: MCP 2026-04
**Status:** GA

> **Oppdatering 2026-04:** For OCR kombinert med semantisk analyse, bruk **Azure AI Content Understanding** (GA). Azure AI Vision OCR (Read API) er fortsatt det beste valget for ren tekst-ekstraksjon, men Content Understanding gir overlegent resultat for dokumenter der layout, tabeller og kontekstuell forståelse er viktig.

**Category:** Azure AI Services (Foundry Tools)

---

## Introduksjon

Azure AI Vision tilbyr optisk tegngjenkjenning (OCR) som gjør det mulig å ekstraherne synlig tekst fra bilder og dokumenter og konvertere den til strukturerte tekststrenger. OCR-tjenesten kan lese både trykt og håndskrevet tekst fra et bredt spekter av kilder – fra produktetiketter, skilt og screenshots til fakturaer, rapporter og forretningsdokumenter. Dette gjøres ved hjelp av avanserte maskinlæringsmodeller som støtter flere språk og skriftsystemer, inkludert latinske, kyrilliske, arabiske og devanagari-tegnsett.

Microsoft tilbyr to hovededisjoner av Read OCR-tjenesten, hver optimalisert for ulike scenarioer. **Azure Vision v4.0 Read OCR** er designet for raske, synkrone operasjoner på enkeltbilder og "in-the-wild"-bilder som etiketter, skilt og sosiale medieposter. **Document Intelligence Read Model** er derimot optimalisert for teksttunge dokumenter (PDF, Office-filer, HTML) med asynkrone API-kall som muliggjør storskalig intelligent dokumentprosessering. Begge tjenestene benytter samme OCR-motor, men tilpasses for forskjellige bruksområder og integrasjonsmønstre.

For norsk offentlig sektor er OCR en kritisk byggekloss i digitalisering av arkivmateriale, automatisering av saksbehandling og tilgjengeliggjøring av informasjon. Ved å ekstrahere tekst fra skannet materiale kan organisasjoner gjøre innhold søkbart, automatisere dataregistrering og forbedre universell utforming gjennom tekstbaserte grensesnitt.

## Kjernekomponenter

### OCR-motoren (Read)

Microsofts **Read OCR-motor** er basert på flere dyplæringsmodeller med støtte for universal skriftbasert modellering som muliggjør global språkstøtte:

| Komponent | Beskrivelse | Versjon |
|-----------|-------------|---------|
| **Azure Vision v4.0 Read** | Synkron API for rask tekstekstraksjon fra enkeltbilder. Del av Image Analysis 4.0 API. | v4.0 (GA) |
| **Azure Vision v3.2 Read** | Asynkron API (legacy). Ingen videre oppdateringer etter v3.2. | v3.2 (GA, legacy) |
| **Document Intelligence Read** | Asynkron API optimalisert for teksttunge dokumenter (PDF, TIFF, Office-filer). | GA |
| **Florence Foundation Model** | Underliggende AI-modell som driver forbedret semantisk forståelse i v4.0. | v4.0+ |

### OCR-kapabiliteter

- **Trykt tekst:** Støtte for flere språk inkludert engelsk, fransk, tysk, italiensk, portugisisk, spansk, kinesisk, japansk, koreansk, russisk, arabisk, hindi og flere internasjonale språk.
- **Håndskrift:** Støtte for engelsk, kinesisk (forenklet), fransk, tysk, italiensk, japansk, koreansk, portugisisk og spansk.
- **Bounding boxes:** Koordinater for hver tekstlinje og hvert ord for presis lokalisering.
- **Confidence scores:** Verdier mellom 0 og 1 som indikerer tjenestens tillit til ekstraksjonen (f.eks. 0.82 = 82 % sikkerhet).
- **Språkdeteksjon:** Automatisk identifisering av språk i bilde/dokument.
- **Handwritten classification:** Klassifisering av tekstlinjer som håndskrevne eller trykte (kun latinsk alfabet).
- **Multispråklig støtte:** Støtte for blandede språk og skrifttyper i samme dokument.

### API-alternativer

| API | Type | Input | Bruksområde |
|-----|------|-------|-------------|
| **Image Analysis 4.0 (Read)** | Synkron (REST) | JPEG, PNG, BMP, GIF | Lette OCR-scenarioer, "in-the-wild"-bilder, real-time brukeropplevelser |
| **Document Intelligence Read** | Asynkron (REST) | PDF, TIFF, JPEG, PNG, BMP, Office-filer | Teksttunge dokumenter, intelligent dokumentprosessering, batch-operasjoner |
| **Azure Vision v3.2 Read** | Asynkron (REST) | JPEG, PNG, BMP, PDF, TIFF | Legacy-støtte (ingen nye funksjoner) |

### Input-krav

- **Filformater:** JPEG, PNG, BMP, PDF, TIFF
- **Filstørrelse:** Maks 500 MB (4 MB for gratisnivå)
- **Dimensjoner:** Minimum 50 x 50 piksler, maksimum 10 000 x 10 000 piksler
- **PDF/TIFF:** Opptil 2000 sider (kun de to første sidene for gratisnivå)
- **Minimum teksthøyde:** 12 piksler for et 1024 x 768 bilde (ca. 8-punkts skrift ved 150 DPI)

## Arkitekturmønstre

### 1. Real-time OCR for brukergrensesnitt (Synkron v4.0)

**Bruk når:** Brukere laster opp enkeltbilder for øyeblikkelig tekstekstraksjon (f.eks. skanne kvitteringer, visittkort, skilt).

**Arkitektur:**
```
Bruker → Web/mobil-app → Azure Vision v4.0 (Analyze Image API med Read-feature) → JSON-respons → Visning/prosessering
```

**Fordeler:**
- Synkron respons (sub-sekund latens)
- Enkel integrasjon (ett API-kall)
- Kombineres med andre Image Analysis-features (caption, tags, objektdeteksjon)

**Ulemper:**
- Ikke optimalisert for multisiders dokumenter
- Høyere kostnad per transaksjon ved høyt volum

**Eksempel:** Kvitteringsskanning i en reisekostnad-app, visittkortskanning i CRM, real-time tekstgjenkjenning i mobilapp.

---

### 2. Batch-dokumentprosessering (Asynkron Document Intelligence)

**Bruk når:** Prosessering av store mengder dokumenter (fakturaer, kontrakter, arkivmateriale) med behov for strukturert dataekstraksjon.

**Arkitektur:**
```
Dokumenter → Azure Blob Storage → Azure Logic App/Function → Document Intelligence Read → Azure AI Search → Søkegrensesnitt
```

**Fordeler:**
- Optimalisert for PDF og multisiders dokumenter
- Asynkron behandling (skalerer bedre for batch)
- Strukturert output med layout-informasjon
- Lavere kostnad per side ved høyt volum

**Ulemper:**
- Polling-basert workflow (asynkron kompleksitet)
- Lengre responstid (sekunder til minutter avhengig av dokumentstørrelse)

**Eksempel:** Arkivdigitalisering, fakturaautomatisering, kontraktsanalyse, compliance-dokumentasjon.

---

### 3. Hybrid OCR med AI Search Skillset

**Bruk når:** Bygge søk- og kunnskapsløsninger over skannet innhold med berikelse (entity extraction, sentiment, oversettelse).

**Arkitektur:**
```
Dokumenter → Azure Blob Storage → AI Search Indexer → OCR Skill (Vision v3.2 eller DI Read) → Entity Extraction → Key Phrase Extraction → Search Index
```

**Fordeler:**
- Integrert med Azure AI Search berikelsespipeline
- Kombineres med andre Cognitive Skills (NER, PII-deteksjon, oversettelse)
- Automatisk re-indexing ved nye dokumenter

**Ulemper:**
- Bundet til AI Search berikelsesmodellen
- Skill-integrasjon bruker v3.2 API (legacy) – for v4.0 kreves custom Web API skill

**Eksempel:** Kunnskapsgrafbygning over juridiske dokumenter, søk i historiske arkiver, compliance-dokumentasjon.

## Beslutningsveiledning

### Valg mellom Azure Vision OCR og Document Intelligence Read

| Kriterium | Azure Vision v4.0 Read | Document Intelligence Read |
|-----------|------------------------|----------------------------|
| **Input** | Enkeltbilder (JPEG, PNG, BMP, GIF) | Dokumenter (PDF, TIFF, Office, bilder) |
| **API-type** | Synkron (umiddelbar respons) | Asynkron (polling-basert) |
| **Bruksområde** | In-the-wild-bilder, real-time brukeropplevelser | Teksttunge dokumenter, batch-prosessering |
| **Multisiders støtte** | Begrenset (TIFF støttes, men ikke optimalisert) | Opptil 2000 sider per dokument |
| **Layout-analyse** | Tekstlinjer og ord med bounding boxes | Avansert layout (paragrafer, tabeller, strukturer) |
| **Pris** | Per transaksjon (per bilde) | Per side (bedre for multisiders dokumenter) |
| **Integrasjon** | Del av Image Analysis 4.0 (kombineres med andre features) | Frittstående Read-modell (kan kombineres med andre DI-modeller) |

### Vanlige feil og fallgruver

| Problem | Årsak | Løsning |
|---------|-------|---------|
| **Lav nøyaktighet på håndskrift** | Modellen støtter kun håndskrift for utvalgte språk (engelsk best) | Bruk trykt tekst hvis mulig, eller tren custom modell |
| **Tekst ikke detektert** | For lav oppløsning (<50x50 px), blur, dårlig kontrast | Øk oppløsning til min. 150 DPI, forbedre belysning/kontrast |
| **Feil språkdeteksjon** | Blandet språk eller uvanlige tegnsett | Spesifiser `language`-parameter i API-kall |
| **Høy kostnad** | Bruk av v4.0 synkron API for batch-dokumenter | Bruk Document Intelligence Read for multisiders dokumenter |
| **Timeout-feil** | Store PDF-filer med synkron API | Bruk Document Intelligence asynkron API |
| **Feil i v3.2 legacy-kode** | v3.2 har ingen nye oppdateringer | Migrer til v4.0 (synkron) eller Document Intelligence (asynkron) |

### Røde flagg

- **Bruk IKKE Azure Vision OCR for ansiktsgjenkjenning eller biometrisk identifisering** – OCR detekterer ikke ansiktsidentitet.
- **Bruk IKKE OCR for alder- eller kjønnsklassifisering** – Ikke designet for dette.
- **Bruk IKKE OCR for PII-deteksjon uten ekstra lag** – OCR ekstrahere kun tekst; bruk Azure AI Language for PII-identifisering.
- **Bruk IKKE gratisnivå for produksjon** – 4 MB filgrense og 2-siders PDF-begrensning.
- **Vær oppmerksom på confidence scores under 0.80** – Vurder manuell validering eller human-in-the-loop.

## Integrasjon med Microsoft-stakken

### Azure AI Search

**Image Analysis Skill** (v3.2) støtter OCR som del av berikelsespipeline. For v4.0-funksjonalitet, bruk **Web API Custom Skill** med Image Analysis 4.0 REST API.

```json
{
  "@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill",
  "context": "/document/normalized_images/*",
  "visualFeatures": ["read"],
  "inputs": [
    {
      "name": "image",
      "source": "/document/normalized_images/*"
    }
  ],
  "outputs": [
    {
      "name": "text",
      "targetName": "ocrText"
    }
  ]
}
```

### Power Automate

**AI Builder** tilbyr en **Text Recognition** prebuilt model som bruker Azure Vision OCR under panseret. Kan integreres i Power Automate-flows for automatisering:

- **Bruksområde:** Kvitteringsprosessering, fakturaekstraksjon, formularlesing
- **Fordel:** Low-code/no-code integrasjon
- **Begrensning:** Mindre konfigurerbarhet enn direkte API-tilgang

### Azure Functions / Logic Apps

Bruk Azure Functions eller Logic Apps for å bygge OCR-workflows:

**Eksempel-arkitektur (Logic App):**
1. Trigger: Når blob lastes opp til Azure Storage
2. Action: Kall Azure Vision v4.0 Read API
3. Action: Parse JSON-respons
4. Action: Lagre ekstrahert tekst i Cosmos DB eller SQL Database
5. Action: Send varsling til bruker

### Microsoft Fabric / Synapse

**SynapseML** tilbyr en **ReadImage**-transformator for OCR i Spark-pipelines:

```python
from synapse.ml.cognitive import ReadImage

ri = (ReadImage()
    .setLinkedService(ai_service_name)
    .setImageUrlCol("url")
    .setOutputCol("ocr"))

df_with_ocr = ri.transform(df)
```

### Azure OpenAI / Copilot Studio

Kombiner OCR med LLM for intelligent dokumentforståelse:

1. Ekstrahere tekst med OCR (Vision/Document Intelligence)
2. Send ekstrahert tekst til Azure OpenAI for semantisk analyse, oppsummering, eller Q&A
3. Bruk i Copilot Studio for conversational document understanding

**Eksempel:** "Hva er totalsummen på fakturaen?" → OCR ekstrahere tekst → GPT-4 parse fakturadetaljer → Returner svar.

## Offentlig sektor (Norge)

### GDPR og personvern

- **Data residency:** Azure Vision prosesserer data i samme region som ressursen ble opprettet. For norsk offentlig sektor, bruk **Norway East** eller **West Europe**.
- **Data retention:** Input-bilder og ekstrahert tekst lagres midlertidig (48 timer for operation-location URL), deretter slettet automatisk. Ingen permanent lagring av kundedata i tjenesten.
- **PII-håndtering:** OCR ekstrahere tekst uten å identifisere PII automatisk. Kombiner med **Azure AI Language PII Detection** for å anonymisere persondata.
- **Encryption:** All data krypteres under transit (TLS 1.2) og ved hvile (Azure Storage encryption).

### Arkivering og offentlighetsloven

- **Søkbarhet:** OCR gjør skannet arkivmateriale søkbart, som kreves for offentlig innsyn (Offentlighetsloven § 3).
- **Revisjonsspor:** Bruk Azure Monitor og Log Analytics for å logge alle OCR-operasjoner (hvem, hva, når).
- **Langtidslagring:** Lagre OCR-output i Azure Blob Storage med immutability policies for compliance.

### Universell utforming (WCAG 2.1)

- **Tekstgjøring:** OCR muliggjør skjermleser-tilgang til innhold i bilder og skannet materiale (WCAG 2.1 Level AA).
- **Alt-text generering:** Kombiner OCR med Image Analysis caption-feature for automatisk generering av alt-tekst.
- **Kontrastoptimalisering:** For lav OCR-nøyaktighet på grunn av dårlig kontrast, bruk bildebehandling (f.eks. OpenCV) før OCR.

## Kostnad og lisensiering

### Prismodell (per februar 2026)

**Azure Vision v4.0 Read OCR** (del av Image Analysis 4.0):

| Nivå | Pris (NOK per 1000 transaksjoner) | Gratisnivå |
|------|-------------------------------------|------------|
| **Standard S1** | Ca. 10-15 NOK (avhengig av region og valutakurs) | 5000 transaksjoner/måned gratis |

**Document Intelligence Read Model**:

| Nivå | Pris (NOK per side) | Gratisnivå |
|------|---------------------|------------|
| **Standard S0** | Ca. 0.10-0.15 NOK per side | 500 sider/måned gratis |

**Merknad:** Priser varierer basert på Azure-region og valutakurs. Sjekk [Azure Pricing Calculator](https://azure.microsoft.com/en-us/pricing/calculator/) for oppdaterte priser.

### Kostnadsoptimalisering

| Strategi | Beskrivelse | Estimert besparelse |
|----------|-------------|---------------------|
| **Velg riktig API** | Bruk Document Intelligence for multisiders PDF (per-side prissetting), Vision v4.0 for enkeltbilder (per-transaksjon) | 30-50 % for dokumentbatch |
| **Batch-prosessering** | Prosesser flere dokumenter samtidig med Document Intelligence asynkron API | 20-30 % |
| **Bruk gratisnivå for testing** | 5000 transaksjoner/måned (Vision) eller 500 sider/måned (DI) gratis | 100 % for lavvolum |
| **Optimaliser bildekvalitet** | Reduser re-processing ved å sende bilder med korrekt oppløsning (150-300 DPI) | 10-20 % |
| **Caching** | Lagre OCR-resultater for gjenbruk (unngå re-processing av samme dokument) | 40-60 % |
| **Reserved Capacity** | Kjøp forpliktet kapasitet for forutsigbart høyt volum (kun Enterprise) | 20-40 % |

### Total Cost of Ownership (TCO)

**Eksempel-beregning for arkivdigitalisering (1 million sider/år):**

| Komponent | Kostnad (NOK/år) |
|-----------|------------------|
| Document Intelligence Read (1M sider × 0.12 NOK) | 120 000 |
| Azure Blob Storage (1 TB, LRS) | 2 000 |
| Azure AI Search (S1 tier) | 30 000 |
| Azure Functions (compute for orchestration) | 5 000 |
| **Total TCO** | **157 000 NOK/år** |

## For arkitekten (Cosmo)

### Spørsmål å stille kunden

1. **Type innhold:** Er innholdet enkeltstående bilder (etiketter, skilt) eller multisiders dokumenter (PDF, kontrakter)?
2. **Volum:** Hvor mange sider/bilder må prosesseres per måned? (velg API basert på volum)
3. **Håndskrift:** Kreves støtte for håndskrevet tekst? Hvis ja, hvilket språk?
4. **Responstid:** Er det behov for real-time respons (synkron) eller er batch-prosessering (asynkron) akseptabelt?
5. **Integrasjon:** Skal OCR integreres med AI Search, Power Automate, eller custom applikasjon?
6. **Layout-analyse:** Trengs strukturert output (tabeller, paragrafer) eller er plain text tilstrekkelig?
7. **PII/GDPR:** Inneholder dokumentene persondata? Kreves PII-deteksjon og anonymisering?
8. **Språk:** Hvilket språk er majoriteten av tekstene på? Blandede språk?
9. **Kvalitet:** Hva er kvaliteten på innholdet (skannet, foto, skjermdump)? Har du eksempelbilder?
10. **Downstream-prosessering:** Hva skal skje med ekstrahert tekst? (Søk, analyse, arkivering, LLM-prosessering?)

### Fallgruver å unngå

| Fallgruve | Hvorfor det er et problem | Hvordan unngå |
|-----------|---------------------------|---------------|
| **Bruke v4.0 synkron API for stor PDF-batch** | Timeout-feil, høyere kostnad | Bruk Document Intelligence asynkron API |
| **Ikke validere OCR-nøyaktighet** | Lav confidence score kan gi feil data downstream | Implementer quality gates (confidence > 0.80), human-in-the-loop for kritiske dokumenter |
| **Ignorere PII i OCR-output** | GDPR-brudd ved eksponering av persondata | Kombiner med Azure AI Language PII Detection |
| **Hardkode language-parameter** | Feilaktig språkdeteksjon i multispråklige scenarioer | La tjenesten auto-detektere, eller bruk language detection API først |
| **Ikke teste på reelle data** | Modellytelse varierer med dokumenttype og kvalitet | Kjør pilot med representative eksempler før produksjonssetting |
| **Overse on-premises alternativ** | For on-premises-krav (compliance, air-gapped) finnes Docker-container | Evaluer Read Docker container for on-premises deployment |

### Anbefalinger per modenhetsnivå

| Modenhetsnivå | Anbefaling |
|---------------|------------|
| **Starter (ingen OCR-erfaring)** | Start med Azure Vision v4.0 via Vision Studio for å teste kapabiliteter. Bruk AI Builder i Power Automate for enkel integrasjon. |
| **Utbygger (noe erfaring)** | Implementer Document Intelligence Read for dokumentbatch. Kombiner med Azure AI Search for søk. Bruk Logic Apps for orchestration. |
| **Avansert (enterprise-scale)** | Bygg custom OCR-pipeline med Azure Functions, Durable Functions for asynkron workflow, og Azure Monitor for observability. Vurder custom models for domain-spesifikk OCR. |
| **Ekspert (multi-region, compliance)** | Implementer multi-region deployment for high availability. Bruk Private Endpoints for nettverksisolering. Integrer med Azure Policy for compliance. Kombiner OCR med Azure OpenAI for intelligent document understanding. |

## Kilder og verifisering

### Microsoft Learn-kilder (fra MCP-research)

**Verified (hentet fra Microsoft Learn via MCP):**

1. **OCR Overview**: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/overview-ocr
2. **OCR for images (version 4.0)**: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/concept-ocr
3. **Call Azure Vision v3.2 GA Read API**: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/how-to/call-read-api
4. **Quickstart: Azure Vision v3.2 GA Read (Python)**: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/quickstarts-sdk/client-library
5. **Quickstart: Azure Vision v3.2 GA Read (REST API)**: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/quickstarts-sdk/client-library
6. **Data, privacy, and security for OCR**: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-data-privacy-security
7. **Transparency note and use cases for OCR**: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-transparency-note
8. **Capabilities and limitations of OCR**: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-characteristics-and-limitations
9. **Image Analysis cognitive skill (AI Search)**: https://learn.microsoft.com/en-us/azure/search/cognitive-search-skill-image-analysis
10. **Tutorial: Vision with Azure AI services (Synapse)**: https://learn.microsoft.com/en-us/azure/synapse-analytics/machine-learning/tutorial-computer-vision-use-mmlspark
11. **Azure Vision Image Analysis Python SDK**: https://learn.microsoft.com/en-us/python/api/overview/azure/ai-vision-imageanalysis-readme
12. **Document Intelligence Read Model**: https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/prebuilt/read

**Konfidensnivå per seksjon:**

| Seksjon | Konfidensnivå | Kilde |
|---------|---------------|-------|
| Introduksjon | Verified | MCP microsoft_docs_search + microsoft_docs_fetch |
| Kjernekomponenter | Verified | MCP microsoft_docs_fetch (overview-ocr, concept-ocr) |
| Arkitekturmønstre | Baseline | Modellkunnskap + Best practices fra Microsoft Learn |
| Beslutningsveiledning | Verified | MCP microsoft_docs_search (ocr-characteristics-and-limitations) |
| Integrasjon med Microsoft-stakken | Verified | MCP microsoft_docs_search (AI Search skill, Synapse tutorial, code samples) |
| Offentlig sektor (Norge) | Baseline | Modellkunnskap + GDPR/WCAG-standarder |
| Kostnad og lisensiering | Baseline | Modellkunnskap (priser endres hyppig, sjekk Azure Pricing Calculator) |
| For arkitekten (Cosmo) | Baseline | Arkitekturveiledning basert på Microsoft Learn best practices |

**Merknad:** Alle tekniske detaljer om API-er, kapabiliteter, input-krav, språkstøtte, og JSON-responser er verifisert mot Microsoft Learn-dokumentasjon via MCP-research (februar 2026). Prisopplysninger er estimater og bør verifiseres mot Azure Pricing Calculator. Offentlig sektor-spesifikke anbefalinger er basert på norsk regulatorisk kontekst (GDPR, Offentlighetsloven, WCAG 2.1).