ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/azure-ai-services/azure-ai-vision-ocr-processing.md
Kjell Tore Guttormsen ff6a50d14f docs(architect): weekly KB update — 106 files refreshed (2026-04)
Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering,
ms-ai-governance, ms-ai-security, ms-ai-infrastructure.

Key changes:
- Language Services (Custom Text Classification, Text Analytics, QnA):
  retirement warning 2029-03-31, migration guides to Foundry/GPT-4o
- Agentic Retrieval: 50M free reasoning tokens/month (Public Preview)
- Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models
- Agent Registry: Risks column (M365 E7), user-shared/org-published types
- Declarative agents: schema v1.5 → v1.6, Store validation requirements
- MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code
- AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python)
- Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access
- Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned
- Fast Transcription API: phrase lists, 14-language multi-lingual transcription
- Azure Monitor Workbooks: Bicep support, RBAC specifics
- Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA)
- RAG security-rbac: 4-approach table (GA + 3 preview access control methods)
- IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns
- Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP)

All 106 files: Last updated 2026-04 | Verified: MCP 2026-04

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-10 09:13:24 +02:00

20 KiB
Raw Blame History

Azure AI Vision - OCR and Document Processing

Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA

Oppdatering 2026-04: For OCR kombinert med semantisk analyse, bruk Azure AI Content Understanding (GA). Azure AI Vision OCR (Read API) er fortsatt det beste valget for ren tekst-ekstraksjon, men Content Understanding gir overlegent resultat for dokumenter der layout, tabeller og kontekstuell forståelse er viktig.

Category: Azure AI Services (Foundry Tools)


Introduksjon

Azure AI Vision tilbyr optisk tegngjenkjenning (OCR) som gjør det mulig å ekstraherne synlig tekst fra bilder og dokumenter og konvertere den til strukturerte tekststrenger. OCR-tjenesten kan lese både trykt og håndskrevet tekst fra et bredt spekter av kilder fra produktetiketter, skilt og screenshots til fakturaer, rapporter og forretningsdokumenter. Dette gjøres ved hjelp av avanserte maskinlæringsmodeller som støtter flere språk og skriftsystemer, inkludert latinske, kyrilliske, arabiske og devanagari-tegnsett.

Microsoft tilbyr to hovededisjoner av Read OCR-tjenesten, hver optimalisert for ulike scenarioer. Azure Vision v4.0 Read OCR er designet for raske, synkrone operasjoner på enkeltbilder og "in-the-wild"-bilder som etiketter, skilt og sosiale medieposter. Document Intelligence Read Model er derimot optimalisert for teksttunge dokumenter (PDF, Office-filer, HTML) med asynkrone API-kall som muliggjør storskalig intelligent dokumentprosessering. Begge tjenestene benytter samme OCR-motor, men tilpasses for forskjellige bruksområder og integrasjonsmønstre.

For norsk offentlig sektor er OCR en kritisk byggekloss i digitalisering av arkivmateriale, automatisering av saksbehandling og tilgjengeliggjøring av informasjon. Ved å ekstrahere tekst fra skannet materiale kan organisasjoner gjøre innhold søkbart, automatisere dataregistrering og forbedre universell utforming gjennom tekstbaserte grensesnitt.

Kjernekomponenter

OCR-motoren (Read)

Microsofts Read OCR-motor er basert på flere dyplæringsmodeller med støtte for universal skriftbasert modellering som muliggjør global språkstøtte:

Komponent Beskrivelse Versjon
Azure Vision v4.0 Read Synkron API for rask tekstekstraksjon fra enkeltbilder. Del av Image Analysis 4.0 API. v4.0 (GA)
Azure Vision v3.2 Read Asynkron API (legacy). Ingen videre oppdateringer etter v3.2. v3.2 (GA, legacy)
Document Intelligence Read Asynkron API optimalisert for teksttunge dokumenter (PDF, TIFF, Office-filer). GA
Florence Foundation Model Underliggende AI-modell som driver forbedret semantisk forståelse i v4.0. v4.0+

OCR-kapabiliteter

  • Trykt tekst: Støtte for flere språk inkludert engelsk, fransk, tysk, italiensk, portugisisk, spansk, kinesisk, japansk, koreansk, russisk, arabisk, hindi og flere internasjonale språk.
  • Håndskrift: Støtte for engelsk, kinesisk (forenklet), fransk, tysk, italiensk, japansk, koreansk, portugisisk og spansk.
  • Bounding boxes: Koordinater for hver tekstlinje og hvert ord for presis lokalisering.
  • Confidence scores: Verdier mellom 0 og 1 som indikerer tjenestens tillit til ekstraksjonen (f.eks. 0.82 = 82 % sikkerhet).
  • Språkdeteksjon: Automatisk identifisering av språk i bilde/dokument.
  • Handwritten classification: Klassifisering av tekstlinjer som håndskrevne eller trykte (kun latinsk alfabet).
  • Multispråklig støtte: Støtte for blandede språk og skrifttyper i samme dokument.

API-alternativer

API Type Input Bruksområde
Image Analysis 4.0 (Read) Synkron (REST) JPEG, PNG, BMP, GIF Lette OCR-scenarioer, "in-the-wild"-bilder, real-time brukeropplevelser
Document Intelligence Read Asynkron (REST) PDF, TIFF, JPEG, PNG, BMP, Office-filer Teksttunge dokumenter, intelligent dokumentprosessering, batch-operasjoner
Azure Vision v3.2 Read Asynkron (REST) JPEG, PNG, BMP, PDF, TIFF Legacy-støtte (ingen nye funksjoner)

Input-krav

  • Filformater: JPEG, PNG, BMP, PDF, TIFF
  • Filstørrelse: Maks 500 MB (4 MB for gratisnivå)
  • Dimensjoner: Minimum 50 x 50 piksler, maksimum 10 000 x 10 000 piksler
  • PDF/TIFF: Opptil 2000 sider (kun de to første sidene for gratisnivå)
  • Minimum teksthøyde: 12 piksler for et 1024 x 768 bilde (ca. 8-punkts skrift ved 150 DPI)

Arkitekturmønstre

1. Real-time OCR for brukergrensesnitt (Synkron v4.0)

Bruk når: Brukere laster opp enkeltbilder for øyeblikkelig tekstekstraksjon (f.eks. skanne kvitteringer, visittkort, skilt).

Arkitektur:

Bruker → Web/mobil-app → Azure Vision v4.0 (Analyze Image API med Read-feature) → JSON-respons → Visning/prosessering

Fordeler:

  • Synkron respons (sub-sekund latens)
  • Enkel integrasjon (ett API-kall)
  • Kombineres med andre Image Analysis-features (caption, tags, objektdeteksjon)

Ulemper:

  • Ikke optimalisert for multisiders dokumenter
  • Høyere kostnad per transaksjon ved høyt volum

Eksempel: Kvitteringsskanning i en reisekostnad-app, visittkortskanning i CRM, real-time tekstgjenkjenning i mobilapp.


2. Batch-dokumentprosessering (Asynkron Document Intelligence)

Bruk når: Prosessering av store mengder dokumenter (fakturaer, kontrakter, arkivmateriale) med behov for strukturert dataekstraksjon.

Arkitektur:

Dokumenter → Azure Blob Storage → Azure Logic App/Function → Document Intelligence Read → Azure AI Search → Søkegrensesnitt

Fordeler:

  • Optimalisert for PDF og multisiders dokumenter
  • Asynkron behandling (skalerer bedre for batch)
  • Strukturert output med layout-informasjon
  • Lavere kostnad per side ved høyt volum

Ulemper:

  • Polling-basert workflow (asynkron kompleksitet)
  • Lengre responstid (sekunder til minutter avhengig av dokumentstørrelse)

Eksempel: Arkivdigitalisering, fakturaautomatisering, kontraktsanalyse, compliance-dokumentasjon.


3. Hybrid OCR med AI Search Skillset

Bruk når: Bygge søk- og kunnskapsløsninger over skannet innhold med berikelse (entity extraction, sentiment, oversettelse).

Arkitektur:

Dokumenter → Azure Blob Storage → AI Search Indexer → OCR Skill (Vision v3.2 eller DI Read) → Entity Extraction → Key Phrase Extraction → Search Index

Fordeler:

  • Integrert med Azure AI Search berikelsespipeline
  • Kombineres med andre Cognitive Skills (NER, PII-deteksjon, oversettelse)
  • Automatisk re-indexing ved nye dokumenter

Ulemper:

  • Bundet til AI Search berikelsesmodellen
  • Skill-integrasjon bruker v3.2 API (legacy) for v4.0 kreves custom Web API skill

Eksempel: Kunnskapsgrafbygning over juridiske dokumenter, søk i historiske arkiver, compliance-dokumentasjon.

Beslutningsveiledning

Valg mellom Azure Vision OCR og Document Intelligence Read

Kriterium Azure Vision v4.0 Read Document Intelligence Read
Input Enkeltbilder (JPEG, PNG, BMP, GIF) Dokumenter (PDF, TIFF, Office, bilder)
API-type Synkron (umiddelbar respons) Asynkron (polling-basert)
Bruksområde In-the-wild-bilder, real-time brukeropplevelser Teksttunge dokumenter, batch-prosessering
Multisiders støtte Begrenset (TIFF støttes, men ikke optimalisert) Opptil 2000 sider per dokument
Layout-analyse Tekstlinjer og ord med bounding boxes Avansert layout (paragrafer, tabeller, strukturer)
Pris Per transaksjon (per bilde) Per side (bedre for multisiders dokumenter)
Integrasjon Del av Image Analysis 4.0 (kombineres med andre features) Frittstående Read-modell (kan kombineres med andre DI-modeller)

Vanlige feil og fallgruver

Problem Årsak Løsning
Lav nøyaktighet på håndskrift Modellen støtter kun håndskrift for utvalgte språk (engelsk best) Bruk trykt tekst hvis mulig, eller tren custom modell
Tekst ikke detektert For lav oppløsning (<50x50 px), blur, dårlig kontrast Øk oppløsning til min. 150 DPI, forbedre belysning/kontrast
Feil språkdeteksjon Blandet språk eller uvanlige tegnsett Spesifiser language-parameter i API-kall
Høy kostnad Bruk av v4.0 synkron API for batch-dokumenter Bruk Document Intelligence Read for multisiders dokumenter
Timeout-feil Store PDF-filer med synkron API Bruk Document Intelligence asynkron API
Feil i v3.2 legacy-kode v3.2 har ingen nye oppdateringer Migrer til v4.0 (synkron) eller Document Intelligence (asynkron)

Røde flagg

  • Bruk IKKE Azure Vision OCR for ansiktsgjenkjenning eller biometrisk identifisering OCR detekterer ikke ansiktsidentitet.
  • Bruk IKKE OCR for alder- eller kjønnsklassifisering Ikke designet for dette.
  • Bruk IKKE OCR for PII-deteksjon uten ekstra lag OCR ekstrahere kun tekst; bruk Azure AI Language for PII-identifisering.
  • Bruk IKKE gratisnivå for produksjon 4 MB filgrense og 2-siders PDF-begrensning.
  • Vær oppmerksom på confidence scores under 0.80 Vurder manuell validering eller human-in-the-loop.

Integrasjon med Microsoft-stakken

Image Analysis Skill (v3.2) støtter OCR som del av berikelsespipeline. For v4.0-funksjonalitet, bruk Web API Custom Skill med Image Analysis 4.0 REST API.

{
  "@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill",
  "context": "/document/normalized_images/*",
  "visualFeatures": ["read"],
  "inputs": [
    {
      "name": "image",
      "source": "/document/normalized_images/*"
    }
  ],
  "outputs": [
    {
      "name": "text",
      "targetName": "ocrText"
    }
  ]
}

Power Automate

AI Builder tilbyr en Text Recognition prebuilt model som bruker Azure Vision OCR under panseret. Kan integreres i Power Automate-flows for automatisering:

  • Bruksområde: Kvitteringsprosessering, fakturaekstraksjon, formularlesing
  • Fordel: Low-code/no-code integrasjon
  • Begrensning: Mindre konfigurerbarhet enn direkte API-tilgang

Azure Functions / Logic Apps

Bruk Azure Functions eller Logic Apps for å bygge OCR-workflows:

Eksempel-arkitektur (Logic App):

  1. Trigger: Når blob lastes opp til Azure Storage
  2. Action: Kall Azure Vision v4.0 Read API
  3. Action: Parse JSON-respons
  4. Action: Lagre ekstrahert tekst i Cosmos DB eller SQL Database
  5. Action: Send varsling til bruker

Microsoft Fabric / Synapse

SynapseML tilbyr en ReadImage-transformator for OCR i Spark-pipelines:

from synapse.ml.cognitive import ReadImage

ri = (ReadImage()
    .setLinkedService(ai_service_name)
    .setImageUrlCol("url")
    .setOutputCol("ocr"))

df_with_ocr = ri.transform(df)

Azure OpenAI / Copilot Studio

Kombiner OCR med LLM for intelligent dokumentforståelse:

  1. Ekstrahere tekst med OCR (Vision/Document Intelligence)
  2. Send ekstrahert tekst til Azure OpenAI for semantisk analyse, oppsummering, eller Q&A
  3. Bruk i Copilot Studio for conversational document understanding

Eksempel: "Hva er totalsummen på fakturaen?" → OCR ekstrahere tekst → GPT-4 parse fakturadetaljer → Returner svar.

Offentlig sektor (Norge)

GDPR og personvern

  • Data residency: Azure Vision prosesserer data i samme region som ressursen ble opprettet. For norsk offentlig sektor, bruk Norway East eller West Europe.
  • Data retention: Input-bilder og ekstrahert tekst lagres midlertidig (48 timer for operation-location URL), deretter slettet automatisk. Ingen permanent lagring av kundedata i tjenesten.
  • PII-håndtering: OCR ekstrahere tekst uten å identifisere PII automatisk. Kombiner med Azure AI Language PII Detection for å anonymisere persondata.
  • Encryption: All data krypteres under transit (TLS 1.2) og ved hvile (Azure Storage encryption).

Arkivering og offentlighetsloven

  • Søkbarhet: OCR gjør skannet arkivmateriale søkbart, som kreves for offentlig innsyn (Offentlighetsloven § 3).
  • Revisjonsspor: Bruk Azure Monitor og Log Analytics for å logge alle OCR-operasjoner (hvem, hva, når).
  • Langtidslagring: Lagre OCR-output i Azure Blob Storage med immutability policies for compliance.

Universell utforming (WCAG 2.1)

  • Tekstgjøring: OCR muliggjør skjermleser-tilgang til innhold i bilder og skannet materiale (WCAG 2.1 Level AA).
  • Alt-text generering: Kombiner OCR med Image Analysis caption-feature for automatisk generering av alt-tekst.
  • Kontrastoptimalisering: For lav OCR-nøyaktighet på grunn av dårlig kontrast, bruk bildebehandling (f.eks. OpenCV) før OCR.

Kostnad og lisensiering

Prismodell (per februar 2026)

Azure Vision v4.0 Read OCR (del av Image Analysis 4.0):

Nivå Pris (NOK per 1000 transaksjoner) Gratisnivå
Standard S1 Ca. 10-15 NOK (avhengig av region og valutakurs) 5000 transaksjoner/måned gratis

Document Intelligence Read Model:

Nivå Pris (NOK per side) Gratisnivå
Standard S0 Ca. 0.10-0.15 NOK per side 500 sider/måned gratis

Merknad: Priser varierer basert på Azure-region og valutakurs. Sjekk Azure Pricing Calculator for oppdaterte priser.

Kostnadsoptimalisering

Strategi Beskrivelse Estimert besparelse
Velg riktig API Bruk Document Intelligence for multisiders PDF (per-side prissetting), Vision v4.0 for enkeltbilder (per-transaksjon) 30-50 % for dokumentbatch
Batch-prosessering Prosesser flere dokumenter samtidig med Document Intelligence asynkron API 20-30 %
Bruk gratisnivå for testing 5000 transaksjoner/måned (Vision) eller 500 sider/måned (DI) gratis 100 % for lavvolum
Optimaliser bildekvalitet Reduser re-processing ved å sende bilder med korrekt oppløsning (150-300 DPI) 10-20 %
Caching Lagre OCR-resultater for gjenbruk (unngå re-processing av samme dokument) 40-60 %
Reserved Capacity Kjøp forpliktet kapasitet for forutsigbart høyt volum (kun Enterprise) 20-40 %

Total Cost of Ownership (TCO)

Eksempel-beregning for arkivdigitalisering (1 million sider/år):

Komponent Kostnad (NOK/år)
Document Intelligence Read (1M sider × 0.12 NOK) 120 000
Azure Blob Storage (1 TB, LRS) 2 000
Azure AI Search (S1 tier) 30 000
Azure Functions (compute for orchestration) 5 000
Total TCO 157 000 NOK/år

For arkitekten (Cosmo)

Spørsmål å stille kunden

  1. Type innhold: Er innholdet enkeltstående bilder (etiketter, skilt) eller multisiders dokumenter (PDF, kontrakter)?
  2. Volum: Hvor mange sider/bilder må prosesseres per måned? (velg API basert på volum)
  3. Håndskrift: Kreves støtte for håndskrevet tekst? Hvis ja, hvilket språk?
  4. Responstid: Er det behov for real-time respons (synkron) eller er batch-prosessering (asynkron) akseptabelt?
  5. Integrasjon: Skal OCR integreres med AI Search, Power Automate, eller custom applikasjon?
  6. Layout-analyse: Trengs strukturert output (tabeller, paragrafer) eller er plain text tilstrekkelig?
  7. PII/GDPR: Inneholder dokumentene persondata? Kreves PII-deteksjon og anonymisering?
  8. Språk: Hvilket språk er majoriteten av tekstene på? Blandede språk?
  9. Kvalitet: Hva er kvaliteten på innholdet (skannet, foto, skjermdump)? Har du eksempelbilder?
  10. Downstream-prosessering: Hva skal skje med ekstrahert tekst? (Søk, analyse, arkivering, LLM-prosessering?)

Fallgruver å unngå

Fallgruve Hvorfor det er et problem Hvordan unngå
Bruke v4.0 synkron API for stor PDF-batch Timeout-feil, høyere kostnad Bruk Document Intelligence asynkron API
Ikke validere OCR-nøyaktighet Lav confidence score kan gi feil data downstream Implementer quality gates (confidence > 0.80), human-in-the-loop for kritiske dokumenter
Ignorere PII i OCR-output GDPR-brudd ved eksponering av persondata Kombiner med Azure AI Language PII Detection
Hardkode language-parameter Feilaktig språkdeteksjon i multispråklige scenarioer La tjenesten auto-detektere, eller bruk language detection API først
Ikke teste på reelle data Modellytelse varierer med dokumenttype og kvalitet Kjør pilot med representative eksempler før produksjonssetting
Overse on-premises alternativ For on-premises-krav (compliance, air-gapped) finnes Docker-container Evaluer Read Docker container for on-premises deployment

Anbefalinger per modenhetsnivå

Modenhetsnivå Anbefaling
Starter (ingen OCR-erfaring) Start med Azure Vision v4.0 via Vision Studio for å teste kapabiliteter. Bruk AI Builder i Power Automate for enkel integrasjon.
Utbygger (noe erfaring) Implementer Document Intelligence Read for dokumentbatch. Kombiner med Azure AI Search for søk. Bruk Logic Apps for orchestration.
Avansert (enterprise-scale) Bygg custom OCR-pipeline med Azure Functions, Durable Functions for asynkron workflow, og Azure Monitor for observability. Vurder custom models for domain-spesifikk OCR.
Ekspert (multi-region, compliance) Implementer multi-region deployment for high availability. Bruk Private Endpoints for nettverksisolering. Integrer med Azure Policy for compliance. Kombiner OCR med Azure OpenAI for intelligent document understanding.

Kilder og verifisering

Microsoft Learn-kilder (fra MCP-research)

Verified (hentet fra Microsoft Learn via MCP):

  1. OCR Overview: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/overview-ocr
  2. OCR for images (version 4.0): https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/concept-ocr
  3. Call Azure Vision v3.2 GA Read API: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/how-to/call-read-api
  4. Quickstart: Azure Vision v3.2 GA Read (Python): https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/quickstarts-sdk/client-library
  5. Quickstart: Azure Vision v3.2 GA Read (REST API): https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/quickstarts-sdk/client-library
  6. Data, privacy, and security for OCR: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-data-privacy-security
  7. Transparency note and use cases for OCR: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-transparency-note
  8. Capabilities and limitations of OCR: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-characteristics-and-limitations
  9. Image Analysis cognitive skill (AI Search): https://learn.microsoft.com/en-us/azure/search/cognitive-search-skill-image-analysis
  10. Tutorial: Vision with Azure AI services (Synapse): https://learn.microsoft.com/en-us/azure/synapse-analytics/machine-learning/tutorial-computer-vision-use-mmlspark
  11. Azure Vision Image Analysis Python SDK: https://learn.microsoft.com/en-us/python/api/overview/azure/ai-vision-imageanalysis-readme
  12. Document Intelligence Read Model: https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/prebuilt/read

Konfidensnivå per seksjon:

Seksjon Konfidensnivå Kilde
Introduksjon Verified MCP microsoft_docs_search + microsoft_docs_fetch
Kjernekomponenter Verified MCP microsoft_docs_fetch (overview-ocr, concept-ocr)
Arkitekturmønstre Baseline Modellkunnskap + Best practices fra Microsoft Learn
Beslutningsveiledning Verified MCP microsoft_docs_search (ocr-characteristics-and-limitations)
Integrasjon med Microsoft-stakken Verified MCP microsoft_docs_search (AI Search skill, Synapse tutorial, code samples)
Offentlig sektor (Norge) Baseline Modellkunnskap + GDPR/WCAG-standarder
Kostnad og lisensiering Baseline Modellkunnskap (priser endres hyppig, sjekk Azure Pricing Calculator)
For arkitekten (Cosmo) Baseline Arkitekturveiledning basert på Microsoft Learn best practices

Merknad: Alle tekniske detaljer om API-er, kapabiliteter, input-krav, språkstøtte, og JSON-responser er verifisert mot Microsoft Learn-dokumentasjon via MCP-research (februar 2026). Prisopplysninger er estimater og bør verifiseres mot Azure Pricing Calculator. Offentlig sektor-spesifikke anbefalinger er basert på norsk regulatorisk kontekst (GDPR, Offentlighetsloven, WCAG 2.1).