Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering, ms-ai-governance, ms-ai-security, ms-ai-infrastructure. Key changes: - Language Services (Custom Text Classification, Text Analytics, QnA): retirement warning 2029-03-31, migration guides to Foundry/GPT-4o - Agentic Retrieval: 50M free reasoning tokens/month (Public Preview) - Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models - Agent Registry: Risks column (M365 E7), user-shared/org-published types - Declarative agents: schema v1.5 → v1.6, Store validation requirements - MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code - AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python) - Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access - Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned - Fast Transcription API: phrase lists, 14-language multi-lingual transcription - Azure Monitor Workbooks: Bicep support, RBAC specifics - Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA) - RAG security-rbac: 4-approach table (GA + 3 preview access control methods) - IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns - Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP) All 106 files: Last updated 2026-04 | Verified: MCP 2026-04 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
20 KiB
Azure AI Vision - OCR and Document Processing
Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA
Oppdatering 2026-04: For OCR kombinert med semantisk analyse, bruk Azure AI Content Understanding (GA). Azure AI Vision OCR (Read API) er fortsatt det beste valget for ren tekst-ekstraksjon, men Content Understanding gir overlegent resultat for dokumenter der layout, tabeller og kontekstuell forståelse er viktig.
Category: Azure AI Services (Foundry Tools)
Introduksjon
Azure AI Vision tilbyr optisk tegngjenkjenning (OCR) som gjør det mulig å ekstraherne synlig tekst fra bilder og dokumenter og konvertere den til strukturerte tekststrenger. OCR-tjenesten kan lese både trykt og håndskrevet tekst fra et bredt spekter av kilder – fra produktetiketter, skilt og screenshots til fakturaer, rapporter og forretningsdokumenter. Dette gjøres ved hjelp av avanserte maskinlæringsmodeller som støtter flere språk og skriftsystemer, inkludert latinske, kyrilliske, arabiske og devanagari-tegnsett.
Microsoft tilbyr to hovededisjoner av Read OCR-tjenesten, hver optimalisert for ulike scenarioer. Azure Vision v4.0 Read OCR er designet for raske, synkrone operasjoner på enkeltbilder og "in-the-wild"-bilder som etiketter, skilt og sosiale medieposter. Document Intelligence Read Model er derimot optimalisert for teksttunge dokumenter (PDF, Office-filer, HTML) med asynkrone API-kall som muliggjør storskalig intelligent dokumentprosessering. Begge tjenestene benytter samme OCR-motor, men tilpasses for forskjellige bruksområder og integrasjonsmønstre.
For norsk offentlig sektor er OCR en kritisk byggekloss i digitalisering av arkivmateriale, automatisering av saksbehandling og tilgjengeliggjøring av informasjon. Ved å ekstrahere tekst fra skannet materiale kan organisasjoner gjøre innhold søkbart, automatisere dataregistrering og forbedre universell utforming gjennom tekstbaserte grensesnitt.
Kjernekomponenter
OCR-motoren (Read)
Microsofts Read OCR-motor er basert på flere dyplæringsmodeller med støtte for universal skriftbasert modellering som muliggjør global språkstøtte:
| Komponent | Beskrivelse | Versjon |
|---|---|---|
| Azure Vision v4.0 Read | Synkron API for rask tekstekstraksjon fra enkeltbilder. Del av Image Analysis 4.0 API. | v4.0 (GA) |
| Azure Vision v3.2 Read | Asynkron API (legacy). Ingen videre oppdateringer etter v3.2. | v3.2 (GA, legacy) |
| Document Intelligence Read | Asynkron API optimalisert for teksttunge dokumenter (PDF, TIFF, Office-filer). | GA |
| Florence Foundation Model | Underliggende AI-modell som driver forbedret semantisk forståelse i v4.0. | v4.0+ |
OCR-kapabiliteter
- Trykt tekst: Støtte for flere språk inkludert engelsk, fransk, tysk, italiensk, portugisisk, spansk, kinesisk, japansk, koreansk, russisk, arabisk, hindi og flere internasjonale språk.
- Håndskrift: Støtte for engelsk, kinesisk (forenklet), fransk, tysk, italiensk, japansk, koreansk, portugisisk og spansk.
- Bounding boxes: Koordinater for hver tekstlinje og hvert ord for presis lokalisering.
- Confidence scores: Verdier mellom 0 og 1 som indikerer tjenestens tillit til ekstraksjonen (f.eks. 0.82 = 82 % sikkerhet).
- Språkdeteksjon: Automatisk identifisering av språk i bilde/dokument.
- Handwritten classification: Klassifisering av tekstlinjer som håndskrevne eller trykte (kun latinsk alfabet).
- Multispråklig støtte: Støtte for blandede språk og skrifttyper i samme dokument.
API-alternativer
| API | Type | Input | Bruksområde |
|---|---|---|---|
| Image Analysis 4.0 (Read) | Synkron (REST) | JPEG, PNG, BMP, GIF | Lette OCR-scenarioer, "in-the-wild"-bilder, real-time brukeropplevelser |
| Document Intelligence Read | Asynkron (REST) | PDF, TIFF, JPEG, PNG, BMP, Office-filer | Teksttunge dokumenter, intelligent dokumentprosessering, batch-operasjoner |
| Azure Vision v3.2 Read | Asynkron (REST) | JPEG, PNG, BMP, PDF, TIFF | Legacy-støtte (ingen nye funksjoner) |
Input-krav
- Filformater: JPEG, PNG, BMP, PDF, TIFF
- Filstørrelse: Maks 500 MB (4 MB for gratisnivå)
- Dimensjoner: Minimum 50 x 50 piksler, maksimum 10 000 x 10 000 piksler
- PDF/TIFF: Opptil 2000 sider (kun de to første sidene for gratisnivå)
- Minimum teksthøyde: 12 piksler for et 1024 x 768 bilde (ca. 8-punkts skrift ved 150 DPI)
Arkitekturmønstre
1. Real-time OCR for brukergrensesnitt (Synkron v4.0)
Bruk når: Brukere laster opp enkeltbilder for øyeblikkelig tekstekstraksjon (f.eks. skanne kvitteringer, visittkort, skilt).
Arkitektur:
Bruker → Web/mobil-app → Azure Vision v4.0 (Analyze Image API med Read-feature) → JSON-respons → Visning/prosessering
Fordeler:
- Synkron respons (sub-sekund latens)
- Enkel integrasjon (ett API-kall)
- Kombineres med andre Image Analysis-features (caption, tags, objektdeteksjon)
Ulemper:
- Ikke optimalisert for multisiders dokumenter
- Høyere kostnad per transaksjon ved høyt volum
Eksempel: Kvitteringsskanning i en reisekostnad-app, visittkortskanning i CRM, real-time tekstgjenkjenning i mobilapp.
2. Batch-dokumentprosessering (Asynkron Document Intelligence)
Bruk når: Prosessering av store mengder dokumenter (fakturaer, kontrakter, arkivmateriale) med behov for strukturert dataekstraksjon.
Arkitektur:
Dokumenter → Azure Blob Storage → Azure Logic App/Function → Document Intelligence Read → Azure AI Search → Søkegrensesnitt
Fordeler:
- Optimalisert for PDF og multisiders dokumenter
- Asynkron behandling (skalerer bedre for batch)
- Strukturert output med layout-informasjon
- Lavere kostnad per side ved høyt volum
Ulemper:
- Polling-basert workflow (asynkron kompleksitet)
- Lengre responstid (sekunder til minutter avhengig av dokumentstørrelse)
Eksempel: Arkivdigitalisering, fakturaautomatisering, kontraktsanalyse, compliance-dokumentasjon.
3. Hybrid OCR med AI Search Skillset
Bruk når: Bygge søk- og kunnskapsløsninger over skannet innhold med berikelse (entity extraction, sentiment, oversettelse).
Arkitektur:
Dokumenter → Azure Blob Storage → AI Search Indexer → OCR Skill (Vision v3.2 eller DI Read) → Entity Extraction → Key Phrase Extraction → Search Index
Fordeler:
- Integrert med Azure AI Search berikelsespipeline
- Kombineres med andre Cognitive Skills (NER, PII-deteksjon, oversettelse)
- Automatisk re-indexing ved nye dokumenter
Ulemper:
- Bundet til AI Search berikelsesmodellen
- Skill-integrasjon bruker v3.2 API (legacy) – for v4.0 kreves custom Web API skill
Eksempel: Kunnskapsgrafbygning over juridiske dokumenter, søk i historiske arkiver, compliance-dokumentasjon.
Beslutningsveiledning
Valg mellom Azure Vision OCR og Document Intelligence Read
| Kriterium | Azure Vision v4.0 Read | Document Intelligence Read |
|---|---|---|
| Input | Enkeltbilder (JPEG, PNG, BMP, GIF) | Dokumenter (PDF, TIFF, Office, bilder) |
| API-type | Synkron (umiddelbar respons) | Asynkron (polling-basert) |
| Bruksområde | In-the-wild-bilder, real-time brukeropplevelser | Teksttunge dokumenter, batch-prosessering |
| Multisiders støtte | Begrenset (TIFF støttes, men ikke optimalisert) | Opptil 2000 sider per dokument |
| Layout-analyse | Tekstlinjer og ord med bounding boxes | Avansert layout (paragrafer, tabeller, strukturer) |
| Pris | Per transaksjon (per bilde) | Per side (bedre for multisiders dokumenter) |
| Integrasjon | Del av Image Analysis 4.0 (kombineres med andre features) | Frittstående Read-modell (kan kombineres med andre DI-modeller) |
Vanlige feil og fallgruver
| Problem | Årsak | Løsning |
|---|---|---|
| Lav nøyaktighet på håndskrift | Modellen støtter kun håndskrift for utvalgte språk (engelsk best) | Bruk trykt tekst hvis mulig, eller tren custom modell |
| Tekst ikke detektert | For lav oppløsning (<50x50 px), blur, dårlig kontrast | Øk oppløsning til min. 150 DPI, forbedre belysning/kontrast |
| Feil språkdeteksjon | Blandet språk eller uvanlige tegnsett | Spesifiser language-parameter i API-kall |
| Høy kostnad | Bruk av v4.0 synkron API for batch-dokumenter | Bruk Document Intelligence Read for multisiders dokumenter |
| Timeout-feil | Store PDF-filer med synkron API | Bruk Document Intelligence asynkron API |
| Feil i v3.2 legacy-kode | v3.2 har ingen nye oppdateringer | Migrer til v4.0 (synkron) eller Document Intelligence (asynkron) |
Røde flagg
- Bruk IKKE Azure Vision OCR for ansiktsgjenkjenning eller biometrisk identifisering – OCR detekterer ikke ansiktsidentitet.
- Bruk IKKE OCR for alder- eller kjønnsklassifisering – Ikke designet for dette.
- Bruk IKKE OCR for PII-deteksjon uten ekstra lag – OCR ekstrahere kun tekst; bruk Azure AI Language for PII-identifisering.
- Bruk IKKE gratisnivå for produksjon – 4 MB filgrense og 2-siders PDF-begrensning.
- Vær oppmerksom på confidence scores under 0.80 – Vurder manuell validering eller human-in-the-loop.
Integrasjon med Microsoft-stakken
Azure AI Search
Image Analysis Skill (v3.2) støtter OCR som del av berikelsespipeline. For v4.0-funksjonalitet, bruk Web API Custom Skill med Image Analysis 4.0 REST API.
{
"@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill",
"context": "/document/normalized_images/*",
"visualFeatures": ["read"],
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text",
"targetName": "ocrText"
}
]
}
Power Automate
AI Builder tilbyr en Text Recognition prebuilt model som bruker Azure Vision OCR under panseret. Kan integreres i Power Automate-flows for automatisering:
- Bruksområde: Kvitteringsprosessering, fakturaekstraksjon, formularlesing
- Fordel: Low-code/no-code integrasjon
- Begrensning: Mindre konfigurerbarhet enn direkte API-tilgang
Azure Functions / Logic Apps
Bruk Azure Functions eller Logic Apps for å bygge OCR-workflows:
Eksempel-arkitektur (Logic App):
- Trigger: Når blob lastes opp til Azure Storage
- Action: Kall Azure Vision v4.0 Read API
- Action: Parse JSON-respons
- Action: Lagre ekstrahert tekst i Cosmos DB eller SQL Database
- Action: Send varsling til bruker
Microsoft Fabric / Synapse
SynapseML tilbyr en ReadImage-transformator for OCR i Spark-pipelines:
from synapse.ml.cognitive import ReadImage
ri = (ReadImage()
.setLinkedService(ai_service_name)
.setImageUrlCol("url")
.setOutputCol("ocr"))
df_with_ocr = ri.transform(df)
Azure OpenAI / Copilot Studio
Kombiner OCR med LLM for intelligent dokumentforståelse:
- Ekstrahere tekst med OCR (Vision/Document Intelligence)
- Send ekstrahert tekst til Azure OpenAI for semantisk analyse, oppsummering, eller Q&A
- Bruk i Copilot Studio for conversational document understanding
Eksempel: "Hva er totalsummen på fakturaen?" → OCR ekstrahere tekst → GPT-4 parse fakturadetaljer → Returner svar.
Offentlig sektor (Norge)
GDPR og personvern
- Data residency: Azure Vision prosesserer data i samme region som ressursen ble opprettet. For norsk offentlig sektor, bruk Norway East eller West Europe.
- Data retention: Input-bilder og ekstrahert tekst lagres midlertidig (48 timer for operation-location URL), deretter slettet automatisk. Ingen permanent lagring av kundedata i tjenesten.
- PII-håndtering: OCR ekstrahere tekst uten å identifisere PII automatisk. Kombiner med Azure AI Language PII Detection for å anonymisere persondata.
- Encryption: All data krypteres under transit (TLS 1.2) og ved hvile (Azure Storage encryption).
Arkivering og offentlighetsloven
- Søkbarhet: OCR gjør skannet arkivmateriale søkbart, som kreves for offentlig innsyn (Offentlighetsloven § 3).
- Revisjonsspor: Bruk Azure Monitor og Log Analytics for å logge alle OCR-operasjoner (hvem, hva, når).
- Langtidslagring: Lagre OCR-output i Azure Blob Storage med immutability policies for compliance.
Universell utforming (WCAG 2.1)
- Tekstgjøring: OCR muliggjør skjermleser-tilgang til innhold i bilder og skannet materiale (WCAG 2.1 Level AA).
- Alt-text generering: Kombiner OCR med Image Analysis caption-feature for automatisk generering av alt-tekst.
- Kontrastoptimalisering: For lav OCR-nøyaktighet på grunn av dårlig kontrast, bruk bildebehandling (f.eks. OpenCV) før OCR.
Kostnad og lisensiering
Prismodell (per februar 2026)
Azure Vision v4.0 Read OCR (del av Image Analysis 4.0):
| Nivå | Pris (NOK per 1000 transaksjoner) | Gratisnivå |
|---|---|---|
| Standard S1 | Ca. 10-15 NOK (avhengig av region og valutakurs) | 5000 transaksjoner/måned gratis |
Document Intelligence Read Model:
| Nivå | Pris (NOK per side) | Gratisnivå |
|---|---|---|
| Standard S0 | Ca. 0.10-0.15 NOK per side | 500 sider/måned gratis |
Merknad: Priser varierer basert på Azure-region og valutakurs. Sjekk Azure Pricing Calculator for oppdaterte priser.
Kostnadsoptimalisering
| Strategi | Beskrivelse | Estimert besparelse |
|---|---|---|
| Velg riktig API | Bruk Document Intelligence for multisiders PDF (per-side prissetting), Vision v4.0 for enkeltbilder (per-transaksjon) | 30-50 % for dokumentbatch |
| Batch-prosessering | Prosesser flere dokumenter samtidig med Document Intelligence asynkron API | 20-30 % |
| Bruk gratisnivå for testing | 5000 transaksjoner/måned (Vision) eller 500 sider/måned (DI) gratis | 100 % for lavvolum |
| Optimaliser bildekvalitet | Reduser re-processing ved å sende bilder med korrekt oppløsning (150-300 DPI) | 10-20 % |
| Caching | Lagre OCR-resultater for gjenbruk (unngå re-processing av samme dokument) | 40-60 % |
| Reserved Capacity | Kjøp forpliktet kapasitet for forutsigbart høyt volum (kun Enterprise) | 20-40 % |
Total Cost of Ownership (TCO)
Eksempel-beregning for arkivdigitalisering (1 million sider/år):
| Komponent | Kostnad (NOK/år) |
|---|---|
| Document Intelligence Read (1M sider × 0.12 NOK) | 120 000 |
| Azure Blob Storage (1 TB, LRS) | 2 000 |
| Azure AI Search (S1 tier) | 30 000 |
| Azure Functions (compute for orchestration) | 5 000 |
| Total TCO | 157 000 NOK/år |
For arkitekten (Cosmo)
Spørsmål å stille kunden
- Type innhold: Er innholdet enkeltstående bilder (etiketter, skilt) eller multisiders dokumenter (PDF, kontrakter)?
- Volum: Hvor mange sider/bilder må prosesseres per måned? (velg API basert på volum)
- Håndskrift: Kreves støtte for håndskrevet tekst? Hvis ja, hvilket språk?
- Responstid: Er det behov for real-time respons (synkron) eller er batch-prosessering (asynkron) akseptabelt?
- Integrasjon: Skal OCR integreres med AI Search, Power Automate, eller custom applikasjon?
- Layout-analyse: Trengs strukturert output (tabeller, paragrafer) eller er plain text tilstrekkelig?
- PII/GDPR: Inneholder dokumentene persondata? Kreves PII-deteksjon og anonymisering?
- Språk: Hvilket språk er majoriteten av tekstene på? Blandede språk?
- Kvalitet: Hva er kvaliteten på innholdet (skannet, foto, skjermdump)? Har du eksempelbilder?
- Downstream-prosessering: Hva skal skje med ekstrahert tekst? (Søk, analyse, arkivering, LLM-prosessering?)
Fallgruver å unngå
| Fallgruve | Hvorfor det er et problem | Hvordan unngå |
|---|---|---|
| Bruke v4.0 synkron API for stor PDF-batch | Timeout-feil, høyere kostnad | Bruk Document Intelligence asynkron API |
| Ikke validere OCR-nøyaktighet | Lav confidence score kan gi feil data downstream | Implementer quality gates (confidence > 0.80), human-in-the-loop for kritiske dokumenter |
| Ignorere PII i OCR-output | GDPR-brudd ved eksponering av persondata | Kombiner med Azure AI Language PII Detection |
| Hardkode language-parameter | Feilaktig språkdeteksjon i multispråklige scenarioer | La tjenesten auto-detektere, eller bruk language detection API først |
| Ikke teste på reelle data | Modellytelse varierer med dokumenttype og kvalitet | Kjør pilot med representative eksempler før produksjonssetting |
| Overse on-premises alternativ | For on-premises-krav (compliance, air-gapped) finnes Docker-container | Evaluer Read Docker container for on-premises deployment |
Anbefalinger per modenhetsnivå
| Modenhetsnivå | Anbefaling |
|---|---|
| Starter (ingen OCR-erfaring) | Start med Azure Vision v4.0 via Vision Studio for å teste kapabiliteter. Bruk AI Builder i Power Automate for enkel integrasjon. |
| Utbygger (noe erfaring) | Implementer Document Intelligence Read for dokumentbatch. Kombiner med Azure AI Search for søk. Bruk Logic Apps for orchestration. |
| Avansert (enterprise-scale) | Bygg custom OCR-pipeline med Azure Functions, Durable Functions for asynkron workflow, og Azure Monitor for observability. Vurder custom models for domain-spesifikk OCR. |
| Ekspert (multi-region, compliance) | Implementer multi-region deployment for high availability. Bruk Private Endpoints for nettverksisolering. Integrer med Azure Policy for compliance. Kombiner OCR med Azure OpenAI for intelligent document understanding. |
Kilder og verifisering
Microsoft Learn-kilder (fra MCP-research)
Verified (hentet fra Microsoft Learn via MCP):
- OCR Overview: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/overview-ocr
- OCR for images (version 4.0): https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/concept-ocr
- Call Azure Vision v3.2 GA Read API: https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/how-to/call-read-api
- Quickstart: Azure Vision v3.2 GA Read (Python): https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/quickstarts-sdk/client-library
- Quickstart: Azure Vision v3.2 GA Read (REST API): https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/quickstarts-sdk/client-library
- Data, privacy, and security for OCR: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-data-privacy-security
- Transparency note and use cases for OCR: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-transparency-note
- Capabilities and limitations of OCR: https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/ocr-characteristics-and-limitations
- Image Analysis cognitive skill (AI Search): https://learn.microsoft.com/en-us/azure/search/cognitive-search-skill-image-analysis
- Tutorial: Vision with Azure AI services (Synapse): https://learn.microsoft.com/en-us/azure/synapse-analytics/machine-learning/tutorial-computer-vision-use-mmlspark
- Azure Vision Image Analysis Python SDK: https://learn.microsoft.com/en-us/python/api/overview/azure/ai-vision-imageanalysis-readme
- Document Intelligence Read Model: https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/prebuilt/read
Konfidensnivå per seksjon:
| Seksjon | Konfidensnivå | Kilde |
|---|---|---|
| Introduksjon | Verified | MCP microsoft_docs_search + microsoft_docs_fetch |
| Kjernekomponenter | Verified | MCP microsoft_docs_fetch (overview-ocr, concept-ocr) |
| Arkitekturmønstre | Baseline | Modellkunnskap + Best practices fra Microsoft Learn |
| Beslutningsveiledning | Verified | MCP microsoft_docs_search (ocr-characteristics-and-limitations) |
| Integrasjon med Microsoft-stakken | Verified | MCP microsoft_docs_search (AI Search skill, Synapse tutorial, code samples) |
| Offentlig sektor (Norge) | Baseline | Modellkunnskap + GDPR/WCAG-standarder |
| Kostnad og lisensiering | Baseline | Modellkunnskap (priser endres hyppig, sjekk Azure Pricing Calculator) |
| For arkitekten (Cosmo) | Baseline | Arkitekturveiledning basert på Microsoft Learn best practices |
Merknad: Alle tekniske detaljer om API-er, kapabiliteter, input-krav, språkstøtte, og JSON-responser er verifisert mot Microsoft Learn-dokumentasjon via MCP-research (februar 2026). Prisopplysninger er estimater og bør verifiseres mot Azure Pricing Calculator. Offentlig sektor-spesifikke anbefalinger er basert på norsk regulatorisk kontekst (GDPR, Offentlighetsloven, WCAG 2.1).