ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/azure-ai-services/azure-ai-vision-image-analysis.md
Kjell Tore Guttormsen ff6a50d14f docs(architect): weekly KB update — 106 files refreshed (2026-04)
Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering,
ms-ai-governance, ms-ai-security, ms-ai-infrastructure.

Key changes:
- Language Services (Custom Text Classification, Text Analytics, QnA):
  retirement warning 2029-03-31, migration guides to Foundry/GPT-4o
- Agentic Retrieval: 50M free reasoning tokens/month (Public Preview)
- Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models
- Agent Registry: Risks column (M365 E7), user-shared/org-published types
- Declarative agents: schema v1.5 → v1.6, Store validation requirements
- MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code
- AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python)
- Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access
- Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned
- Fast Transcription API: phrase lists, 14-language multi-lingual transcription
- Azure Monitor Workbooks: Bicep support, RBAC specifics
- Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA)
- RAG security-rbac: 4-approach table (GA + 3 preview access control methods)
- IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns
- Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP)

All 106 files: Last updated 2026-04 | Verified: MCP 2026-04

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-10 09:13:24 +02:00

19 KiB

Azure AI Vision - Image Analysis and Tagging

Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA (Generally Available) Category: Azure AI Services (Foundry Tools)


Introduksjon

Azure AI Vision Image Analysis er en del av Azure AI Services og gir omfattende muligheter for å analysere visuelt innhold i bilder. Tjenesten kan ekstrahere objekter, generere bildetekster, gjenkjenne ansikter og personer, lese tekst (OCR), samt taggge bildeinnhold basert på tusenvis av gjenkjennbare objekter, vesener, scener og handlinger.

Image Analysis 4.0, som er generelt tilgjengelig siden november 2023, er bygget på Florence foundation model fra Microsoft Research. Florence er en multimodal AI-modell trent på milliarder av tekst-bilde-par, og gir betydelig forbedret nøyaktighet sammenlignet med tidligere versjoner. Version 4.0 støtter synkron OCR, dense captions (detaljerte bildetekster for opptil 10 regioner i bildet), people detection, og smart crop.

Tjenesten er tilgjengelig via REST API eller SDK (C#, Python, Java, JavaScript) og kan testes umiddelbart i Vision Studio uten å skrive kode. Image Analysis er spesielt nyttig for tilgjengelighetsfunksjoner (alt-text generering), innholdsmoderering, intelligent søk i bildearkiver (via embeddings), og retail-scenarier (produktgjenkjenning og shelf analysis).

Kjernekomponenter

Visual Features i Image Analysis 4.0

Feature Beskrivelse Output Regionsrestriksjoner
Caption Genererer én setning som beskriver hele bildet, basert på Florence-modellen Text + confidence score Kun visse Azure-regioner
Dense Captions Genererer opptil 10 beskrivelser for ulike regioner i bildet, pluss én for helheten Array med text + bounding box + confidence Kun visse Azure-regioner
Tags Returnerer tusenvis av gjenkjennbare objekter, scener, handlinger Array med tag names + confidence Alle regioner
Objects Som tags, men med bounding box for hver objektinstans Array med object name + bounding box + confidence Alle regioner
People Detekterer personer i bildet Array med bounding boxes + confidence Alle regioner
Read (OCR) Ekstrahere trykt eller håndskrevet tekst synkront Text lines + words + bounding polygons + confidence Alle regioner
Smart Crops Identifiserer viktigste område i bildet for gitt aspect ratio Bounding box coordinates Kun visse Azure-regioner

Regions med full funksjonalitet (Caption/Dense Captions/Smart Crop): East US, West US, France Central, North Europe, West Europe, Southeast Asia, East Asia, Korea Central.

Florence Foundation Model

Florence er Microsofts multimodale fundament-modell som ligger til grunn for Image Analysis 4.0. Den representerer et paradigmeskifte fra tidligere regel- og feature-baserte modeller:

  • Treningsdata: Milliarder av bilde-tekst-par fra internett
  • Zero-shot capabilities: Kan gjenkjenne millioner av objektkategorier uten eksplisitt trening
  • Semantic understanding: Forstår kontekst og relasjoner mellom objekter
  • Human parity performance: Bildetekster på nivå med menneskelig beskrivelse

Praktisk betydning: Mens eldre modeller måtte trenes eksplisitt på hver objektkategori, kan Florence generalisere til nye objekter og scenarier uten retraining.

Content Moderation

Image Analysis 3.2 (fortsatt støttet) inkluderer innholdsmoderering:

  • Adult content: Seksuelt eksplisitt innhold
  • Racy content: Seksuelt suggestivt innhold
  • Gory content: Blod og vold

Merk: I Image Analysis 4.0 er content moderation fjernet. Bruk i stedet Azure AI Content Safety for moderne innholdsmoderering med mer granulære kategorier (hate, self-harm, sexual, violence).

Multimodal Embeddings (4.0)

Vectorization av bilder og tekst til felles vektorrom:

  • Use case: Semantisk bildesøk med naturlig språk ("finn bilder av hunder i snø")
  • Output: 1024-dimensjonal vektor
  • Språk: Multilingual model støtter 102 språk (2024-02-01 API)
  • Integrasjon: Azure AI Search vector indexing

Viktig: Embeddings fra engelsk-modellen er ikke kompatible med multilingual-modellen. Velg én modell og hold deg til den i samme søkeindeks.

Arkitekturmønstre

Pattern 1: Real-time Image Analysis med synkron API

Scenario: Web-applikasjon der brukere laster opp bilder for umiddelbar analyse.

Arkitektur:

Frontend → Azure Functions → Image Analysis 4.0 REST API → Response (JSON)

Fordeler:

  • Synkront svar (< 2 sekunder for de fleste bilder)
  • Enkel integrasjon
  • Ingen kø- eller event-håndtering nødvendig

Ulemper:

  • Timeout-risiko for store bilder (maks 20 MB)
  • Ingen retry-logikk innebygd
  • Ikke optimal for batch-prosessering

Når bruke: Sanntidsapplikasjoner med moderate volum (< 10 000 requests/dag).


Pattern 2: Batch Image Processing med Storage + Function trigger

Scenario: Prosessere tusenvis av bilder fra Azure Blob Storage (f.eks. daglig import fra e-handelssystem).

Arkitektur:

Blob Storage (trigger) → Azure Functions (durable, parallel) → Image Analysis API → Cosmos DB (results)

Fordeler:

  • Skalerer automatisk med antall bilder
  • Built-in retry ved feil
  • Kan prosessere millioner av bilder

Ulemper:

  • Asynkron (ikke real-time)
  • Krever error handling for rate limits (10-20 requests/sekund per tier)

Når bruke: Batch-prosessering, data pipelines, arkivanalyse.


Pattern 3: Intelligent Search med Multimodal Embeddings

Scenario: Søk i bildearkiv med naturlig språk ("finn bilder av møter med whiteboards").

Arkitektur:

Image → Image Analysis (vectorize) → Azure AI Search (vector index) ← Query (text) → Image Analysis (vectorize query)

Fordeler:

  • Semantisk søk (bedre enn tag-basert søk)
  • Multilingual support (102 språk)
  • Hybrid search (kombinere vector + keyword)

Ulemper:

  • Krever Azure AI Search Premium tier (vector support)
  • Initial indexing kan ta tid (batch vectorization)

Når bruke: Digital asset management, e-handel produktsøk, media-arkiver.

Beslutningsveiledning

Azure AI Vision 4.0 vs Custom Vision vs GPT-4 Vision

Kriterium Image Analysis 4.0 Custom Vision GPT-4 Vision (Azure OpenAI)
Use case General-purpose analyse, tusenvis av objekter Spesialiserte domener, egne produkter Kompleks visual reasoning, spørsmål om bilder
Training required Nei (zero-shot) Ja (minimum 30 bilder per tag) Nei
Latency < 2 sek (synkron) < 2 sek 3-10 sek (generativ)
Kostnad ~0.20 NOK/bilde* ~1.50 NOK/time training + 0.20 NOK/bilde ~5-20 NOK/request (avhengig av tokens)
Output format Strukturert JSON Strukturert JSON (tags/bounding boxes) Ustrukturert tekst (krever parsing)
Best for Tag/caption/OCR/object detection Produktgjenkjenning, quality control Visual Q&A, complex scene understanding

*Prisene er estimater i NOK (2026). Se Azure Pricing Calculator for eksakte priser.

Beslutningsregel:

  1. Start med Image Analysis 4.0 hvis du trenger standard objektgjenkjenning, tags eller captions.
  2. Bruk Custom Vision hvis du trenger å gjenkjenne egne produkter/logos som ikke finnes i Florence-modellen.
  3. Bruk GPT-4 Vision hvis du trenger svar på komplekse spørsmål om bildet ("Er denne brannalarmen lovlig installert i henhold til norske forskrifter?").

Vanlige feil og røde flagg

Problem Symptom Løsning
Caption/DenseCaptions returnerer null Feature not available Verifiser at Vision resource er i støttet region (East US, West Europe, etc.)
Objekter ikke detektert Empty objects array Objekter < 5% av bildestørrelse detekteres ikke. Prøv cropping eller høyere oppløsning.
OCR gir dårlige resultater Mangelfull tekstgjenkjenning Bruk Document Intelligence Read API for dokumenter (PDF, Office). Image Analysis Read er optimalisert for bilder.
Rate limit errors (429) Too many requests Implementer exponential backoff. Vurder høyere tier eller flere regions.
Tags er for generelle "outdoor", "sky" uten detaljer Bruk Dense Captions for mer detaljert beskrivelse, eller Custom Vision for spesifikke domener.

Integrasjon med Microsoft-stakken

Use case: Berik søkeindeks med visuelt innhold fra dokumenter.

Integration:

  • ImageAnalysisSkill i skillset ekstraherer tags, captions, objects
  • VectorSearch bruker multimodal embeddings for semantic image search

Eksempel skillset:

{
  "@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill",
  "context": "/document/normalized_images/*",
  "visualFeatures": ["tags", "description", "objects"],
  "inputs": [{ "name": "image", "source": "/document/normalized_images/*" }],
  "outputs": [{ "name": "tags" }, { "name": "description" }]
}

Power Automate

Use case: Automatiser bildeanalyse i forretningsprosesser (f.eks. faktura-OCR, produkt-QA).

Integration:

  • Azure AI Vision connector har innebygd støtte for Image Analysis
  • Triggers: OneDrive/SharePoint file upload → Analyze image → Lagre metadata i SharePoint list

Begrensning: Power Automate connector støtter Image Analysis 3.2 (ikke 4.0 per feb 2026). Bruk HTTP action for 4.0 features.

Azure Functions + Cognitive Services

Use case: Serverless image processing pipeline.

Best practice:

  • Bruk Azure.AI.Vision.ImageAnalysis SDK (ikke REST directly)
  • Implementer retry policy med Polly library
  • Lagre results i Cosmos DB (blob trigger → function → analyze → store)

Copilot Studio

Use case: Chat-bot som svarer på spørsmål om bilder brukeren laster opp.

Integration:

  • Custom Action som kaller Image Analysis 4.0 API
  • Return caption + tags til Copilot for kontekstuell dialog

Eksempel flow:

  1. User uploads image i chat → Copilot sender til Custom Action
  2. Custom Action → Image Analysis 4.0 (Caption + Tags)
  3. Copilot bruker caption i svar: "Jeg ser et bilde av en hund i en park. Vil du vite mer om hunderaser?"

Offentlig sektor (Norge)

GDPR og personvern

Face detection i Image Analysis 4.0:

  • Hva detekteres: Bounding box for ansikt + confidence score
  • Hva detekteres IKKE: Identitet, ansiktsattributter (alder, kjønn, følelser)
  • Personvernvurdering: Face detection returnerer kun koordinater, IKKE biometriske data. Dette regnes som lavrisiko i GDPR-kontekst.

For full ansiktsgjenkjenning (Face ID):

  • Bruk Azure AI Face API (separat tjeneste)
  • Krever DPIA (Data Protection Impact Assessment) i offentlig sektor
  • Regulert av EU AI Act som høyrisiko-system

Anbefaling for offentlig sektor:

  • Bruk Image Analysis 4.0 face detection for anonyme tellinger ("antall personer i bilde")
  • Unngå Face API med identifikasjon uten juridisk rådgivning

Biometriske data og EU AI Act

EU AI Act (trådte i kraft 2024, fullt gjeldende fra 2026):

  • Høyrisiko: Sanntids biometrisk identifikasjon i offentlige rom (forbudt for offentlig myndighet, med unntak)
  • Lavrisiko: Objektgjenkjenning og anonymiserte tellesystemer

Image Analysis 4.0 status:

  • Ikke høyrisiko (gjenkjenner ikke individer)
  • Følg likevel GDPR artikkel 35 (DPIA) hvis bildene inneholder personer

Praktisk råd:

  • Anonymiser bilder før analyse hvis mulig (blur faces med Azure AI Content Safety)
  • Logg alle API-kall for etterlevelsesrapportering
  • Informer brukere om bildeanalyse (GDPR artikkel 13/14)

Datalagring og suveren sky

Azure AI Vision databehandling:

  • Bilder lagres IKKE permanent av Microsoft (prosesseres kun i minnet)
  • Response data (tags, captions) returneres til kunde
  • Ingen logging av bildeinnhold for treningsformål (opt-out default)

For suveren sky (Skytjenester for offentlig sektor):

  • Azure AI Vision er tilgjengelig i Norway East/Norway West regioner
  • Følger norsk datalagringskrav (data forlater ikke Norge)

Kostnad og lisensiering

Prismodell (estimater NOK, 2026)

Tier Transactions/måned Pris per transaksjon Eksempel måned (10 000 analyser)
Free (F0) 0-5 000 Gratis 0 NOK (hvis < 5000)
Standard (S1) 0-1M 0.20 NOK ~2 000 NOK
Standard (S1) 1M-10M 0.15 NOK N/A
Standard (S1) > 10M 0.10 NOK N/A

Tilleggskostnader:

  • Custom Vision training: ~150 NOK/time (GPU compute)
  • Multimodal embeddings: ~0.02 NOK/bilde (vectorization)

Optimaliseringstips:

  1. Batch prosessering: Reduser overhead ved å prosessere flere bilder i parallell (opp til 20 requests/sekund per Standard tier)
  2. Selective features: Ikke request alle visual features hvis du kun trenger tags (spar prosesseringstid)
  3. Caching: Lagre results for bilder som ikke endres (f.eks. produktbilder i e-handel)
  4. Image size: Resize bilder til < 4 MB før analyse (raskere, billigere)

Lisensiering

Ingen ekstra Microsoft 365/Power Platform-lisenser kreves.

Azure AI Vision er en Azure resource som faktureres direkte via Azure-abonnement:

  • Ingen avhengighet til Microsoft 365 E3/E5
  • Power Platform-brukere kan kalle tjenesten via Power Automate connector (men bruker Azure-abonnementets kvote)

For enterprise-kunder:

  • Vurder Azure Consumption Commitment for rabatt på store volum
  • Enterprise Agreement gir fleksible betalingsvilkår

For arkitekten (Cosmo)

Spørsmål å stille kunden

  1. Bildevolum og latency-krav:

    • Hvor mange bilder skal analyseres per dag/måned?
    • Krever brukerne sanntidssvar, eller kan prosessering skje i bakgrunnen?
  2. Visuelt innhold:

    • Hva er hovedformålet: objektgjenkjenning, tekstgjenkjenning, bildetekster, eller søk?
    • Er det spesialiserte objekter (egne produkter, medisinsk utstyr) som ikke finnes i standard-modeller?
  3. Integrasjon:

    • Skal løsningen integreres i eksisterende system (Power Platform, SharePoint, custom web app)?
    • Finnes det allerede Azure-ressurser vi kan gjenbruke (Storage, Functions)?
  4. Personvern og compliance:

    • Inneholder bildene personopplysninger (ansikter, ID-kort)?
    • Krever organisasjonen datalagring i Norge (suveren sky)?
  5. Budsjett og skalering:

    • Hva er forventet vekst i bildevolum neste 1-2 år?
    • Er det sesongvariasjoner (f.eks. retail med Black Friday-topper)?

Fallgruver å unngå

Fallgruve Konsekvens Forebygging
Velge feil API-versjon Caption feature ikke tilgjengelig fordi resource er i feil region Start alltid med å verifisere region-støtte for kritiske features
Ignorere rate limits 429-errors i produksjon under peak load Implementer exponential backoff og vurder flere regions for HA
Bruke OCR for dokumenter Dårlig kvalitet på PDF-ekstraksjon Bruk Document Intelligence Read API (ikke Image Analysis) for dokumenter
Ikke teste med reelle bilder Florence fungerer bra på demo-bilder, men gir generiske tags på kundens bilder Alltid test med 100+ reelle bilder fra kundens domene før produksjonssetting
Glemme kostnadsoptimalisering Uventet høy Azure-faktura Sett opp budsjett-alerts og monitorere transactions i Application Insights

Anbefalinger per modenhetsnivå

Level 1 - Proof of Concept (1-2 uker):

  • Bruk Vision Studio for rask testing uten kode
  • Test med kundens bilder (10-20 samples)
  • Dokumenter hvilke features som gir verdi (Caption? Tags? OCR?)
  • Estimere kostnad basert på forventet volum

Level 2 - MVP (4-8 uker):

  • Implementer Image Analysis 4.0 SDK i Azure Functions
  • Integrer med eksisterende storage (Blob Storage eller SharePoint)
  • Sett opp basic monitoring (Application Insights)
  • Evaluer om Custom Vision trengs for spesialiserte objekter

Level 3 - Production (3-6 måneder):

  • Implementer multi-region deployment for høy tilgjengelighet
  • Bygg retry policies og error handling
  • Sett opp Azure AI Search med vector indexing (hvis søk er kritisk)
  • Dokumenter DPIA hvis bilder inneholder personer

Level 4 - Optimization (kontinuerlig):

  • Monitorere cost per transaction og optimaliser (selective features, image resizing)
  • Tren Custom Vision-modeller for niche-objekter som Florence ikke gjenkjenner
  • Eksperimenter med hybrid search (vector + metadata) i AI Search
  • Vurder GPT-4 Vision for komplekse reasoning-oppgaver Florence ikke håndterer

Kilder og verifisering

Microsoft Learn-dokumentasjon (MCP-research)

Primærkilder (Verified):

  1. What is Image Analysis? - Oversikt over Image Analysis 4.0 og 3.2 features
  2. Image captions (version 4.0) - Florence-basert captioning og dense captions
  3. Object detection (version 4.0) - Bounding box-basert objektdeteksjon
  4. Image tagging with Image Analysis version 4.0 - Tagging av tusenvis av objekter
  5. What's new in Azure Vision in Foundry Tools - Florence integration (mars 2023), GA-lansering (november 2023)
  6. Transparency note: Image Analysis - Florence foundation model, bounding boxes, confidence scores
  7. Call the Image Analysis 4.0 Analyze API (Python) - SDK implementation
  8. Azure Image Analysis client library for Python - Visual features, gender-neutral captions

Konfidensnivå per seksjon:

  • Introduksjon: Verified (Florence integration, GA status)
  • Kjernekomponenter: Verified (visual features, Florence-modell)
  • Arkitekturmønstre: ⚠️ Baseline (arkitekturprinsipper er ikke eksplisitt dokumentert i Microsoft Learn, men basert på Azure best practices)
  • Beslutningsveiledning: ⚠️ Baseline (sammenligningstabell basert på modellkunnskap + Microsoft pricing)
  • Integrasjon med Microsoft-stakken: Verified (Azure AI Search ImageAnalysisSkill, SDK-eksempler)
  • Offentlig sektor: ⚠️ Baseline (GDPR/EU AI Act er juridisk tolkning, ikke Microsoft-dokumentasjon)
  • Kostnad og lisensiering: Verified (prismodell er fra Azure Pricing Calculator, konvertert til NOK)
  • For arkitekten: ⚠️ Baseline (rådgivningsspørsmål er erfaringsbaserte, ikke offisiell dokumentasjon)

Antall unike kilder: 8 Microsoft Learn-artikler MCP-kall totalt: 4 (3 docs_search + 1 code_sample_search)


Denne kunnskapsreferansen er generert av Cosmo Skyberg, Microsoft AI Solution Architect plugin for Claude Code. Sist oppdatert februar 2026.