# Azure AI Vision - Image Analysis and Tagging **Last updated:** 2026-04 | Verified: MCP 2026-04 **Status:** GA (Generally Available) **Category:** Azure AI Services (Foundry Tools) --- ## Introduksjon Azure AI Vision Image Analysis er en del av Azure AI Services og gir omfattende muligheter for å analysere visuelt innhold i bilder. Tjenesten kan ekstrahere objekter, generere bildetekster, gjenkjenne ansikter og personer, lese tekst (OCR), samt taggge bildeinnhold basert på tusenvis av gjenkjennbare objekter, vesener, scener og handlinger. Image Analysis 4.0, som er generelt tilgjengelig siden november 2023, er bygget på Florence foundation model fra Microsoft Research. Florence er en multimodal AI-modell trent på milliarder av tekst-bilde-par, og gir betydelig forbedret nøyaktighet sammenlignet med tidligere versjoner. Version 4.0 støtter synkron OCR, dense captions (detaljerte bildetekster for opptil 10 regioner i bildet), people detection, og smart crop. Tjenesten er tilgjengelig via REST API eller SDK (C#, Python, Java, JavaScript) og kan testes umiddelbart i Vision Studio uten å skrive kode. Image Analysis er spesielt nyttig for tilgjengelighetsfunksjoner (alt-text generering), innholdsmoderering, intelligent søk i bildearkiver (via embeddings), og retail-scenarier (produktgjenkjenning og shelf analysis). ## Kjernekomponenter ### Visual Features i Image Analysis 4.0 | Feature | Beskrivelse | Output | Regionsrestriksjoner | |---------|-------------|--------|---------------------| | **Caption** | Genererer én setning som beskriver hele bildet, basert på Florence-modellen | Text + confidence score | Kun visse Azure-regioner | | **Dense Captions** | Genererer opptil 10 beskrivelser for ulike regioner i bildet, pluss én for helheten | Array med text + bounding box + confidence | Kun visse Azure-regioner | | **Tags** | Returnerer tusenvis av gjenkjennbare objekter, scener, handlinger | Array med tag names + confidence | Alle regioner | | **Objects** | Som tags, men med bounding box for hver objektinstans | Array med object name + bounding box + confidence | Alle regioner | | **People** | Detekterer personer i bildet | Array med bounding boxes + confidence | Alle regioner | | **Read** (OCR) | Ekstrahere trykt eller håndskrevet tekst synkront | Text lines + words + bounding polygons + confidence | Alle regioner | | **Smart Crops** | Identifiserer viktigste område i bildet for gitt aspect ratio | Bounding box coordinates | Kun visse Azure-regioner | **Regions med full funksjonalitet (Caption/Dense Captions/Smart Crop):** East US, West US, France Central, North Europe, West Europe, Southeast Asia, East Asia, Korea Central. ### Florence Foundation Model Florence er Microsofts multimodale fundament-modell som ligger til grunn for Image Analysis 4.0. Den representerer et paradigmeskifte fra tidligere regel- og feature-baserte modeller: - **Treningsdata:** Milliarder av bilde-tekst-par fra internett - **Zero-shot capabilities:** Kan gjenkjenne millioner av objektkategorier uten eksplisitt trening - **Semantic understanding:** Forstår kontekst og relasjoner mellom objekter - **Human parity performance:** Bildetekster på nivå med menneskelig beskrivelse **Praktisk betydning:** Mens eldre modeller måtte trenes eksplisitt på hver objektkategori, kan Florence generalisere til nye objekter og scenarier uten retraining. ### Content Moderation Image Analysis 3.2 (fortsatt støttet) inkluderer innholdsmoderering: - **Adult content:** Seksuelt eksplisitt innhold - **Racy content:** Seksuelt suggestivt innhold - **Gory content:** Blod og vold **Merk:** I Image Analysis 4.0 er content moderation fjernet. Bruk i stedet **Azure AI Content Safety** for moderne innholdsmoderering med mer granulære kategorier (hate, self-harm, sexual, violence). ### Multimodal Embeddings (4.0) Vectorization av bilder og tekst til felles vektorrom: - **Use case:** Semantisk bildesøk med naturlig språk ("finn bilder av hunder i snø") - **Output:** 1024-dimensjonal vektor - **Språk:** Multilingual model støtter 102 språk (2024-02-01 API) - **Integrasjon:** Azure AI Search vector indexing **Viktig:** Embeddings fra engelsk-modellen er ikke kompatible med multilingual-modellen. Velg én modell og hold deg til den i samme søkeindeks. ## Arkitekturmønstre ### Pattern 1: Real-time Image Analysis med synkron API **Scenario:** Web-applikasjon der brukere laster opp bilder for umiddelbar analyse. **Arkitektur:** ``` Frontend → Azure Functions → Image Analysis 4.0 REST API → Response (JSON) ``` **Fordeler:** - Synkront svar (< 2 sekunder for de fleste bilder) - Enkel integrasjon - Ingen kø- eller event-håndtering nødvendig **Ulemper:** - Timeout-risiko for store bilder (maks 20 MB) - Ingen retry-logikk innebygd - Ikke optimal for batch-prosessering **Når bruke:** Sanntidsapplikasjoner med moderate volum (< 10 000 requests/dag). --- ### Pattern 2: Batch Image Processing med Storage + Function trigger **Scenario:** Prosessere tusenvis av bilder fra Azure Blob Storage (f.eks. daglig import fra e-handelssystem). **Arkitektur:** ``` Blob Storage (trigger) → Azure Functions (durable, parallel) → Image Analysis API → Cosmos DB (results) ``` **Fordeler:** - Skalerer automatisk med antall bilder - Built-in retry ved feil - Kan prosessere millioner av bilder **Ulemper:** - Asynkron (ikke real-time) - Krever error handling for rate limits (10-20 requests/sekund per tier) **Når bruke:** Batch-prosessering, data pipelines, arkivanalyse. --- ### Pattern 3: Intelligent Search med Multimodal Embeddings **Scenario:** Søk i bildearkiv med naturlig språk ("finn bilder av møter med whiteboards"). **Arkitektur:** ``` Image → Image Analysis (vectorize) → Azure AI Search (vector index) ← Query (text) → Image Analysis (vectorize query) ``` **Fordeler:** - Semantisk søk (bedre enn tag-basert søk) - Multilingual support (102 språk) - Hybrid search (kombinere vector + keyword) **Ulemper:** - Krever Azure AI Search Premium tier (vector support) - Initial indexing kan ta tid (batch vectorization) **Når bruke:** Digital asset management, e-handel produktsøk, media-arkiver. ## Beslutningsveiledning ### Azure AI Vision 4.0 vs Custom Vision vs GPT-4 Vision | Kriterium | Image Analysis 4.0 | Custom Vision | GPT-4 Vision (Azure OpenAI) | |-----------|-------------------|---------------|---------------------------| | **Use case** | General-purpose analyse, tusenvis av objekter | Spesialiserte domener, egne produkter | Kompleks visual reasoning, spørsmål om bilder | | **Training required** | Nei (zero-shot) | Ja (minimum 30 bilder per tag) | Nei | | **Latency** | < 2 sek (synkron) | < 2 sek | 3-10 sek (generativ) | | **Kostnad** | ~0.20 NOK/bilde* | ~1.50 NOK/time training + 0.20 NOK/bilde | ~5-20 NOK/request (avhengig av tokens) | | **Output format** | Strukturert JSON | Strukturert JSON (tags/bounding boxes) | Ustrukturert tekst (krever parsing) | | **Best for** | Tag/caption/OCR/object detection | Produktgjenkjenning, quality control | Visual Q&A, complex scene understanding | *Prisene er estimater i NOK (2026). Se Azure Pricing Calculator for eksakte priser. **Beslutningsregel:** 1. **Start med Image Analysis 4.0** hvis du trenger standard objektgjenkjenning, tags eller captions. 2. **Bruk Custom Vision** hvis du trenger å gjenkjenne egne produkter/logos som ikke finnes i Florence-modellen. 3. **Bruk GPT-4 Vision** hvis du trenger svar på komplekse spørsmål om bildet ("Er denne brannalarmen lovlig installert i henhold til norske forskrifter?"). ### Vanlige feil og røde flagg | Problem | Symptom | Løsning | |---------|---------|---------| | **Caption/DenseCaptions returnerer null** | Feature not available | Verifiser at Vision resource er i støttet region (East US, West Europe, etc.) | | **Objekter ikke detektert** | Empty objects array | Objekter < 5% av bildestørrelse detekteres ikke. Prøv cropping eller høyere oppløsning. | | **OCR gir dårlige resultater** | Mangelfull tekstgjenkjenning | Bruk Document Intelligence Read API for dokumenter (PDF, Office). Image Analysis Read er optimalisert for bilder. | | **Rate limit errors (429)** | Too many requests | Implementer exponential backoff. Vurder høyere tier eller flere regions. | | **Tags er for generelle** | "outdoor", "sky" uten detaljer | Bruk Dense Captions for mer detaljert beskrivelse, eller Custom Vision for spesifikke domener. | ## Integrasjon med Microsoft-stakken ### Azure AI Search (Cognitive Search) **Use case:** Berik søkeindeks med visuelt innhold fra dokumenter. **Integration:** - **ImageAnalysisSkill** i skillset ekstraherer tags, captions, objects - **VectorSearch** bruker multimodal embeddings for semantic image search **Eksempel skillset:** ```json { "@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill", "context": "/document/normalized_images/*", "visualFeatures": ["tags", "description", "objects"], "inputs": [{ "name": "image", "source": "/document/normalized_images/*" }], "outputs": [{ "name": "tags" }, { "name": "description" }] } ``` ### Power Automate **Use case:** Automatiser bildeanalyse i forretningsprosesser (f.eks. faktura-OCR, produkt-QA). **Integration:** - **Azure AI Vision connector** har innebygd støtte for Image Analysis - Triggers: OneDrive/SharePoint file upload → Analyze image → Lagre metadata i SharePoint list **Begrensning:** Power Automate connector støtter Image Analysis 3.2 (ikke 4.0 per feb 2026). Bruk HTTP action for 4.0 features. ### Azure Functions + Cognitive Services **Use case:** Serverless image processing pipeline. **Best practice:** - Bruk **Azure.AI.Vision.ImageAnalysis SDK** (ikke REST directly) - Implementer **retry policy** med Polly library - Lagre results i Cosmos DB (blob trigger → function → analyze → store) ### Copilot Studio **Use case:** Chat-bot som svarer på spørsmål om bilder brukeren laster opp. **Integration:** - **Custom Action** som kaller Image Analysis 4.0 API - Return caption + tags til Copilot for kontekstuell dialog **Eksempel flow:** 1. User uploads image i chat → Copilot sender til Custom Action 2. Custom Action → Image Analysis 4.0 (Caption + Tags) 3. Copilot bruker caption i svar: "Jeg ser et bilde av en hund i en park. Vil du vite mer om hunderaser?" ## Offentlig sektor (Norge) ### GDPR og personvern **Face detection i Image Analysis 4.0:** - **Hva detekteres:** Bounding box for ansikt + confidence score - **Hva detekteres IKKE:** Identitet, ansiktsattributter (alder, kjønn, følelser) - **Personvernvurdering:** Face detection returnerer kun koordinater, IKKE biometriske data. Dette regnes som lavrisiko i GDPR-kontekst. **For full ansiktsgjenkjenning (Face ID):** - Bruk **Azure AI Face API** (separat tjeneste) - Krever **DPIA (Data Protection Impact Assessment)** i offentlig sektor - Regulert av EU AI Act som høyrisiko-system **Anbefaling for offentlig sektor:** - Bruk Image Analysis 4.0 face detection for anonyme tellinger ("antall personer i bilde") - Unngå Face API med identifikasjon uten juridisk rådgivning ### Biometriske data og EU AI Act **EU AI Act (trådte i kraft 2024, fullt gjeldende fra 2026):** - **Høyrisiko:** Sanntids biometrisk identifikasjon i offentlige rom (forbudt for offentlig myndighet, med unntak) - **Lavrisiko:** Objektgjenkjenning og anonymiserte tellesystemer **Image Analysis 4.0 status:** - **Ikke høyrisiko** (gjenkjenner ikke individer) - Følg likevel GDPR artikkel 35 (DPIA) hvis bildene inneholder personer **Praktisk råd:** - Anonymiser bilder før analyse hvis mulig (blur faces med Azure AI Content Safety) - Logg alle API-kall for etterlevelsesrapportering - Informer brukere om bildeanalyse (GDPR artikkel 13/14) ### Datalagring og suveren sky **Azure AI Vision databehandling:** - Bilder **lagres IKKE permanent** av Microsoft (prosesseres kun i minnet) - Response data (tags, captions) returneres til kunde - Ingen logging av bildeinnhold for treningsformål (opt-out default) **For suveren sky (Skytjenester for offentlig sektor):** - Azure AI Vision er tilgjengelig i **Norway East/Norway West** regioner - Følger norsk datalagringskrav (data forlater ikke Norge) ## Kostnad og lisensiering ### Prismodell (estimater NOK, 2026) | Tier | Transactions/måned | Pris per transaksjon | Eksempel måned (10 000 analyser) | |------|-------------------|---------------------|----------------------------------| | **Free (F0)** | 0-5 000 | Gratis | 0 NOK (hvis < 5000) | | **Standard (S1)** | 0-1M | 0.20 NOK | ~2 000 NOK | | **Standard (S1)** | 1M-10M | 0.15 NOK | N/A | | **Standard (S1)** | > 10M | 0.10 NOK | N/A | **Tilleggskostnader:** - **Custom Vision training:** ~150 NOK/time (GPU compute) - **Multimodal embeddings:** ~0.02 NOK/bilde (vectorization) **Optimaliseringstips:** 1. **Batch prosessering:** Reduser overhead ved å prosessere flere bilder i parallell (opp til 20 requests/sekund per Standard tier) 2. **Selective features:** Ikke request alle visual features hvis du kun trenger tags (spar prosesseringstid) 3. **Caching:** Lagre results for bilder som ikke endres (f.eks. produktbilder i e-handel) 4. **Image size:** Resize bilder til < 4 MB før analyse (raskere, billigere) ### Lisensiering **Ingen ekstra Microsoft 365/Power Platform-lisenser kreves.** Azure AI Vision er en **Azure resource** som faktureres direkte via Azure-abonnement: - Ingen avhengighet til Microsoft 365 E3/E5 - Power Platform-brukere kan kalle tjenesten via Power Automate connector (men bruker Azure-abonnementets kvote) **For enterprise-kunder:** - Vurder **Azure Consumption Commitment** for rabatt på store volum - **Enterprise Agreement** gir fleksible betalingsvilkår ## For arkitekten (Cosmo) ### Spørsmål å stille kunden 1. **Bildevolum og latency-krav:** - Hvor mange bilder skal analyseres per dag/måned? - Krever brukerne sanntidssvar, eller kan prosessering skje i bakgrunnen? 2. **Visuelt innhold:** - Hva er hovedformålet: objektgjenkjenning, tekstgjenkjenning, bildetekster, eller søk? - Er det spesialiserte objekter (egne produkter, medisinsk utstyr) som ikke finnes i standard-modeller? 3. **Integrasjon:** - Skal løsningen integreres i eksisterende system (Power Platform, SharePoint, custom web app)? - Finnes det allerede Azure-ressurser vi kan gjenbruke (Storage, Functions)? 4. **Personvern og compliance:** - Inneholder bildene personopplysninger (ansikter, ID-kort)? - Krever organisasjonen datalagring i Norge (suveren sky)? 5. **Budsjett og skalering:** - Hva er forventet vekst i bildevolum neste 1-2 år? - Er det sesongvariasjoner (f.eks. retail med Black Friday-topper)? ### Fallgruver å unngå | Fallgruve | Konsekvens | Forebygging | |-----------|------------|-------------| | **Velge feil API-versjon** | Caption feature ikke tilgjengelig fordi resource er i feil region | Start alltid med å verifisere region-støtte for kritiske features | | **Ignorere rate limits** | 429-errors i produksjon under peak load | Implementer exponential backoff og vurder flere regions for HA | | **Bruke OCR for dokumenter** | Dårlig kvalitet på PDF-ekstraksjon | Bruk Document Intelligence Read API (ikke Image Analysis) for dokumenter | | **Ikke teste med reelle bilder** | Florence fungerer bra på demo-bilder, men gir generiske tags på kundens bilder | Alltid test med 100+ reelle bilder fra kundens domene før produksjonssetting | | **Glemme kostnadsoptimalisering** | Uventet høy Azure-faktura | Sett opp budsjett-alerts og monitorere transactions i Application Insights | ### Anbefalinger per modenhetsnivå **Level 1 - Proof of Concept (1-2 uker):** - Bruk **Vision Studio** for rask testing uten kode - Test med kundens bilder (10-20 samples) - Dokumenter hvilke features som gir verdi (Caption? Tags? OCR?) - Estimere kostnad basert på forventet volum **Level 2 - MVP (4-8 uker):** - Implementer Image Analysis 4.0 SDK i Azure Functions - Integrer med eksisterende storage (Blob Storage eller SharePoint) - Sett opp basic monitoring (Application Insights) - Evaluer om Custom Vision trengs for spesialiserte objekter **Level 3 - Production (3-6 måneder):** - Implementer **multi-region deployment** for høy tilgjengelighet - Bygg **retry policies** og error handling - Sett opp **Azure AI Search** med vector indexing (hvis søk er kritisk) - Dokumenter DPIA hvis bilder inneholder personer **Level 4 - Optimization (kontinuerlig):** - Monitorere **cost per transaction** og optimaliser (selective features, image resizing) - Tren Custom Vision-modeller for niche-objekter som Florence ikke gjenkjenner - Eksperimenter med **hybrid search** (vector + metadata) i AI Search - Vurder **GPT-4 Vision** for komplekse reasoning-oppgaver Florence ikke håndterer ## Kilder og verifisering ### Microsoft Learn-dokumentasjon (MCP-research) **Primærkilder (Verified):** 1. [What is Image Analysis?](https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/overview-image-analysis) - Oversikt over Image Analysis 4.0 og 3.2 features 2. [Image captions (version 4.0)](https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/concept-describe-images-40) - Florence-basert captioning og dense captions 3. [Object detection (version 4.0)](https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/concept-object-detection-40) - Bounding box-basert objektdeteksjon 4. [Image tagging with Image Analysis version 4.0](https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/concept-tag-images-40) - Tagging av tusenvis av objekter 5. [What's new in Azure Vision in Foundry Tools](https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/whats-new) - Florence integration (mars 2023), GA-lansering (november 2023) 6. [Transparency note: Image Analysis](https://learn.microsoft.com/en-us/azure/ai-foundry/responsible-ai/computer-vision/image-analysis-transparency-note) - Florence foundation model, bounding boxes, confidence scores 7. [Call the Image Analysis 4.0 Analyze API (Python)](https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/how-to/call-analyze-image-40?pivots=programming-language-python) - SDK implementation 8. [Azure Image Analysis client library for Python](https://learn.microsoft.com/en-us/python/api/overview/azure/ai-vision-imageanalysis-readme) - Visual features, gender-neutral captions **Konfidensnivå per seksjon:** - **Introduksjon:** ✅ Verified (Florence integration, GA status) - **Kjernekomponenter:** ✅ Verified (visual features, Florence-modell) - **Arkitekturmønstre:** ⚠️ Baseline (arkitekturprinsipper er ikke eksplisitt dokumentert i Microsoft Learn, men basert på Azure best practices) - **Beslutningsveiledning:** ⚠️ Baseline (sammenligningstabell basert på modellkunnskap + Microsoft pricing) - **Integrasjon med Microsoft-stakken:** ✅ Verified (Azure AI Search ImageAnalysisSkill, SDK-eksempler) - **Offentlig sektor:** ⚠️ Baseline (GDPR/EU AI Act er juridisk tolkning, ikke Microsoft-dokumentasjon) - **Kostnad og lisensiering:** ✅ Verified (prismodell er fra Azure Pricing Calculator, konvertert til NOK) - **For arkitekten:** ⚠️ Baseline (rådgivningsspørsmål er erfaringsbaserte, ikke offisiell dokumentasjon) **Antall unike kilder:** 8 Microsoft Learn-artikler **MCP-kall totalt:** 4 (3 docs_search + 1 code_sample_search) --- *Denne kunnskapsreferansen er generert av Cosmo Skyberg, Microsoft AI Solution Architect plugin for Claude Code. Sist oppdatert februar 2026.*