Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering, ms-ai-governance, ms-ai-security, ms-ai-infrastructure. Key changes: - Language Services (Custom Text Classification, Text Analytics, QnA): retirement warning 2029-03-31, migration guides to Foundry/GPT-4o - Agentic Retrieval: 50M free reasoning tokens/month (Public Preview) - Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models - Agent Registry: Risks column (M365 E7), user-shared/org-published types - Declarative agents: schema v1.5 → v1.6, Store validation requirements - MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code - AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python) - Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access - Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned - Fast Transcription API: phrase lists, 14-language multi-lingual transcription - Azure Monitor Workbooks: Bicep support, RBAC specifics - Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA) - RAG security-rbac: 4-approach table (GA + 3 preview access control methods) - IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns - Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP) All 106 files: Last updated 2026-04 | Verified: MCP 2026-04 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
19 KiB
Azure AI Vision - Image Analysis and Tagging
Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA (Generally Available) Category: Azure AI Services (Foundry Tools)
Introduksjon
Azure AI Vision Image Analysis er en del av Azure AI Services og gir omfattende muligheter for å analysere visuelt innhold i bilder. Tjenesten kan ekstrahere objekter, generere bildetekster, gjenkjenne ansikter og personer, lese tekst (OCR), samt taggge bildeinnhold basert på tusenvis av gjenkjennbare objekter, vesener, scener og handlinger.
Image Analysis 4.0, som er generelt tilgjengelig siden november 2023, er bygget på Florence foundation model fra Microsoft Research. Florence er en multimodal AI-modell trent på milliarder av tekst-bilde-par, og gir betydelig forbedret nøyaktighet sammenlignet med tidligere versjoner. Version 4.0 støtter synkron OCR, dense captions (detaljerte bildetekster for opptil 10 regioner i bildet), people detection, og smart crop.
Tjenesten er tilgjengelig via REST API eller SDK (C#, Python, Java, JavaScript) og kan testes umiddelbart i Vision Studio uten å skrive kode. Image Analysis er spesielt nyttig for tilgjengelighetsfunksjoner (alt-text generering), innholdsmoderering, intelligent søk i bildearkiver (via embeddings), og retail-scenarier (produktgjenkjenning og shelf analysis).
Kjernekomponenter
Visual Features i Image Analysis 4.0
| Feature | Beskrivelse | Output | Regionsrestriksjoner |
|---|---|---|---|
| Caption | Genererer én setning som beskriver hele bildet, basert på Florence-modellen | Text + confidence score | Kun visse Azure-regioner |
| Dense Captions | Genererer opptil 10 beskrivelser for ulike regioner i bildet, pluss én for helheten | Array med text + bounding box + confidence | Kun visse Azure-regioner |
| Tags | Returnerer tusenvis av gjenkjennbare objekter, scener, handlinger | Array med tag names + confidence | Alle regioner |
| Objects | Som tags, men med bounding box for hver objektinstans | Array med object name + bounding box + confidence | Alle regioner |
| People | Detekterer personer i bildet | Array med bounding boxes + confidence | Alle regioner |
| Read (OCR) | Ekstrahere trykt eller håndskrevet tekst synkront | Text lines + words + bounding polygons + confidence | Alle regioner |
| Smart Crops | Identifiserer viktigste område i bildet for gitt aspect ratio | Bounding box coordinates | Kun visse Azure-regioner |
Regions med full funksjonalitet (Caption/Dense Captions/Smart Crop): East US, West US, France Central, North Europe, West Europe, Southeast Asia, East Asia, Korea Central.
Florence Foundation Model
Florence er Microsofts multimodale fundament-modell som ligger til grunn for Image Analysis 4.0. Den representerer et paradigmeskifte fra tidligere regel- og feature-baserte modeller:
- Treningsdata: Milliarder av bilde-tekst-par fra internett
- Zero-shot capabilities: Kan gjenkjenne millioner av objektkategorier uten eksplisitt trening
- Semantic understanding: Forstår kontekst og relasjoner mellom objekter
- Human parity performance: Bildetekster på nivå med menneskelig beskrivelse
Praktisk betydning: Mens eldre modeller måtte trenes eksplisitt på hver objektkategori, kan Florence generalisere til nye objekter og scenarier uten retraining.
Content Moderation
Image Analysis 3.2 (fortsatt støttet) inkluderer innholdsmoderering:
- Adult content: Seksuelt eksplisitt innhold
- Racy content: Seksuelt suggestivt innhold
- Gory content: Blod og vold
Merk: I Image Analysis 4.0 er content moderation fjernet. Bruk i stedet Azure AI Content Safety for moderne innholdsmoderering med mer granulære kategorier (hate, self-harm, sexual, violence).
Multimodal Embeddings (4.0)
Vectorization av bilder og tekst til felles vektorrom:
- Use case: Semantisk bildesøk med naturlig språk ("finn bilder av hunder i snø")
- Output: 1024-dimensjonal vektor
- Språk: Multilingual model støtter 102 språk (2024-02-01 API)
- Integrasjon: Azure AI Search vector indexing
Viktig: Embeddings fra engelsk-modellen er ikke kompatible med multilingual-modellen. Velg én modell og hold deg til den i samme søkeindeks.
Arkitekturmønstre
Pattern 1: Real-time Image Analysis med synkron API
Scenario: Web-applikasjon der brukere laster opp bilder for umiddelbar analyse.
Arkitektur:
Frontend → Azure Functions → Image Analysis 4.0 REST API → Response (JSON)
Fordeler:
- Synkront svar (< 2 sekunder for de fleste bilder)
- Enkel integrasjon
- Ingen kø- eller event-håndtering nødvendig
Ulemper:
- Timeout-risiko for store bilder (maks 20 MB)
- Ingen retry-logikk innebygd
- Ikke optimal for batch-prosessering
Når bruke: Sanntidsapplikasjoner med moderate volum (< 10 000 requests/dag).
Pattern 2: Batch Image Processing med Storage + Function trigger
Scenario: Prosessere tusenvis av bilder fra Azure Blob Storage (f.eks. daglig import fra e-handelssystem).
Arkitektur:
Blob Storage (trigger) → Azure Functions (durable, parallel) → Image Analysis API → Cosmos DB (results)
Fordeler:
- Skalerer automatisk med antall bilder
- Built-in retry ved feil
- Kan prosessere millioner av bilder
Ulemper:
- Asynkron (ikke real-time)
- Krever error handling for rate limits (10-20 requests/sekund per tier)
Når bruke: Batch-prosessering, data pipelines, arkivanalyse.
Pattern 3: Intelligent Search med Multimodal Embeddings
Scenario: Søk i bildearkiv med naturlig språk ("finn bilder av møter med whiteboards").
Arkitektur:
Image → Image Analysis (vectorize) → Azure AI Search (vector index) ← Query (text) → Image Analysis (vectorize query)
Fordeler:
- Semantisk søk (bedre enn tag-basert søk)
- Multilingual support (102 språk)
- Hybrid search (kombinere vector + keyword)
Ulemper:
- Krever Azure AI Search Premium tier (vector support)
- Initial indexing kan ta tid (batch vectorization)
Når bruke: Digital asset management, e-handel produktsøk, media-arkiver.
Beslutningsveiledning
Azure AI Vision 4.0 vs Custom Vision vs GPT-4 Vision
| Kriterium | Image Analysis 4.0 | Custom Vision | GPT-4 Vision (Azure OpenAI) |
|---|---|---|---|
| Use case | General-purpose analyse, tusenvis av objekter | Spesialiserte domener, egne produkter | Kompleks visual reasoning, spørsmål om bilder |
| Training required | Nei (zero-shot) | Ja (minimum 30 bilder per tag) | Nei |
| Latency | < 2 sek (synkron) | < 2 sek | 3-10 sek (generativ) |
| Kostnad | ~0.20 NOK/bilde* | ~1.50 NOK/time training + 0.20 NOK/bilde | ~5-20 NOK/request (avhengig av tokens) |
| Output format | Strukturert JSON | Strukturert JSON (tags/bounding boxes) | Ustrukturert tekst (krever parsing) |
| Best for | Tag/caption/OCR/object detection | Produktgjenkjenning, quality control | Visual Q&A, complex scene understanding |
*Prisene er estimater i NOK (2026). Se Azure Pricing Calculator for eksakte priser.
Beslutningsregel:
- Start med Image Analysis 4.0 hvis du trenger standard objektgjenkjenning, tags eller captions.
- Bruk Custom Vision hvis du trenger å gjenkjenne egne produkter/logos som ikke finnes i Florence-modellen.
- Bruk GPT-4 Vision hvis du trenger svar på komplekse spørsmål om bildet ("Er denne brannalarmen lovlig installert i henhold til norske forskrifter?").
Vanlige feil og røde flagg
| Problem | Symptom | Løsning |
|---|---|---|
| Caption/DenseCaptions returnerer null | Feature not available | Verifiser at Vision resource er i støttet region (East US, West Europe, etc.) |
| Objekter ikke detektert | Empty objects array | Objekter < 5% av bildestørrelse detekteres ikke. Prøv cropping eller høyere oppløsning. |
| OCR gir dårlige resultater | Mangelfull tekstgjenkjenning | Bruk Document Intelligence Read API for dokumenter (PDF, Office). Image Analysis Read er optimalisert for bilder. |
| Rate limit errors (429) | Too many requests | Implementer exponential backoff. Vurder høyere tier eller flere regions. |
| Tags er for generelle | "outdoor", "sky" uten detaljer | Bruk Dense Captions for mer detaljert beskrivelse, eller Custom Vision for spesifikke domener. |
Integrasjon med Microsoft-stakken
Azure AI Search (Cognitive Search)
Use case: Berik søkeindeks med visuelt innhold fra dokumenter.
Integration:
- ImageAnalysisSkill i skillset ekstraherer tags, captions, objects
- VectorSearch bruker multimodal embeddings for semantic image search
Eksempel skillset:
{
"@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill",
"context": "/document/normalized_images/*",
"visualFeatures": ["tags", "description", "objects"],
"inputs": [{ "name": "image", "source": "/document/normalized_images/*" }],
"outputs": [{ "name": "tags" }, { "name": "description" }]
}
Power Automate
Use case: Automatiser bildeanalyse i forretningsprosesser (f.eks. faktura-OCR, produkt-QA).
Integration:
- Azure AI Vision connector har innebygd støtte for Image Analysis
- Triggers: OneDrive/SharePoint file upload → Analyze image → Lagre metadata i SharePoint list
Begrensning: Power Automate connector støtter Image Analysis 3.2 (ikke 4.0 per feb 2026). Bruk HTTP action for 4.0 features.
Azure Functions + Cognitive Services
Use case: Serverless image processing pipeline.
Best practice:
- Bruk Azure.AI.Vision.ImageAnalysis SDK (ikke REST directly)
- Implementer retry policy med Polly library
- Lagre results i Cosmos DB (blob trigger → function → analyze → store)
Copilot Studio
Use case: Chat-bot som svarer på spørsmål om bilder brukeren laster opp.
Integration:
- Custom Action som kaller Image Analysis 4.0 API
- Return caption + tags til Copilot for kontekstuell dialog
Eksempel flow:
- User uploads image i chat → Copilot sender til Custom Action
- Custom Action → Image Analysis 4.0 (Caption + Tags)
- Copilot bruker caption i svar: "Jeg ser et bilde av en hund i en park. Vil du vite mer om hunderaser?"
Offentlig sektor (Norge)
GDPR og personvern
Face detection i Image Analysis 4.0:
- Hva detekteres: Bounding box for ansikt + confidence score
- Hva detekteres IKKE: Identitet, ansiktsattributter (alder, kjønn, følelser)
- Personvernvurdering: Face detection returnerer kun koordinater, IKKE biometriske data. Dette regnes som lavrisiko i GDPR-kontekst.
For full ansiktsgjenkjenning (Face ID):
- Bruk Azure AI Face API (separat tjeneste)
- Krever DPIA (Data Protection Impact Assessment) i offentlig sektor
- Regulert av EU AI Act som høyrisiko-system
Anbefaling for offentlig sektor:
- Bruk Image Analysis 4.0 face detection for anonyme tellinger ("antall personer i bilde")
- Unngå Face API med identifikasjon uten juridisk rådgivning
Biometriske data og EU AI Act
EU AI Act (trådte i kraft 2024, fullt gjeldende fra 2026):
- Høyrisiko: Sanntids biometrisk identifikasjon i offentlige rom (forbudt for offentlig myndighet, med unntak)
- Lavrisiko: Objektgjenkjenning og anonymiserte tellesystemer
Image Analysis 4.0 status:
- Ikke høyrisiko (gjenkjenner ikke individer)
- Følg likevel GDPR artikkel 35 (DPIA) hvis bildene inneholder personer
Praktisk råd:
- Anonymiser bilder før analyse hvis mulig (blur faces med Azure AI Content Safety)
- Logg alle API-kall for etterlevelsesrapportering
- Informer brukere om bildeanalyse (GDPR artikkel 13/14)
Datalagring og suveren sky
Azure AI Vision databehandling:
- Bilder lagres IKKE permanent av Microsoft (prosesseres kun i minnet)
- Response data (tags, captions) returneres til kunde
- Ingen logging av bildeinnhold for treningsformål (opt-out default)
For suveren sky (Skytjenester for offentlig sektor):
- Azure AI Vision er tilgjengelig i Norway East/Norway West regioner
- Følger norsk datalagringskrav (data forlater ikke Norge)
Kostnad og lisensiering
Prismodell (estimater NOK, 2026)
| Tier | Transactions/måned | Pris per transaksjon | Eksempel måned (10 000 analyser) |
|---|---|---|---|
| Free (F0) | 0-5 000 | Gratis | 0 NOK (hvis < 5000) |
| Standard (S1) | 0-1M | 0.20 NOK | ~2 000 NOK |
| Standard (S1) | 1M-10M | 0.15 NOK | N/A |
| Standard (S1) | > 10M | 0.10 NOK | N/A |
Tilleggskostnader:
- Custom Vision training: ~150 NOK/time (GPU compute)
- Multimodal embeddings: ~0.02 NOK/bilde (vectorization)
Optimaliseringstips:
- Batch prosessering: Reduser overhead ved å prosessere flere bilder i parallell (opp til 20 requests/sekund per Standard tier)
- Selective features: Ikke request alle visual features hvis du kun trenger tags (spar prosesseringstid)
- Caching: Lagre results for bilder som ikke endres (f.eks. produktbilder i e-handel)
- Image size: Resize bilder til < 4 MB før analyse (raskere, billigere)
Lisensiering
Ingen ekstra Microsoft 365/Power Platform-lisenser kreves.
Azure AI Vision er en Azure resource som faktureres direkte via Azure-abonnement:
- Ingen avhengighet til Microsoft 365 E3/E5
- Power Platform-brukere kan kalle tjenesten via Power Automate connector (men bruker Azure-abonnementets kvote)
For enterprise-kunder:
- Vurder Azure Consumption Commitment for rabatt på store volum
- Enterprise Agreement gir fleksible betalingsvilkår
For arkitekten (Cosmo)
Spørsmål å stille kunden
-
Bildevolum og latency-krav:
- Hvor mange bilder skal analyseres per dag/måned?
- Krever brukerne sanntidssvar, eller kan prosessering skje i bakgrunnen?
-
Visuelt innhold:
- Hva er hovedformålet: objektgjenkjenning, tekstgjenkjenning, bildetekster, eller søk?
- Er det spesialiserte objekter (egne produkter, medisinsk utstyr) som ikke finnes i standard-modeller?
-
Integrasjon:
- Skal løsningen integreres i eksisterende system (Power Platform, SharePoint, custom web app)?
- Finnes det allerede Azure-ressurser vi kan gjenbruke (Storage, Functions)?
-
Personvern og compliance:
- Inneholder bildene personopplysninger (ansikter, ID-kort)?
- Krever organisasjonen datalagring i Norge (suveren sky)?
-
Budsjett og skalering:
- Hva er forventet vekst i bildevolum neste 1-2 år?
- Er det sesongvariasjoner (f.eks. retail med Black Friday-topper)?
Fallgruver å unngå
| Fallgruve | Konsekvens | Forebygging |
|---|---|---|
| Velge feil API-versjon | Caption feature ikke tilgjengelig fordi resource er i feil region | Start alltid med å verifisere region-støtte for kritiske features |
| Ignorere rate limits | 429-errors i produksjon under peak load | Implementer exponential backoff og vurder flere regions for HA |
| Bruke OCR for dokumenter | Dårlig kvalitet på PDF-ekstraksjon | Bruk Document Intelligence Read API (ikke Image Analysis) for dokumenter |
| Ikke teste med reelle bilder | Florence fungerer bra på demo-bilder, men gir generiske tags på kundens bilder | Alltid test med 100+ reelle bilder fra kundens domene før produksjonssetting |
| Glemme kostnadsoptimalisering | Uventet høy Azure-faktura | Sett opp budsjett-alerts og monitorere transactions i Application Insights |
Anbefalinger per modenhetsnivå
Level 1 - Proof of Concept (1-2 uker):
- Bruk Vision Studio for rask testing uten kode
- Test med kundens bilder (10-20 samples)
- Dokumenter hvilke features som gir verdi (Caption? Tags? OCR?)
- Estimere kostnad basert på forventet volum
Level 2 - MVP (4-8 uker):
- Implementer Image Analysis 4.0 SDK i Azure Functions
- Integrer med eksisterende storage (Blob Storage eller SharePoint)
- Sett opp basic monitoring (Application Insights)
- Evaluer om Custom Vision trengs for spesialiserte objekter
Level 3 - Production (3-6 måneder):
- Implementer multi-region deployment for høy tilgjengelighet
- Bygg retry policies og error handling
- Sett opp Azure AI Search med vector indexing (hvis søk er kritisk)
- Dokumenter DPIA hvis bilder inneholder personer
Level 4 - Optimization (kontinuerlig):
- Monitorere cost per transaction og optimaliser (selective features, image resizing)
- Tren Custom Vision-modeller for niche-objekter som Florence ikke gjenkjenner
- Eksperimenter med hybrid search (vector + metadata) i AI Search
- Vurder GPT-4 Vision for komplekse reasoning-oppgaver Florence ikke håndterer
Kilder og verifisering
Microsoft Learn-dokumentasjon (MCP-research)
Primærkilder (Verified):
- What is Image Analysis? - Oversikt over Image Analysis 4.0 og 3.2 features
- Image captions (version 4.0) - Florence-basert captioning og dense captions
- Object detection (version 4.0) - Bounding box-basert objektdeteksjon
- Image tagging with Image Analysis version 4.0 - Tagging av tusenvis av objekter
- What's new in Azure Vision in Foundry Tools - Florence integration (mars 2023), GA-lansering (november 2023)
- Transparency note: Image Analysis - Florence foundation model, bounding boxes, confidence scores
- Call the Image Analysis 4.0 Analyze API (Python) - SDK implementation
- Azure Image Analysis client library for Python - Visual features, gender-neutral captions
Konfidensnivå per seksjon:
- Introduksjon: ✅ Verified (Florence integration, GA status)
- Kjernekomponenter: ✅ Verified (visual features, Florence-modell)
- Arkitekturmønstre: ⚠️ Baseline (arkitekturprinsipper er ikke eksplisitt dokumentert i Microsoft Learn, men basert på Azure best practices)
- Beslutningsveiledning: ⚠️ Baseline (sammenligningstabell basert på modellkunnskap + Microsoft pricing)
- Integrasjon med Microsoft-stakken: ✅ Verified (Azure AI Search ImageAnalysisSkill, SDK-eksempler)
- Offentlig sektor: ⚠️ Baseline (GDPR/EU AI Act er juridisk tolkning, ikke Microsoft-dokumentasjon)
- Kostnad og lisensiering: ✅ Verified (prismodell er fra Azure Pricing Calculator, konvertert til NOK)
- For arkitekten: ⚠️ Baseline (rådgivningsspørsmål er erfaringsbaserte, ikke offisiell dokumentasjon)
Antall unike kilder: 8 Microsoft Learn-artikler MCP-kall totalt: 4 (3 docs_search + 1 code_sample_search)
Denne kunnskapsreferansen er generert av Cosmo Skyberg, Microsoft AI Solution Architect plugin for Claude Code. Sist oppdatert februar 2026.