Kjell Tore Guttormsen ff6a50d14f docs(architect): weekly KB update — 106 files refreshed (2026-04)

Updates across all 5 skills: ms-ai-advisor, ms-ai-engineering,
ms-ai-governance, ms-ai-security, ms-ai-infrastructure.

Key changes:
- Language Services (Custom Text Classification, Text Analytics, QnA):
  retirement warning 2029-03-31, migration guides to Foundry/GPT-4o
- Agentic Retrieval: 50M free reasoning tokens/month (Public Preview)
- Computer Use: Claude Sonnet 4.5 (preview) + OpenAI CUA models
- Agent Registry: Risks column (M365 E7), user-shared/org-published types
- Declarative agents: schema v1.5 → v1.6, Store validation requirements
- MLflow 3: 13 built-in LLM judges, production monitoring, Genie Code
- AG-UI HITL: ApprovalRequiredAIFunction (C#) + @tool(approval_mode) (Python)
- Entra ID Ignite 2025: Agent ID Admin/Developer RBAC roles, Conditional Access
- Security Copilot: 400 SCU/month per 1000 M365 E5 licenses, auto-provisioned
- Fast Transcription API: phrase lists, 14-language multi-lingual transcription
- Azure Monitor Workbooks: Bicep support, RBAC specifics
- Power Platform Copilot: data residency (Norway/Europe → EU DB, Bing → USA)
- RAG security-rbac: 4-approach table (GA + 3 preview access control methods)
- IaC MLOps: Well-Architected OE:05 principles, Bicep/Terraform patterns
- Translator: image file batch translation Preview (JPEG/PNG/BMP/WebP)

All 106 files: Last updated 2026-04 | Verified: MCP 2026-04

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-10 09:13:24 +02:00

19 KiB

Raw Blame History

Azure AI Vision - Image Analysis and Tagging

Last updated: 2026-04 | Verified: MCP 2026-04 Status: GA (Generally Available) Category: Azure AI Services (Foundry Tools)

Introduksjon

Azure AI Vision Image Analysis er en del av Azure AI Services og gir omfattende muligheter for å analysere visuelt innhold i bilder. Tjenesten kan ekstrahere objekter, generere bildetekster, gjenkjenne ansikter og personer, lese tekst (OCR), samt taggge bildeinnhold basert på tusenvis av gjenkjennbare objekter, vesener, scener og handlinger.

Image Analysis 4.0, som er generelt tilgjengelig siden november 2023, er bygget på Florence foundation model fra Microsoft Research. Florence er en multimodal AI-modell trent på milliarder av tekst-bilde-par, og gir betydelig forbedret nøyaktighet sammenlignet med tidligere versjoner. Version 4.0 støtter synkron OCR, dense captions (detaljerte bildetekster for opptil 10 regioner i bildet), people detection, og smart crop.

Tjenesten er tilgjengelig via REST API eller SDK (C#, Python, Java, JavaScript) og kan testes umiddelbart i Vision Studio uten å skrive kode. Image Analysis er spesielt nyttig for tilgjengelighetsfunksjoner (alt-text generering), innholdsmoderering, intelligent søk i bildearkiver (via embeddings), og retail-scenarier (produktgjenkjenning og shelf analysis).

Kjernekomponenter

Visual Features i Image Analysis 4.0

Feature	Beskrivelse	Output	Regionsrestriksjoner
Caption	Genererer én setning som beskriver hele bildet, basert på Florence-modellen	Text + confidence score	Kun visse Azure-regioner
Dense Captions	Genererer opptil 10 beskrivelser for ulike regioner i bildet, pluss én for helheten	Array med text + bounding box + confidence	Kun visse Azure-regioner
Tags	Returnerer tusenvis av gjenkjennbare objekter, scener, handlinger	Array med tag names + confidence	Alle regioner
Objects	Som tags, men med bounding box for hver objektinstans	Array med object name + bounding box + confidence	Alle regioner
People	Detekterer personer i bildet	Array med bounding boxes + confidence	Alle regioner
Read (OCR)	Ekstrahere trykt eller håndskrevet tekst synkront	Text lines + words + bounding polygons + confidence	Alle regioner
Smart Crops	Identifiserer viktigste område i bildet for gitt aspect ratio	Bounding box coordinates	Kun visse Azure-regioner

Regions med full funksjonalitet (Caption/Dense Captions/Smart Crop): East US, West US, France Central, North Europe, West Europe, Southeast Asia, East Asia, Korea Central.

Florence Foundation Model

Florence er Microsofts multimodale fundament-modell som ligger til grunn for Image Analysis 4.0. Den representerer et paradigmeskifte fra tidligere regel- og feature-baserte modeller:

Treningsdata: Milliarder av bilde-tekst-par fra internett
Zero-shot capabilities: Kan gjenkjenne millioner av objektkategorier uten eksplisitt trening
Semantic understanding: Forstår kontekst og relasjoner mellom objekter
Human parity performance: Bildetekster på nivå med menneskelig beskrivelse

Praktisk betydning: Mens eldre modeller måtte trenes eksplisitt på hver objektkategori, kan Florence generalisere til nye objekter og scenarier uten retraining.

Content Moderation

Image Analysis 3.2 (fortsatt støttet) inkluderer innholdsmoderering:

Adult content: Seksuelt eksplisitt innhold
Racy content: Seksuelt suggestivt innhold
Gory content: Blod og vold

Merk: I Image Analysis 4.0 er content moderation fjernet. Bruk i stedet Azure AI Content Safety for moderne innholdsmoderering med mer granulære kategorier (hate, self-harm, sexual, violence).

Multimodal Embeddings (4.0)

Vectorization av bilder og tekst til felles vektorrom:

Use case: Semantisk bildesøk med naturlig språk ("finn bilder av hunder i snø")
Output: 1024-dimensjonal vektor
Språk: Multilingual model støtter 102 språk (2024-02-01 API)
Integrasjon: Azure AI Search vector indexing

Viktig: Embeddings fra engelsk-modellen er ikke kompatible med multilingual-modellen. Velg én modell og hold deg til den i samme søkeindeks.

Arkitekturmønstre

Pattern 1: Real-time Image Analysis med synkron API

Scenario: Web-applikasjon der brukere laster opp bilder for umiddelbar analyse.

Arkitektur:

Frontend → Azure Functions → Image Analysis 4.0 REST API → Response (JSON)

Fordeler:

Synkront svar (< 2 sekunder for de fleste bilder)
Enkel integrasjon
Ingen kø- eller event-håndtering nødvendig

Ulemper:

Timeout-risiko for store bilder (maks 20 MB)
Ingen retry-logikk innebygd
Ikke optimal for batch-prosessering

Når bruke: Sanntidsapplikasjoner med moderate volum (< 10 000 requests/dag).

Pattern 2: Batch Image Processing med Storage + Function trigger

Scenario: Prosessere tusenvis av bilder fra Azure Blob Storage (f.eks. daglig import fra e-handelssystem).

Arkitektur:

Blob Storage (trigger) → Azure Functions (durable, parallel) → Image Analysis API → Cosmos DB (results)

Fordeler:

Skalerer automatisk med antall bilder
Built-in retry ved feil
Kan prosessere millioner av bilder

Ulemper:

Asynkron (ikke real-time)
Krever error handling for rate limits (10-20 requests/sekund per tier)

Når bruke: Batch-prosessering, data pipelines, arkivanalyse.

Pattern 3: Intelligent Search med Multimodal Embeddings

Scenario: Søk i bildearkiv med naturlig språk ("finn bilder av møter med whiteboards").

Arkitektur:

Image → Image Analysis (vectorize) → Azure AI Search (vector index) ← Query (text) → Image Analysis (vectorize query)

Fordeler:

Semantisk søk (bedre enn tag-basert søk)
Multilingual support (102 språk)
Hybrid search (kombinere vector + keyword)

Ulemper:

Krever Azure AI Search Premium tier (vector support)
Initial indexing kan ta tid (batch vectorization)

Når bruke: Digital asset management, e-handel produktsøk, media-arkiver.

Beslutningsveiledning

Azure AI Vision 4.0 vs Custom Vision vs GPT-4 Vision

Kriterium	Image Analysis 4.0	Custom Vision	GPT-4 Vision (Azure OpenAI)
Use case	General-purpose analyse, tusenvis av objekter	Spesialiserte domener, egne produkter	Kompleks visual reasoning, spørsmål om bilder
Training required	Nei (zero-shot)	Ja (minimum 30 bilder per tag)	Nei
Latency	< 2 sek (synkron)	< 2 sek	3-10 sek (generativ)
Kostnad	~0.20 NOK/bilde*	~1.50 NOK/time training + 0.20 NOK/bilde	~5-20 NOK/request (avhengig av tokens)
Output format	Strukturert JSON	Strukturert JSON (tags/bounding boxes)	Ustrukturert tekst (krever parsing)
Best for	Tag/caption/OCR/object detection	Produktgjenkjenning, quality control	Visual Q&A, complex scene understanding

*Prisene er estimater i NOK (2026). Se Azure Pricing Calculator for eksakte priser.

Beslutningsregel:

Start med Image Analysis 4.0 hvis du trenger standard objektgjenkjenning, tags eller captions.
Bruk Custom Vision hvis du trenger å gjenkjenne egne produkter/logos som ikke finnes i Florence-modellen.
Bruk GPT-4 Vision hvis du trenger svar på komplekse spørsmål om bildet ("Er denne brannalarmen lovlig installert i henhold til norske forskrifter?").

Vanlige feil og røde flagg

Problem	Symptom	Løsning
Caption/DenseCaptions returnerer null	Feature not available	Verifiser at Vision resource er i støttet region (East US, West Europe, etc.)
Objekter ikke detektert	Empty objects array	Objekter < 5% av bildestørrelse detekteres ikke. Prøv cropping eller høyere oppløsning.
OCR gir dårlige resultater	Mangelfull tekstgjenkjenning	Bruk Document Intelligence Read API for dokumenter (PDF, Office). Image Analysis Read er optimalisert for bilder.
Rate limit errors (429)	Too many requests	Implementer exponential backoff. Vurder høyere tier eller flere regions.
Tags er for generelle	"outdoor", "sky" uten detaljer	Bruk Dense Captions for mer detaljert beskrivelse, eller Custom Vision for spesifikke domener.

Integrasjon med Microsoft-stakken

Azure AI Search (Cognitive Search)

Use case: Berik søkeindeks med visuelt innhold fra dokumenter.

Integration:

ImageAnalysisSkill i skillset ekstraherer tags, captions, objects
VectorSearch bruker multimodal embeddings for semantic image search

Eksempel skillset:

{
  "@odata.type": "#Microsoft.Skills.Vision.ImageAnalysisSkill",
  "context": "/document/normalized_images/*",
  "visualFeatures": ["tags", "description", "objects"],
  "inputs": [{ "name": "image", "source": "/document/normalized_images/*" }],
  "outputs": [{ "name": "tags" }, { "name": "description" }]
}

Power Automate

Use case: Automatiser bildeanalyse i forretningsprosesser (f.eks. faktura-OCR, produkt-QA).

Integration:

Azure AI Vision connector har innebygd støtte for Image Analysis
Triggers: OneDrive/SharePoint file upload → Analyze image → Lagre metadata i SharePoint list

Begrensning: Power Automate connector støtter Image Analysis 3.2 (ikke 4.0 per feb 2026). Bruk HTTP action for 4.0 features.

Azure Functions + Cognitive Services

Use case: Serverless image processing pipeline.

Best practice:

Bruk Azure.AI.Vision.ImageAnalysis SDK (ikke REST directly)
Implementer retry policy med Polly library
Lagre results i Cosmos DB (blob trigger → function → analyze → store)

Copilot Studio

Use case: Chat-bot som svarer på spørsmål om bilder brukeren laster opp.

Integration:

Custom Action som kaller Image Analysis 4.0 API
Return caption + tags til Copilot for kontekstuell dialog

Eksempel flow:

User uploads image i chat → Copilot sender til Custom Action
Custom Action → Image Analysis 4.0 (Caption + Tags)
Copilot bruker caption i svar: "Jeg ser et bilde av en hund i en park. Vil du vite mer om hunderaser?"

Offentlig sektor (Norge)

Face detection i Image Analysis 4.0:

Hva detekteres: Bounding box for ansikt + confidence score
Hva detekteres IKKE: Identitet, ansiktsattributter (alder, kjønn, følelser)
Personvernvurdering: Face detection returnerer kun koordinater, IKKE biometriske data. Dette regnes som lavrisiko i GDPR-kontekst.

For full ansiktsgjenkjenning (Face ID):

Bruk Azure AI Face API (separat tjeneste)
Krever DPIA (Data Protection Impact Assessment) i offentlig sektor
Regulert av EU AI Act som høyrisiko-system

Anbefaling for offentlig sektor:

Bruk Image Analysis 4.0 face detection for anonyme tellinger ("antall personer i bilde")
Unngå Face API med identifikasjon uten juridisk rådgivning

Biometriske data og EU AI Act

EU AI Act (trådte i kraft 2024, fullt gjeldende fra 2026):

Høyrisiko: Sanntids biometrisk identifikasjon i offentlige rom (forbudt for offentlig myndighet, med unntak)
Lavrisiko: Objektgjenkjenning og anonymiserte tellesystemer

Image Analysis 4.0 status:

Ikke høyrisiko (gjenkjenner ikke individer)
Følg likevel GDPR artikkel 35 (DPIA) hvis bildene inneholder personer

Praktisk råd:

Anonymiser bilder før analyse hvis mulig (blur faces med Azure AI Content Safety)
Logg alle API-kall for etterlevelsesrapportering
Informer brukere om bildeanalyse (GDPR artikkel 13/14)

Datalagring og suveren sky

Azure AI Vision databehandling:

Bilder lagres IKKE permanent av Microsoft (prosesseres kun i minnet)
Response data (tags, captions) returneres til kunde
Ingen logging av bildeinnhold for treningsformål (opt-out default)

For suveren sky (Skytjenester for offentlig sektor):

Azure AI Vision er tilgjengelig i Norway East/Norway West regioner
Følger norsk datalagringskrav (data forlater ikke Norge)

Kostnad og lisensiering

Prismodell (estimater NOK, 2026)

Tier	Transactions/måned	Pris per transaksjon	Eksempel måned (10 000 analyser)
Free (F0)	0-5 000	Gratis	0 NOK (hvis < 5000)
Standard (S1)	0-1M	0.20 NOK	~2 000 NOK
Standard (S1)	1M-10M	0.15 NOK	N/A
Standard (S1)	> 10M	0.10 NOK	N/A

Tilleggskostnader:

Custom Vision training: ~150 NOK/time (GPU compute)
Multimodal embeddings: ~0.02 NOK/bilde (vectorization)

Optimaliseringstips:

Batch prosessering: Reduser overhead ved å prosessere flere bilder i parallell (opp til 20 requests/sekund per Standard tier)
Selective features: Ikke request alle visual features hvis du kun trenger tags (spar prosesseringstid)
Caching: Lagre results for bilder som ikke endres (f.eks. produktbilder i e-handel)
Image size: Resize bilder til < 4 MB før analyse (raskere, billigere)

Lisensiering

Ingen ekstra Microsoft 365/Power Platform-lisenser kreves.

Azure AI Vision er en Azure resource som faktureres direkte via Azure-abonnement:

Ingen avhengighet til Microsoft 365 E3/E5
Power Platform-brukere kan kalle tjenesten via Power Automate connector (men bruker Azure-abonnementets kvote)

For enterprise-kunder:

Vurder Azure Consumption Commitment for rabatt på store volum
Enterprise Agreement gir fleksible betalingsvilkår

For arkitekten (Cosmo)

Spørsmål å stille kunden

Bildevolum og latency-krav:
- Hvor mange bilder skal analyseres per dag/måned?
- Krever brukerne sanntidssvar, eller kan prosessering skje i bakgrunnen?
Visuelt innhold:
- Hva er hovedformålet: objektgjenkjenning, tekstgjenkjenning, bildetekster, eller søk?
- Er det spesialiserte objekter (egne produkter, medisinsk utstyr) som ikke finnes i standard-modeller?
Integrasjon:
- Skal løsningen integreres i eksisterende system (Power Platform, SharePoint, custom web app)?
- Finnes det allerede Azure-ressurser vi kan gjenbruke (Storage, Functions)?
Personvern og compliance:
- Inneholder bildene personopplysninger (ansikter, ID-kort)?
- Krever organisasjonen datalagring i Norge (suveren sky)?
Budsjett og skalering:
- Hva er forventet vekst i bildevolum neste 1-2 år?
- Er det sesongvariasjoner (f.eks. retail med Black Friday-topper)?

Fallgruver å unngå

Fallgruve	Konsekvens	Forebygging
Velge feil API-versjon	Caption feature ikke tilgjengelig fordi resource er i feil region	Start alltid med å verifisere region-støtte for kritiske features
Ignorere rate limits	429-errors i produksjon under peak load	Implementer exponential backoff og vurder flere regions for HA
Bruke OCR for dokumenter	Dårlig kvalitet på PDF-ekstraksjon	Bruk Document Intelligence Read API (ikke Image Analysis) for dokumenter
Ikke teste med reelle bilder	Florence fungerer bra på demo-bilder, men gir generiske tags på kundens bilder	Alltid test med 100+ reelle bilder fra kundens domene før produksjonssetting
Glemme kostnadsoptimalisering	Uventet høy Azure-faktura	Sett opp budsjett-alerts og monitorere transactions i Application Insights

Anbefalinger per modenhetsnivå

Level 1 - Proof of Concept (1-2 uker):

Bruk Vision Studio for rask testing uten kode
Test med kundens bilder (10-20 samples)
Dokumenter hvilke features som gir verdi (Caption? Tags? OCR?)
Estimere kostnad basert på forventet volum

Level 2 - MVP (4-8 uker):

Implementer Image Analysis 4.0 SDK i Azure Functions
Integrer med eksisterende storage (Blob Storage eller SharePoint)
Sett opp basic monitoring (Application Insights)
Evaluer om Custom Vision trengs for spesialiserte objekter

Level 3 - Production (3-6 måneder):

Implementer multi-region deployment for høy tilgjengelighet
Bygg retry policies og error handling
Sett opp Azure AI Search med vector indexing (hvis søk er kritisk)
Dokumenter DPIA hvis bilder inneholder personer

Level 4 - Optimization (kontinuerlig):

Monitorere cost per transaction og optimaliser (selective features, image resizing)
Tren Custom Vision-modeller for niche-objekter som Florence ikke gjenkjenner
Eksperimenter med hybrid search (vector + metadata) i AI Search
Vurder GPT-4 Vision for komplekse reasoning-oppgaver Florence ikke håndterer

Kilder og verifisering

Microsoft Learn-dokumentasjon (MCP-research)

Primærkilder (Verified):

What is Image Analysis? - Oversikt over Image Analysis 4.0 og 3.2 features
Image captions (version 4.0) - Florence-basert captioning og dense captions
Object detection (version 4.0) - Bounding box-basert objektdeteksjon
Image tagging with Image Analysis version 4.0 - Tagging av tusenvis av objekter
What's new in Azure Vision in Foundry Tools - Florence integration (mars 2023), GA-lansering (november 2023)
Transparency note: Image Analysis - Florence foundation model, bounding boxes, confidence scores
Call the Image Analysis 4.0 Analyze API (Python) - SDK implementation
Azure Image Analysis client library for Python - Visual features, gender-neutral captions

Konfidensnivå per seksjon:

Introduksjon: ✅ Verified (Florence integration, GA status)
Kjernekomponenter: ✅ Verified (visual features, Florence-modell)
Arkitekturmønstre: ⚠️ Baseline (arkitekturprinsipper er ikke eksplisitt dokumentert i Microsoft Learn, men basert på Azure best practices)
Beslutningsveiledning: ⚠️ Baseline (sammenligningstabell basert på modellkunnskap + Microsoft pricing)
Integrasjon med Microsoft-stakken: ✅ Verified (Azure AI Search ImageAnalysisSkill, SDK-eksempler)
Offentlig sektor: ⚠️ Baseline (GDPR/EU AI Act er juridisk tolkning, ikke Microsoft-dokumentasjon)
Kostnad og lisensiering: ✅ Verified (prismodell er fra Azure Pricing Calculator, konvertert til NOK)
For arkitekten: ⚠️ Baseline (rådgivningsspørsmål er erfaringsbaserte, ikke offisiell dokumentasjon)

Antall unike kilder: 8 Microsoft Learn-artikler MCP-kall totalt: 4 (3 docs_search + 1 code_sample_search)

Denne kunnskapsreferansen er generert av Cosmo Skyberg, Microsoft AI Solution Architect plugin for Claude Code. Sist oppdatert februar 2026.

19 KiB Raw Blame History

Azure AI Vision - Image Analysis and Tagging

Introduksjon

Kjernekomponenter

Visual Features i Image Analysis 4.0

Florence Foundation Model

Content Moderation

Multimodal Embeddings (4.0)

Arkitekturmønstre

Pattern 1: Real-time Image Analysis med synkron API

Pattern 2: Batch Image Processing med Storage + Function trigger

Pattern 3: Intelligent Search med Multimodal Embeddings

Beslutningsveiledning

Azure AI Vision 4.0 vs Custom Vision vs GPT-4 Vision

Vanlige feil og røde flagg

Integrasjon med Microsoft-stakken

Azure AI Search (Cognitive Search)

Power Automate

Azure Functions + Cognitive Services

Copilot Studio

Offentlig sektor (Norge)

GDPR og personvern

Biometriske data og EU AI Act

Datalagring og suveren sky

Kostnad og lisensiering

Prismodell (estimater NOK, 2026)

Lisensiering

For arkitekten (Cosmo)

Spørsmål å stille kunden

Fallgruver å unngå

Anbefalinger per modenhetsnivå

Kilder og verifisering

Microsoft Learn-dokumentasjon (MCP-research)

19 KiB

Raw Blame History