# Image Classification and Understanding **Last updated:** 2026-02 **Status:** GA **Category:** Multi-Modal AI --- ## Introduksjon Bildeklassifisering og -forståing i Microsoft-stakken spenner frå tradisjonelle computer vision-modellar til moderne multimodale LLM-ar. Azure AI Vision 4.0, bygd på Florence foundation-modellen, tilbyr automatisk tagging, captioning, objektdeteksjon og OCR i ein samla API. For scenario som krev tilpassa kategoriar, finst Custom Vision (planlagd pensjonering 2028), Azure Machine Learning AutoML og Azure Content Understanding. GPT-4o og GPT-4o mini representerer den nyaste tilnærminga: generelle multimodale modellar som kan svare på spørsmål om bildeinnhald, klassifisere bilete, og utføre visuelle resonnement utan dedikert modelltrening. Denne tilnærminga er spesielt verdifull for offentleg sektor, der nye klassifiseringsbehov oppstår hyppig og treningsdata ofte er avgrensa. For produksjonssystem anbefalar Microsoft ein hybrid tilnærming: bruk Azure AI Vision 4.0 for standardiserte oppgåver (tagging, OCR, persondeteksjon) og GPT-4o for komplekse, kontekstavhengige klassifiseringar der naturleg språk-instruksjonar erstattar tradisjonell modelltrening. --- ## Kjernekomponentar | Komponent | Formål | Teknologi | |-----------|--------|-----------| | Azure AI Vision 4.0 | Generell bildeanalyse (tags, captions, objects) | Florence foundation model | | Image Analysis API | REST/SDK for caption, tags, objects, people, OCR | Azure AI Vision | | Custom Vision | Tilpassa klassifisering/objektdeteksjon | Custom Vision Service (legacy) | | Azure ML AutoML | Custom image classification med AutoML | Azure Machine Learning | | Content Understanding | Generativ AI-basert bildeklassifisering | Azure AI Foundry (preview) | | GPT-4o Vision | Fleksibel bildeklassifisering via chat | Azure OpenAI Service | | Multimodal Embeddings | Bilde-tekst-likskap for retrieval | Azure AI Vision 4.0 | --- ## Pre-trained Model Selection ### Azure AI Vision 4.0 Features ```python import os from azure.ai.vision.imageanalysis import ImageAnalysisClient from azure.ai.vision.imageanalysis.models import VisualFeatures from azure.core.credentials import AzureKeyCredential client = ImageAnalysisClient( endpoint=os.environ["VISION_ENDPOINT"], credential=AzureKeyCredential(os.environ["VISION_KEY"]) ) # Analyser bilete med alle tilgjengelege features result = client.analyze_from_url( image_url="https://example.com/road-damage.jpg", visual_features=[ VisualFeatures.CAPTION, VisualFeatures.DENSE_CAPTIONS, VisualFeatures.TAGS, VisualFeatures.OBJECTS, VisualFeatures.PEOPLE, VisualFeatures.READ, VisualFeatures.SMART_CROPS ], gender_neutral_caption=True ) # Caption — eitt setning som skildrar heile biletet print(f"Caption: {result.caption.text} " f"(confidence: {result.caption.confidence:.2f})") # Tags — detaljert liste over visuelle eigenskapar for tag in result.tags.list: print(f"Tag: {tag.name} (confidence: {tag.confidence:.2f})") # Objects — detekterte objekt med bounding boxes for obj in result.objects.list: print(f"Object: {obj.tags[0].name} at " f"({obj.bounding_box.x}, {obj.bounding_box.y})") ``` ### Feature-oversikt | Feature | Skildring | Returformat | |---------|-----------|-------------| | `caption` | Eitt setning, heile biletet | Tekst + confidence | | `denseCaptions` | Opptil 10 regionar med skildringar | Tekst + bounding box | | `tags` | Detaljert tagging av innhald | Liste med confidence | | `objects` | Objektdeteksjon med posisjon | Namn + bounding box | | `people` | Persondeteksjon (ikkje identifikasjon) | Bounding box | | `read` | OCR — tekst i biletet | Strukturert tekst | | `smartCrops` | AI-basert cropping | Crop coordinates | --- ## Custom Model Training og Evaluation ### Tilnærming 1: GPT-4o som "zero-shot classifier" For scenario der treningsdata manglar eller nye kategoriar dukkar opp hyppig: ```python from openai import AzureOpenAI client = AzureOpenAI( azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"], api_key=os.environ["AZURE_OPENAI_API_KEY"], api_version="2024-10-21" ) response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "system", "content": """Du er ein bildeklassifiseringsekspert for Statens vegvesen. Klassifiser vegskader i kategoriane: - SPREKK_LANGSGAAANDE - SPREKK_TVERRGAAANDE - HULLROT - SETNINGSSKADE - KANTSKADE - INGEN_SKADE Returner JSON med 'kategori', 'alvorlegheit' (1-5), og 'forklaring'.""" }, { "role": "user", "content": [ {"type": "text", "text": "Klassifiser denne vegskaden:"}, { "type": "image_url", "image_url": { "url": "https://example.com/road-image.jpg", "detail": "high" } } ] } ], max_tokens=500, response_format={"type": "json_object"} ) classification = response.choices[0].message.content print(classification) ``` ### Tilnærming 2: Azure ML AutoML for Image Classification For scenario med stabile kategoriar og tilstrekkeleg treningsdata: ```python from azure.ai.ml import MLClient from azure.ai.ml.automl import ImageClassificationJob from azure.identity import DefaultAzureCredential ml_client = MLClient( DefaultAzureCredential(), subscription_id="...", resource_group_name="...", workspace_name="..." ) # Definer AutoML image classification job job = ImageClassificationJob( experiment_name="road-damage-classification", training_data=training_dataset, validation_data=validation_dataset, target_column_name="label", primary_metric="accuracy", training_parameters={ "model_name": "vitb16r224", # Vision Transformer "number_of_epochs": 15, "learning_rate": 0.001 } ) # Start trening returned_job = ml_client.jobs.create_or_update(job) ``` ### Tilnærming 3: Content Understanding (Preview) Azure Content Understanding brukar generativ AI for tilpassa klassifisering utan tradisjonell modelltrening: ```python from azure.ai.contentunderstanding import ContentUnderstandingClient from azure.core.credentials import AzureKeyCredential client = ContentUnderstandingClient( endpoint=os.environ["CU_ENDPOINT"], credential=AzureKeyCredential(os.environ["CU_KEY"]) ) # Analyser bilete med tilpassa schema poller = client.begin_analyze( analyzer_id="custom-road-damage", inputs=[{"url": "https://example.com/road.jpg"}] ) result = poller.result() ``` --- ## Confidence og Uncertainty Quantification ### Confidence-score-tolking | Tjeneste | Score-range | Terskel anbefaling | |----------|-------------|-------------------| | Azure AI Vision tags | 0.0 — 1.0 | > 0.7 for produksjon | | Custom Vision | 0.0 — 1.0 | > 0.8 for automatiserte vedtak | | GPT-4o (sjølvrapportert) | Tekst-basert | Krev valideringslogikk | | Azure ML AutoML | 0.0 — 1.0 | Avhengig av brukscase | ### Implementering av usikkerheitshandtering ```python def classify_with_confidence(image_url: str, confidence_threshold: float = 0.75): """Klassifiser med fallback til manuell vurdering.""" # Steg 1: Azure AI Vision for rask klassifisering vision_result = vision_client.analyze_from_url( image_url=image_url, visual_features=[VisualFeatures.TAGS, VisualFeatures.OBJECTS] ) high_conf_tags = [ t for t in vision_result.tags.list if t.confidence >= confidence_threshold ] if high_conf_tags: return { "method": "azure_vision", "classification": high_conf_tags[0].name, "confidence": high_conf_tags[0].confidence, "needs_review": False } # Steg 2: GPT-4o for kompleks vurdering gpt_result = openai_client.chat.completions.create( model="gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "Klassifiser dette biletet."}, {"type": "image_url", "image_url": {"url": image_url}} ] }] ) return { "method": "gpt4o_fallback", "classification": gpt_result.choices[0].message.content, "confidence": None, "needs_review": True # Manuell validering anbefalt } ``` --- ## Real-time og Batch Processing ### Real-time: Azure AI Vision - **Latency**: 100-500ms per bilete - **Throughput**: 10 TPS (transactions per second) per ressurs - **Bildemaks**: 20 MB, 16 000 x 16 000 pikslar - **Format**: JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF, MPO ### Batch: Azure ML Pipeline ```python from azure.ai.ml import dsl @dsl.pipeline(compute="gpu-cluster") def batch_classification_pipeline(input_folder): """Batch-klassifisering av bilete med AutoML-modell.""" preprocess = preprocess_component(input_data=input_folder) classify = classify_component( images=preprocess.outputs.processed, model=model_artifact ) postprocess = postprocess_component( predictions=classify.outputs.results ) return postprocess.outputs.final_report ``` ### Hybrid: Event-driven arkitektur ``` Azure Blob Storage (bileter) → Event Grid trigger → Azure Function → Azure AI Vision (rask screening) → IF confidence < 0.7: → GPT-4o (detaljert analyse) → IF confidence < 0.5: → Ruting til manuell vurdering (Power Automate) → Cosmos DB (resultat) → Power BI (dashboard) ``` --- ## Norsk offentleg sektor ### Relevante bruksområde - **Vegforvaltning**: Automatisk klassifisering av vegskader frå dronefoto - **Byggesak**: Bildeanalyse av byggeprosjekt for samsvar med reguleringsplanar - **Naturovervaking**: Klassifisering av vegetasjon, dyreliv og miljøtilstand - **Kulturarv**: Kategorisering og tilstandsvurdering av kulturminne - **Toll og grensekontroll**: Objektgjenkjenning i fraktbilete ### Datalokalitet - Azure AI Vision tilgjengeleg i `North Europe` (Irland) og `West Europe` (Nederland) - Biletedata vert ikkje lagra etter analyse (stateless API) - GPT-4o deployments i EU-regionar via Azure OpenAI - Custom models treining og inferens i same region ### Bias-vurdering - Florence-modellen er trent på breie datasett, men kan ha geografisk bias - Norske skiltar, vegmerking og infrastruktur kan krevje finjustering - Anbefaling: Evaluer alltid med norsk-spesifikt testdatasett --- ## Beslutningsrammeverk | Scenario | Anbefaling | Grunngjeving | |----------|------------|--------------| | Generell bildetagging | Azure AI Vision 4.0 | Rask, rimelig, Florence-basert | | Tilpassa kategoriar med treningsdata | Azure ML AutoML | Høg nøyaktigheit med stabile kategoriar | | Nye kategoriar utan treningsdata | GPT-4o zero-shot | Fleksibelt, naturleg språk-instruksjonar | | Dokumentklassifisering | Document Intelligence | Spesialisert for dokumentformat | | Bilde-tekst-søk | Multimodal Embeddings | Semantisk likskap utan tags | | Legacy Custom Vision | Migrer til AutoML/Content Understanding | Custom Vision pensjonerast 2028 | | Automatiserte vedtak | Ensemble (Vision + GPT-4o) | Dobbelsjekk med confidence gate | --- ## For Cosmo - **Azure AI Vision 4.0 med Florence-modellen** er standardvalet for bildeanalyse — støttar caption, tags, objects, people og OCR i ein enkelt API-kall, med confidence scores for kvar prediksjon. - **GPT-4o som zero-shot classifier eliminerer behovet for treningsdata** — definer kategoriar i system prompt og send bilete direkte, ideelt for offentleg sektor der nye klassifiseringsbehov oppstår raskt. - **Custom Vision er planlagd pensjonert (2028)** — anbefal migrering til Azure ML AutoML for tradisjonell modelltrening eller Content Understanding for generativ tilnærming. - **Confidence-basert routing er kritisk for automatiserte vedtak** — bruk Azure AI Vision for rask screening (>0.7), GPT-4o for usikre tilfelle, og manuell vurdering som siste fallback. - **Multimodal Embeddings i Vision 4.0** opnar for semantisk bildesøk der tekst-queries matchar bilete utan manuell tagging — relevant for store bildearkiv i offentlege etatar.