ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/multi-modal/image-classification-understanding.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

12 KiB

Image Classification and Understanding

Last updated: 2026-02 Status: GA Category: Multi-Modal AI


Introduksjon

Bildeklassifisering og -forståing i Microsoft-stakken spenner frå tradisjonelle computer vision-modellar til moderne multimodale LLM-ar. Azure AI Vision 4.0, bygd på Florence foundation-modellen, tilbyr automatisk tagging, captioning, objektdeteksjon og OCR i ein samla API. For scenario som krev tilpassa kategoriar, finst Custom Vision (planlagd pensjonering 2028), Azure Machine Learning AutoML og Azure Content Understanding.

GPT-4o og GPT-4o mini representerer den nyaste tilnærminga: generelle multimodale modellar som kan svare på spørsmål om bildeinnhald, klassifisere bilete, og utføre visuelle resonnement utan dedikert modelltrening. Denne tilnærminga er spesielt verdifull for offentleg sektor, der nye klassifiseringsbehov oppstår hyppig og treningsdata ofte er avgrensa.

For produksjonssystem anbefalar Microsoft ein hybrid tilnærming: bruk Azure AI Vision 4.0 for standardiserte oppgåver (tagging, OCR, persondeteksjon) og GPT-4o for komplekse, kontekstavhengige klassifiseringar der naturleg språk-instruksjonar erstattar tradisjonell modelltrening.


Kjernekomponentar

Komponent Formål Teknologi
Azure AI Vision 4.0 Generell bildeanalyse (tags, captions, objects) Florence foundation model
Image Analysis API REST/SDK for caption, tags, objects, people, OCR Azure AI Vision
Custom Vision Tilpassa klassifisering/objektdeteksjon Custom Vision Service (legacy)
Azure ML AutoML Custom image classification med AutoML Azure Machine Learning
Content Understanding Generativ AI-basert bildeklassifisering Azure AI Foundry (preview)
GPT-4o Vision Fleksibel bildeklassifisering via chat Azure OpenAI Service
Multimodal Embeddings Bilde-tekst-likskap for retrieval Azure AI Vision 4.0

Pre-trained Model Selection

Azure AI Vision 4.0 Features

import os
from azure.ai.vision.imageanalysis import ImageAnalysisClient
from azure.ai.vision.imageanalysis.models import VisualFeatures
from azure.core.credentials import AzureKeyCredential

client = ImageAnalysisClient(
    endpoint=os.environ["VISION_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["VISION_KEY"])
)

# Analyser bilete med alle tilgjengelege features
result = client.analyze_from_url(
    image_url="https://example.com/road-damage.jpg",
    visual_features=[
        VisualFeatures.CAPTION,
        VisualFeatures.DENSE_CAPTIONS,
        VisualFeatures.TAGS,
        VisualFeatures.OBJECTS,
        VisualFeatures.PEOPLE,
        VisualFeatures.READ,
        VisualFeatures.SMART_CROPS
    ],
    gender_neutral_caption=True
)

# Caption — eitt setning som skildrar heile biletet
print(f"Caption: {result.caption.text} "
      f"(confidence: {result.caption.confidence:.2f})")

# Tags — detaljert liste over visuelle eigenskapar
for tag in result.tags.list:
    print(f"Tag: {tag.name} (confidence: {tag.confidence:.2f})")

# Objects — detekterte objekt med bounding boxes
for obj in result.objects.list:
    print(f"Object: {obj.tags[0].name} at "
          f"({obj.bounding_box.x}, {obj.bounding_box.y})")

Feature-oversikt

Feature Skildring Returformat
caption Eitt setning, heile biletet Tekst + confidence
denseCaptions Opptil 10 regionar med skildringar Tekst + bounding box
tags Detaljert tagging av innhald Liste med confidence
objects Objektdeteksjon med posisjon Namn + bounding box
people Persondeteksjon (ikkje identifikasjon) Bounding box
read OCR — tekst i biletet Strukturert tekst
smartCrops AI-basert cropping Crop coordinates

Custom Model Training og Evaluation

Tilnærming 1: GPT-4o som "zero-shot classifier"

For scenario der treningsdata manglar eller nye kategoriar dukkar opp hyppig:

from openai import AzureOpenAI

client = AzureOpenAI(
    azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
    api_key=os.environ["AZURE_OPENAI_API_KEY"],
    api_version="2024-10-21"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "system",
            "content": """Du er ein bildeklassifiseringsekspert for
            Statens vegvesen. Klassifiser vegskader i kategoriane:
            - SPREKK_LANGSGAAANDE
            - SPREKK_TVERRGAAANDE
            - HULLROT
            - SETNINGSSKADE
            - KANTSKADE
            - INGEN_SKADE
            Returner JSON med 'kategori', 'alvorlegheit' (1-5),
            og 'forklaring'."""
        },
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Klassifiser denne vegskaden:"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/road-image.jpg",
                        "detail": "high"
                    }
                }
            ]
        }
    ],
    max_tokens=500,
    response_format={"type": "json_object"}
)

classification = response.choices[0].message.content
print(classification)

Tilnærming 2: Azure ML AutoML for Image Classification

For scenario med stabile kategoriar og tilstrekkeleg treningsdata:

from azure.ai.ml import MLClient
from azure.ai.ml.automl import ImageClassificationJob
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id="...",
    resource_group_name="...",
    workspace_name="..."
)

# Definer AutoML image classification job
job = ImageClassificationJob(
    experiment_name="road-damage-classification",
    training_data=training_dataset,
    validation_data=validation_dataset,
    target_column_name="label",
    primary_metric="accuracy",
    training_parameters={
        "model_name": "vitb16r224",  # Vision Transformer
        "number_of_epochs": 15,
        "learning_rate": 0.001
    }
)

# Start trening
returned_job = ml_client.jobs.create_or_update(job)

Tilnærming 3: Content Understanding (Preview)

Azure Content Understanding brukar generativ AI for tilpassa klassifisering utan tradisjonell modelltrening:

from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

client = ContentUnderstandingClient(
    endpoint=os.environ["CU_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["CU_KEY"])
)

# Analyser bilete med tilpassa schema
poller = client.begin_analyze(
    analyzer_id="custom-road-damage",
    inputs=[{"url": "https://example.com/road.jpg"}]
)
result = poller.result()

Confidence og Uncertainty Quantification

Confidence-score-tolking

Tjeneste Score-range Terskel anbefaling
Azure AI Vision tags 0.0 — 1.0 > 0.7 for produksjon
Custom Vision 0.0 — 1.0 > 0.8 for automatiserte vedtak
GPT-4o (sjølvrapportert) Tekst-basert Krev valideringslogikk
Azure ML AutoML 0.0 — 1.0 Avhengig av brukscase

Implementering av usikkerheitshandtering

def classify_with_confidence(image_url: str,
                             confidence_threshold: float = 0.75):
    """Klassifiser med fallback til manuell vurdering."""

    # Steg 1: Azure AI Vision for rask klassifisering
    vision_result = vision_client.analyze_from_url(
        image_url=image_url,
        visual_features=[VisualFeatures.TAGS, VisualFeatures.OBJECTS]
    )

    high_conf_tags = [
        t for t in vision_result.tags.list
        if t.confidence >= confidence_threshold
    ]

    if high_conf_tags:
        return {
            "method": "azure_vision",
            "classification": high_conf_tags[0].name,
            "confidence": high_conf_tags[0].confidence,
            "needs_review": False
        }

    # Steg 2: GPT-4o for kompleks vurdering
    gpt_result = openai_client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": "Klassifiser dette biletet."},
                {"type": "image_url", "image_url": {"url": image_url}}
            ]
        }]
    )

    return {
        "method": "gpt4o_fallback",
        "classification": gpt_result.choices[0].message.content,
        "confidence": None,
        "needs_review": True  # Manuell validering anbefalt
    }

Real-time og Batch Processing

Real-time: Azure AI Vision

  • Latency: 100-500ms per bilete
  • Throughput: 10 TPS (transactions per second) per ressurs
  • Bildemaks: 20 MB, 16 000 x 16 000 pikslar
  • Format: JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF, MPO

Batch: Azure ML Pipeline

from azure.ai.ml import dsl

@dsl.pipeline(compute="gpu-cluster")
def batch_classification_pipeline(input_folder):
    """Batch-klassifisering av bilete med AutoML-modell."""
    preprocess = preprocess_component(input_data=input_folder)
    classify = classify_component(
        images=preprocess.outputs.processed,
        model=model_artifact
    )
    postprocess = postprocess_component(
        predictions=classify.outputs.results
    )
    return postprocess.outputs.final_report

Hybrid: Event-driven arkitektur

Azure Blob Storage (bileter)
    → Event Grid trigger
    → Azure Function
        → Azure AI Vision (rask screening)
        → IF confidence < 0.7:
            → GPT-4o (detaljert analyse)
        → IF confidence < 0.5:
            → Ruting til manuell vurdering (Power Automate)
    → Cosmos DB (resultat)
    → Power BI (dashboard)

Norsk offentleg sektor

Relevante bruksområde

  • Vegforvaltning: Automatisk klassifisering av vegskader frå dronefoto
  • Byggesak: Bildeanalyse av byggeprosjekt for samsvar med reguleringsplanar
  • Naturovervaking: Klassifisering av vegetasjon, dyreliv og miljøtilstand
  • Kulturarv: Kategorisering og tilstandsvurdering av kulturminne
  • Toll og grensekontroll: Objektgjenkjenning i fraktbilete

Datalokalitet

  • Azure AI Vision tilgjengeleg i North Europe (Irland) og West Europe (Nederland)
  • Biletedata vert ikkje lagra etter analyse (stateless API)
  • GPT-4o deployments i EU-regionar via Azure OpenAI
  • Custom models treining og inferens i same region

Bias-vurdering

  • Florence-modellen er trent på breie datasett, men kan ha geografisk bias
  • Norske skiltar, vegmerking og infrastruktur kan krevje finjustering
  • Anbefaling: Evaluer alltid med norsk-spesifikt testdatasett

Beslutningsrammeverk

Scenario Anbefaling Grunngjeving
Generell bildetagging Azure AI Vision 4.0 Rask, rimelig, Florence-basert
Tilpassa kategoriar med treningsdata Azure ML AutoML Høg nøyaktigheit med stabile kategoriar
Nye kategoriar utan treningsdata GPT-4o zero-shot Fleksibelt, naturleg språk-instruksjonar
Dokumentklassifisering Document Intelligence Spesialisert for dokumentformat
Bilde-tekst-søk Multimodal Embeddings Semantisk likskap utan tags
Legacy Custom Vision Migrer til AutoML/Content Understanding Custom Vision pensjonerast 2028
Automatiserte vedtak Ensemble (Vision + GPT-4o) Dobbelsjekk med confidence gate

For Cosmo

  • Azure AI Vision 4.0 med Florence-modellen er standardvalet for bildeanalyse — støttar caption, tags, objects, people og OCR i ein enkelt API-kall, med confidence scores for kvar prediksjon.
  • GPT-4o som zero-shot classifier eliminerer behovet for treningsdata — definer kategoriar i system prompt og send bilete direkte, ideelt for offentleg sektor der nye klassifiseringsbehov oppstår raskt.
  • Custom Vision er planlagd pensjonert (2028) — anbefal migrering til Azure ML AutoML for tradisjonell modelltrening eller Content Understanding for generativ tilnærming.
  • Confidence-basert routing er kritisk for automatiserte vedtak — bruk Azure AI Vision for rask screening (>0.7), GPT-4o for usikre tilfelle, og manuell vurdering som siste fallback.
  • Multimodal Embeddings i Vision 4.0 opnar for semantisk bildesøk der tekst-queries matchar bilete utan manuell tagging — relevant for store bildearkiv i offentlege etatar.