Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

12 KiB

Raw Blame History

Image Classification and Understanding

Last updated: 2026-02 Status: GA Category: Multi-Modal AI

Introduksjon

Bildeklassifisering og -forståing i Microsoft-stakken spenner frå tradisjonelle computer vision-modellar til moderne multimodale LLM-ar. Azure AI Vision 4.0, bygd på Florence foundation-modellen, tilbyr automatisk tagging, captioning, objektdeteksjon og OCR i ein samla API. For scenario som krev tilpassa kategoriar, finst Custom Vision (planlagd pensjonering 2028), Azure Machine Learning AutoML og Azure Content Understanding.

GPT-4o og GPT-4o mini representerer den nyaste tilnærminga: generelle multimodale modellar som kan svare på spørsmål om bildeinnhald, klassifisere bilete, og utføre visuelle resonnement utan dedikert modelltrening. Denne tilnærminga er spesielt verdifull for offentleg sektor, der nye klassifiseringsbehov oppstår hyppig og treningsdata ofte er avgrensa.

For produksjonssystem anbefalar Microsoft ein hybrid tilnærming: bruk Azure AI Vision 4.0 for standardiserte oppgåver (tagging, OCR, persondeteksjon) og GPT-4o for komplekse, kontekstavhengige klassifiseringar der naturleg språk-instruksjonar erstattar tradisjonell modelltrening.

Kjernekomponentar

Komponent	Formål	Teknologi
Azure AI Vision 4.0	Generell bildeanalyse (tags, captions, objects)	Florence foundation model
Image Analysis API	REST/SDK for caption, tags, objects, people, OCR	Azure AI Vision
Custom Vision	Tilpassa klassifisering/objektdeteksjon	Custom Vision Service (legacy)
Azure ML AutoML	Custom image classification med AutoML	Azure Machine Learning
Content Understanding	Generativ AI-basert bildeklassifisering	Azure AI Foundry (preview)
GPT-4o Vision	Fleksibel bildeklassifisering via chat	Azure OpenAI Service
Multimodal Embeddings	Bilde-tekst-likskap for retrieval	Azure AI Vision 4.0

Pre-trained Model Selection

Azure AI Vision 4.0 Features

import os
from azure.ai.vision.imageanalysis import ImageAnalysisClient
from azure.ai.vision.imageanalysis.models import VisualFeatures
from azure.core.credentials import AzureKeyCredential

client = ImageAnalysisClient(
    endpoint=os.environ["VISION_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["VISION_KEY"])
)

# Analyser bilete med alle tilgjengelege features
result = client.analyze_from_url(
    image_url="https://example.com/road-damage.jpg",
    visual_features=[
        VisualFeatures.CAPTION,
        VisualFeatures.DENSE_CAPTIONS,
        VisualFeatures.TAGS,
        VisualFeatures.OBJECTS,
        VisualFeatures.PEOPLE,
        VisualFeatures.READ,
        VisualFeatures.SMART_CROPS
    ],
    gender_neutral_caption=True
)

# Caption — eitt setning som skildrar heile biletet
print(f"Caption: {result.caption.text} "
      f"(confidence: {result.caption.confidence:.2f})")

# Tags — detaljert liste over visuelle eigenskapar
for tag in result.tags.list:
    print(f"Tag: {tag.name} (confidence: {tag.confidence:.2f})")

# Objects — detekterte objekt med bounding boxes
for obj in result.objects.list:
    print(f"Object: {obj.tags[0].name} at "
          f"({obj.bounding_box.x}, {obj.bounding_box.y})")

Feature-oversikt

Feature	Skildring	Returformat
`caption`	Eitt setning, heile biletet	Tekst + confidence
`denseCaptions`	Opptil 10 regionar med skildringar	Tekst + bounding box
`tags`	Detaljert tagging av innhald	Liste med confidence
`objects`	Objektdeteksjon med posisjon	Namn + bounding box
`people`	Persondeteksjon (ikkje identifikasjon)	Bounding box
`read`	OCR — tekst i biletet	Strukturert tekst
`smartCrops`	AI-basert cropping	Crop coordinates

Custom Model Training og Evaluation

Tilnærming 1: GPT-4o som "zero-shot classifier"

For scenario der treningsdata manglar eller nye kategoriar dukkar opp hyppig:

from openai import AzureOpenAI

client = AzureOpenAI(
    azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
    api_key=os.environ["AZURE_OPENAI_API_KEY"],
    api_version="2024-10-21"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "system",
            "content": """Du er ein bildeklassifiseringsekspert for
            Statens vegvesen. Klassifiser vegskader i kategoriane:
            - SPREKK_LANGSGAAANDE
            - SPREKK_TVERRGAAANDE
            - HULLROT
            - SETNINGSSKADE
            - KANTSKADE
            - INGEN_SKADE
            Returner JSON med 'kategori', 'alvorlegheit' (1-5),
            og 'forklaring'."""
        },
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Klassifiser denne vegskaden:"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/road-image.jpg",
                        "detail": "high"
                    }
                }
            ]
        }
    ],
    max_tokens=500,
    response_format={"type": "json_object"}
)

classification = response.choices[0].message.content
print(classification)

Tilnærming 2: Azure ML AutoML for Image Classification

For scenario med stabile kategoriar og tilstrekkeleg treningsdata:

from azure.ai.ml import MLClient
from azure.ai.ml.automl import ImageClassificationJob
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id="...",
    resource_group_name="...",
    workspace_name="..."
)

# Definer AutoML image classification job
job = ImageClassificationJob(
    experiment_name="road-damage-classification",
    training_data=training_dataset,
    validation_data=validation_dataset,
    target_column_name="label",
    primary_metric="accuracy",
    training_parameters={
        "model_name": "vitb16r224",  # Vision Transformer
        "number_of_epochs": 15,
        "learning_rate": 0.001
    }
)

# Start trening
returned_job = ml_client.jobs.create_or_update(job)

Tilnærming 3: Content Understanding (Preview)

Azure Content Understanding brukar generativ AI for tilpassa klassifisering utan tradisjonell modelltrening:

from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

client = ContentUnderstandingClient(
    endpoint=os.environ["CU_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["CU_KEY"])
)

# Analyser bilete med tilpassa schema
poller = client.begin_analyze(
    analyzer_id="custom-road-damage",
    inputs=[{"url": "https://example.com/road.jpg"}]
)
result = poller.result()

Confidence og Uncertainty Quantification

Confidence-score-tolking

Tjeneste	Score-range	Terskel anbefaling
Azure AI Vision tags	0.0 — 1.0	> 0.7 for produksjon
Custom Vision	0.0 — 1.0	> 0.8 for automatiserte vedtak
GPT-4o (sjølvrapportert)	Tekst-basert	Krev valideringslogikk
Azure ML AutoML	0.0 — 1.0	Avhengig av brukscase

Implementering av usikkerheitshandtering

def classify_with_confidence(image_url: str,
                             confidence_threshold: float = 0.75):
    """Klassifiser med fallback til manuell vurdering."""

    # Steg 1: Azure AI Vision for rask klassifisering
    vision_result = vision_client.analyze_from_url(
        image_url=image_url,
        visual_features=[VisualFeatures.TAGS, VisualFeatures.OBJECTS]
    )

    high_conf_tags = [
        t for t in vision_result.tags.list
        if t.confidence >= confidence_threshold
    ]

    if high_conf_tags:
        return {
            "method": "azure_vision",
            "classification": high_conf_tags[0].name,
            "confidence": high_conf_tags[0].confidence,
            "needs_review": False
        }

    # Steg 2: GPT-4o for kompleks vurdering
    gpt_result = openai_client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": "Klassifiser dette biletet."},
                {"type": "image_url", "image_url": {"url": image_url}}
            ]
        }]
    )

    return {
        "method": "gpt4o_fallback",
        "classification": gpt_result.choices[0].message.content,
        "confidence": None,
        "needs_review": True  # Manuell validering anbefalt
    }

Real-time og Batch Processing

Real-time: Azure AI Vision

Latency: 100-500ms per bilete
Throughput: 10 TPS (transactions per second) per ressurs
Bildemaks: 20 MB, 16 000 x 16 000 pikslar
Format: JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF, MPO

Batch: Azure ML Pipeline

from azure.ai.ml import dsl

@dsl.pipeline(compute="gpu-cluster")
def batch_classification_pipeline(input_folder):
    """Batch-klassifisering av bilete med AutoML-modell."""
    preprocess = preprocess_component(input_data=input_folder)
    classify = classify_component(
        images=preprocess.outputs.processed,
        model=model_artifact
    )
    postprocess = postprocess_component(
        predictions=classify.outputs.results
    )
    return postprocess.outputs.final_report

Hybrid: Event-driven arkitektur

Azure Blob Storage (bileter)
    → Event Grid trigger
    → Azure Function
        → Azure AI Vision (rask screening)
        → IF confidence < 0.7:
            → GPT-4o (detaljert analyse)
        → IF confidence < 0.5:
            → Ruting til manuell vurdering (Power Automate)
    → Cosmos DB (resultat)
    → Power BI (dashboard)

Norsk offentleg sektor

Relevante bruksområde

Vegforvaltning: Automatisk klassifisering av vegskader frå dronefoto
Byggesak: Bildeanalyse av byggeprosjekt for samsvar med reguleringsplanar
Naturovervaking: Klassifisering av vegetasjon, dyreliv og miljøtilstand
Kulturarv: Kategorisering og tilstandsvurdering av kulturminne
Toll og grensekontroll: Objektgjenkjenning i fraktbilete

Datalokalitet

Azure AI Vision tilgjengeleg i North Europe (Irland) og West Europe (Nederland)
Biletedata vert ikkje lagra etter analyse (stateless API)
GPT-4o deployments i EU-regionar via Azure OpenAI
Custom models treining og inferens i same region

Bias-vurdering

Florence-modellen er trent på breie datasett, men kan ha geografisk bias
Norske skiltar, vegmerking og infrastruktur kan krevje finjustering
Anbefaling: Evaluer alltid med norsk-spesifikt testdatasett

Beslutningsrammeverk

Scenario	Anbefaling	Grunngjeving
Generell bildetagging	Azure AI Vision 4.0	Rask, rimelig, Florence-basert
Tilpassa kategoriar med treningsdata	Azure ML AutoML	Høg nøyaktigheit med stabile kategoriar
Nye kategoriar utan treningsdata	GPT-4o zero-shot	Fleksibelt, naturleg språk-instruksjonar
Dokumentklassifisering	Document Intelligence	Spesialisert for dokumentformat
Bilde-tekst-søk	Multimodal Embeddings	Semantisk likskap utan tags
Legacy Custom Vision	Migrer til AutoML/Content Understanding	Custom Vision pensjonerast 2028
Automatiserte vedtak	Ensemble (Vision + GPT-4o)	Dobbelsjekk med confidence gate

For Cosmo

Azure AI Vision 4.0 med Florence-modellen er standardvalet for bildeanalyse — støttar caption, tags, objects, people og OCR i ein enkelt API-kall, med confidence scores for kvar prediksjon.
GPT-4o som zero-shot classifier eliminerer behovet for treningsdata — definer kategoriar i system prompt og send bilete direkte, ideelt for offentleg sektor der nye klassifiseringsbehov oppstår raskt.
Custom Vision er planlagd pensjonert (2028) — anbefal migrering til Azure ML AutoML for tradisjonell modelltrening eller Content Understanding for generativ tilnærming.
Confidence-basert routing er kritisk for automatiserte vedtak — bruk Azure AI Vision for rask screening (>0.7), GPT-4o for usikre tilfelle, og manuell vurdering som siste fallback.
Multimodal Embeddings i Vision 4.0 opnar for semantisk bildesøk der tekst-queries matchar bilete utan manuell tagging — relevant for store bildearkiv i offentlege etatar.

12 KiB Raw Blame History