Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

13 KiB

Raw Blame History

Azure Video Indexer for Enterprise AI

Last updated: 2026-02 Status: GA Category: Multi-Modal AI

Introduksjon

Azure AI Video Indexer er ein omfattande AI-teneste som ekstraherer djupe innsikter frå video- og lydinnhald. Tenesta køyrer over 30 AI-modellar for å analysere visuelt og auditivt innhald, inkludert transkripsjon, ansiktsdeteksjon, objektgjenkjenning, sentimentanalyse, emneekstraksjon og mykje meir. Video Indexer er bygd på toppen av Azure AI-tenester som Speech, Vision, Translator og Face.

For norsk offentleg sektor er Video Indexer relevant for fleire scenario: arkivdigitalisering av historisk videomateriale, automatisk teksting av offentleg informasjonsmateriell, innhaldsmoderering, søk i store mediearkiv og tilgjengelegheit gjennom transkribering. Tenesta er tilgjengeleg både som skybasert løysing og som Azure Arc-utviding for edge-deployment.

Video Indexer tilbyr to hovudvariantar: ein skybasert applikasjon med fullt funksjonssett, og Video Indexer enabled by Azure Arc for hybrid- og edge-scenario med støtte for live videostraumar og lokale krav til datasuverenitet.

Video Ingestion og Processing Workflows

Arkitektur og prosesseringsflyt

Videofil/Lydsfil → Upload API → Azure Storage
                                     ↓
                           Indexing Pipeline
                           ┌─────────────────┐
                           │ Audio-analyse    │
                           │ - Transkripsjon  │
                           │ - Taledeteksjon  │
                           │ - Lydeffektar    │
                           ├─────────────────┤
                           │ Video-analyse    │
                           │ - Ansiktsdeteksjon│
                           │ - OCR            │
                           │ - Scenedeteksjon │
                           │ - Objektdeteksjon│
                           ├─────────────────┤
                           │ Multi-channel    │
                           │ - Nøkkelord      │
                           │ - Emner          │
                           │ - Sentiment      │
                           │ - Named entities │
                           └─────────────────┘
                                     ↓
                            JSON Insights Output
                                     ↓
                     Azure Storage / Azure Search / API

Deployment-alternativ

Eigenskap	Cloud-basert	Azure Arc (Uploaded)	Azure Arc (Live)
Transkripsjon	Ja	Ja	Nei
Omsetting	Ja	Ja	Nei
Keyframe-deteksjon	Ja	Ja	Ja
Objektdeteksjon	Ja	Ja	Ja
Scenedeteksjon	Ja	Ja	Ja
Oppsummering	Ja	Ja	Ja
Ansiktsdeteksjon	Ja	Nei	Nei
Kjendisidentifisering	Ja	Nei	Nei
OCR	Ja	Nei	Nei
Sentimentanalyse	Ja	Nei	Nei
Live video	Nei	Nei	Ja
Tilpassa AI-innsikter	Nei	Nei	Ja

Filavgrensingar

Parameter	Verdi
Maks filstorleik	30 GB
Maks videolengde	4 timar
Tilrådde FPS	Maks 30 FPS
Tilrådde oppløysing	HD (maks)
Maks personar per frame	10
Minimum tale for analyse	1 minutt spontan samtale

Upload og indexering via API

import requests

account_id = "<your_account_id>"
location = "norwayeast"
access_token = "<your_access_token>"

# Last opp og start indexering
upload_url = (
    f"https://api.videoindexer.ai/{location}/Accounts/{account_id}"
    f"/Videos?name=kommunestyremote-2026&language=nb-NO"
    f"&indexingPreset=AdvancedAudio"
    f"&accessToken={access_token}"
)

with open("kommunestyremote.mp4", "rb") as video_file:
    response = requests.post(
        upload_url,
        files={"file": video_file},
        headers={"Content-Type": "multipart/form-data"}
    )

video_id = response.json()["id"]
print(f"Video ID: {video_id} — Status: {response.json()['state']}")

Indexering-presets

Preset	Brukstilfelle	Inkluderte modellar
Default	Standard analyse	Grunnleggjande video + audio
AdvancedAudio	Møtetranskripsjoner, podkastar	Full audio-analyse inkl. lydeffektar
AdvancedVideo	Visuell analyse, overvaking	Full video-analyse
AdvancedVideoAndAudio	Komplett analyse	Alle modellar aktivert
BasicAudio	Rask transkripsjon	Berre transkripsjon og omsetting

Face, Speech og Content Detection

Ansikts- og persondeteksjon

Video Indexer tilbyr eit hierarki av ansikts- og personrelaterte innsikter:

Funksjon	Forklaring	Avgrensa tilgang?
Face detection	Detekterer og grupperer ansikt i video	Nei
Celebrity identification	Identifiserer 1M+ kjende personar	Nei
Account-based face identification	Trenar modell for spesifikke personar	Ja (søknad krevst)
Observed people detection	Detekterer personar med bounding boxes	Nei
Matched person	Koplar observerte personar med ansikt	Nei
Detected clothing	Klassifiserer klede (lang/kort erme, etc.)	Nei
Thumbnail extraction	Ekstraherer beste ansiktsbilde per person	Nei

Viktig for offentleg sektor: Ansiktsidentifisering (account-based) krev godkjenning og må brukast i samsvar med personopplysningslova og DPIA-krav.

Talebaserte innsikter

Funksjon	Detaljar
Transkripsjon	Automatisk tale-til-tekst med språkdeteksjon
Talarenummerering	Identifiserer kven som sa kva (maks 16 talarar)
Talarstatistikk	Prosentfordeling av taletid
Omsetting	Automatisk omsetting til mange språk
Tekstbasert emosjonsdeteksjon	Glede, tristheit, sinne, frykt frå transkripsjon
Tekstmoderering	Deteksjon av eksplisitt tekstinnhald
Tilpassa transkripsjon (CRIS)	Trenar bransjespesifikke talemodular
Lydeffektdeteksjon	Alarm, hundebjeffing, publikumsreaksjonar, skot, latter

OCR og visuell tekstgjenkjenning

Video Indexer ekstraherer tekst frå bilete og video gjennom OCR:

{
  "id": 1,
  "text": "Statens vegvesen",
  "confidence": 0.95,
  "left": 120,
  "top": 50,
  "width": 340,
  "height": 45,
  "language": "nb",
  "instances": [
    {
      "adjustedStart": "0:00:05.12",
      "adjustedEnd": "0:00:12.45",
      "start": "0:00:05.12",
      "end": "0:00:12.45"
    }
  ]
}

Innhaldsmoderering

Type	Kva blir detektert
Visuell moderering	Vaksent og upassande visuelt innhald
Tekstmoderering	Eksplisitt innhald i transkripsjon
Svart frame	Svarte frames (indikerer redigering/overgangar)

Knowledge Graph Construction frå Video

Emne- og entitetsekstraksjon

Video Indexer bygger ein kunnskapsgraf frå videoinnhald gjennom fleire lag av analyse:

Lag 1: Basisdatasett

Transkripsjon (tale → tekst)
OCR (visuell tekst)
Ansikt og personar

Lag 2: Semantisk anriking

Nøkkelord (frå tale og visuell tekst)
Named entities (merkevarar, stader, personar)
Emner (basert på IPTC, Wikipedia, VI-ontologi)

Lag 3: Strukturell analyse

Scenedeteksjon (basert på visuelle endringar)
Shot detection (kamerabytter)
Keyframe-ekstraksjon
Rullande credits-identifisering

Emne-inference med hierarkisk ontologi

Video Indexer brukar tre ontologiar for emneinferens:

Ontologi	Bruk	Eksempel
IPTC	International Press Telecommunications Council	Økonomi, Sport, Politikk
Wikipedia	Encyclopedisk kategorisering	Spesifikke teknologiar, stader
VI Hierarchical	Video Indexer sin eiga ontologi	Bransjespesifikke emne

{
  "topics": [
    {
      "id": 1,
      "name": "Vegtrafikk",
      "referenceId": "Transport/Vegtrafikk",
      "referenceType": "VideoIndexer",
      "confidence": 0.89,
      "language": "nb-NO",
      "instances": [
        {
          "adjustedStart": "0:02:15",
          "adjustedEnd": "0:05:30"
        }
      ]
    }
  ]
}

Sentimentanalyse

Video Indexer utfører sentimentanalyse som kombinerer tale og visuell tekst:

Sentiment	Skala	Brukstilfelle
Positivt	0.0 - 1.0	Brukaropplevingsevaluering
Negativt	0.0 - 1.0	Klagebehandling, krisekommunikasjon
Nøytralt	0.0 - 1.0	Bakgrunnsinnhald

Integrasjon med AI Services

Logic Apps og Power Automate

Video Indexer integrerer med serverless-tenester for automatiserte arbeidsflyttar:

Flyt 1: Upload og indexering

Blob Storage trigger → Video Indexer Upload → Callback URL

Flyt 2: Insights-ekstraksjon

HTTP trigger (callback) → Get Video Index → Save to Blob/Cosmos DB

{
  "definition": {
    "triggers": {
      "When_a_blob_is_added_or_modified": {
        "type": "ApiConnection",
        "inputs": {
          "host": { "connection": { "name": "@parameters('$connections')['azureblob']['connectionId']" } },
          "method": "get",
          "path": "/datasets/default/triggers/batch/onupdatedfile"
        }
      }
    },
    "actions": {
      "Upload_video_and_index": {
        "type": "ApiConnection",
        "inputs": {
          "host": { "connection": { "name": "@parameters('$connections')['videoindexer-v2']['connectionId']" } },
          "method": "post",
          "path": "/northeurope/Accounts/{accountId}/Videos",
          "queries": {
            "name": "@triggerBody()?['Name']",
            "videoUrl": "@triggerBody()?['WebUrl']",
            "language": "nb-NO",
            "callbackUrl": "@listCallbackUrl()"
          }
        }
      }
    }
  }
}

Azure AI Search-integrasjon

Video Indexer-innsikter kan indekserast i Azure AI Search for djupt søk:

Indeksfelt	Kjelde	Søketype
`transcript`	Tale-til-tekst	Fulltekst
`keywords`	Nøkkelordekstraksjon	Filtrering/fasettert
`faces`	Ansiktsdeteksjon	Filtrering
`topics`	Emneinferens	Fasettert søk
`namedEntities`	NLP-ekstraksjon	Fulltekst + filtrering
`ocr`	Visuell tekst	Fulltekst
`sentiments`	Sentimentanalyse	Range-filtrering

Azure Functions for hendingsbasert prosessering

import azure.functions as func
import requests
import json

def main(msg: func.QueueMessage) -> None:
    """Process Video Indexer callback."""
    message = json.loads(msg.get_body().decode('utf-8'))
    video_id = message['id']
    account_id = os.environ['VIDEO_INDEXER_ACCOUNT_ID']
    location = os.environ['VIDEO_INDEXER_LOCATION']

    # Hent innsikter
    insights_url = (
        f"https://api.videoindexer.ai/{location}/Accounts/{account_id}"
        f"/Videos/{video_id}/Index"
    )

    response = requests.get(
        insights_url,
        headers={"Authorization": f"Bearer {get_access_token()}"}
    )

    insights = response.json()

    # Prosesser for downstream-system
    process_transcription(insights.get('videos', [{}])[0].get('insights', {}).get('transcript', []))
    process_topics(insights.get('videos', [{}])[0].get('insights', {}).get('topics', []))

Edge-deployment med Azure Arc

For norsk offentleg sektor med strenge krav til datalokalitet:

Funksjon	Fordel for offentleg sektor
On-premises prosessering	Data forlèt ikkje organisasjonen
Live videoanalyse	Sanntidsovervaking av infrastruktur
Tilpassa AI-innsikter	Definer eigne deteksjonsreglar
Kubernetes-kompatibel	Fleksibel infrastruktur

Brukstilfelle for norsk offentleg sektor

Arkivdigitalisering

Steg	Verktøy	Output
1. Digitalisering	Skanning/digitalisering	Videofiler
2. Indexering	Video Indexer (AdvancedVideoAndAudio)	JSON-innsikter
3. Transkripsjon	Automatisk med norsk språkmodell	Tekst med tidskoder
4. Søkbarheit	Azure AI Search	Fulltekst + semantisk søk
5. Tilgjengelegheit	Automatisk teksting	WebVTT/SRT-filer

Kommunestyremøte-automatisering

Live-stream → Azure Arc Video Indexer → Sanntids-transkripsjon
                                      → Talaridentifisering
                                      → Emnedeteksjon
                                      → Automatisk teksting
                                      → Søkbart arkiv

For Cosmo

Video Indexer køyrer 30+ AI-modellar per video, inkludert transkripsjon, ansiktsdeteksjon, OCR, sentimentanalyse og emneekstraksjon. Vurder kva preset som gir best verdi for pengane basert på brukstilfellet.
Azure Arc-varianten er avgjerande for datasuverenitet i norsk offentleg sektor. Live videoanalyse køyrer lokalt, medan full indexering kan gjerast hybrid.
Ansiktsidentifisering krev godkjenning og må alltid kombinerast med DPIA i offentleg sektor. Bruk anonymisering der mogleg.
Integrer med Logic Apps / Power Automate for automatiserte arkiverings- og publiseringsflyttar. Callback-URL-mønsteret gir asynkron prosessering utan polling.
Kombiner med Azure AI Search for djupt søk i store videoarkiv. Indekser transkripsjon, nøkkelord, emner og named entities for å gjere møtereferat og opplysingsmateriell søkbart.

13 KiB Raw Blame History