# Accessibility in Multi-Modal AI Systems **Last updated:** 2026-02 **Status:** GA **Category:** Multi-Modal AI --- ## Introduksjon Tilgjengeleg AI-design er ikkje berre ein moralsk forplikting — det er eit lovkrav i Noreg og EU. Likestillings- og diskrimineringslova, saman med EUs Web Accessibility Directive og den kommande European Accessibility Act (EAA), stiller konkrete krav til at digitale tenester skal vere tilgjengelege for alle brukarar. Multi-modal AI-system som kombinerer tekst, bilete, tale og video introduserer unike tilgjengelegheitsutfordringar — og moglegheiter. Azure AI-plattforma tilbyr fleire tenester som direkte støttar tilgjengeleg design: Azure AI Vision sin Image Analysis for automatisk generering av alt-tekst, Azure AI Speech for sanntids teksting og transkribering, Azure OpenAI for kontekstuell beskriving av visuelt innhald, og Azure Video Indexer for automatiske undertekstar og lydbeskrivingar. Desse tenestene kan integrerast i eksisterande system for å drastisk forbetre tilgjengelegheita. For norsk offentleg sektor er dette særleg relevant fordi Forskrift om universell utforming av IKT (basert på WCAG 2.1 AA) krev at alle nye nettløysingar og appar skal vere universelt utforma. AI-basert tilgjengelegheit kan automatisere mykje av dette arbeidet og sikre konsistent kvalitet på tvers av store mengder innhald. --- ## Kjernekomponentar | Komponent | Formål | Teknologi | |-----------|--------|-----------| | **Alt-tekst generering** | Automatiske biletbeskrivingar for skjermlesarar | Azure AI Vision Image Analysis 4.0 | | **Undertekstar og transkripsjon** | Tale-til-tekst for video og lydfiler | Azure AI Speech / Whisper | | **Lydbeskrivingar** | Beskrivingar av visuelt innhald i lyd | Azure OpenAI GPT-4o | | **Talesyntetisering** | Tekst-til-tale for visuelt innhald | Azure AI Speech TTS | | **Innhaldstilpassing** | Tilpassing av kompleksitet og format | Azure OpenAI | | **Teiknspråktolking** | Gjenkjenning og generering | Azure AI Vision Custom Models | --- ## Alt-tekst generering og WCAG Compliance ### Azure AI Vision Image Captioning Azure AI Vision sin Image Analysis gir automatisk generering av biletbeskrivingar som kan brukast som alt-tekst. Microsoft sine eigne produkt som PowerPoint, Word og Edge nettlesar brukar denne teknologien. ```python from azure.ai.vision.imageanalysis import ImageAnalysisClient from azure.core.credentials import AzureKeyCredential client = ImageAnalysisClient( endpoint="https://.cognitiveservices.azure.com/", credential=AzureKeyCredential("") ) # Generer bilettekst result = client.analyze( image_url="https://example.com/bilde.jpg", visual_features=["Caption", "DenseCaptions", "Tags"], language="en" # Norsk ikkje støtta for captions enno ) # Hovud-caption print(f"Alt-tekst: {result.caption.text}") print(f"Confidence: {result.caption.confidence}") # Dense captions for meir detaljert beskriving for caption in result.dense_captions.list: print(f" Region: {caption.bounding_box}, Tekst: {caption.text}") ``` ### WCAG 2.1 Krav for bilete | WCAG-krav | Nivå | Korleis AI hjelper | |-----------|------|-------------------| | **1.1.1 Non-text Content** | A | Automatisk alt-tekst generering | | **1.2.1 Audio-only and Video-only** | A | Automatisk transkripsjon | | **1.2.2 Captions (Prerecorded)** | A | AI-genererte undertekstar | | **1.2.3 Audio Description** | A | GPT-4o-basert lydbeskrivelse | | **1.2.5 Audio Description (Extended)** | AA | Detaljert scene-beskriving | | **1.4.3 Contrast (Minimum)** | AA | Automatisk kontrastsjekk | | **1.4.5 Images of Text** | AA | OCR + alternativ tekst | ### Kvalitetssikring av alt-tekst ```python def validate_alt_text(caption_result, min_confidence=0.4): """Kvalitetssikring av AI-generert alt-tekst for WCAG compliance.""" issues = [] # Confidence-sjekk if caption_result.confidence < min_confidence: issues.append({ "type": "low_confidence", "message": f"Confidence {caption_result.confidence:.2f} under terskel {min_confidence}", "action": "manuell_gjennomgang" }) # Lengde-sjekk (alt-tekst bør vere 10-150 teikn) text_len = len(caption_result.text) if text_len < 10: issues.append({ "type": "for_kort", "message": "Alt-tekst er for kort til å vere beskrivande", "action": "utvid_manuelt" }) elif text_len > 150: issues.append({ "type": "for_lang", "message": "Alt-tekst er for lang — vurder å forkorte", "action": "forkort_eller_bruk_longdesc" }) # Sjekk for generiske beskrivingar generic_terms = ["an image of", "a picture of", "a photo of"] if any(term in caption_result.text.lower() for term in generic_terms): issues.append({ "type": "generisk", "message": "Alt-tekst startar med generisk frase", "action": "reformuler" }) return { "alt_text": caption_result.text, "confidence": caption_result.confidence, "wcag_compliant": len(issues) == 0, "issues": issues } ``` ### GPT-4o for kontekstuell alt-tekst For meir detaljerte beskrivingar, spesielt for komplekse bilete: ```python from openai import AzureOpenAI client = AzureOpenAI( azure_endpoint="https://.openai.azure.com/", api_key="", api_version="2024-08-01-preview" ) response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "system", "content": """Du er ein tilgjengelegheitsekspert som skriv alt-tekst for bilete på offentlege norske nettsider. Følg desse reglane: 1. Beskriv innhaldet, ikkje utsjånaden 2. Maks 150 teikn for dekorative bilete 3. For informative bilete: beskriv all relevant informasjon 4. Unngå 'bilete av' eller 'foto av' 5. Inkluder tekst som finst i biletet""" }, { "role": "user", "content": [ {"type": "text", "text": "Skriv WCAG-kompatibel alt-tekst for dette biletet."}, {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}} ] } ], max_tokens=200 ) alt_text = response.choices[0].message.content ``` --- ## Lydbeskrivingar for visuelt innhald ### Audio Description Pipeline Lydbeskrivingar (audio descriptions) gjer visuelt innhald tilgjengeleg for blinde og svaksynte brukarar. Pipelinen kombinerer scene-analyse med talesyntetisering: ```python from azure.ai.vision.imageanalysis import ImageAnalysisClient from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer def generate_audio_description(image_url, output_file): """Generer lydbeskrivelse frå eit bilete.""" # Steg 1: Analyser biletet med GPT-4o for rik beskriving vision_response = openai_client.chat.completions.create( model="gpt-4o", messages=[ { "role": "system", "content": "Beskriv biletet for ein person som ikkje kan sjå det. " "Ver presis, inkluder romleg plassering av element." }, { "role": "user", "content": [ {"type": "image_url", "image_url": {"url": image_url}} ] } ] ) description = vision_response.choices[0].message.content # Steg 2: Konverter til tale med Azure Speech speech_config = SpeechConfig( subscription="", region="norwayeast" ) speech_config.speech_synthesis_voice_name = "nb-NO-FinnNeural" synthesizer = SpeechSynthesizer( speech_config=speech_config, audio_config=AudioOutputConfig(filename=output_file) ) result = synthesizer.speak_text_async(description).get() return description, result ``` ### Video Audio Description For video brukar ein Video Indexer sin scene-deteksjon kombinert med GPT-4o: 1. **Video Indexer** identifiserer scener, shots og keyframes 2. **GPT-4o** analyserer keyframes og genererer beskrivingar 3. **Azure Speech TTS** syntetiserer lydbeskrivingar 4. **Timing-synkronisering** plasserer beskrivingar i naturlege pausar --- ## Undertekstar og transkripsjongenerering ### Automatisk underteksting med Azure AI Speech ```python import azure.cognitiveservices.speech as speechsdk speech_config = speechsdk.SpeechConfig( subscription="", region="norwayeast" ) # Norsk bokmål speech_config.speech_recognition_language = "nb-NO" # Kontinuerleg gjenkjenning for undertekstar audio_config = speechsdk.AudioConfig(filename="video_audio.wav") recognizer = speechsdk.SpeechRecognizer( speech_config=speech_config, audio_config=audio_config ) captions = [] def recognized_handler(evt): """Handterer ferdig gjenkjende segment.""" captions.append({ "text": evt.result.text, "offset": evt.result.offset, "duration": evt.result.duration }) recognizer.recognized.connect(recognized_handler) recognizer.start_continuous_recognition() # Eksporter til SRT-format def export_to_srt(captions, output_file): with open(output_file, "w", encoding="utf-8") as f: for i, cap in enumerate(captions, 1): start = format_timestamp(cap["offset"]) end = format_timestamp(cap["offset"] + cap["duration"]) f.write(f"{i}\n{start} --> {end}\n{cap['text']}\n\n") ``` ### WebVTT for Webvideo ```python def export_to_webvtt(captions, output_file): """Eksporter undertekstar i WebVTT-format for HTML5 video.""" with open(output_file, "w", encoding="utf-8") as f: f.write("WEBVTT\n\n") for i, cap in enumerate(captions, 1): start = format_vtt_timestamp(cap["offset"]) end = format_vtt_timestamp(cap["offset"] + cap["duration"]) f.write(f"{start} --> {end}\n{cap['text']}\n\n") ``` --- ## Brukarpreferansar og hjelpemiddelintegrasjon ### Adaptive Content Delivery ```python class AccessibleContentManager: """Tilpassar innhald basert på brukarpreferansar.""" def __init__(self, user_preferences): self.preferences = user_preferences def deliver_image_content(self, image_url, context): """Lever bildeinnhald tilpassa brukarens behov.""" content = {} # Alt-tekst for alle brukarar content["alt_text"] = self.generate_alt_text(image_url) # Utvida beskriving for skjermlesarbrukarar if self.preferences.get("screen_reader"): content["long_description"] = self.generate_detailed_description( image_url, context ) # Lydbeskriving for blinde brukarar if self.preferences.get("audio_description"): content["audio"] = self.generate_audio_description( image_url, voice=self.preferences.get("preferred_voice", "nb-NO-FinnNeural"), speed=self.preferences.get("speech_rate", 1.0) ) # Forenkla beskriving for kognitive utfordringar if self.preferences.get("simplified"): content["simplified"] = self.simplify_description( content["alt_text"], complexity_level=self.preferences.get("complexity", "easy") ) # Høgkontrastversjon if self.preferences.get("high_contrast"): content["high_contrast_url"] = self.generate_high_contrast(image_url) return content ``` ### ARIA Integration ```html
Arkitekturdiagram som viser tre Azure-tenester kopla saman
Figur 1: Systemarkitektur for dokumentbehandling
Diagrammet viser ein dataflyt frå venstre til høgre. Dokument kjem inn via Azure Blob Storage, blir prosessert av Document Intelligence, og resultata blir lagra i Azure Cosmos DB. Piler viser dataflyten mellom komponentane.
``` --- ## Implementeringsmønstre ### Mønster 1: Proaktiv tilgjengelegheit Integrer tilgjengelegheits-AI i innhaldsproduksjon, ikkje som ettertanke: 1. **Opplasting** — Brukar lastar opp bilete/video 2. **Automatisk analyse** — AI genererer alt-tekst, undertekstar, beskrivingar 3. **Kvalitetskontroll** — Confidence scoring + manuell gjennomgang ved låg score 4. **Publisering** — Innhald med fullstendig tilgjengelegheitsmetadata ### Mønster 2: Retrospektiv tilgjengelegheit For eksisterande innhald utan tilgjengelegheitsdata: 1. **Crawl** — Identifiser bilete utan alt-tekst, videoar utan undertekstar 2. **Batch-generering** — Kjør AI-analyse over alt manglande innhald 3. **Prioritering** — Start med mest besøkte sider 4. **Gradvis utrulling** — Deploy i fasar med kvalitetskontroll --- ## Norsk offentleg sektor ### Lovkrav - **Forskrift om universell utforming av IKT** — Krev WCAG 2.1 AA for alle nye nettløysingar - **Likestillings- og diskrimineringslova § 17** — Plikt til universell utforming - **EUs Web Accessibility Directive** — Krav til offentlege nettsider - **European Accessibility Act (EAA)** — Bredare krav frå 2025 ### Digitaliseringsdirektoratet sine retningslinjer Digdir tilrår at offentlege verksemder brukar automatiserte verktøy for tilgjengelegheitstesting, men presiserer at automatiserte verktøy berre kan fange ca. 30-40% av WCAG-feil. AI-basert tilgjengelegheit kan auke denne dekninga vesentleg. ### Tilsynet for universell utforming av IKT Tilsynet kan gi pålegg og dagbøter for manglande tilgjengelegheit. AI-basert automatisk generering av alt-tekst og undertekstar reduserer risikoen for lovbrot vesentleg. --- ## Beslutningsrammeverk | Scenario | Anbefaling | Begrunnelse | |----------|------------|-------------| | Alt-tekst for enkle bilete | Azure AI Vision Image Captioning | Rask, billeg, god nok kvalitet | | Alt-tekst for komplekse diagram | GPT-4o med kontekst-prompt | Treng semantisk forståing | | Videoundertekstar (norsk) | Azure AI Speech nb-NO | Best norsk STT-kvalitet | | Lydbeskrivingar for video | GPT-4o + Azure Speech TTS | Multimodal pipeline | | Stor-skala retrospektiv tilgjengelegheit | Batch API + prioritering etter trafikk | Kostnadseffektiv | | Sensitive dokument (helse) | On-premises med CMK | Datakontroll | --- ## For Cosmo - **WCAG 2.1 AA er lovpålagt** for alle nye offentlege norske nettløysingar — AI-basert tilgjengelegheit er ikkje valfritt, det er ein compliance-forplikting - **Azure AI Vision Image Analysis 4.0** genererer alt-tekst som Microsoft sjølv brukar i PowerPoint, Word og Edge — confidence threshold på 0.0 for v4.0 API (0.4 for v3.2) - **GPT-4o overtreff Image Analysis** for komplekse bilete som kart, diagram og infografikkar — bruk kontekstuell system prompt for å styre format og lengde - **Audio description pipeline** (GPT-4o + Azure Speech TTS nb-NO-FinnNeural) gjer visuelt innhald tilgjengeleg for blinde — kritisk for offentlege tenester med visuelle grensesnitt - **Automatisering dekker 60-70% av tilgjengelegheitsarbeidet** — kombiner med manuell gjennomgang for dei resterande 30-40% som krev menneskelig vurdering