Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

13 KiB

Raw Blame History

Text-to-Speech for Citizen Services

Last updated: 2026-02 Status: GA Category: Multi-Modal AI

Introduksjon

Azure Speech Services Text-to-Speech (TTS) gir offentleg sektor moglegheit til å tilby tilgjengelege, talbaserte digitale tenester for alle innbyggjarar. Med over 400 neurale stemmer på meir enn 140 språk og lokalarar — inkludert norsk bokmål (nb-NO) med stemmene PernilleNeural, FinnNeural og IselinNeural — kan etatar levere informasjon auditivt til brukarar med synshemming, lesevanskar eller låg digital kompetanse.

Neural text-to-speech brukar djupe neurale nettverk for å overvinne avgrensingar i tradisjonell talesyntetisering. Resultatet er naturleg prosodi (betoning og intonasjon) som gjer syntetisk tale engasjerande og forståeleg. Azure tilbyr prebuilt neural voices, custom neural voices (for organisasjonar som ønskjer ein unik merkevare-stemme) og Dragon HD-stemmer med ekstra høg kvalitet.

For norsk offentleg sektor er TTS særleg relevant for universell utforming (WCAG 2.1 AA-krav), automatiserte telefontenester, sanntids opplesing av vedtak og brev, og fleirspråkleg informasjonsformidling til innvandrargrupper. Azure Speech Services er tilgjengeleg i europeiske regionar med full GDPR-etterleving, og kan køyrast i kontainerformat for scenario med strengare datalokaliseringskrav.

Kjernekomponentar

Komponent	Formål	Teknologi
Neural TTS Engine	Talesyntetisering med naturleg prosodi	Azure Speech Services
SSML Processor	Finkontroll over tale: tempo, tonehøgd, pausar	Speech Synthesis Markup Language (XML)
Multilingual Voices	Fleirspråkleg støtte utan bytte av modell	Multilingual Neural Voices
Custom Neural Voice	Organisasjonsspesifikk stemme	Azure Custom Voice
Batch Synthesis API	Asynkron generering av store volum	Batch synthesis REST API
Audio Output	Fleire format: WAV, MP3, Opus, OGG	Azure Audio Config

Neural Voice Selection og Customization

Norske stemmer

Azure tilbyr tre dedikerte norsk bokmål-stemmer:

Stemme	Kjønn	Bruksområde
`nb-NO-PernilleNeural`	Kvinne	Generell bruk, informasjonstenester
`nb-NO-FinnNeural`	Mann	Formelle vedtak, telefontenester
`nb-NO-IselinNeural`	Kvinne	Alternativ kvinnestemme

Fleirspråklege stemmer for borgartenester

For etatar som betener fleirspråklege innbyggjarar, støttar multilingual voices automatisk språkdeteksjon:

import os
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription=os.environ.get('SPEECH_KEY'),
    region=os.environ.get('SPEECH_REGION')
)

# Multilingual voice som støttar norsk + 90 andre språk
speech_config.speech_synthesis_voice_name = 'en-US-AvaMultilingualNeural'

audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=audio_config
)

# Teksten sin automatisk detekterte språk styrer uttale
result = synthesizer.speak_text_async(
    "Dette vedtaket er sendt til deg fra Statens vegvesen."
).get()

if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
    print("Tale syntetisert vellykka")

Custom Neural Voice for merkevareidentitet

Organisasjonar kan trene ein unik stemme med Professional Voice-funksjonen:

Datainnsamling — Minimum 300 taleopptak (ca. 30 min) frå profesjonell stemmeaktør
Modelltrening — Automatisk trening i Azure Speech Studio
Evaluering — A/B-testing mot prebuilt voices
Deployment — Eige endpoint med tilgangskontroll via Microsoft Entra ID

Norsk bokmål (nb-NO) støttar Professional Voice, cross-lingual voice, multi-style voice og multilingual voice.

SSML Markup for Prosody Control

SSML (Speech Synthesis Markup Language) gir finkornet kontroll over korleis tekst vert uttalt:

Grunnleggjande SSML-struktur

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="nb-NO">
    <voice name="nb-NO-PernilleNeural">
        <prosody rate="-10%" pitch="+5%">
            Ditt vedtak om byggetillating er no klart.
        </prosody>
        <break time="500ms"/>
        <prosody rate="-20%" volume="+10%">
            Vedtaket kan klagast på innan tre veker.
        </prosody>
    </voice>
</speak>

Prosody-attributt

Attributt	Verdiar	Bruk
`rate`	`x-slow`, `slow`, `medium`, `fast`, `x-fast`, `+/-N%`	Talefart for ulike kontekstar
`pitch`	`x-low`, `low`, `medium`, `high`, `x-high`, `+/-N%`	Tonehøgd for betoning
`volume`	`silent`, `x-soft`, `soft`, `medium`, `loud`, `x-loud`, `+/-N%`	Lydnivå
`contour`	`(time%, pitch%)` par	Melodikurve for naturleg tale

Speaking Styles for borgartenester

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <mstts:express-as style="friendly" styledegree="1.5">
            <lang xml:lang="nb-NO">
                Velkommen til Statens vegvesen sin telefonteneste.
            </lang>
        </mstts:express-as>
    </voice>
</speak>

Uttale-korreksjon med lexicon og phoneme

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xml:lang="nb-NO">
    <voice name="nb-NO-PernilleNeural">
        Ditt
        <phoneme alphabet="ipa" ph="ˈpɛːrsɔnˌnʉmər">
            personnummer
        </phoneme>
        er registrert.
        <say-as interpret-as="telephone">+47 22 07 35 00</say-as>
    </voice>
</speak>

Multi-lingual Citizen Support

Automatisk språkdeteksjon

Multilingual Neural Voices kan automatisk detektere og bytte mellom opptil 77 språk:

import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription=os.environ.get('SPEECH_KEY'),
    region=os.environ.get('SPEECH_REGION')
)

# Dragon HD-stemme med 91 locale-støtte
speech_config.speech_synthesis_voice_name = \
    'en-US-Ava:DragonHDLatestNeural'

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config, audio_config=None
)

# Fleire språk i same request
ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xml:lang='nb-NO'>
    <voice name='en-US-AvaMultilingualNeural'>
        <lang xml:lang='nb-NO'>
            Velkommen til Folkeregisteret.
        </lang>
        <lang xml:lang='en-US'>
            Welcome to the National Population Register.
        </lang>
        <lang xml:lang='ar-EG'>
            مرحبًا بكم في السجل السكاني الوطني.
        </lang>
    </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()
stream = speechsdk.AudioDataStream(result)
stream.save_to_wav_file("multilingual_welcome.wav")

Oversettingsintegrasjon

Kombiner Speech Translation med TTS for sanntids fleirspråkleg kommunikasjon:

translation_config = speechsdk.translation.SpeechTranslationConfig(
    subscription=speech_key, region=service_region
)
translation_config.speech_recognition_language = "nb-NO"
translation_config.add_target_language("en")
translation_config.add_target_language("ar")
translation_config.add_target_language("so")

recognizer = speechsdk.translation.TranslationRecognizer(
    translation_config=translation_config
)

result = recognizer.recognize_once()
for lang, translation in result.translations.items():
    # Syntetiser kvar oversettelse med passande stemme
    voice_map = {"en": "en-US-AvaMultilingualNeural",
                 "ar": "ar-EG-SalmaNeural",
                 "so": "so-SO-UbaxNeural"}
    tts_config = speechsdk.SpeechConfig(
        subscription=speech_key, region=service_region
    )
    tts_config.speech_synthesis_voice_name = voice_map[lang]
    tts = speechsdk.SpeechSynthesizer(speech_config=tts_config)
    tts.speak_text_async(translation).get()

Performance og Cost Optimization

Latency-optimalisering

Teknikk	Latency-reduksjon	Implementering
Streaming synthesis	50-80% lågare TTFB	`start_speaking_text_async()`
Connection reuse	Unngår TCP/TLS handshake	Gjenbruk `SpeechSynthesizer`
Text streaming input	Progressiv syntese	WebSocket v2 endpoint
Regional deployment	Nettverkslatency	Bruk `northeurope` for Noreg
Container deployment	Eliminerer nettverk	Neural TTS container on-premises

Streaming for låg latency

speech_config = speechsdk.SpeechConfig(
    endpoint=f"wss://{os.getenv('SPEECH_REGION')}.tts.speech.microsoft.com"
             "/cognitiveservices/websocket/v2",
    subscription=os.getenv("SPEECH_KEY")
)

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config, audio_config=None
)

# Start streaming — fyrste bytes kjem før heile teksten er ferdig
result = synthesizer.start_speaking_text_async(
    "Lang tekst som blir sendt progressivt til klienten..."
).get()

audio_stream = speechsdk.AudioDataStream(result)
buffer = bytes(16000)
while audio_stream.read_data(buffer) > 0:
    # Send audio chunks til klient i sanntid
    pass

Kostnadsmodell

Tier	Pris per 1M teikn	Eigna for
Neural (standard)	~$16	Generelle borgartenester
Neural HD	~$30	Premium brukaroppleving
Custom Neural Voice	~$24 + treningskostnad	Merkevarebygging
Batch synthesis	Same pris, asynkron	Store volum (brev, rapportar)

Batch synthesis for store volum

For å generere lydfiler av vedtaksbrev, informasjonsskriv eller rapportar:

curl -X POST \
  "https://northeurope.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01" \
  -H "Ocp-Apim-Subscription-Key: $SPEECH_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "inputKind": "SSML",
    "inputs": [
      {"content": "<speak>...</speak>"},
      {"content": "<speak>...</speak>"}
    ],
    "properties": {
      "outputFormat": "audio-24khz-160kbitrate-mono-mp3",
      "wordBoundaryEnabled": true
    }
  }'

Implementeringsmønstre

Mønster 1: Vedtaksopplesing

Automatisk generering av lydfiler for skriftlege vedtak:

Vedtak generert som tekst i saksbehandlingssystem
Tekst sendt til Batch Synthesis API med SSML-formatering
Lydfil lagra i Azure Blob Storage
Lenke til lydfil inkludert i digital post (Altinn/eBoks)
Innbyggjar kan lytte til vedtaket på nett eller mobil

Mønster 2: Interaktiv telefonteneste (IVR)

Innringer → Azure Communication Services → Speech-to-Text
    → Azure OpenAI (intensjonsgjenkjenning)
    → Text-to-Speech (dynamisk svar)
    → Tilbake til innringer

Mønster 3: Nettside-opplesing

JavaScript Web Speech API + Azure backend for høgkvalitets opplesing av offentlege nettsider med universell utforming.

Norsk offentleg sektor

Lovkrav

Likestillings- og diskrimineringslova § 18: Plikt til universell utforming av IKT
WCAG 2.1 AA: Krav om tekst-til-tale for digitale tenester
Forskrift om universell utforming: Gjeld alle offentlege verksemder

Personvern og databehandling

Azure Speech Services i North Europe (Irland) — EU-databehandling
Container-deployment mogleg for on-premises — ingen data forlèt nettverket
Microsoft er databehandlar under standard DPA
Ingen lagring av taledata etter syntese (stateless)

Schrems II-omsyn

Neural TTS containers kan køyre on-premises for ekstra datakontroll
Ingen persondata i TTS-input med mindre tekst inneheld PII
Anbefaling: Fjern personnummer og sensitive data frå tekst før syntese

Beslutningsrammeverk

Scenario	Anbefaling	Grunngjeving
Standard borgarteneste	`nb-NO-PernilleNeural`	Beste norske stemme for generell bruk
Fleirspråkleg velkomstmelding	`en-US-AvaMultilingualNeural`	91 locales, auto-detect
Premiumbrand-oppleving	Custom Neural Voice	Unik identitet for organisasjonen
Store volum (10 000+ brev)	Batch Synthesis API	Asynkron, kostnadseffektiv
Strengt on-premises krav	Neural TTS Container	Ingen nettverkstrafikk
Sanntids IVR/telefon	Streaming synthesis	Lågast mogleg latency
Dokumentopplesing med pausar	SSML med `<break>` og `<prosody>`	Naturleg leseflyt

For Cosmo

Azure Speech TTS støttar norsk bokmål nativt med tre neurale stemmer (Pernille, Finn, Iselin) — anbefal PernilleNeural for generell borgarteneste og FinnNeural for formelle vedtak.
Multilingual voices eliminerer behovet for separate deployments per språk — AvaMultilingualNeural dekkjer 91 locales inkludert norsk, arabisk, somali og urdu for fleirspråklege etatar.
SSML gir full kontroll over prosodi, pausar og uttale — kritisk for korrekt opplesing av juridisk tekst, telefonnummer (<say-as>) og stadnamn (<phoneme>).
Batch Synthesis API er kostnadsoptimal for volumbaserte scenario som vedtaksbrev og informasjonsskriv — asynkron prosessering utan sanntidskrav.
Container-deployment løyser Schrems II-utfordringar — Neural TTS kan køyre on-premises for etatar med strenge krav til datalokalitet, men med avgrensa stemmeval.

13 KiB Raw Blame History Unescape Escape