ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-engineering/references/multi-modal/text-to-speech-citizen.md
Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)
Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-07 17:17:17 +02:00

13 KiB
Raw Blame History

Text-to-Speech for Citizen Services

Last updated: 2026-02 Status: GA Category: Multi-Modal AI


Introduksjon

Azure Speech Services Text-to-Speech (TTS) gir offentleg sektor moglegheit til å tilby tilgjengelege, talbaserte digitale tenester for alle innbyggjarar. Med over 400 neurale stemmer på meir enn 140 språk og lokalarar — inkludert norsk bokmål (nb-NO) med stemmene PernilleNeural, FinnNeural og IselinNeural — kan etatar levere informasjon auditivt til brukarar med synshemming, lesevanskar eller låg digital kompetanse.

Neural text-to-speech brukar djupe neurale nettverk for å overvinne avgrensingar i tradisjonell talesyntetisering. Resultatet er naturleg prosodi (betoning og intonasjon) som gjer syntetisk tale engasjerande og forståeleg. Azure tilbyr prebuilt neural voices, custom neural voices (for organisasjonar som ønskjer ein unik merkevare-stemme) og Dragon HD-stemmer med ekstra høg kvalitet.

For norsk offentleg sektor er TTS særleg relevant for universell utforming (WCAG 2.1 AA-krav), automatiserte telefontenester, sanntids opplesing av vedtak og brev, og fleirspråkleg informasjonsformidling til innvandrargrupper. Azure Speech Services er tilgjengeleg i europeiske regionar med full GDPR-etterleving, og kan køyrast i kontainerformat for scenario med strengare datalokaliseringskrav.


Kjernekomponentar

Komponent Formål Teknologi
Neural TTS Engine Talesyntetisering med naturleg prosodi Azure Speech Services
SSML Processor Finkontroll over tale: tempo, tonehøgd, pausar Speech Synthesis Markup Language (XML)
Multilingual Voices Fleirspråkleg støtte utan bytte av modell Multilingual Neural Voices
Custom Neural Voice Organisasjonsspesifikk stemme Azure Custom Voice
Batch Synthesis API Asynkron generering av store volum Batch synthesis REST API
Audio Output Fleire format: WAV, MP3, Opus, OGG Azure Audio Config

Neural Voice Selection og Customization

Norske stemmer

Azure tilbyr tre dedikerte norsk bokmål-stemmer:

Stemme Kjønn Bruksområde
nb-NO-PernilleNeural Kvinne Generell bruk, informasjonstenester
nb-NO-FinnNeural Mann Formelle vedtak, telefontenester
nb-NO-IselinNeural Kvinne Alternativ kvinnestemme

Fleirspråklege stemmer for borgartenester

For etatar som betener fleirspråklege innbyggjarar, støttar multilingual voices automatisk språkdeteksjon:

import os
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription=os.environ.get('SPEECH_KEY'),
    region=os.environ.get('SPEECH_REGION')
)

# Multilingual voice som støttar norsk + 90 andre språk
speech_config.speech_synthesis_voice_name = 'en-US-AvaMultilingualNeural'

audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=audio_config
)

# Teksten sin automatisk detekterte språk styrer uttale
result = synthesizer.speak_text_async(
    "Dette vedtaket er sendt til deg fra Statens vegvesen."
).get()

if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
    print("Tale syntetisert vellykka")

Custom Neural Voice for merkevareidentitet

Organisasjonar kan trene ein unik stemme med Professional Voice-funksjonen:

  1. Datainnsamling — Minimum 300 taleopptak (ca. 30 min) frå profesjonell stemmeaktør
  2. Modelltrening — Automatisk trening i Azure Speech Studio
  3. Evaluering — A/B-testing mot prebuilt voices
  4. Deployment — Eige endpoint med tilgangskontroll via Microsoft Entra ID

Norsk bokmål (nb-NO) støttar Professional Voice, cross-lingual voice, multi-style voice og multilingual voice.


SSML Markup for Prosody Control

SSML (Speech Synthesis Markup Language) gir finkornet kontroll over korleis tekst vert uttalt:

Grunnleggjande SSML-struktur

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="nb-NO">
    <voice name="nb-NO-PernilleNeural">
        <prosody rate="-10%" pitch="+5%">
            Ditt vedtak om byggetillating er no klart.
        </prosody>
        <break time="500ms"/>
        <prosody rate="-20%" volume="+10%">
            Vedtaket kan klagast på innan tre veker.
        </prosody>
    </voice>
</speak>

Prosody-attributt

Attributt Verdiar Bruk
rate x-slow, slow, medium, fast, x-fast, +/-N% Talefart for ulike kontekstar
pitch x-low, low, medium, high, x-high, +/-N% Tonehøgd for betoning
volume silent, x-soft, soft, medium, loud, x-loud, +/-N% Lydnivå
contour (time%, pitch%) par Melodikurve for naturleg tale

Speaking Styles for borgartenester

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <mstts:express-as style="friendly" styledegree="1.5">
            <lang xml:lang="nb-NO">
                Velkommen til Statens vegvesen sin telefonteneste.
            </lang>
        </mstts:express-as>
    </voice>
</speak>

Uttale-korreksjon med lexicon og phoneme

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xml:lang="nb-NO">
    <voice name="nb-NO-PernilleNeural">
        Ditt
        <phoneme alphabet="ipa" ph="ˈːrsɔnˌnʉmər">
            personnummer
        </phoneme>
        er registrert.
        <say-as interpret-as="telephone">+47 22 07 35 00</say-as>
    </voice>
</speak>

Multi-lingual Citizen Support

Automatisk språkdeteksjon

Multilingual Neural Voices kan automatisk detektere og bytte mellom opptil 77 språk:

import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription=os.environ.get('SPEECH_KEY'),
    region=os.environ.get('SPEECH_REGION')
)

# Dragon HD-stemme med 91 locale-støtte
speech_config.speech_synthesis_voice_name = \
    'en-US-Ava:DragonHDLatestNeural'

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config, audio_config=None
)

# Fleire språk i same request
ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xml:lang='nb-NO'>
    <voice name='en-US-AvaMultilingualNeural'>
        <lang xml:lang='nb-NO'>
            Velkommen til Folkeregisteret.
        </lang>
        <lang xml:lang='en-US'>
            Welcome to the National Population Register.
        </lang>
        <lang xml:lang='ar-EG'>
            مرحبًا بكم في السجل السكاني الوطني.
        </lang>
    </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()
stream = speechsdk.AudioDataStream(result)
stream.save_to_wav_file("multilingual_welcome.wav")

Oversettingsintegrasjon

Kombiner Speech Translation med TTS for sanntids fleirspråkleg kommunikasjon:

translation_config = speechsdk.translation.SpeechTranslationConfig(
    subscription=speech_key, region=service_region
)
translation_config.speech_recognition_language = "nb-NO"
translation_config.add_target_language("en")
translation_config.add_target_language("ar")
translation_config.add_target_language("so")

recognizer = speechsdk.translation.TranslationRecognizer(
    translation_config=translation_config
)

result = recognizer.recognize_once()
for lang, translation in result.translations.items():
    # Syntetiser kvar oversettelse med passande stemme
    voice_map = {"en": "en-US-AvaMultilingualNeural",
                 "ar": "ar-EG-SalmaNeural",
                 "so": "so-SO-UbaxNeural"}
    tts_config = speechsdk.SpeechConfig(
        subscription=speech_key, region=service_region
    )
    tts_config.speech_synthesis_voice_name = voice_map[lang]
    tts = speechsdk.SpeechSynthesizer(speech_config=tts_config)
    tts.speak_text_async(translation).get()

Performance og Cost Optimization

Latency-optimalisering

Teknikk Latency-reduksjon Implementering
Streaming synthesis 50-80% lågare TTFB start_speaking_text_async()
Connection reuse Unngår TCP/TLS handshake Gjenbruk SpeechSynthesizer
Text streaming input Progressiv syntese WebSocket v2 endpoint
Regional deployment Nettverkslatency Bruk northeurope for Noreg
Container deployment Eliminerer nettverk Neural TTS container on-premises

Streaming for låg latency

speech_config = speechsdk.SpeechConfig(
    endpoint=f"wss://{os.getenv('SPEECH_REGION')}.tts.speech.microsoft.com"
             "/cognitiveservices/websocket/v2",
    subscription=os.getenv("SPEECH_KEY")
)

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config, audio_config=None
)

# Start streaming — fyrste bytes kjem før heile teksten er ferdig
result = synthesizer.start_speaking_text_async(
    "Lang tekst som blir sendt progressivt til klienten..."
).get()

audio_stream = speechsdk.AudioDataStream(result)
buffer = bytes(16000)
while audio_stream.read_data(buffer) > 0:
    # Send audio chunks til klient i sanntid
    pass

Kostnadsmodell

Tier Pris per 1M teikn Eigna for
Neural (standard) ~$16 Generelle borgartenester
Neural HD ~$30 Premium brukaroppleving
Custom Neural Voice ~$24 + treningskostnad Merkevarebygging
Batch synthesis Same pris, asynkron Store volum (brev, rapportar)

Batch synthesis for store volum

For å generere lydfiler av vedtaksbrev, informasjonsskriv eller rapportar:

curl -X POST \
  "https://northeurope.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01" \
  -H "Ocp-Apim-Subscription-Key: $SPEECH_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "inputKind": "SSML",
    "inputs": [
      {"content": "<speak>...</speak>"},
      {"content": "<speak>...</speak>"}
    ],
    "properties": {
      "outputFormat": "audio-24khz-160kbitrate-mono-mp3",
      "wordBoundaryEnabled": true
    }
  }'

Implementeringsmønstre

Mønster 1: Vedtaksopplesing

Automatisk generering av lydfiler for skriftlege vedtak:

  1. Vedtak generert som tekst i saksbehandlingssystem
  2. Tekst sendt til Batch Synthesis API med SSML-formatering
  3. Lydfil lagra i Azure Blob Storage
  4. Lenke til lydfil inkludert i digital post (Altinn/eBoks)
  5. Innbyggjar kan lytte til vedtaket på nett eller mobil

Mønster 2: Interaktiv telefonteneste (IVR)

Innringer → Azure Communication Services → Speech-to-Text
    → Azure OpenAI (intensjonsgjenkjenning)
    → Text-to-Speech (dynamisk svar)
    → Tilbake til innringer

Mønster 3: Nettside-opplesing

JavaScript Web Speech API + Azure backend for høgkvalitets opplesing av offentlege nettsider med universell utforming.


Norsk offentleg sektor

Lovkrav

  • Likestillings- og diskrimineringslova § 18: Plikt til universell utforming av IKT
  • WCAG 2.1 AA: Krav om tekst-til-tale for digitale tenester
  • Forskrift om universell utforming: Gjeld alle offentlege verksemder

Personvern og databehandling

  • Azure Speech Services i North Europe (Irland) — EU-databehandling
  • Container-deployment mogleg for on-premises — ingen data forlèt nettverket
  • Microsoft er databehandlar under standard DPA
  • Ingen lagring av taledata etter syntese (stateless)

Schrems II-omsyn

  • Neural TTS containers kan køyre on-premises for ekstra datakontroll
  • Ingen persondata i TTS-input med mindre tekst inneheld PII
  • Anbefaling: Fjern personnummer og sensitive data frå tekst før syntese

Beslutningsrammeverk

Scenario Anbefaling Grunngjeving
Standard borgarteneste nb-NO-PernilleNeural Beste norske stemme for generell bruk
Fleirspråkleg velkomstmelding en-US-AvaMultilingualNeural 91 locales, auto-detect
Premiumbrand-oppleving Custom Neural Voice Unik identitet for organisasjonen
Store volum (10 000+ brev) Batch Synthesis API Asynkron, kostnadseffektiv
Strengt on-premises krav Neural TTS Container Ingen nettverkstrafikk
Sanntids IVR/telefon Streaming synthesis Lågast mogleg latency
Dokumentopplesing med pausar SSML med <break> og <prosody> Naturleg leseflyt

For Cosmo

  • Azure Speech TTS støttar norsk bokmål nativt med tre neurale stemmer (Pernille, Finn, Iselin) — anbefal PernilleNeural for generell borgarteneste og FinnNeural for formelle vedtak.
  • Multilingual voices eliminerer behovet for separate deployments per språk — AvaMultilingualNeural dekkjer 91 locales inkludert norsk, arabisk, somali og urdu for fleirspråklege etatar.
  • SSML gir full kontroll over prosodi, pausar og uttale — kritisk for korrekt opplesing av juridisk tekst, telefonnummer (<say-as>) og stadnamn (<phoneme>).
  • Batch Synthesis API er kostnadsoptimal for volumbaserte scenario som vedtaksbrev og informasjonsskriv — asynkron prosessering utan sanntidskrav.
  • Container-deployment løyser Schrems II-utfordringar — Neural TTS kan køyre on-premises for etatar med strenge krav til datalokalitet, men med avgrensa stemmeval.