Initial addition of ms-ai-architect plugin to the open-source marketplace. Private content excluded: orchestrator/ (Linear tooling), docs/utredning/ (client investigation), generated test reports and PDF export script. skill-gen tooling moved from orchestrator/ to scripts/skill-gen/. Security scan: WARNING (risk 20/100) — no secrets, no injection found. False positive fixed: added gitleaks:allow to Python variable reference in output-validation-grounding-verification.md line 109. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
13 KiB
Text-to-Speech for Citizen Services
Last updated: 2026-02 Status: GA Category: Multi-Modal AI
Introduksjon
Azure Speech Services Text-to-Speech (TTS) gir offentleg sektor moglegheit til å tilby tilgjengelege, talbaserte digitale tenester for alle innbyggjarar. Med over 400 neurale stemmer på meir enn 140 språk og lokalarar — inkludert norsk bokmål (nb-NO) med stemmene PernilleNeural, FinnNeural og IselinNeural — kan etatar levere informasjon auditivt til brukarar med synshemming, lesevanskar eller låg digital kompetanse.
Neural text-to-speech brukar djupe neurale nettverk for å overvinne avgrensingar i tradisjonell talesyntetisering. Resultatet er naturleg prosodi (betoning og intonasjon) som gjer syntetisk tale engasjerande og forståeleg. Azure tilbyr prebuilt neural voices, custom neural voices (for organisasjonar som ønskjer ein unik merkevare-stemme) og Dragon HD-stemmer med ekstra høg kvalitet.
For norsk offentleg sektor er TTS særleg relevant for universell utforming (WCAG 2.1 AA-krav), automatiserte telefontenester, sanntids opplesing av vedtak og brev, og fleirspråkleg informasjonsformidling til innvandrargrupper. Azure Speech Services er tilgjengeleg i europeiske regionar med full GDPR-etterleving, og kan køyrast i kontainerformat for scenario med strengare datalokaliseringskrav.
Kjernekomponentar
| Komponent | Formål | Teknologi |
|---|---|---|
| Neural TTS Engine | Talesyntetisering med naturleg prosodi | Azure Speech Services |
| SSML Processor | Finkontroll over tale: tempo, tonehøgd, pausar | Speech Synthesis Markup Language (XML) |
| Multilingual Voices | Fleirspråkleg støtte utan bytte av modell | Multilingual Neural Voices |
| Custom Neural Voice | Organisasjonsspesifikk stemme | Azure Custom Voice |
| Batch Synthesis API | Asynkron generering av store volum | Batch synthesis REST API |
| Audio Output | Fleire format: WAV, MP3, Opus, OGG | Azure Audio Config |
Neural Voice Selection og Customization
Norske stemmer
Azure tilbyr tre dedikerte norsk bokmål-stemmer:
| Stemme | Kjønn | Bruksområde |
|---|---|---|
nb-NO-PernilleNeural |
Kvinne | Generell bruk, informasjonstenester |
nb-NO-FinnNeural |
Mann | Formelle vedtak, telefontenester |
nb-NO-IselinNeural |
Kvinne | Alternativ kvinnestemme |
Fleirspråklege stemmer for borgartenester
For etatar som betener fleirspråklege innbyggjarar, støttar multilingual voices automatisk språkdeteksjon:
import os
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription=os.environ.get('SPEECH_KEY'),
region=os.environ.get('SPEECH_REGION')
)
# Multilingual voice som støttar norsk + 90 andre språk
speech_config.speech_synthesis_voice_name = 'en-US-AvaMultilingualNeural'
audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config,
audio_config=audio_config
)
# Teksten sin automatisk detekterte språk styrer uttale
result = synthesizer.speak_text_async(
"Dette vedtaket er sendt til deg fra Statens vegvesen."
).get()
if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
print("Tale syntetisert vellykka")
Custom Neural Voice for merkevareidentitet
Organisasjonar kan trene ein unik stemme med Professional Voice-funksjonen:
- Datainnsamling — Minimum 300 taleopptak (ca. 30 min) frå profesjonell stemmeaktør
- Modelltrening — Automatisk trening i Azure Speech Studio
- Evaluering — A/B-testing mot prebuilt voices
- Deployment — Eige endpoint med tilgangskontroll via Microsoft Entra ID
Norsk bokmål (nb-NO) støttar Professional Voice, cross-lingual voice, multi-style voice og multilingual voice.
SSML Markup for Prosody Control
SSML (Speech Synthesis Markup Language) gir finkornet kontroll over korleis tekst vert uttalt:
Grunnleggjande SSML-struktur
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="nb-NO">
<voice name="nb-NO-PernilleNeural">
<prosody rate="-10%" pitch="+5%">
Ditt vedtak om byggetillating er no klart.
</prosody>
<break time="500ms"/>
<prosody rate="-20%" volume="+10%">
Vedtaket kan klagast på innan tre veker.
</prosody>
</voice>
</speak>
Prosody-attributt
| Attributt | Verdiar | Bruk |
|---|---|---|
rate |
x-slow, slow, medium, fast, x-fast, +/-N% |
Talefart for ulike kontekstar |
pitch |
x-low, low, medium, high, x-high, +/-N% |
Tonehøgd for betoning |
volume |
silent, x-soft, soft, medium, loud, x-loud, +/-N% |
Lydnivå |
contour |
(time%, pitch%) par |
Melodikurve for naturleg tale |
Speaking Styles for borgartenester
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:express-as style="friendly" styledegree="1.5">
<lang xml:lang="nb-NO">
Velkommen til Statens vegvesen sin telefonteneste.
</lang>
</mstts:express-as>
</voice>
</speak>
Uttale-korreksjon med lexicon og phoneme
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xml:lang="nb-NO">
<voice name="nb-NO-PernilleNeural">
Ditt
<phoneme alphabet="ipa" ph="ˈpɛːrsɔnˌnʉmər">
personnummer
</phoneme>
er registrert.
<say-as interpret-as="telephone">+47 22 07 35 00</say-as>
</voice>
</speak>
Multi-lingual Citizen Support
Automatisk språkdeteksjon
Multilingual Neural Voices kan automatisk detektere og bytte mellom opptil 77 språk:
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription=os.environ.get('SPEECH_KEY'),
region=os.environ.get('SPEECH_REGION')
)
# Dragon HD-stemme med 91 locale-støtte
speech_config.speech_synthesis_voice_name = \
'en-US-Ava:DragonHDLatestNeural'
synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config, audio_config=None
)
# Fleire språk i same request
ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
xml:lang='nb-NO'>
<voice name='en-US-AvaMultilingualNeural'>
<lang xml:lang='nb-NO'>
Velkommen til Folkeregisteret.
</lang>
<lang xml:lang='en-US'>
Welcome to the National Population Register.
</lang>
<lang xml:lang='ar-EG'>
مرحبًا بكم في السجل السكاني الوطني.
</lang>
</voice>
</speak>
"""
result = synthesizer.speak_ssml_async(ssml).get()
stream = speechsdk.AudioDataStream(result)
stream.save_to_wav_file("multilingual_welcome.wav")
Oversettingsintegrasjon
Kombiner Speech Translation med TTS for sanntids fleirspråkleg kommunikasjon:
translation_config = speechsdk.translation.SpeechTranslationConfig(
subscription=speech_key, region=service_region
)
translation_config.speech_recognition_language = "nb-NO"
translation_config.add_target_language("en")
translation_config.add_target_language("ar")
translation_config.add_target_language("so")
recognizer = speechsdk.translation.TranslationRecognizer(
translation_config=translation_config
)
result = recognizer.recognize_once()
for lang, translation in result.translations.items():
# Syntetiser kvar oversettelse med passande stemme
voice_map = {"en": "en-US-AvaMultilingualNeural",
"ar": "ar-EG-SalmaNeural",
"so": "so-SO-UbaxNeural"}
tts_config = speechsdk.SpeechConfig(
subscription=speech_key, region=service_region
)
tts_config.speech_synthesis_voice_name = voice_map[lang]
tts = speechsdk.SpeechSynthesizer(speech_config=tts_config)
tts.speak_text_async(translation).get()
Performance og Cost Optimization
Latency-optimalisering
| Teknikk | Latency-reduksjon | Implementering |
|---|---|---|
| Streaming synthesis | 50-80% lågare TTFB | start_speaking_text_async() |
| Connection reuse | Unngår TCP/TLS handshake | Gjenbruk SpeechSynthesizer |
| Text streaming input | Progressiv syntese | WebSocket v2 endpoint |
| Regional deployment | Nettverkslatency | Bruk northeurope for Noreg |
| Container deployment | Eliminerer nettverk | Neural TTS container on-premises |
Streaming for låg latency
speech_config = speechsdk.SpeechConfig(
endpoint=f"wss://{os.getenv('SPEECH_REGION')}.tts.speech.microsoft.com"
"/cognitiveservices/websocket/v2",
subscription=os.getenv("SPEECH_KEY")
)
synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config, audio_config=None
)
# Start streaming — fyrste bytes kjem før heile teksten er ferdig
result = synthesizer.start_speaking_text_async(
"Lang tekst som blir sendt progressivt til klienten..."
).get()
audio_stream = speechsdk.AudioDataStream(result)
buffer = bytes(16000)
while audio_stream.read_data(buffer) > 0:
# Send audio chunks til klient i sanntid
pass
Kostnadsmodell
| Tier | Pris per 1M teikn | Eigna for |
|---|---|---|
| Neural (standard) | ~$16 | Generelle borgartenester |
| Neural HD | ~$30 | Premium brukaroppleving |
| Custom Neural Voice | ~$24 + treningskostnad | Merkevarebygging |
| Batch synthesis | Same pris, asynkron | Store volum (brev, rapportar) |
Batch synthesis for store volum
For å generere lydfiler av vedtaksbrev, informasjonsskriv eller rapportar:
curl -X POST \
"https://northeurope.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01" \
-H "Ocp-Apim-Subscription-Key: $SPEECH_KEY" \
-H "Content-Type: application/json" \
-d '{
"inputKind": "SSML",
"inputs": [
{"content": "<speak>...</speak>"},
{"content": "<speak>...</speak>"}
],
"properties": {
"outputFormat": "audio-24khz-160kbitrate-mono-mp3",
"wordBoundaryEnabled": true
}
}'
Implementeringsmønstre
Mønster 1: Vedtaksopplesing
Automatisk generering av lydfiler for skriftlege vedtak:
- Vedtak generert som tekst i saksbehandlingssystem
- Tekst sendt til Batch Synthesis API med SSML-formatering
- Lydfil lagra i Azure Blob Storage
- Lenke til lydfil inkludert i digital post (Altinn/eBoks)
- Innbyggjar kan lytte til vedtaket på nett eller mobil
Mønster 2: Interaktiv telefonteneste (IVR)
Innringer → Azure Communication Services → Speech-to-Text
→ Azure OpenAI (intensjonsgjenkjenning)
→ Text-to-Speech (dynamisk svar)
→ Tilbake til innringer
Mønster 3: Nettside-opplesing
JavaScript Web Speech API + Azure backend for høgkvalitets opplesing av offentlege nettsider med universell utforming.
Norsk offentleg sektor
Lovkrav
- Likestillings- og diskrimineringslova § 18: Plikt til universell utforming av IKT
- WCAG 2.1 AA: Krav om tekst-til-tale for digitale tenester
- Forskrift om universell utforming: Gjeld alle offentlege verksemder
Personvern og databehandling
- Azure Speech Services i
North Europe(Irland) — EU-databehandling - Container-deployment mogleg for on-premises — ingen data forlèt nettverket
- Microsoft er databehandlar under standard DPA
- Ingen lagring av taledata etter syntese (stateless)
Schrems II-omsyn
- Neural TTS containers kan køyre on-premises for ekstra datakontroll
- Ingen persondata i TTS-input med mindre tekst inneheld PII
- Anbefaling: Fjern personnummer og sensitive data frå tekst før syntese
Beslutningsrammeverk
| Scenario | Anbefaling | Grunngjeving |
|---|---|---|
| Standard borgarteneste | nb-NO-PernilleNeural |
Beste norske stemme for generell bruk |
| Fleirspråkleg velkomstmelding | en-US-AvaMultilingualNeural |
91 locales, auto-detect |
| Premiumbrand-oppleving | Custom Neural Voice | Unik identitet for organisasjonen |
| Store volum (10 000+ brev) | Batch Synthesis API | Asynkron, kostnadseffektiv |
| Strengt on-premises krav | Neural TTS Container | Ingen nettverkstrafikk |
| Sanntids IVR/telefon | Streaming synthesis | Lågast mogleg latency |
| Dokumentopplesing med pausar | SSML med <break> og <prosody> |
Naturleg leseflyt |
For Cosmo
- Azure Speech TTS støttar norsk bokmål nativt med tre neurale stemmer (Pernille, Finn, Iselin) — anbefal
PernilleNeuralfor generell borgarteneste ogFinnNeuralfor formelle vedtak. - Multilingual voices eliminerer behovet for separate deployments per språk —
AvaMultilingualNeuraldekkjer 91 locales inkludert norsk, arabisk, somali og urdu for fleirspråklege etatar. - SSML gir full kontroll over prosodi, pausar og uttale — kritisk for korrekt opplesing av juridisk tekst, telefonnummer (
<say-as>) og stadnamn (<phoneme>). - Batch Synthesis API er kostnadsoptimal for volumbaserte scenario som vedtaksbrev og informasjonsskriv — asynkron prosessering utan sanntidskrav.
- Container-deployment løyser Schrems II-utfordringar — Neural TTS kan køyre on-premises for etatar med strenge krav til datalokalitet, men med avgrensa stemmeval.