# Text-to-Speech for Citizen Services

**Last updated:** 2026-02
**Status:** GA
**Category:** Multi-Modal AI

---

## Introduksjon

Azure Speech Services Text-to-Speech (TTS) gir offentleg sektor moglegheit til å tilby tilgjengelege, talbaserte digitale tenester for alle innbyggjarar. Med over 400 neurale stemmer på meir enn 140 språk og lokalarar — inkludert norsk bokmål (`nb-NO`) med stemmene PernilleNeural, FinnNeural og IselinNeural — kan etatar levere informasjon auditivt til brukarar med synshemming, lesevanskar eller låg digital kompetanse.

Neural text-to-speech brukar djupe neurale nettverk for å overvinne avgrensingar i tradisjonell talesyntetisering. Resultatet er naturleg prosodi (betoning og intonasjon) som gjer syntetisk tale engasjerande og forståeleg. Azure tilbyr prebuilt neural voices, custom neural voices (for organisasjonar som ønskjer ein unik merkevare-stemme) og Dragon HD-stemmer med ekstra høg kvalitet.

For norsk offentleg sektor er TTS særleg relevant for universell utforming (WCAG 2.1 AA-krav), automatiserte telefontenester, sanntids opplesing av vedtak og brev, og fleirspråkleg informasjonsformidling til innvandrargrupper. Azure Speech Services er tilgjengeleg i europeiske regionar med full GDPR-etterleving, og kan køyrast i kontainerformat for scenario med strengare datalokaliseringskrav.

---

## Kjernekomponentar

| Komponent | Formål | Teknologi |
|-----------|--------|-----------|
| Neural TTS Engine | Talesyntetisering med naturleg prosodi | Azure Speech Services |
| SSML Processor | Finkontroll over tale: tempo, tonehøgd, pausar | Speech Synthesis Markup Language (XML) |
| Multilingual Voices | Fleirspråkleg støtte utan bytte av modell | Multilingual Neural Voices |
| Custom Neural Voice | Organisasjonsspesifikk stemme | Azure Custom Voice |
| Batch Synthesis API | Asynkron generering av store volum | Batch synthesis REST API |
| Audio Output | Fleire format: WAV, MP3, Opus, OGG | Azure Audio Config |

---

## Neural Voice Selection og Customization

### Norske stemmer

Azure tilbyr tre dedikerte norsk bokmål-stemmer:

| Stemme | Kjønn | Bruksområde |
|--------|-------|-------------|
| `nb-NO-PernilleNeural` | Kvinne | Generell bruk, informasjonstenester |
| `nb-NO-FinnNeural` | Mann | Formelle vedtak, telefontenester |
| `nb-NO-IselinNeural` | Kvinne | Alternativ kvinnestemme |

### Fleirspråklege stemmer for borgartenester

For etatar som betener fleirspråklege innbyggjarar, støttar multilingual voices automatisk språkdeteksjon:

```python
import os
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription=os.environ.get('SPEECH_KEY'),
    region=os.environ.get('SPEECH_REGION')
)

# Multilingual voice som støttar norsk + 90 andre språk
speech_config.speech_synthesis_voice_name = 'en-US-AvaMultilingualNeural'

audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=audio_config
)

# Teksten sin automatisk detekterte språk styrer uttale
result = synthesizer.speak_text_async(
    "Dette vedtaket er sendt til deg fra Statens vegvesen."
).get()

if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
    print("Tale syntetisert vellykka")
```

### Custom Neural Voice for merkevareidentitet

Organisasjonar kan trene ein unik stemme med Professional Voice-funksjonen:

1. **Datainnsamling** — Minimum 300 taleopptak (ca. 30 min) frå profesjonell stemmeaktør
2. **Modelltrening** — Automatisk trening i Azure Speech Studio
3. **Evaluering** — A/B-testing mot prebuilt voices
4. **Deployment** — Eige endpoint med tilgangskontroll via Microsoft Entra ID

Norsk bokmål (`nb-NO`) støttar Professional Voice, cross-lingual voice, multi-style voice og multilingual voice.

---

## SSML Markup for Prosody Control

SSML (Speech Synthesis Markup Language) gir finkornet kontroll over korleis tekst vert uttalt:

### Grunnleggjande SSML-struktur

```xml
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="nb-NO">
    <voice name="nb-NO-PernilleNeural">
        <prosody rate="-10%" pitch="+5%">
            Ditt vedtak om byggetillating er no klart.
        </prosody>
        <break time="500ms"/>
        <prosody rate="-20%" volume="+10%">
            Vedtaket kan klagast på innan tre veker.
        </prosody>
    </voice>
</speak>
```

### Prosody-attributt

| Attributt | Verdiar | Bruk |
|-----------|---------|------|
| `rate` | `x-slow`, `slow`, `medium`, `fast`, `x-fast`, `+/-N%` | Talefart for ulike kontekstar |
| `pitch` | `x-low`, `low`, `medium`, `high`, `x-high`, `+/-N%` | Tonehøgd for betoning |
| `volume` | `silent`, `x-soft`, `soft`, `medium`, `loud`, `x-loud`, `+/-N%` | Lydnivå |
| `contour` | `(time%, pitch%)` par | Melodikurve for naturleg tale |

### Speaking Styles for borgartenester

```xml
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <mstts:express-as style="friendly" styledegree="1.5">
            <lang xml:lang="nb-NO">
                Velkommen til Statens vegvesen sin telefonteneste.
            </lang>
        </mstts:express-as>
    </voice>
</speak>
```

### Uttale-korreksjon med lexicon og phoneme

```xml
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xml:lang="nb-NO">
    <voice name="nb-NO-PernilleNeural">
        Ditt
        <phoneme alphabet="ipa" ph="ˈpɛːrsɔnˌnʉmər">
            personnummer
        </phoneme>
        er registrert.
        <say-as interpret-as="telephone">+47 22 07 35 00</say-as>
    </voice>
</speak>
```

---

## Multi-lingual Citizen Support

### Automatisk språkdeteksjon

Multilingual Neural Voices kan automatisk detektere og bytte mellom opptil 77 språk:

```python
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    subscription=os.environ.get('SPEECH_KEY'),
    region=os.environ.get('SPEECH_REGION')
)

# Dragon HD-stemme med 91 locale-støtte
speech_config.speech_synthesis_voice_name = \
    'en-US-Ava:DragonHDLatestNeural'

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config, audio_config=None
)

# Fleire språk i same request
ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xml:lang='nb-NO'>
    <voice name='en-US-AvaMultilingualNeural'>
        <lang xml:lang='nb-NO'>
            Velkommen til Folkeregisteret.
        </lang>
        <lang xml:lang='en-US'>
            Welcome to the National Population Register.
        </lang>
        <lang xml:lang='ar-EG'>
            مرحبًا بكم في السجل السكاني الوطني.
        </lang>
    </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()
stream = speechsdk.AudioDataStream(result)
stream.save_to_wav_file("multilingual_welcome.wav")
```

### Oversettingsintegrasjon

Kombiner Speech Translation med TTS for sanntids fleirspråkleg kommunikasjon:

```python
translation_config = speechsdk.translation.SpeechTranslationConfig(
    subscription=speech_key, region=service_region
)
translation_config.speech_recognition_language = "nb-NO"
translation_config.add_target_language("en")
translation_config.add_target_language("ar")
translation_config.add_target_language("so")

recognizer = speechsdk.translation.TranslationRecognizer(
    translation_config=translation_config
)

result = recognizer.recognize_once()
for lang, translation in result.translations.items():
    # Syntetiser kvar oversettelse med passande stemme
    voice_map = {"en": "en-US-AvaMultilingualNeural",
                 "ar": "ar-EG-SalmaNeural",
                 "so": "so-SO-UbaxNeural"}
    tts_config = speechsdk.SpeechConfig(
        subscription=speech_key, region=service_region
    )
    tts_config.speech_synthesis_voice_name = voice_map[lang]
    tts = speechsdk.SpeechSynthesizer(speech_config=tts_config)
    tts.speak_text_async(translation).get()
```

---

## Performance og Cost Optimization

### Latency-optimalisering

| Teknikk | Latency-reduksjon | Implementering |
|----------|-------------------|----------------|
| **Streaming synthesis** | 50-80% lågare TTFB | `start_speaking_text_async()` |
| **Connection reuse** | Unngår TCP/TLS handshake | Gjenbruk `SpeechSynthesizer` |
| **Text streaming input** | Progressiv syntese | WebSocket v2 endpoint |
| **Regional deployment** | Nettverkslatency | Bruk `northeurope` for Noreg |
| **Container deployment** | Eliminerer nettverk | Neural TTS container on-premises |

### Streaming for låg latency

```python
speech_config = speechsdk.SpeechConfig(
    endpoint=f"wss://{os.getenv('SPEECH_REGION')}.tts.speech.microsoft.com"
             "/cognitiveservices/websocket/v2",
    subscription=os.getenv("SPEECH_KEY")
)

synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config, audio_config=None
)

# Start streaming — fyrste bytes kjem før heile teksten er ferdig
result = synthesizer.start_speaking_text_async(
    "Lang tekst som blir sendt progressivt til klienten..."
).get()

audio_stream = speechsdk.AudioDataStream(result)
buffer = bytes(16000)
while audio_stream.read_data(buffer) > 0:
    # Send audio chunks til klient i sanntid
    pass
```

### Kostnadsmodell

| Tier | Pris per 1M teikn | Eigna for |
|------|--------------------|-----------|
| **Neural (standard)** | ~$16 | Generelle borgartenester |
| **Neural HD** | ~$30 | Premium brukaroppleving |
| **Custom Neural Voice** | ~$24 + treningskostnad | Merkevarebygging |
| **Batch synthesis** | Same pris, asynkron | Store volum (brev, rapportar) |

### Batch synthesis for store volum

For å generere lydfiler av vedtaksbrev, informasjonsskriv eller rapportar:

```bash
curl -X POST \
  "https://northeurope.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01" \
  -H "Ocp-Apim-Subscription-Key: $SPEECH_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "inputKind": "SSML",
    "inputs": [
      {"content": "<speak>...</speak>"},
      {"content": "<speak>...</speak>"}
    ],
    "properties": {
      "outputFormat": "audio-24khz-160kbitrate-mono-mp3",
      "wordBoundaryEnabled": true
    }
  }'
```

---

## Implementeringsmønstre

### Mønster 1: Vedtaksopplesing

Automatisk generering av lydfiler for skriftlege vedtak:

1. Vedtak generert som tekst i saksbehandlingssystem
2. Tekst sendt til Batch Synthesis API med SSML-formatering
3. Lydfil lagra i Azure Blob Storage
4. Lenke til lydfil inkludert i digital post (Altinn/eBoks)
5. Innbyggjar kan lytte til vedtaket på nett eller mobil

### Mønster 2: Interaktiv telefonteneste (IVR)

```
Innringer → Azure Communication Services → Speech-to-Text
    → Azure OpenAI (intensjonsgjenkjenning)
    → Text-to-Speech (dynamisk svar)
    → Tilbake til innringer
```

### Mønster 3: Nettside-opplesing

JavaScript Web Speech API + Azure backend for høgkvalitets opplesing av offentlege nettsider med universell utforming.

---

## Norsk offentleg sektor

### Lovkrav
- **Likestillings- og diskrimineringslova § 18**: Plikt til universell utforming av IKT
- **WCAG 2.1 AA**: Krav om tekst-til-tale for digitale tenester
- **Forskrift om universell utforming**: Gjeld alle offentlege verksemder

### Personvern og databehandling
- Azure Speech Services i `North Europe` (Irland) — EU-databehandling
- Container-deployment mogleg for on-premises — ingen data forlèt nettverket
- Microsoft er databehandlar under standard DPA
- Ingen lagring av taledata etter syntese (stateless)

### Schrems II-omsyn
- Neural TTS containers kan køyre on-premises for ekstra datakontroll
- Ingen persondata i TTS-input med mindre tekst inneheld PII
- Anbefaling: Fjern personnummer og sensitive data frå tekst før syntese

---

## Beslutningsrammeverk

| Scenario | Anbefaling | Grunngjeving |
|----------|------------|--------------|
| Standard borgarteneste | `nb-NO-PernilleNeural` | Beste norske stemme for generell bruk |
| Fleirspråkleg velkomstmelding | `en-US-AvaMultilingualNeural` | 91 locales, auto-detect |
| Premiumbrand-oppleving | Custom Neural Voice | Unik identitet for organisasjonen |
| Store volum (10 000+ brev) | Batch Synthesis API | Asynkron, kostnadseffektiv |
| Strengt on-premises krav | Neural TTS Container | Ingen nettverkstrafikk |
| Sanntids IVR/telefon | Streaming synthesis | Lågast mogleg latency |
| Dokumentopplesing med pausar | SSML med `<break>` og `<prosody>` | Naturleg leseflyt |

---

## For Cosmo

- **Azure Speech TTS støttar norsk bokmål nativt** med tre neurale stemmer (Pernille, Finn, Iselin) — anbefal `PernilleNeural` for generell borgarteneste og `FinnNeural` for formelle vedtak.
- **Multilingual voices eliminerer behovet for separate deployments** per språk — `AvaMultilingualNeural` dekkjer 91 locales inkludert norsk, arabisk, somali og urdu for fleirspråklege etatar.
- **SSML gir full kontroll over prosodi, pausar og uttale** — kritisk for korrekt opplesing av juridisk tekst, telefonnummer (`<say-as>`) og stadnamn (`<phoneme>`).
- **Batch Synthesis API er kostnadsoptimal for volumbaserte scenario** som vedtaksbrev og informasjonsskriv — asynkron prosessering utan sanntidskrav.
- **Container-deployment løyser Schrems II-utfordringar** — Neural TTS kan køyre on-premises for etatar med strenge krav til datalokalitet, men med avgrensa stemmeval.