Initial addition of ms-ai-architect plugin to the open-source marketplace. Private content excluded: orchestrator/ (Linear tooling), docs/utredning/ (client investigation), generated test reports and PDF export script. skill-gen tooling moved from orchestrator/ to scripts/skill-gen/. Security scan: WARNING (risk 20/100) — no secrets, no injection found. False positive fixed: added gitleaks:allow to Python variable reference in output-validation-grounding-verification.md line 109. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
16 KiB
Whisper ASR and Advanced Speech Recognition
Last updated: 2026-02 Status: GA Category: Multi-Modal AI
Introduksjon
OpenAI Whisper er ein generell talegjenkjenningsmodell (Automatic Speech Recognition, ASR) som utmerkar seg på fleirspråkleg talegjenkjenning, taleoversetting og språkidentifisering. Modellen er trena på eit massivt datasett med variert audio, noko som gir robust handtering av ulike språk, aksentar og talevariantar. Whisper er tilgjengeleg både gjennom Azure OpenAI Service og som ein del av Azure AI Speech Service.
For norsk offentleg sektor er Whisper særleg interessant fordi modellen har god støtte for norsk (bokmål), og kan transkribere tale med høg nøyaktigheit sjølv i utfordrande lydforhold. Azure AI Speech Service tilbyr i tillegg Custom Speech-funksjonalitet for å finjustere modellen til spesifikke domene — som juridisk, medisinsk eller forvaltingsspråk — og Azure OpenAI sin Whisper-implementering gir enkel API-tilgang med integrert sikkerheit.
Valet mellom Azure OpenAI Whisper og Azure AI Speech avheng av bruksscenarioet: Azure OpenAI Whisper for enkel filbasert transkripsjon med fleirspråkleg støtte, og Azure AI Speech for sanntidstranskripsjon, custom models, batch-prosessering av store filer og talarergjenkjenning.
Kjernekomponentar
| Komponent | Formål | Teknologi |
|---|---|---|
| Azure OpenAI Whisper | Filbasert tale-til-tekst | Azure OpenAI API |
| Azure AI Speech STT | Sanntids tale-til-tekst | Azure AI Speech Service |
| Whisper Batch API | Transkripsjon av store filer (>25MB) | Azure AI Speech Batch |
| Custom Speech | Finjustering for spesifikke domene | Azure AI Speech Custom |
| Speaker Diarization | Talar-identifisering | Azure AI Speech |
| Pronunciation Assessment | Uttale-evaluering | Azure AI Speech |
Whisper Model Selection
Modellversjonar
| Modell | Parametrar | Relative VRAM | Relativ hastighet | Kvalitet |
|---|---|---|---|---|
whisper-tiny |
39M | ~1 GB | 32x | Låg |
whisper-base |
74M | ~1 GB | 16x | Basis |
whisper-small |
244M | ~2 GB | 6x | God |
whisper-medium |
769M | ~5 GB | 2x | Høg |
whisper-large-v3 |
1550M | ~10 GB | 1x | Best |
Azure OpenAI Whisper Deployment
Azure OpenAI tilbyr Whisper som ein managed service — ingen modellval nødvendig, berre deploy og bruk:
from openai import AzureOpenAI
client = AzureOpenAI(
azure_endpoint="https://<resource>.openai.azure.com/",
api_key="<api-key>",
api_version="2024-06-01"
)
# Transkriber ein lydfil
with open("møteopptak.wav", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper", # Azure OpenAI deployment name
file=audio_file,
language="no", # Norsk
response_format="verbose_json",
timestamp_granularities=["word", "segment"]
)
print(f"Tekst: {transcript.text}")
# Segmentnivå tidsstempel
for segment in transcript.segments:
print(f" [{segment.start:.1f}s - {segment.end:.1f}s]: {segment.text}")
# Ordnivå tidsstempel
for word in transcript.words:
print(f" [{word.start:.2f}s]: {word.word}")
C#-implementering
using Azure;
using Azure.AI.OpenAI;
var client = new AzureOpenAIClient(
new Uri("https://<resource>.openai.azure.com/"),
new AzureKeyCredential("<api-key>")
);
var audioClient = client.GetAudioClient("whisper");
// Transkriber med tidsstempel
AudioTranscriptionOptions options = new()
{
Language = "no",
ResponseFormat = AudioTranscriptionFormat.Verbose,
TimestampGranularities = AudioTimestampGranularities.Word
| AudioTimestampGranularities.Segment
};
using FileStream audio = File.OpenRead("møteopptak.wav");
AudioTranscription result = await audioClient.TranscribeAudioAsync(audio, options);
Console.WriteLine($"Tekst: {result.Text}");
foreach (var segment in result.Segments)
{
Console.WriteLine($" [{segment.StartTime} - {segment.EndTime}]: {segment.Text}");
}
Val mellom Azure OpenAI Whisper og Azure AI Speech
| Eigenskap | Azure OpenAI Whisper | Azure AI Speech |
|---|---|---|
| Deployment | Managed (global/standard) | Regional |
| Filstorleik | Max 25 MB | Ubegrensa (batch) |
| Sanntid | Nei | Ja |
| Custom models | Nei | Ja (Custom Speech) |
| Speaker diarization | Nei | Ja |
| Batch API | Via Speech Service | Ja, native |
| Støtta format | mp3, mp4, wav, etc. | wav, mp3, ogg, etc. |
| Norsk kvalitet | God | God (betre med custom) |
| Kostnad | Per token | Per audio-minutt |
Fleirspråkleg og norsk støtte
Språkstøtte
Whisper støttar transkribering i 100+ språk. For norsk er det viktig å spesifisere riktig språkkode:
# Norsk bokmål
transcript_no = client.audio.transcriptions.create(
model="whisper",
file=audio_file,
language="no" # Norsk (generelt)
)
# Automatisk språkdeteksjon
transcript_auto = client.audio.transcriptions.create(
model="whisper",
file=audio_file
# Utelat language for automatisk deteksjon
)
Azure AI Speech for norsk
Azure AI Speech gir meir kontroll over norsk tale-til-tekst:
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription="<speech-key>",
region="norwayeast"
)
# Norsk bokmål
speech_config.speech_recognition_language = "nb-NO"
# Kontinuerleg gjenkjenning
audio_config = speechsdk.AudioConfig(filename="møte.wav")
recognizer = speechsdk.SpeechRecognizer(
speech_config=speech_config,
audio_config=audio_config
)
results = []
def recognized_cb(evt):
if evt.result.reason == speechsdk.ResultReason.RecognizedSpeech:
results.append({
"text": evt.result.text,
"offset": evt.result.offset,
"duration": evt.result.duration,
"confidence": evt.result.best() # Confidence scores
})
recognizer.recognized.connect(recognized_cb)
recognizer.start_continuous_recognition()
Taleoversetting
Whisper kan oversette frå andre språk til engelsk:
# Oversett frå norsk til engelsk
translation = client.audio.translations.create(
model="whisper",
file=audio_file
)
print(f"Engelsk oversetting: {translation.text}")
Speaker Diarization og Identification
Azure AI Speech Diarization
Speaker diarization identifiserer kven som snakkar når i ein lydopptaking:
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription="<speech-key>",
region="norwayeast"
)
speech_config.speech_recognition_language = "nb-NO"
# Aktiver diarisering
speech_config.set_property(
speechsdk.PropertyId.SpeechServiceResponse_DiarizeIntermediateResults,
"true"
)
audio_config = speechsdk.AudioConfig(filename="møte.wav")
# Bruk ConversationTranscriber for multi-talar gjenkjenning
transcriber = speechsdk.transcription.ConversationTranscriber(
speech_config=speech_config,
audio_config=audio_config
)
diarized_results = []
def transcribed_cb(evt):
if evt.result.reason == speechsdk.ResultReason.RecognizedSpeech:
diarized_results.append({
"speaker_id": evt.result.speaker_id,
"text": evt.result.text,
"offset": evt.result.offset,
"duration": evt.result.duration
})
print(f"Talar {evt.result.speaker_id}: {evt.result.text}")
transcriber.transcribed.connect(transcribed_cb)
transcriber.start_transcribing_async()
Speaker Identification
For å identifisere kjende talarar (ikkje berre skilje mellom ukjende):
# Steg 1: Registrer taleprofil
voice_profile_client = speechsdk.VoiceProfileClient(
speech_config=speech_config
)
# Opprett profil for kvar kjend talar
profile = voice_profile_client.create_profile_async(
speechsdk.VoiceProfileType.TextIndependentIdentification,
"nb-NO"
).get()
# Tren profilen med taleprøve
audio_config = speechsdk.AudioConfig(filename="talar1_prøve.wav")
voice_profile_client.enroll_profile_async(profile, audio_config).get()
# Steg 2: Identifiser talar i ny opptak
speaker_recognizer = speechsdk.SpeakerRecognizer(
speech_config=speech_config,
audio_config=speechsdk.AudioConfig(filename="ukjent_tale.wav")
)
model = speechsdk.SpeakerIdentificationModel(profiles=[profile1, profile2, profile3])
result = speaker_recognizer.recognize_once_async(model).get()
print(f"Identifisert som: {result.profile_id}, Confidence: {result.score}")
Custom Vocabularies og Fine-Tuning
Custom Speech (Azure AI Speech)
For å forbetre gjenkjenning av domene-spesifikke termar:
# Custom Speech trening via REST API
import requests
def create_custom_speech_model(subscription_key, region, training_data_url):
"""Opprett ein custom speech model for norsk forvaltingsspråk."""
base_url = f"https://{region}.api.cognitive.microsoft.com/speechtotext/v3.2"
# Steg 1: Last opp treningsdata
dataset = requests.post(
f"{base_url}/datasets",
headers={
"Ocp-Apim-Subscription-Key": subscription_key,
"Content-Type": "application/json"
},
json={
"kind": "Language",
"displayName": "Norsk forvaltingsspråk",
"description": "Custom language model for norsk offentleg sektor",
"locale": "nb-NO",
"contentUrl": training_data_url
}
)
dataset_id = dataset.json()["self"].split("/")[-1]
# Steg 2: Tren modell
model = requests.post(
f"{base_url}/models",
headers={
"Ocp-Apim-Subscription-Key": subscription_key,
"Content-Type": "application/json"
},
json={
"displayName": "Forvaltingsmodell-v1",
"description": "Tilpassa for norsk forvaltingsterminologi",
"locale": "nb-NO",
"datasets": [{"self": f"{base_url}/datasets/{dataset_id}"}],
"properties": {
"wordErrorRate": True
}
}
)
return model.json()
Phrase Lists for rask tilpassing
For enkel tilpassing utan full custom model:
# Phrase list for å forbetre gjenkjenning av spesifikke termar
phrase_list = speechsdk.PhraseListGrammar.from_recognizer(recognizer)
# Norske forvaltingstermar
forvaltingstermar = [
"Statens vegvesen", "Digitaliseringsdirektoratet",
"forvaltingslova", "offentleglova", "personopplysningslova",
"DPIA", "GDPR", "ROS-analyse", "Schrems II",
"Microsoft Entra ID", "Azure AI Foundry",
"Copilot Studio", "Power Platform"
]
for term in forvaltingstermar:
phrase_list.addPhrase(term)
Display Form for tekniske termar
# Custom display forms for akronym og tekniske termar
speech_config.set_property_by_name(
"DictationServiceCustomDisplayText",
json.dumps({
"displayForms": [
{"spoken": "GDPR", "display": "GDPR"},
{"spoken": "A I", "display": "AI"},
{"spoken": "N A V", "display": "NAV"},
{"spoken": "I K T", "display": "IKT"},
{"spoken": "R O S", "display": "ROS"}
]
})
)
Batch Transcription for store filer
For filer over 25 MB eller for stor-skala prosessering:
import requests
def batch_transcribe(subscription_key, region, audio_urls):
"""Batch-transkribering av store lydfiler."""
base_url = f"https://{region}.api.cognitive.microsoft.com/speechtotext/v3.2"
transcription = requests.post(
f"{base_url}/transcriptions",
headers={
"Ocp-Apim-Subscription-Key": subscription_key,
"Content-Type": "application/json"
},
json={
"displayName": "Batch-transkripsjon møteopptak",
"locale": "nb-NO",
"contentUrls": audio_urls,
"properties": {
"diarizationEnabled": True,
"wordLevelTimestampsEnabled": True,
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"timeToLive": "PT12H"
},
"model": {
"self": f"{base_url}/models/base/nb-NO"
# Eller bruk custom model:
# "self": f"{base_url}/models/<custom-model-id>"
}
}
)
transcription_id = transcription.json()["self"].split("/")[-1]
return transcription_id
Implementeringsmønstre
Mønster 1: Hybrid Whisper + Azure Speech
Audio Input
|
├── < 25 MB → Azure OpenAI Whisper (enkel, rask)
|
└── > 25 MB → Azure AI Speech Batch API (skalerbar)
|
├── Custom Speech model (domene-tilpassa)
├── Speaker diarization
└── Ordnivå tidsstempel
Mønster 2: Real-time + Post-processing
Live tale → Azure AI Speech (sanntid) → Rå transkripsjon
|
v
Post-processing med GPT-4o → Oppsummering, nøkkelord, handlingspostar
Mønster 3: Edge + Cloud Cascade
Edge (Whisper-small) → Rask lokal transkripsjon → Filtrering
|
v
Cloud (Azure Speech Custom) → Presis transkripsjon med domene-modell
Norsk offentleg sektor
Bruksscenario
- NAV: Transkripsjon av telefonsamtalar for kvalitetssikring og opplæring
- Domstolane: Automatisk protokollføring av rettsmøte
- Stortinget: Sanntids underteksting av debattar og høyringar
- Kommunar: Transkripsjon av bystyremøte med talar-identifisering
Regulatoriske omsyn
| Krav | Tiltak |
|---|---|
| GDPR | Lydfiler med personopplysningar må behandlast med heimel |
| Samtykke | Informer om opptak og transkripsjon |
| Lagring | Timeboxed lagring med timeToLive parameter |
| Nøyaktigheit | Custom Speech for forvaltingsterminologi |
| Innhaldsfiltrering | Azure OpenAI Whisper har IKKJE innhaldsfiltrering |
Viktig: Ingen innhaldsfiltrering for audio
Azure OpenAI sitt innhaldsfiltreringssystem gjeld ikkje for Whisper-modellen. Organisasjonen må implementere eigne mekanismar for å filtrere uønskt innhald frå transkripsjonsresultat.
Beslutningsrammeverk
| Scenario | Anbefaling | Begrunnelse |
|---|---|---|
| Enkel filbasert transkripsjon | Azure OpenAI Whisper | Enkel API, god kvalitet |
| Sanntidstranskripsjon | Azure AI Speech STT | Streaming-støtte |
| Store filer (>25 MB) | Azure AI Speech Batch | Ingen filstorleikgrense |
| Domene-spesifikk terminologi | Custom Speech + Phrase lists | Betre nøyaktigheit |
| Talar-identifisering | Azure AI Speech Diarization | Native støtte |
| Fleirspråkleg innhald | Azure OpenAI Whisper | 100+ språk automatisk |
| Edge/offline bruk | Whisper-small lokalt | Ingen nettverkskrav |
| Norsk forvaltingsspråk | Custom Speech nb-NO + phrase lists | Tilpassa vokabular |
For Cosmo
- Azure OpenAI Whisper er enklast for filbasert transkripsjon under 25 MB — bruk
language: "no"for norsk ogresponse_format: "verbose_json"for tidsstempel på ord- og segmentnivå - Azure AI Speech er meir kraftig for produksjonsscenario — sanntidstranskripsjon, speaker diarization, batch-prosessering av store filer, og Custom Speech for domene-tilpassing
- Custom Speech med Phrase Lists er den raskaste vegen til betre norsk nøyaktigheit — legg til forvaltingstermar, stadnamn og akronym utan å trene ein full custom model
- Speaker diarization via ConversationTranscriber identifiserer talarar automatisk — kritisk for møtetranskribering i offentleg sektor (bystyremøte, rettsmøte, høyringar)
- Innhaldsfiltrering gjeld IKKJE for Whisper — organisasjonen må implementere eigne filter for transkripsjonsresultat, spesielt for sensitive bruksområde som helse og rettsvesen