# Whisper ASR and Advanced Speech Recognition **Last updated:** 2026-02 **Status:** GA **Category:** Multi-Modal AI --- ## Introduksjon OpenAI Whisper er ein generell talegjenkjenningsmodell (Automatic Speech Recognition, ASR) som utmerkar seg på fleirspråkleg talegjenkjenning, taleoversetting og språkidentifisering. Modellen er trena på eit massivt datasett med variert audio, noko som gir robust handtering av ulike språk, aksentar og talevariantar. Whisper er tilgjengeleg både gjennom Azure OpenAI Service og som ein del av Azure AI Speech Service. For norsk offentleg sektor er Whisper særleg interessant fordi modellen har god støtte for norsk (bokmål), og kan transkribere tale med høg nøyaktigheit sjølv i utfordrande lydforhold. Azure AI Speech Service tilbyr i tillegg Custom Speech-funksjonalitet for å finjustere modellen til spesifikke domene — som juridisk, medisinsk eller forvaltingsspråk — og Azure OpenAI sin Whisper-implementering gir enkel API-tilgang med integrert sikkerheit. Valet mellom Azure OpenAI Whisper og Azure AI Speech avheng av bruksscenarioet: Azure OpenAI Whisper for enkel filbasert transkripsjon med fleirspråkleg støtte, og Azure AI Speech for sanntidstranskripsjon, custom models, batch-prosessering av store filer og talarergjenkjenning. --- ## Kjernekomponentar | Komponent | Formål | Teknologi | |-----------|--------|-----------| | **Azure OpenAI Whisper** | Filbasert tale-til-tekst | Azure OpenAI API | | **Azure AI Speech STT** | Sanntids tale-til-tekst | Azure AI Speech Service | | **Whisper Batch API** | Transkripsjon av store filer (>25MB) | Azure AI Speech Batch | | **Custom Speech** | Finjustering for spesifikke domene | Azure AI Speech Custom | | **Speaker Diarization** | Talar-identifisering | Azure AI Speech | | **Pronunciation Assessment** | Uttale-evaluering | Azure AI Speech | --- ## Whisper Model Selection ### Modellversjonar | Modell | Parametrar | Relative VRAM | Relativ hastighet | Kvalitet | |--------|-----------|---------------|-------------------|----------| | `whisper-tiny` | 39M | ~1 GB | 32x | Låg | | `whisper-base` | 74M | ~1 GB | 16x | Basis | | `whisper-small` | 244M | ~2 GB | 6x | God | | `whisper-medium` | 769M | ~5 GB | 2x | Høg | | `whisper-large-v3` | 1550M | ~10 GB | 1x | Best | ### Azure OpenAI Whisper Deployment Azure OpenAI tilbyr Whisper som ein managed service — ingen modellval nødvendig, berre deploy og bruk: ```python from openai import AzureOpenAI client = AzureOpenAI( azure_endpoint="https://.openai.azure.com/", api_key="", api_version="2024-06-01" ) # Transkriber ein lydfil with open("møteopptak.wav", "rb") as audio_file: transcript = client.audio.transcriptions.create( model="whisper", # Azure OpenAI deployment name file=audio_file, language="no", # Norsk response_format="verbose_json", timestamp_granularities=["word", "segment"] ) print(f"Tekst: {transcript.text}") # Segmentnivå tidsstempel for segment in transcript.segments: print(f" [{segment.start:.1f}s - {segment.end:.1f}s]: {segment.text}") # Ordnivå tidsstempel for word in transcript.words: print(f" [{word.start:.2f}s]: {word.word}") ``` ### C#-implementering ```csharp using Azure; using Azure.AI.OpenAI; var client = new AzureOpenAIClient( new Uri("https://.openai.azure.com/"), new AzureKeyCredential("") ); var audioClient = client.GetAudioClient("whisper"); // Transkriber med tidsstempel AudioTranscriptionOptions options = new() { Language = "no", ResponseFormat = AudioTranscriptionFormat.Verbose, TimestampGranularities = AudioTimestampGranularities.Word | AudioTimestampGranularities.Segment }; using FileStream audio = File.OpenRead("møteopptak.wav"); AudioTranscription result = await audioClient.TranscribeAudioAsync(audio, options); Console.WriteLine($"Tekst: {result.Text}"); foreach (var segment in result.Segments) { Console.WriteLine($" [{segment.StartTime} - {segment.EndTime}]: {segment.Text}"); } ``` ### Val mellom Azure OpenAI Whisper og Azure AI Speech | Eigenskap | Azure OpenAI Whisper | Azure AI Speech | |-----------|---------------------|-----------------| | **Deployment** | Managed (global/standard) | Regional | | **Filstorleik** | Max 25 MB | Ubegrensa (batch) | | **Sanntid** | Nei | Ja | | **Custom models** | Nei | Ja (Custom Speech) | | **Speaker diarization** | Nei | Ja | | **Batch API** | Via Speech Service | Ja, native | | **Støtta format** | mp3, mp4, wav, etc. | wav, mp3, ogg, etc. | | **Norsk kvalitet** | God | God (betre med custom) | | **Kostnad** | Per token | Per audio-minutt | --- ## Fleirspråkleg og norsk støtte ### Språkstøtte Whisper støttar transkribering i 100+ språk. For norsk er det viktig å spesifisere riktig språkkode: ```python # Norsk bokmål transcript_no = client.audio.transcriptions.create( model="whisper", file=audio_file, language="no" # Norsk (generelt) ) # Automatisk språkdeteksjon transcript_auto = client.audio.transcriptions.create( model="whisper", file=audio_file # Utelat language for automatisk deteksjon ) ``` ### Azure AI Speech for norsk Azure AI Speech gir meir kontroll over norsk tale-til-tekst: ```python import azure.cognitiveservices.speech as speechsdk speech_config = speechsdk.SpeechConfig( subscription="", region="norwayeast" ) # Norsk bokmål speech_config.speech_recognition_language = "nb-NO" # Kontinuerleg gjenkjenning audio_config = speechsdk.AudioConfig(filename="møte.wav") recognizer = speechsdk.SpeechRecognizer( speech_config=speech_config, audio_config=audio_config ) results = [] def recognized_cb(evt): if evt.result.reason == speechsdk.ResultReason.RecognizedSpeech: results.append({ "text": evt.result.text, "offset": evt.result.offset, "duration": evt.result.duration, "confidence": evt.result.best() # Confidence scores }) recognizer.recognized.connect(recognized_cb) recognizer.start_continuous_recognition() ``` ### Taleoversetting Whisper kan oversette frå andre språk til engelsk: ```python # Oversett frå norsk til engelsk translation = client.audio.translations.create( model="whisper", file=audio_file ) print(f"Engelsk oversetting: {translation.text}") ``` --- ## Speaker Diarization og Identification ### Azure AI Speech Diarization Speaker diarization identifiserer kven som snakkar når i ein lydopptaking: ```python import azure.cognitiveservices.speech as speechsdk speech_config = speechsdk.SpeechConfig( subscription="", region="norwayeast" ) speech_config.speech_recognition_language = "nb-NO" # Aktiver diarisering speech_config.set_property( speechsdk.PropertyId.SpeechServiceResponse_DiarizeIntermediateResults, "true" ) audio_config = speechsdk.AudioConfig(filename="møte.wav") # Bruk ConversationTranscriber for multi-talar gjenkjenning transcriber = speechsdk.transcription.ConversationTranscriber( speech_config=speech_config, audio_config=audio_config ) diarized_results = [] def transcribed_cb(evt): if evt.result.reason == speechsdk.ResultReason.RecognizedSpeech: diarized_results.append({ "speaker_id": evt.result.speaker_id, "text": evt.result.text, "offset": evt.result.offset, "duration": evt.result.duration }) print(f"Talar {evt.result.speaker_id}: {evt.result.text}") transcriber.transcribed.connect(transcribed_cb) transcriber.start_transcribing_async() ``` ### Speaker Identification For å identifisere kjende talarar (ikkje berre skilje mellom ukjende): ```python # Steg 1: Registrer taleprofil voice_profile_client = speechsdk.VoiceProfileClient( speech_config=speech_config ) # Opprett profil for kvar kjend talar profile = voice_profile_client.create_profile_async( speechsdk.VoiceProfileType.TextIndependentIdentification, "nb-NO" ).get() # Tren profilen med taleprøve audio_config = speechsdk.AudioConfig(filename="talar1_prøve.wav") voice_profile_client.enroll_profile_async(profile, audio_config).get() # Steg 2: Identifiser talar i ny opptak speaker_recognizer = speechsdk.SpeakerRecognizer( speech_config=speech_config, audio_config=speechsdk.AudioConfig(filename="ukjent_tale.wav") ) model = speechsdk.SpeakerIdentificationModel(profiles=[profile1, profile2, profile3]) result = speaker_recognizer.recognize_once_async(model).get() print(f"Identifisert som: {result.profile_id}, Confidence: {result.score}") ``` --- ## Custom Vocabularies og Fine-Tuning ### Custom Speech (Azure AI Speech) For å forbetre gjenkjenning av domene-spesifikke termar: ```python # Custom Speech trening via REST API import requests def create_custom_speech_model(subscription_key, region, training_data_url): """Opprett ein custom speech model for norsk forvaltingsspråk.""" base_url = f"https://{region}.api.cognitive.microsoft.com/speechtotext/v3.2" # Steg 1: Last opp treningsdata dataset = requests.post( f"{base_url}/datasets", headers={ "Ocp-Apim-Subscription-Key": subscription_key, "Content-Type": "application/json" }, json={ "kind": "Language", "displayName": "Norsk forvaltingsspråk", "description": "Custom language model for norsk offentleg sektor", "locale": "nb-NO", "contentUrl": training_data_url } ) dataset_id = dataset.json()["self"].split("/")[-1] # Steg 2: Tren modell model = requests.post( f"{base_url}/models", headers={ "Ocp-Apim-Subscription-Key": subscription_key, "Content-Type": "application/json" }, json={ "displayName": "Forvaltingsmodell-v1", "description": "Tilpassa for norsk forvaltingsterminologi", "locale": "nb-NO", "datasets": [{"self": f"{base_url}/datasets/{dataset_id}"}], "properties": { "wordErrorRate": True } } ) return model.json() ``` ### Phrase Lists for rask tilpassing For enkel tilpassing utan full custom model: ```python # Phrase list for å forbetre gjenkjenning av spesifikke termar phrase_list = speechsdk.PhraseListGrammar.from_recognizer(recognizer) # Norske forvaltingstermar forvaltingstermar = [ "Statens vegvesen", "Digitaliseringsdirektoratet", "forvaltingslova", "offentleglova", "personopplysningslova", "DPIA", "GDPR", "ROS-analyse", "Schrems II", "Microsoft Entra ID", "Azure AI Foundry", "Copilot Studio", "Power Platform" ] for term in forvaltingstermar: phrase_list.addPhrase(term) ``` ### Display Form for tekniske termar ```python # Custom display forms for akronym og tekniske termar speech_config.set_property_by_name( "DictationServiceCustomDisplayText", json.dumps({ "displayForms": [ {"spoken": "GDPR", "display": "GDPR"}, {"spoken": "A I", "display": "AI"}, {"spoken": "N A V", "display": "NAV"}, {"spoken": "I K T", "display": "IKT"}, {"spoken": "R O S", "display": "ROS"} ] }) ) ``` --- ## Batch Transcription for store filer For filer over 25 MB eller for stor-skala prosessering: ```python import requests def batch_transcribe(subscription_key, region, audio_urls): """Batch-transkribering av store lydfiler.""" base_url = f"https://{region}.api.cognitive.microsoft.com/speechtotext/v3.2" transcription = requests.post( f"{base_url}/transcriptions", headers={ "Ocp-Apim-Subscription-Key": subscription_key, "Content-Type": "application/json" }, json={ "displayName": "Batch-transkripsjon møteopptak", "locale": "nb-NO", "contentUrls": audio_urls, "properties": { "diarizationEnabled": True, "wordLevelTimestampsEnabled": True, "punctuationMode": "DictatedAndAutomatic", "profanityFilterMode": "Masked", "timeToLive": "PT12H" }, "model": { "self": f"{base_url}/models/base/nb-NO" # Eller bruk custom model: # "self": f"{base_url}/models/" } } ) transcription_id = transcription.json()["self"].split("/")[-1] return transcription_id ``` --- ## Implementeringsmønstre ### Mønster 1: Hybrid Whisper + Azure Speech ``` Audio Input | ├── < 25 MB → Azure OpenAI Whisper (enkel, rask) | └── > 25 MB → Azure AI Speech Batch API (skalerbar) | ├── Custom Speech model (domene-tilpassa) ├── Speaker diarization └── Ordnivå tidsstempel ``` ### Mønster 2: Real-time + Post-processing ``` Live tale → Azure AI Speech (sanntid) → Rå transkripsjon | v Post-processing med GPT-4o → Oppsummering, nøkkelord, handlingspostar ``` ### Mønster 3: Edge + Cloud Cascade ``` Edge (Whisper-small) → Rask lokal transkripsjon → Filtrering | v Cloud (Azure Speech Custom) → Presis transkripsjon med domene-modell ``` --- ## Norsk offentleg sektor ### Bruksscenario - **NAV**: Transkripsjon av telefonsamtalar for kvalitetssikring og opplæring - **Domstolane**: Automatisk protokollføring av rettsmøte - **Stortinget**: Sanntids underteksting av debattar og høyringar - **Kommunar**: Transkripsjon av bystyremøte med talar-identifisering ### Regulatoriske omsyn | Krav | Tiltak | |------|--------| | **GDPR** | Lydfiler med personopplysningar må behandlast med heimel | | **Samtykke** | Informer om opptak og transkripsjon | | **Lagring** | Timeboxed lagring med `timeToLive` parameter | | **Nøyaktigheit** | Custom Speech for forvaltingsterminologi | | **Innhaldsfiltrering** | Azure OpenAI Whisper har IKKJE innhaldsfiltrering | ### Viktig: Ingen innhaldsfiltrering for audio Azure OpenAI sitt innhaldsfiltreringssystem gjeld **ikkje** for Whisper-modellen. Organisasjonen må implementere eigne mekanismar for å filtrere uønskt innhald frå transkripsjonsresultat. --- ## Beslutningsrammeverk | Scenario | Anbefaling | Begrunnelse | |----------|------------|-------------| | Enkel filbasert transkripsjon | Azure OpenAI Whisper | Enkel API, god kvalitet | | Sanntidstranskripsjon | Azure AI Speech STT | Streaming-støtte | | Store filer (>25 MB) | Azure AI Speech Batch | Ingen filstorleikgrense | | Domene-spesifikk terminologi | Custom Speech + Phrase lists | Betre nøyaktigheit | | Talar-identifisering | Azure AI Speech Diarization | Native støtte | | Fleirspråkleg innhald | Azure OpenAI Whisper | 100+ språk automatisk | | Edge/offline bruk | Whisper-small lokalt | Ingen nettverkskrav | | Norsk forvaltingsspråk | Custom Speech nb-NO + phrase lists | Tilpassa vokabular | --- ## For Cosmo - **Azure OpenAI Whisper** er enklast for filbasert transkripsjon under 25 MB — bruk `language: "no"` for norsk og `response_format: "verbose_json"` for tidsstempel på ord- og segmentnivå - **Azure AI Speech er meir kraftig** for produksjonsscenario — sanntidstranskripsjon, speaker diarization, batch-prosessering av store filer, og Custom Speech for domene-tilpassing - **Custom Speech med Phrase Lists** er den raskaste vegen til betre norsk nøyaktigheit — legg til forvaltingstermar, stadnamn og akronym utan å trene ein full custom model - **Speaker diarization via ConversationTranscriber** identifiserer talarar automatisk — kritisk for møtetranskribering i offentleg sektor (bystyremøte, rettsmøte, høyringar) - **Innhaldsfiltrering gjeld IKKJE for Whisper** — organisasjonen må implementere eigne filter for transkripsjonsresultat, spesielt for sensitive bruksområde som helse og rettsvesen