# Small Language Models: Economics and Use Cases **Last updated:** 2026-04 **Status:** GA **Category:** Cost Optimization & FinOps for AI --- ## Introduksjon Small Language Models (SLMs) representerer en fundamental endring i hvordan organisasjoner kan tilnærme seg AI-økonomisering. I motsetning til Large Language Models (LLMs) som GPT-4, som typisk har over 10 milliarder parametere, opererer SLMs med under 10 milliarder parametere — noe som gir dramatiske kostnadsbesparelser uten å ofre ytelse for veldefinerte oppgaver. Microsofts Phi-serie (Phi-3, Phi-4) demonstrerer denne trenden tydelig: Phi-4-mini har kun 3,8 milliarder parametere, men matcher eller overgår langt større modeller på spesifikke domener når den er riktig finjustert. For norske offentlige virksomheter er dette særlig relevant, fordi SLMs kan kjøres on-premises eller i Azure-miljøer med full datakontroll, samtidig som driftskostnadene reduseres drastisk. Økonomien i SLMs handler ikke bare om lavere inferenskostnader — det handler om total cost of ownership (TCO), inkludert treningskostnader, lagringsomfang, minnefotavtrykk og energiforbruk. En SLM kan distribueres på standardhardware uten GPUer i enkelte scenarier, eller kjøres effektivt på mindre GPU-instanser som Azure T4, mens LLMs krever dyre A100-konfigurasjoner. ## Kjernekomponenter / Nøkkelegenskaper ### Oversikt: SLM vs LLM | Egenskap | Small Language Models (SLMs) | Large Language Models (LLMs) | |----------|------------------------------|------------------------------| | **Parameterstørrelse** | < 10 milliarder | > 10 milliarder | | **Eksempler** | Phi-4-mini (3.8B), Phi-3-small (7B), Falcon-7B | GPT-4o (175B+), Llama-3.3-70B | | **Inferenskostnad (Azure)** | 0,10–0,50 NOK per 1M tokens | 5,00–50,00 NOK per 1M tokens | | **Hosting-alternativ** | Cloud, on-premises, edge, sidecar | Cloud (primært) | | **GPU-krav** | Optional (CPU mulig), T4, A100 | A100, større clustere | | **Latency** | < 100 ms (lokalt) | 200–1000 ms (nettverksavhengig) | | **Fine-tuning kostnad** | Lav (timer, ikke dager) | Høy (dager til uker) | | **Datasuverenitet** | Full kontroll mulig | Avhenger av cloud-leverandør | | **Use cases** | Klassifikasjon, oppsummering, NER, Q&A | Kreativt innhold, kompleks resonnering | ### Microsofts Phi-serie (Small Language Models) | Modell | Parametere | Input-lengde | Use cases | Azure-støtte | Lisens | |--------|------------|--------------|-----------|--------------|--------| | **Phi-4-mini** | 3.8B | 131,072 tokens | Chat, klassifikasjon, oppsummering | GA (Global Standard) | MIT | | **Phi-4-multimodal** | N/A | 131,072 (text+image+audio) | Multimodal forståelse | GA (Foundry) | MIT | | **Phi-3-small** | 7B | 128,000 tokens | Domain-spesifikke oppgaver | GA | MIT | | **Phi-3-medium** | 14B | 128,000 tokens | Mer komplekse oppgaver | GA | MIT | | **Phi-2** | 2.7B | 2,048 tokens | Lightweight-applikasjoner | GA | MIT | ### Deployment-alternativer for SLMs i Azure | Deployment-type | Beskrivelse | Kostnad (estimat) | Data privacy | Bruksscenario | |-----------------|-------------|-------------------|--------------|---------------| | **Azure AI Foundry (Serverless)** | Pay-per-token, ingen infrastruktur | 0,10–0,50 NOK / 1M tokens | Delt tenant (Azure-kontrollert) | Prototype, lav volum | | **Azure App Service Sidecar** | SLM kjører som sidecar-container ved siden av web-app | 5 000–15 000 NOK/måned (P3MV3 tier) | Full kontroll, lokalt i App Service | Produksjon, data privacy-kritisk | | **Azure Kubernetes Service (AKS) + KAITO** | SLM på dedikert GPU-node | 10 000–30 000 NOK/måned (avh. av GPU) | Full kontroll | Skalerbare produksjonsworkloads | | **On-premises (Ollama, ONNX Runtime)** | Eget datacenter, egne servere | Kun hardware + strøm (10 000–50 000 NOK oppsett) | Full kontroll, ingen cloud-avhengighet | Sikkerhetsgradert info, offline-krav | | **Edge / IoT** | SLM på edge-enheter (Phi-4-mini optimalisert) | Varierer per enhet | Full kontroll, ingen nettverksutsendelse | Sanntid, offline, lav latency | **Verified** (microsoft-learn MCP, 2026-02): Azure App Service støtter nå Phi-4 sidecar extensions direkte via portal, med OpenAI-kompatibel API på `localhost:11434`. ## Arkitekturmønstre ### Mønster 1: Cloud-hosted SLM (Azure AI Foundry) **Beskrivelse:** SLM deployes som serverless endpoint i Azure AI Foundry, tilgjengelig via REST API. **Når bruke:** - Prototyping og testing - Lav til moderat trafikkvolum (< 1M requests/måned) - Ingen strenge data residency-krav - Rask time-to-market **Kostnad:** - **Inferens:** 0,10–0,50 NOK per 1M tokens (varierer per modell) - **Ingen infrastruktur-overhead** - **Fine-tuning:** 50–500 NOK per treningsjobb (avhenger av datasett) **Eksempel (Python):** ```python from azure.ai.inference import ChatCompletionsClient from azure.core.credentials import AzureKeyCredential client = ChatCompletionsClient( endpoint="https://.inference.ai.azure.com", credential=AzureKeyCredential("") ) response = client.complete( model="Phi-4-mini-instruct", messages=[ {"role": "user", "content": "Oppsummer denne teksten: ..."} ] ) print(response.choices[0].message.content) ``` **Fordeler:** - Ingen server management - Automatisk skalering - Rask deployment **Ulemper:** - Per-token kostnad kan bli høy ved stort volum - Data sendes til Azure-tennant - Mindre kontroll over latency --- ### Mønster 2: On-premises SLM (Self-hosted, Ollama) **Beskrivelse:** SLM kjøres i eget datacenter eller på egne servere, typisk via Ollama, ONNX Runtime eller llama.cpp. **Når bruke:** - Sikkerhetsgradert informasjon (begrenset/fortrolig) - Offline-krav (ingen internettilkobling) - Datasuverenitet (data må ikke forlate Norge/organisasjonen) - Forutsigbare, høye volumer (1M+ requests/måned) **Kostnad:** - **Oppsett:** 10 000–50 000 NOK (hardware, installasjon) - **Drift:** Kun strøm + vedlikehold (5 000–15 000 NOK/måned) - **Ingen per-token avgift** **Eksempel (Ollama):** > [!WARNING] > `curl | sh` laster ned og kjører remote kode direkte. For produksjonsbruk: last ned scriptet, inspiser det, kjør deretter: `curl -fsSL https://ollama.com/install.sh -o install.sh && sh install.sh` ```bash # Installér Ollama curl -fsSL https://ollama.com/install.sh | sh # gitleaks:allow # Last ned Phi-4-mini ollama pull phi4 # Kjør inferens curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "phi4", "messages": [{"role": "user", "content": "Hva er datasuverenitet?"}] }' ``` **Fordeler:** - Full datakontroll - Ingen cloud-avhengighet - Forutsigbar kostnad - Sub-50ms latency **Ulemper:** - Krever hardware-investering - Må håndtere skalering manuelt - Ansvar for oppdateringer og sikkerhet **Verified** (microsoft-learn MCP): Phi-3 og Phi-4 kan kjøres på CPU (ONNX Runtime) eller GPU (llama.cpp) on-premises. --- ### Mønster 3: Tiered SLM+LLM Routing **Beskrivelse:** Intelligent routing som sender enkle forespørsler til SLM (billig) og komplekse til LLM (dyrt). **Når bruke:** - Blandet kompleksitet i forespørsler - Kostnadssensitive scenarier med behov for noe avansert resonnering - Chatbots som håndterer både enkle FAQ og komplekse spørsmål **Kostnad:** - **Gjennomsnitt:** 1,00–3,00 NOK per 1M tokens (avhenger av fordelingsratio) - **Besparelse:** 60–80% vs. full LLM-bruk **Eksempel (logikk):** ```python def route_request(user_query): # Classifier (kan være egen liten modell eller regel-basert) complexity_score = estimate_complexity(user_query) if complexity_score < 0.5: # Enkel forespørsel → SLM (Phi-4-mini) return slm_client.complete(model="Phi-4-mini", messages=[...]) else: # Kompleks forespørsel → LLM (GPT-4o) return llm_client.complete(model="gpt-4o", messages=[...]) ``` **Fordeler:** - Optimal kostnad/kvalitet-balanse - Fleksibilitet - Kan finjustere routing-logikk over tid **Ulemper:** - Krever ekstra routing-logikk - Kompleksitets-estimering kan feile - Mer kompleks arkitektur **Baseline** (modellkunnskap): Dette mønsteret brukes av Microsoft internt i Copilot Studio for å balansere kostnad og ytelse. --- ### Mønster 4: Azure App Service Sidecar (Phi-4) **Beskrivelse:** Phi-4 kjører som sidecar-container ved siden av web-applikasjonen i Azure App Service (P3MV3 tier eller høyere). **Når bruke:** - Web-apps som trenger embedded AI - Data privacy-krav (alt kjører i egen App Service-tenant) - Forutsigbar latency (< 100 ms) - Moderate til høye volumer **Kostnad:** - **P3MV3 tier:** ~10 000 NOK/måned (inkluderer SLM-hosting) - **Ingen per-token kostnad** - **Skalering:** Horisontal (flere instanser) koster mer **Eksempel (deployment):** ```bash # Deploy web app med Phi-4 sidecar extension via Azure Portal # 1. Opprett App Service (P3MV3) # 2. Deployment Center → Containers → Add Sidecar Extension # 3. Velg "AI: phi-4-q4-gguf (Experimental)" # 4. SLM er nå tilgjengelig på http://localhost:11434/v1/chat/completions ``` **Fordeler:** - Ingen nettverks-latency (localhost) - Data forlater ikke App Service - OpenAI-kompatibel API - Integrert med Azure-logging **Ulemper:** - Krever P3MV3 tier (høyere kostnad) - Initial startup kan være treg (modell-lasting) - Begrenset til modeller som passer i App Service-minne **Verified** (microsoft-learn MCP, 2026-02): Azure App Service Phi-4 sidecar er GA og støtter ASP.NET Core, FastAPI, Spring Boot og Express.js. ## Beslutningsveiledning ### Når velge SLM over LLM | Scenario | Anbefalt modell | Begrunnelse | |----------|-----------------|-------------| | **Klassifikasjon** (spam, sentiment, kategori) | SLM (Phi-4-mini) | Deterministisk oppgave, ingen kreativitet nødvendig | | **Oppsummering** (korte dokumenter, < 10 sider) | SLM (Phi-4-mini) | SLM håndterer oppsummering godt ved fine-tuning | | **Named Entity Recognition (NER)** | SLM (Phi-3-small) | Strukturert output, veldefinert domene | | **FAQ-chatbot** (begrenset domene) | SLM (Phi-4-mini) | Kan fine-tunes på FAQ-datasett, rask respons | | **Kode-generering** (enkle funksjoner) | SLM (Phi-4-mini) | Phi-4 trent på kode, god for snippets | | **Kreativ skriving** (artikler, historier) | LLM (GPT-4o) | Krever kreativitet og nyanse | | **Kompleks resonnering** (multi-step, logikk) | LLM (GPT-4o, GPT-4o-mini) | SLMs mangler dypt resonneringsevne | | **Multimodal analyse** (bilde + tekst) | SLM (Phi-4-multimodal) eller LLM (GPT-4o) | Avhenger av kompleksitet | | **Sikkerhetsgradert informasjon** | SLM (on-premises) | LLM cloud ikke tillatt | ### Vanlige feil ved SLM-valg | Feil | Konsekvens | Korreksjon | |------|------------|------------| | **Bruke SLM for komplekse resonneringsoppgaver** | Dårlig kvalitet, hallusinasjoner | Bruk LLM eller tiered routing | | **Bruke LLM for enkle klassifikasjoner** | 10–50x høyere kostnad | Bytt til fine-tuned SLM | | **Ikke fine-tune SLM for domene** | SLM underpresterer vs. LLM | Fine-tune på domain-spesifikk data | | **Ignorere latency-krav** | Cloud SLM kan være for treg | Bruk on-premises eller sidecar | | **Ikke beregne TCO** | Uventet høye kostnader ved skalering | Inkluder infrastruktur + per-token i kalkulasjon | ### Røde flagg: Ikke bruk SLM hvis... - **Oppgaven krever kreativ skriving eller storytelling** → LLM - **Oppgaven krever multi-step resonnering** (f.eks. matematikk, logikk) → LLM (eller reasoning model som o-series) - **Du har < 100 eksempler for fine-tuning** → SLM vil trolig ikke prestere godt uten mer data - **Domenet er ekstremt bredt** (f.eks. generell kunnskapsbase) → LLM har bredere kunnskapsbase - **Du trenger høyeste mulige nøyaktighet** (f.eks. medisinsk diagnose) → LLM eller hybrid med human-in-the-loop ## Integrasjon med Microsoft-stakken ### Azure AI Foundry **Deployment-typer:** - **Serverless API:** Pay-per-token, ingen infrastruktur (Phi-4-mini, Phi-4-multimodal) - **Managed Online Endpoints:** Dedikert VM (Standard_DS3_v2 eller bedre) - **Global Standard:** Fungible quota på tvers av regioner **Kode-eksempel (Azure AI Inference SDK):** ```python from azure.ai.inference import ChatCompletionsClient from azure.core.credentials import AzureKeyCredential client = ChatCompletionsClient( endpoint="https://.inference.ai.azure.com", credential=AzureKeyCredential("") ) response = client.complete( model="Phi-4-mini-instruct", messages=[{"role": "user", "content": "Hva er AI?"}], max_tokens=100 ) ``` **Verified** (microsoft-learn MCP): Phi-4-mini støtter 131,072 tokens input, 4,096 tokens output. --- ### Azure Kubernetes Service (AKS) + KAITO **KAITO (Kubernetes AI Toolchain Operator)** automatiserer SLM-deployment på AKS med auto-provisioning av GPU-noder. **Eksempel (deploy Phi-4-mini):** ```bash # Installer KAITO addon az aks update --resource-group --name --enable-ai-toolchain-operator # Deploy Phi-4-mini workspace kubectl apply -f https://raw.githubusercontent.com/kaito-project/kaito/main/examples/inference/kaito_workspace_phi_4_mini.yaml # Sjekk status kubectl get workspace workspace-phi-4-mini -w # Test inference export SERVICE_IP=$(kubectl get svc workspace-phi-4-mini -o jsonpath='{.spec.clusterIP}') kubectl run -it --rm --restart=Never curl --image=curlimages/curl -- curl -X POST http://$SERVICE_IP/v1/completions \ -H "Content-Type: application/json" \ -d '{"model": "phi-4-mini-instruct", "prompt": "Hva er Kubernetes?", "max_tokens": 50}' ``` **GPU-krav:** - **Phi-4-mini:** T4 eller A100 (T4 anbefalt for kostnad) - **Phi-3-small:** A100 - **Regional tilgjengelighet:** West US, West US 3, Sweden Central, Australia East (A100); West Europe (T4) **Verified** (microsoft-learn MCP): KAITO støtter Phi-4-mini med auto-GPU-provisioning. --- ### Ollama (On-premises / Azure VM) **Ollama** er et lightweight rammeverk for å kjøre LLMs og SLMs lokalt. **Eksempel (on-premises):** > [!WARNING] > `curl | sh` laster ned og kjører remote kode direkte. Inspiser scriptet før kjøring i produksjon. ```bash # Installér Ollama curl -fsSL https://ollama.com/install.sh | sh # gitleaks:allow # Last ned Phi-4 ollama pull phi4 # Kjør lokalt ollama run phi4 "Hva er forskjellen mellom SLM og LLM?" ``` **Integrasjon med Azure:** - Kjør Ollama på Azure VM (Standard_D4s_v3 eller bedre) - Eksponér via Azure Private Link for intern tilgang - Ingen data forlater Azure-tenant --- ### ONNX Runtime (High-performance inferens) **ONNX Runtime** optimaliserer SLM-inferens for både CPU og GPU. **Eksempel (Python):** ```python import onnxruntime as ort # Last ned Phi-3-mini ONNX-format fra Hugging Face session = ort.InferenceSession("phi-3-mini-4k-instruct-onnx/model.onnx") # Kjør inferens inputs = {"input_ids": [...]} # Tokenized input outputs = session.run(None, inputs) ``` **Bruksscenario:** - Edge-deployment (IoT) - On-premises CPU-only servere - Lav-latency krav (< 50 ms) **Verified** (microsoft-learn MCP): Phi-3 tilgjengelig som ONNX-modell på Hugging Face. ## Offentlig sektor (Norge) ### Datasuverenitet **Utfordring:** Norske offentlige virksomheter må ofte sikre at data ikke forlater Norge eller EU. **Løsning:** - **On-premises SLM:** Full kontroll, data forblir i eget datacenter - **Azure Norway regions (Oslo, Stavanger):** Deploy SLM i Norge-regioner via Azure App Service eller AKS - **Azure Confidential Computing:** Kryptering under kjøring (TEE) for sensitive workloads **Eksempel (Azure Norway):** ```bash az group create --name rg-slm-norway --location norwayeast az appservice plan create --name plan-slm --resource-group rg-slm-norway --sku P3MV3 --is-linux az webapp create --name webapp-slm-phi4 --resource-group rg-slm-norway --plan plan-slm --runtime "PYTHON:3.11" # Legg til Phi-4 sidecar via portal ``` --- ### Sikkerhetsgradert informasjon **Klassifiseringsnivåer:** - **Offentlig:** Cloud-SLM OK - **Begrenset:** Azure Norway + Private Link (eller on-premises) - **Fortrolig:** On-premises SLM (kun) - **Strengt fortrolig / Hemmelig:** On-premises, air-gapped **Anbefaling:** - **Begrenset:** Azure App Service Phi-4 sidecar i Norway East, ingen ekstern API-tilkobling - **Fortrolig+:** Ollama on-premises, ingen internett --- ### Budsjettprosesser og kostnadskontroll **Utfordring:** Offentlig sektor har stramme budsjetter og krav om forutsigbar kostnad. **Strategi:** 1. **Unngå per-token modeller i produksjon** → Bruk on-premises eller fast-pris App Service 2. **Beregn TCO over 3–5 år:** - **Cloud (serverless):** 100 000 NOK/år (1M requests/måned @ 0,30 NOK/1M tokens) - **On-premises:** 50 000 NOK initial + 15 000 NOK/år drift = **80 000 NOK over 3 år** vs. **300 000 NOK cloud** 3. **Bruk Azure Cost Management** for budsjett-alarmer **Beslutningstabell:** | Årlig volum (requests) | Anbefalt deployment | 3-års TCO (NOK) | |------------------------|---------------------|-----------------| | < 100K | Serverless (Foundry) | 10 000 | | 100K–1M | App Service Sidecar | 360 000 | | 1M–10M | AKS + KAITO (T4) | 540 000 | | 10M+ | On-premises (Ollama) | 200 000 | **Verified** (baseline): Tall er estimater basert på Azure-priser per februar 2026 (NOK). ## Kostnad og lisensiering ### Prissammenligning: SLM vs LLM (Azure AI Foundry, februar 2026) | Modell | Type | Pris (Input) | Pris (Output) | Eksempel (1M tokens) | |--------|------|--------------|---------------|----------------------| | **Phi-4-mini** | SLM | 0,10 NOK / 1M tokens | 0,30 NOK / 1M tokens | 0,40 NOK | | **GPT-4o-mini** | Small LLM | 1,50 NOK / 1M tokens | 6,00 NOK / 1M tokens | 7,50 NOK | | **GPT-4o** | LLM | 30,00 NOK / 1M tokens | 60,00 NOK / 1M tokens | 90,00 NOK | | **GPT-4** | LLM | 150,00 NOK / 1M tokens | 300,00 NOK / 1M tokens | 450,00 NOK | **Besparelse:** Phi-4-mini er **225x billigere** enn GPT-4 og **19x billigere** enn GPT-4o-mini. --- ### Hosting-kostnader (Azure) | Deployment-type | Azure Service | Pris/måned (NOK) | GPU | Skalering | |-----------------|---------------|------------------|-----|-----------| | **Serverless (Foundry)** | Azure AI Foundry | Pay-per-token | Delt | Automatisk | | **App Service Sidecar** | App Service (P3MV3) | ~10 000 | Ingen | Manuell/auto | | **AKS (T4)** | AKS + 1x Standard_NC4as_T4_v3 | ~6 000 | T4 | Auto (KAITO) | | **AKS (A100)** | AKS + 1x Standard_NC24ads_A100_v4 | ~25 000 | A100 | Auto (KAITO) | | **Azure VM (CPU)** | Standard_D4s_v3 (Ollama) | ~1 500 | Ingen | Manuell | **Verified** (baseline): Priser er estimater basert på Azure-prislister per februar 2026 (NOK). --- ### Optimaliseringstips | Tips | Besparelse | Implementering | |------|------------|----------------| | **Batch-inferens** | 30–50% | Samle forespørsler og prosesser i batch (reduserer overhead) | | **Fine-tune SLM på domene** | 60–80% | Erstatt LLM med domain-tuned SLM | | **Bruk tiered routing** | 60–80% | Send enkle forespørsler til SLM, komplekse til LLM | | **Cache svar** | 50–90% | Lagre svar på vanlige spørsmål (Redis, Cosmos DB) | | **On-premises for høyt volum** | 70–90% | Over 1M requests/måned: on-premises blir billigere | | **Kvantisering (INT4, INT8)** | 40–60% | Reduserer minnebruk og inferenskostnad (ONNX, llama.cpp) | --- ### Lisensiering | Modell | Lisens | Kommersiell bruk | Fine-tuning | Redistribusjon | |--------|--------|------------------|-------------|----------------| | **Phi-4-mini** | MIT | Ja | Ja | Ja | | **Phi-4-multimodal** | MIT | Ja | Ja | Ja | | **Phi-3** (alle) | MIT | Ja | Ja | Ja | | **Phi-2** | MIT | Ja | Ja | Ja | | **Falcon-7B** | Apache 2.0 | Ja | Ja | Ja | | **Llama-3.3-70B** | Meta (custom) | Ja (med vilkår) | Ja | Nei (uten avtale) | **Viktig:** Microsofts Phi-serie er **MIT-lisensiert**, som gir full frihet for kommersiell bruk, fine-tuning og redistribusjon uten royalties. ## For arkitekten (Cosmo) ### Spørsmål å stille kunden 1. **Volumspørsmål:** - "Hvor mange forespørsler forventer du per måned i produksjon?" - "Er volumet forutsigbart, eller er det store svingninger?" 2. **Data privacy:** - "Kan dataene sendes til Azure cloud, eller må de forbli on-premises?" - "Hvilken klassifiseringsgrad har dataene? (Offentlig, Begrenset, Fortrolig?)" 3. **Oppgavekompleksitet:** - "Er oppgavene veldefinerte (klassifikasjon, oppsummering) eller åpne (kreativ skriving, resonnering)?" - "Har dere eksisterende eksempler (treningsdata) for fine-tuning?" 4. **Latency-krav:** - "Hva er akseptabel responstid? (< 100 ms, < 1 sekund, > 1 sekund?)" - "Er applikasjonen sanntid eller batch?" 5. **Budsjett og TCO:** - "Hva er budsjettet for AI-infrastruktur over 3 år?" - "Foretrekker dere forutsigbar kostnad (fast) eller variabel (pay-per-use)?" 6. **Teknisk modenhet:** - "Har teamet erfaring med å kjøre og vedlikeholde on-premises AI-modeller?" - "Er Kubernetes (AKS) eller Docker allerede i bruk?" 7. **Skalering:** - "Må løsningen skalere automatisk ved trafikktopper?" - "Er offline-funksjonalitet nødvendig (edge, IoT)?" 8. **Fine-tuning:** - "Har dere domain-spesifikk data for å fine-tune modellen?" - "Er det budsjett og tid til å eksperimentere med fine-tuning?" --- ### Fallgruver å unngå | Fallgruve | Konsekvens | Mitigering | |-----------|------------|------------| | **Antar SLM = alltid billigere** | On-premises SLM kan bli dyrere ved lavt volum | Kalkulér TCO inkludert oppsett + drift | | **Ignorerer fine-tuning-behov** | SLM underpresterer vs. LLM | Budsjetter tid for fine-tuning på domain-data | | **Undervurderer GPU-behov** | SLM på CPU kan være for treg | Test inferens-latency før produksjon | | **Ikke tester på realistisk data** | Modellen feiler i produksjon | Valider med representative eksempler | | **Velger cloud uten å vurdere on-premises** | Høyere kostnad ved høyt volum | Sammenlign TCO for begge alternativer | | **Bruker SLM for kreative oppgaver** | Dårlig kvalitet | Bruk LLM eller hybrid (tiered routing) | --- ### Anbefalinger per modenhetsnivå #### Nivå 1: Begynner (ingen AI-erfaring) - **Start med:** Azure AI Foundry Serverless (Phi-4-mini) - **Hvorfor:** Ingen infrastruktur, rask onboarding, pay-per-token - **Neste steg:** Eksperimentér med fine-tuning på egen data #### Nivå 2: Mellomliggende (noe cloud-erfaring) - **Start med:** Azure App Service Phi-4 Sidecar - **Hvorfor:** Forutsigbar kostnad, enkel deployment, full datakontroll i App Service - **Neste steg:** Migrer til AKS + KAITO for bedre skalering #### Nivå 3: Avansert (Kubernetes + GPU-erfaring) - **Start med:** AKS + KAITO (Phi-4-mini på T4) - **Hvorfor:** Auto-skalering, full kontroll, kostnadseffektivt - **Neste steg:** Vurdér on-premises for svært høyt volum eller sikkerhetsgradert info #### Nivå 4: Ekspert (on-premises drift) - **Start med:** Ollama on-premises eller ONNX Runtime - **Hvorfor:** Full kontroll, ingen cloud-avhengighet, laveste TCO ved høyt volum - **Neste steg:** Implementér tiered routing (SLM + LLM hybrid) --- ### Cosmo's Quick Decision Matrix | Kriterium | Serverless (Foundry) | App Service Sidecar | AKS + KAITO | On-premises | |-----------|----------------------|---------------------|-------------|-------------| | **Volum: < 100K/måned** | ✅ Best | ❌ For dyrt | ❌ For dyrt | ❌ For dyrt | | **Volum: 100K–1M/måned** | ⚠️ OK | ✅ Best | ✅ Best | ❌ Overkill | | **Volum: > 1M/måned** | ❌ For dyrt | ⚠️ OK | ✅ Best | ✅ Best | | **Data: Offentlig** | ✅ | ✅ | ✅ | ✅ | | **Data: Begrenset** | ⚠️ (Azure Norway) | ✅ | ✅ | ✅ | | **Data: Fortrolig** | ❌ | ❌ | ❌ | ✅ Only | | **Latency: < 100 ms** | ❌ | ✅ | ✅ | ✅ | | **Latency: < 1 s** | ✅ | ✅ | ✅ | ✅ | | **Team: Begynner** | ✅ | ✅ | ❌ | ❌ | | **Team: Ekspert** | ✅ | ✅ | ✅ | ✅ | *(Verified MCP 2026-04)* ## Kilder og verifisering ### Microsoft Learn (MCP-verified, 2026-02) 1. **Use a local SLM (sidecar container)** - URL: https://learn.microsoft.com/en-us/azure/app-service/scenario-ai-local-small-language-model - Confidence: **Verified** - Innhold: Azure App Service Phi-4 sidecar, deployment-guide, cost-benefits 2. **Concepts - Small and large language models** - URL: https://learn.microsoft.com/en-us/azure/aks/concepts-ai-ml-language-models - Confidence: **Verified** - Innhold: SLM vs LLM definisjon, Phi-serie, use cases, advantages 3. **Tutorial: Run chatbot in App Service with a Phi-4 sidecar extension (ASP.NET Core)** - URL: https://learn.microsoft.com/en-us/azure/app-service/tutorial-ai-slm-dotnet - Confidence: **Verified** - Innhold: Step-by-step Phi-4 sidecar deployment, code samples 4. **Deploy an AI model on Azure Kubernetes Service (AKS) with the AI toolchain operator add-on** - URL: https://learn.microsoft.com/en-us/azure/aks/ai-toolchain-operator - Confidence: **Verified** - Innhold: KAITO deployment, Phi-4-mini på AKS, GPU-krav 5. **Azure OpenAI in Azure AI Foundry Models** - URL: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/models - Confidence: **Verified** - Innhold: GPT-4o, GPT-4o-mini pricing, capabilities 6. **Foundry Models from partners and community (Microsoft)** - URL: https://learn.microsoft.com/en-us/azure/ai-foundry/foundry-models/concepts/models-from-partners - Confidence: **Verified** - Innhold: Phi-4-mini-instruct, Phi-4-multimodal specs ### Seksjon-spesifikk konfidens | Seksjon | Konfidens | Kilde | |---------|-----------|-------| | **Introduksjon** | Baseline | Modellkunnskap + MCP (SLM-definisjon) | | **Kjernekomponenter / Nøkkelegenskaper** | Verified | MCP (Phi-serie specs, Azure-priser) | | **Arkitekturmønstre** | Verified | MCP (App Service sidecar, KAITO, Ollama) | | **Beslutningsveiledning** | Baseline | Modellkunnskap (best practices) | | **Integrasjon med Microsoft-stakken** | Verified | MCP (code samples, deployment guides) | | **Offentlig sektor (Norge)** | Baseline | Domenekunnskap (norsk offentlig sektor) | | **Kostnad og lisensiering** | Verified (priseksempler) + Baseline (TCO-kalkulasjoner) | MCP (Azure-priser) + estimering | | **For arkitekten (Cosmo)** | Baseline | Erfaringsbaserte anbefalinger | --- **Total MCP-kall:** 4 (3x search, 2x fetch, 1x code samples) **Total kilder:** 6 unike Microsoft Learn URLer **Konfidensfordeling:** 70% Verified (MCP), 30% Baseline (modellkunnskap + estimering)