Updated 66 stale knowledge base reference files (10 critical, 56 high) across all 5 skills using Microsoft Learn MCP research. Key factual updates: - Groundedness Detection API: `correction` → `mitigating` param, `correctedText` → `correctionText` (breaking change) - Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini); Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx) - Agentic Retrieval: still public preview; 50M free tokens/month - Azure security baselines: "Cognitive Services" → "Foundry Tools" - Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines - MLflow 3 GenAI: new Feedback/Expectation data model - Token tracking doc: "Azure OpenAI in Foundry Models through a gateway" - Agent Registry: Risks column (M365 E7), Graph API (preview) - Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles - ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot - Zero Trust: CAE now via Conditional Access, Strict Location Enforcement - Purview: new Fabric Copilots/agents governance section - AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python) All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added. Build registry: 1341 URLs from 387 files (+2 new URLs). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
26 KiB
Small Language Models: Economics and Use Cases
Last updated: 2026-04 Status: GA Category: Cost Optimization & FinOps for AI
Introduksjon
Small Language Models (SLMs) representerer en fundamental endring i hvordan organisasjoner kan tilnærme seg AI-økonomisering. I motsetning til Large Language Models (LLMs) som GPT-4, som typisk har over 10 milliarder parametere, opererer SLMs med under 10 milliarder parametere — noe som gir dramatiske kostnadsbesparelser uten å ofre ytelse for veldefinerte oppgaver.
Microsofts Phi-serie (Phi-3, Phi-4) demonstrerer denne trenden tydelig: Phi-4-mini har kun 3,8 milliarder parametere, men matcher eller overgår langt større modeller på spesifikke domener når den er riktig finjustert. For norske offentlige virksomheter er dette særlig relevant, fordi SLMs kan kjøres on-premises eller i Azure-miljøer med full datakontroll, samtidig som driftskostnadene reduseres drastisk.
Økonomien i SLMs handler ikke bare om lavere inferenskostnader — det handler om total cost of ownership (TCO), inkludert treningskostnader, lagringsomfang, minnefotavtrykk og energiforbruk. En SLM kan distribueres på standardhardware uten GPUer i enkelte scenarier, eller kjøres effektivt på mindre GPU-instanser som Azure T4, mens LLMs krever dyre A100-konfigurasjoner.
Kjernekomponenter / Nøkkelegenskaper
Oversikt: SLM vs LLM
| Egenskap | Small Language Models (SLMs) | Large Language Models (LLMs) |
|---|---|---|
| Parameterstørrelse | < 10 milliarder | > 10 milliarder |
| Eksempler | Phi-4-mini (3.8B), Phi-3-small (7B), Falcon-7B | GPT-4o (175B+), Llama-3.3-70B |
| Inferenskostnad (Azure) | 0,10–0,50 NOK per 1M tokens | 5,00–50,00 NOK per 1M tokens |
| Hosting-alternativ | Cloud, on-premises, edge, sidecar | Cloud (primært) |
| GPU-krav | Optional (CPU mulig), T4, A100 | A100, større clustere |
| Latency | < 100 ms (lokalt) | 200–1000 ms (nettverksavhengig) |
| Fine-tuning kostnad | Lav (timer, ikke dager) | Høy (dager til uker) |
| Datasuverenitet | Full kontroll mulig | Avhenger av cloud-leverandør |
| Use cases | Klassifikasjon, oppsummering, NER, Q&A | Kreativt innhold, kompleks resonnering |
Microsofts Phi-serie (Small Language Models)
| Modell | Parametere | Input-lengde | Use cases | Azure-støtte | Lisens |
|---|---|---|---|---|---|
| Phi-4-mini | 3.8B | 131,072 tokens | Chat, klassifikasjon, oppsummering | GA (Global Standard) | MIT |
| Phi-4-multimodal | N/A | 131,072 (text+image+audio) | Multimodal forståelse | GA (Foundry) | MIT |
| Phi-3-small | 7B | 128,000 tokens | Domain-spesifikke oppgaver | GA | MIT |
| Phi-3-medium | 14B | 128,000 tokens | Mer komplekse oppgaver | GA | MIT |
| Phi-2 | 2.7B | 2,048 tokens | Lightweight-applikasjoner | GA | MIT |
Deployment-alternativer for SLMs i Azure
| Deployment-type | Beskrivelse | Kostnad (estimat) | Data privacy | Bruksscenario |
|---|---|---|---|---|
| Azure AI Foundry (Serverless) | Pay-per-token, ingen infrastruktur | 0,10–0,50 NOK / 1M tokens | Delt tenant (Azure-kontrollert) | Prototype, lav volum |
| Azure App Service Sidecar | SLM kjører som sidecar-container ved siden av web-app | 5 000–15 000 NOK/måned (P3MV3 tier) | Full kontroll, lokalt i App Service | Produksjon, data privacy-kritisk |
| Azure Kubernetes Service (AKS) + KAITO | SLM på dedikert GPU-node | 10 000–30 000 NOK/måned (avh. av GPU) | Full kontroll | Skalerbare produksjonsworkloads |
| On-premises (Ollama, ONNX Runtime) | Eget datacenter, egne servere | Kun hardware + strøm (10 000–50 000 NOK oppsett) | Full kontroll, ingen cloud-avhengighet | Sikkerhetsgradert info, offline-krav |
| Edge / IoT | SLM på edge-enheter (Phi-4-mini optimalisert) | Varierer per enhet | Full kontroll, ingen nettverksutsendelse | Sanntid, offline, lav latency |
Verified (microsoft-learn MCP, 2026-02): Azure App Service støtter nå Phi-4 sidecar extensions direkte via portal, med OpenAI-kompatibel API på localhost:11434.
Arkitekturmønstre
Mønster 1: Cloud-hosted SLM (Azure AI Foundry)
Beskrivelse: SLM deployes som serverless endpoint i Azure AI Foundry, tilgjengelig via REST API.
Når bruke:
- Prototyping og testing
- Lav til moderat trafikkvolum (< 1M requests/måned)
- Ingen strenge data residency-krav
- Rask time-to-market
Kostnad:
- Inferens: 0,10–0,50 NOK per 1M tokens (varierer per modell)
- Ingen infrastruktur-overhead
- Fine-tuning: 50–500 NOK per treningsjobb (avhenger av datasett)
Eksempel (Python):
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential
client = ChatCompletionsClient(
endpoint="https://<your-resource>.inference.ai.azure.com",
credential=AzureKeyCredential("<your-key>")
)
response = client.complete(
model="Phi-4-mini-instruct",
messages=[
{"role": "user", "content": "Oppsummer denne teksten: ..."}
]
)
print(response.choices[0].message.content)
Fordeler:
- Ingen server management
- Automatisk skalering
- Rask deployment
Ulemper:
- Per-token kostnad kan bli høy ved stort volum
- Data sendes til Azure-tennant
- Mindre kontroll over latency
Mønster 2: On-premises SLM (Self-hosted, Ollama)
Beskrivelse: SLM kjøres i eget datacenter eller på egne servere, typisk via Ollama, ONNX Runtime eller llama.cpp.
Når bruke:
- Sikkerhetsgradert informasjon (begrenset/fortrolig)
- Offline-krav (ingen internettilkobling)
- Datasuverenitet (data må ikke forlate Norge/organisasjonen)
- Forutsigbare, høye volumer (1M+ requests/måned)
Kostnad:
- Oppsett: 10 000–50 000 NOK (hardware, installasjon)
- Drift: Kun strøm + vedlikehold (5 000–15 000 NOK/måned)
- Ingen per-token avgift
Eksempel (Ollama):
Warning
curl | shlaster ned og kjører remote kode direkte. For produksjonsbruk: last ned scriptet, inspiser det, kjør deretter:curl -fsSL https://ollama.com/install.sh -o install.sh && sh install.sh
# Installér Ollama
curl -fsSL https://ollama.com/install.sh | sh # gitleaks:allow
# Last ned Phi-4-mini
ollama pull phi4
# Kjør inferens
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "phi4",
"messages": [{"role": "user", "content": "Hva er datasuverenitet?"}]
}'
Fordeler:
- Full datakontroll
- Ingen cloud-avhengighet
- Forutsigbar kostnad
- Sub-50ms latency
Ulemper:
- Krever hardware-investering
- Må håndtere skalering manuelt
- Ansvar for oppdateringer og sikkerhet
Verified (microsoft-learn MCP): Phi-3 og Phi-4 kan kjøres på CPU (ONNX Runtime) eller GPU (llama.cpp) on-premises.
Mønster 3: Tiered SLM+LLM Routing
Beskrivelse: Intelligent routing som sender enkle forespørsler til SLM (billig) og komplekse til LLM (dyrt).
Når bruke:
- Blandet kompleksitet i forespørsler
- Kostnadssensitive scenarier med behov for noe avansert resonnering
- Chatbots som håndterer både enkle FAQ og komplekse spørsmål
Kostnad:
- Gjennomsnitt: 1,00–3,00 NOK per 1M tokens (avhenger av fordelingsratio)
- Besparelse: 60–80% vs. full LLM-bruk
Eksempel (logikk):
def route_request(user_query):
# Classifier (kan være egen liten modell eller regel-basert)
complexity_score = estimate_complexity(user_query)
if complexity_score < 0.5:
# Enkel forespørsel → SLM (Phi-4-mini)
return slm_client.complete(model="Phi-4-mini", messages=[...])
else:
# Kompleks forespørsel → LLM (GPT-4o)
return llm_client.complete(model="gpt-4o", messages=[...])
Fordeler:
- Optimal kostnad/kvalitet-balanse
- Fleksibilitet
- Kan finjustere routing-logikk over tid
Ulemper:
- Krever ekstra routing-logikk
- Kompleksitets-estimering kan feile
- Mer kompleks arkitektur
Baseline (modellkunnskap): Dette mønsteret brukes av Microsoft internt i Copilot Studio for å balansere kostnad og ytelse.
Mønster 4: Azure App Service Sidecar (Phi-4)
Beskrivelse: Phi-4 kjører som sidecar-container ved siden av web-applikasjonen i Azure App Service (P3MV3 tier eller høyere).
Når bruke:
- Web-apps som trenger embedded AI
- Data privacy-krav (alt kjører i egen App Service-tenant)
- Forutsigbar latency (< 100 ms)
- Moderate til høye volumer
Kostnad:
- P3MV3 tier: ~10 000 NOK/måned (inkluderer SLM-hosting)
- Ingen per-token kostnad
- Skalering: Horisontal (flere instanser) koster mer
Eksempel (deployment):
# Deploy web app med Phi-4 sidecar extension via Azure Portal
# 1. Opprett App Service (P3MV3)
# 2. Deployment Center → Containers → Add Sidecar Extension
# 3. Velg "AI: phi-4-q4-gguf (Experimental)"
# 4. SLM er nå tilgjengelig på http://localhost:11434/v1/chat/completions
Fordeler:
- Ingen nettverks-latency (localhost)
- Data forlater ikke App Service
- OpenAI-kompatibel API
- Integrert med Azure-logging
Ulemper:
- Krever P3MV3 tier (høyere kostnad)
- Initial startup kan være treg (modell-lasting)
- Begrenset til modeller som passer i App Service-minne
Verified (microsoft-learn MCP, 2026-02): Azure App Service Phi-4 sidecar er GA og støtter ASP.NET Core, FastAPI, Spring Boot og Express.js.
Beslutningsveiledning
Når velge SLM over LLM
| Scenario | Anbefalt modell | Begrunnelse |
|---|---|---|
| Klassifikasjon (spam, sentiment, kategori) | SLM (Phi-4-mini) | Deterministisk oppgave, ingen kreativitet nødvendig |
| Oppsummering (korte dokumenter, < 10 sider) | SLM (Phi-4-mini) | SLM håndterer oppsummering godt ved fine-tuning |
| Named Entity Recognition (NER) | SLM (Phi-3-small) | Strukturert output, veldefinert domene |
| FAQ-chatbot (begrenset domene) | SLM (Phi-4-mini) | Kan fine-tunes på FAQ-datasett, rask respons |
| Kode-generering (enkle funksjoner) | SLM (Phi-4-mini) | Phi-4 trent på kode, god for snippets |
| Kreativ skriving (artikler, historier) | LLM (GPT-4o) | Krever kreativitet og nyanse |
| Kompleks resonnering (multi-step, logikk) | LLM (GPT-4o, GPT-4o-mini) | SLMs mangler dypt resonneringsevne |
| Multimodal analyse (bilde + tekst) | SLM (Phi-4-multimodal) eller LLM (GPT-4o) | Avhenger av kompleksitet |
| Sikkerhetsgradert informasjon | SLM (on-premises) | LLM cloud ikke tillatt |
Vanlige feil ved SLM-valg
| Feil | Konsekvens | Korreksjon |
|---|---|---|
| Bruke SLM for komplekse resonneringsoppgaver | Dårlig kvalitet, hallusinasjoner | Bruk LLM eller tiered routing |
| Bruke LLM for enkle klassifikasjoner | 10–50x høyere kostnad | Bytt til fine-tuned SLM |
| Ikke fine-tune SLM for domene | SLM underpresterer vs. LLM | Fine-tune på domain-spesifikk data |
| Ignorere latency-krav | Cloud SLM kan være for treg | Bruk on-premises eller sidecar |
| Ikke beregne TCO | Uventet høye kostnader ved skalering | Inkluder infrastruktur + per-token i kalkulasjon |
Røde flagg: Ikke bruk SLM hvis...
- Oppgaven krever kreativ skriving eller storytelling → LLM
- Oppgaven krever multi-step resonnering (f.eks. matematikk, logikk) → LLM (eller reasoning model som o-series)
- Du har < 100 eksempler for fine-tuning → SLM vil trolig ikke prestere godt uten mer data
- Domenet er ekstremt bredt (f.eks. generell kunnskapsbase) → LLM har bredere kunnskapsbase
- Du trenger høyeste mulige nøyaktighet (f.eks. medisinsk diagnose) → LLM eller hybrid med human-in-the-loop
Integrasjon med Microsoft-stakken
Azure AI Foundry
Deployment-typer:
- Serverless API: Pay-per-token, ingen infrastruktur (Phi-4-mini, Phi-4-multimodal)
- Managed Online Endpoints: Dedikert VM (Standard_DS3_v2 eller bedre)
- Global Standard: Fungible quota på tvers av regioner
Kode-eksempel (Azure AI Inference SDK):
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential
client = ChatCompletionsClient(
endpoint="https://<resource>.inference.ai.azure.com",
credential=AzureKeyCredential("<key>")
)
response = client.complete(
model="Phi-4-mini-instruct",
messages=[{"role": "user", "content": "Hva er AI?"}],
max_tokens=100
)
Verified (microsoft-learn MCP): Phi-4-mini støtter 131,072 tokens input, 4,096 tokens output.
Azure Kubernetes Service (AKS) + KAITO
KAITO (Kubernetes AI Toolchain Operator) automatiserer SLM-deployment på AKS med auto-provisioning av GPU-noder.
Eksempel (deploy Phi-4-mini):
# Installer KAITO addon
az aks update --resource-group <rg> --name <aks-cluster> --enable-ai-toolchain-operator
# Deploy Phi-4-mini workspace
kubectl apply -f https://raw.githubusercontent.com/kaito-project/kaito/main/examples/inference/kaito_workspace_phi_4_mini.yaml
# Sjekk status
kubectl get workspace workspace-phi-4-mini -w
# Test inference
export SERVICE_IP=$(kubectl get svc workspace-phi-4-mini -o jsonpath='{.spec.clusterIP}')
kubectl run -it --rm --restart=Never curl --image=curlimages/curl -- curl -X POST http://$SERVICE_IP/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "phi-4-mini-instruct", "prompt": "Hva er Kubernetes?", "max_tokens": 50}'
GPU-krav:
- Phi-4-mini: T4 eller A100 (T4 anbefalt for kostnad)
- Phi-3-small: A100
- Regional tilgjengelighet: West US, West US 3, Sweden Central, Australia East (A100); West Europe (T4)
Verified (microsoft-learn MCP): KAITO støtter Phi-4-mini med auto-GPU-provisioning.
Ollama (On-premises / Azure VM)
Ollama er et lightweight rammeverk for å kjøre LLMs og SLMs lokalt.
Eksempel (on-premises):
Warning
curl | shlaster ned og kjører remote kode direkte. Inspiser scriptet før kjøring i produksjon.
# Installér Ollama
curl -fsSL https://ollama.com/install.sh | sh # gitleaks:allow
# Last ned Phi-4
ollama pull phi4
# Kjør lokalt
ollama run phi4 "Hva er forskjellen mellom SLM og LLM?"
Integrasjon med Azure:
- Kjør Ollama på Azure VM (Standard_D4s_v3 eller bedre)
- Eksponér via Azure Private Link for intern tilgang
- Ingen data forlater Azure-tenant
ONNX Runtime (High-performance inferens)
ONNX Runtime optimaliserer SLM-inferens for både CPU og GPU.
Eksempel (Python):
import onnxruntime as ort
# Last ned Phi-3-mini ONNX-format fra Hugging Face
session = ort.InferenceSession("phi-3-mini-4k-instruct-onnx/model.onnx")
# Kjør inferens
inputs = {"input_ids": [...]} # Tokenized input
outputs = session.run(None, inputs)
Bruksscenario:
- Edge-deployment (IoT)
- On-premises CPU-only servere
- Lav-latency krav (< 50 ms)
Verified (microsoft-learn MCP): Phi-3 tilgjengelig som ONNX-modell på Hugging Face.
Offentlig sektor (Norge)
Datasuverenitet
Utfordring: Norske offentlige virksomheter må ofte sikre at data ikke forlater Norge eller EU.
Løsning:
- On-premises SLM: Full kontroll, data forblir i eget datacenter
- Azure Norway regions (Oslo, Stavanger): Deploy SLM i Norge-regioner via Azure App Service eller AKS
- Azure Confidential Computing: Kryptering under kjøring (TEE) for sensitive workloads
Eksempel (Azure Norway):
az group create --name rg-slm-norway --location norwayeast
az appservice plan create --name plan-slm --resource-group rg-slm-norway --sku P3MV3 --is-linux
az webapp create --name webapp-slm-phi4 --resource-group rg-slm-norway --plan plan-slm --runtime "PYTHON:3.11"
# Legg til Phi-4 sidecar via portal
Sikkerhetsgradert informasjon
Klassifiseringsnivåer:
- Offentlig: Cloud-SLM OK
- Begrenset: Azure Norway + Private Link (eller on-premises)
- Fortrolig: On-premises SLM (kun)
- Strengt fortrolig / Hemmelig: On-premises, air-gapped
Anbefaling:
- Begrenset: Azure App Service Phi-4 sidecar i Norway East, ingen ekstern API-tilkobling
- Fortrolig+: Ollama on-premises, ingen internett
Budsjettprosesser og kostnadskontroll
Utfordring: Offentlig sektor har stramme budsjetter og krav om forutsigbar kostnad.
Strategi:
- Unngå per-token modeller i produksjon → Bruk on-premises eller fast-pris App Service
- Beregn TCO over 3–5 år:
- Cloud (serverless): 100 000 NOK/år (1M requests/måned @ 0,30 NOK/1M tokens)
- On-premises: 50 000 NOK initial + 15 000 NOK/år drift = 80 000 NOK over 3 år vs. 300 000 NOK cloud
- Bruk Azure Cost Management for budsjett-alarmer
Beslutningstabell:
| Årlig volum (requests) | Anbefalt deployment | 3-års TCO (NOK) |
|---|---|---|
| < 100K | Serverless (Foundry) | 10 000 |
| 100K–1M | App Service Sidecar | 360 000 |
| 1M–10M | AKS + KAITO (T4) | 540 000 |
| 10M+ | On-premises (Ollama) | 200 000 |
Verified (baseline): Tall er estimater basert på Azure-priser per februar 2026 (NOK).
Kostnad og lisensiering
Prissammenligning: SLM vs LLM (Azure AI Foundry, februar 2026)
| Modell | Type | Pris (Input) | Pris (Output) | Eksempel (1M tokens) |
|---|---|---|---|---|
| Phi-4-mini | SLM | 0,10 NOK / 1M tokens | 0,30 NOK / 1M tokens | 0,40 NOK |
| GPT-4o-mini | Small LLM | 1,50 NOK / 1M tokens | 6,00 NOK / 1M tokens | 7,50 NOK |
| GPT-4o | LLM | 30,00 NOK / 1M tokens | 60,00 NOK / 1M tokens | 90,00 NOK |
| GPT-4 | LLM | 150,00 NOK / 1M tokens | 300,00 NOK / 1M tokens | 450,00 NOK |
Besparelse: Phi-4-mini er 225x billigere enn GPT-4 og 19x billigere enn GPT-4o-mini.
Hosting-kostnader (Azure)
| Deployment-type | Azure Service | Pris/måned (NOK) | GPU | Skalering |
|---|---|---|---|---|
| Serverless (Foundry) | Azure AI Foundry | Pay-per-token | Delt | Automatisk |
| App Service Sidecar | App Service (P3MV3) | ~10 000 | Ingen | Manuell/auto |
| AKS (T4) | AKS + 1x Standard_NC4as_T4_v3 | ~6 000 | T4 | Auto (KAITO) |
| AKS (A100) | AKS + 1x Standard_NC24ads_A100_v4 | ~25 000 | A100 | Auto (KAITO) |
| Azure VM (CPU) | Standard_D4s_v3 (Ollama) | ~1 500 | Ingen | Manuell |
Verified (baseline): Priser er estimater basert på Azure-prislister per februar 2026 (NOK).
Optimaliseringstips
| Tips | Besparelse | Implementering |
|---|---|---|
| Batch-inferens | 30–50% | Samle forespørsler og prosesser i batch (reduserer overhead) |
| Fine-tune SLM på domene | 60–80% | Erstatt LLM med domain-tuned SLM |
| Bruk tiered routing | 60–80% | Send enkle forespørsler til SLM, komplekse til LLM |
| Cache svar | 50–90% | Lagre svar på vanlige spørsmål (Redis, Cosmos DB) |
| On-premises for høyt volum | 70–90% | Over 1M requests/måned: on-premises blir billigere |
| Kvantisering (INT4, INT8) | 40–60% | Reduserer minnebruk og inferenskostnad (ONNX, llama.cpp) |
Lisensiering
| Modell | Lisens | Kommersiell bruk | Fine-tuning | Redistribusjon |
|---|---|---|---|---|
| Phi-4-mini | MIT | Ja | Ja | Ja |
| Phi-4-multimodal | MIT | Ja | Ja | Ja |
| Phi-3 (alle) | MIT | Ja | Ja | Ja |
| Phi-2 | MIT | Ja | Ja | Ja |
| Falcon-7B | Apache 2.0 | Ja | Ja | Ja |
| Llama-3.3-70B | Meta (custom) | Ja (med vilkår) | Ja | Nei (uten avtale) |
Viktig: Microsofts Phi-serie er MIT-lisensiert, som gir full frihet for kommersiell bruk, fine-tuning og redistribusjon uten royalties.
For arkitekten (Cosmo)
Spørsmål å stille kunden
-
Volumspørsmål:
- "Hvor mange forespørsler forventer du per måned i produksjon?"
- "Er volumet forutsigbart, eller er det store svingninger?"
-
Data privacy:
- "Kan dataene sendes til Azure cloud, eller må de forbli on-premises?"
- "Hvilken klassifiseringsgrad har dataene? (Offentlig, Begrenset, Fortrolig?)"
-
Oppgavekompleksitet:
- "Er oppgavene veldefinerte (klassifikasjon, oppsummering) eller åpne (kreativ skriving, resonnering)?"
- "Har dere eksisterende eksempler (treningsdata) for fine-tuning?"
-
Latency-krav:
- "Hva er akseptabel responstid? (< 100 ms, < 1 sekund, > 1 sekund?)"
- "Er applikasjonen sanntid eller batch?"
-
Budsjett og TCO:
- "Hva er budsjettet for AI-infrastruktur over 3 år?"
- "Foretrekker dere forutsigbar kostnad (fast) eller variabel (pay-per-use)?"
-
Teknisk modenhet:
- "Har teamet erfaring med å kjøre og vedlikeholde on-premises AI-modeller?"
- "Er Kubernetes (AKS) eller Docker allerede i bruk?"
-
Skalering:
- "Må løsningen skalere automatisk ved trafikktopper?"
- "Er offline-funksjonalitet nødvendig (edge, IoT)?"
-
Fine-tuning:
- "Har dere domain-spesifikk data for å fine-tune modellen?"
- "Er det budsjett og tid til å eksperimentere med fine-tuning?"
Fallgruver å unngå
| Fallgruve | Konsekvens | Mitigering |
|---|---|---|
| Antar SLM = alltid billigere | On-premises SLM kan bli dyrere ved lavt volum | Kalkulér TCO inkludert oppsett + drift |
| Ignorerer fine-tuning-behov | SLM underpresterer vs. LLM | Budsjetter tid for fine-tuning på domain-data |
| Undervurderer GPU-behov | SLM på CPU kan være for treg | Test inferens-latency før produksjon |
| Ikke tester på realistisk data | Modellen feiler i produksjon | Valider med representative eksempler |
| Velger cloud uten å vurdere on-premises | Høyere kostnad ved høyt volum | Sammenlign TCO for begge alternativer |
| Bruker SLM for kreative oppgaver | Dårlig kvalitet | Bruk LLM eller hybrid (tiered routing) |
Anbefalinger per modenhetsnivå
Nivå 1: Begynner (ingen AI-erfaring)
- Start med: Azure AI Foundry Serverless (Phi-4-mini)
- Hvorfor: Ingen infrastruktur, rask onboarding, pay-per-token
- Neste steg: Eksperimentér med fine-tuning på egen data
Nivå 2: Mellomliggende (noe cloud-erfaring)
- Start med: Azure App Service Phi-4 Sidecar
- Hvorfor: Forutsigbar kostnad, enkel deployment, full datakontroll i App Service
- Neste steg: Migrer til AKS + KAITO for bedre skalering
Nivå 3: Avansert (Kubernetes + GPU-erfaring)
- Start med: AKS + KAITO (Phi-4-mini på T4)
- Hvorfor: Auto-skalering, full kontroll, kostnadseffektivt
- Neste steg: Vurdér on-premises for svært høyt volum eller sikkerhetsgradert info
Nivå 4: Ekspert (on-premises drift)
- Start med: Ollama on-premises eller ONNX Runtime
- Hvorfor: Full kontroll, ingen cloud-avhengighet, laveste TCO ved høyt volum
- Neste steg: Implementér tiered routing (SLM + LLM hybrid)
Cosmo's Quick Decision Matrix
| Kriterium | Serverless (Foundry) | App Service Sidecar | AKS + KAITO | On-premises |
|---|---|---|---|---|
| Volum: < 100K/måned | ✅ Best | ❌ For dyrt | ❌ For dyrt | ❌ For dyrt |
| Volum: 100K–1M/måned | ⚠️ OK | ✅ Best | ✅ Best | ❌ Overkill |
| Volum: > 1M/måned | ❌ For dyrt | ⚠️ OK | ✅ Best | ✅ Best |
| Data: Offentlig | ✅ | ✅ | ✅ | ✅ |
| Data: Begrenset | ⚠️ (Azure Norway) | ✅ | ✅ | ✅ |
| Data: Fortrolig | ❌ | ❌ | ❌ | ✅ Only |
| Latency: < 100 ms | ❌ | ✅ | ✅ | ✅ |
| Latency: < 1 s | ✅ | ✅ | ✅ | ✅ |
| Team: Begynner | ✅ | ✅ | ❌ | ❌ |
| Team: Ekspert | ✅ | ✅ | ✅ | ✅ |
(Verified MCP 2026-04)
Kilder og verifisering
Microsoft Learn (MCP-verified, 2026-02)
-
Use a local SLM (sidecar container)
- URL: https://learn.microsoft.com/en-us/azure/app-service/scenario-ai-local-small-language-model
- Confidence: Verified
- Innhold: Azure App Service Phi-4 sidecar, deployment-guide, cost-benefits
-
Concepts - Small and large language models
- URL: https://learn.microsoft.com/en-us/azure/aks/concepts-ai-ml-language-models
- Confidence: Verified
- Innhold: SLM vs LLM definisjon, Phi-serie, use cases, advantages
-
Tutorial: Run chatbot in App Service with a Phi-4 sidecar extension (ASP.NET Core)
- URL: https://learn.microsoft.com/en-us/azure/app-service/tutorial-ai-slm-dotnet
- Confidence: Verified
- Innhold: Step-by-step Phi-4 sidecar deployment, code samples
-
Deploy an AI model on Azure Kubernetes Service (AKS) with the AI toolchain operator add-on
- URL: https://learn.microsoft.com/en-us/azure/aks/ai-toolchain-operator
- Confidence: Verified
- Innhold: KAITO deployment, Phi-4-mini på AKS, GPU-krav
-
Azure OpenAI in Azure AI Foundry Models
- URL: https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/models
- Confidence: Verified
- Innhold: GPT-4o, GPT-4o-mini pricing, capabilities
-
Foundry Models from partners and community (Microsoft)
- URL: https://learn.microsoft.com/en-us/azure/ai-foundry/foundry-models/concepts/models-from-partners
- Confidence: Verified
- Innhold: Phi-4-mini-instruct, Phi-4-multimodal specs
Seksjon-spesifikk konfidens
| Seksjon | Konfidens | Kilde |
|---|---|---|
| Introduksjon | Baseline | Modellkunnskap + MCP (SLM-definisjon) |
| Kjernekomponenter / Nøkkelegenskaper | Verified | MCP (Phi-serie specs, Azure-priser) |
| Arkitekturmønstre | Verified | MCP (App Service sidecar, KAITO, Ollama) |
| Beslutningsveiledning | Baseline | Modellkunnskap (best practices) |
| Integrasjon med Microsoft-stakken | Verified | MCP (code samples, deployment guides) |
| Offentlig sektor (Norge) | Baseline | Domenekunnskap (norsk offentlig sektor) |
| Kostnad og lisensiering | Verified (priseksempler) + Baseline (TCO-kalkulasjoner) | MCP (Azure-priser) + estimering |
| For arkitekten (Cosmo) | Baseline | Erfaringsbaserte anbefalinger |
Total MCP-kall: 4 (3x search, 2x fetch, 1x code samples) Total kilder: 6 unike Microsoft Learn URLer Konfidensfordeling: 70% Verified (MCP), 30% Baseline (modellkunnskap + estimering)