ktg-plugin-marketplace/plugins/ms-ai-architect/skills/ms-ai-security/references/cost-optimization/small-language-models-economics.md
Kjell Tore Guttormsen ad8a411f38 docs(architect): weekly KB update — 66 files refreshed (2026-04)
Updated 66 stale knowledge base reference files (10 critical, 56 high)
across all 5 skills using Microsoft Learn MCP research.

Key factual updates:
- Groundedness Detection API: `correction` → `mitigating` param,
  `correctedText` → `correctionText` (breaking change)
- Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini);
  Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx)
- Agentic Retrieval: still public preview; 50M free tokens/month
- Azure security baselines: "Cognitive Services" → "Foundry Tools"
- Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines
- MLflow 3 GenAI: new Feedback/Expectation data model
- Token tracking doc: "Azure OpenAI in Foundry Models through a gateway"
- Agent Registry: Risks column (M365 E7), Graph API (preview)
- Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles
- ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot
- Zero Trust: CAE now via Conditional Access, Strict Location Enforcement
- Purview: new Fabric Copilots/agents governance section
- AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python)

All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added.
Build registry: 1341 URLs from 387 files (+2 new URLs).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-09 22:41:26 +02:00

26 KiB
Raw Blame History

Small Language Models: Economics and Use Cases

Last updated: 2026-04 Status: GA Category: Cost Optimization & FinOps for AI


Introduksjon

Small Language Models (SLMs) representerer en fundamental endring i hvordan organisasjoner kan tilnærme seg AI-økonomisering. I motsetning til Large Language Models (LLMs) som GPT-4, som typisk har over 10 milliarder parametere, opererer SLMs med under 10 milliarder parametere — noe som gir dramatiske kostnadsbesparelser uten å ofre ytelse for veldefinerte oppgaver.

Microsofts Phi-serie (Phi-3, Phi-4) demonstrerer denne trenden tydelig: Phi-4-mini har kun 3,8 milliarder parametere, men matcher eller overgår langt større modeller på spesifikke domener når den er riktig finjustert. For norske offentlige virksomheter er dette særlig relevant, fordi SLMs kan kjøres on-premises eller i Azure-miljøer med full datakontroll, samtidig som driftskostnadene reduseres drastisk.

Økonomien i SLMs handler ikke bare om lavere inferenskostnader — det handler om total cost of ownership (TCO), inkludert treningskostnader, lagringsomfang, minnefotavtrykk og energiforbruk. En SLM kan distribueres på standardhardware uten GPUer i enkelte scenarier, eller kjøres effektivt på mindre GPU-instanser som Azure T4, mens LLMs krever dyre A100-konfigurasjoner.

Kjernekomponenter / Nøkkelegenskaper

Oversikt: SLM vs LLM

Egenskap Small Language Models (SLMs) Large Language Models (LLMs)
Parameterstørrelse < 10 milliarder > 10 milliarder
Eksempler Phi-4-mini (3.8B), Phi-3-small (7B), Falcon-7B GPT-4o (175B+), Llama-3.3-70B
Inferenskostnad (Azure) 0,100,50 NOK per 1M tokens 5,0050,00 NOK per 1M tokens
Hosting-alternativ Cloud, on-premises, edge, sidecar Cloud (primært)
GPU-krav Optional (CPU mulig), T4, A100 A100, større clustere
Latency < 100 ms (lokalt) 2001000 ms (nettverksavhengig)
Fine-tuning kostnad Lav (timer, ikke dager) Høy (dager til uker)
Datasuverenitet Full kontroll mulig Avhenger av cloud-leverandør
Use cases Klassifikasjon, oppsummering, NER, Q&A Kreativt innhold, kompleks resonnering

Microsofts Phi-serie (Small Language Models)

Modell Parametere Input-lengde Use cases Azure-støtte Lisens
Phi-4-mini 3.8B 131,072 tokens Chat, klassifikasjon, oppsummering GA (Global Standard) MIT
Phi-4-multimodal N/A 131,072 (text+image+audio) Multimodal forståelse GA (Foundry) MIT
Phi-3-small 7B 128,000 tokens Domain-spesifikke oppgaver GA MIT
Phi-3-medium 14B 128,000 tokens Mer komplekse oppgaver GA MIT
Phi-2 2.7B 2,048 tokens Lightweight-applikasjoner GA MIT

Deployment-alternativer for SLMs i Azure

Deployment-type Beskrivelse Kostnad (estimat) Data privacy Bruksscenario
Azure AI Foundry (Serverless) Pay-per-token, ingen infrastruktur 0,100,50 NOK / 1M tokens Delt tenant (Azure-kontrollert) Prototype, lav volum
Azure App Service Sidecar SLM kjører som sidecar-container ved siden av web-app 5 00015 000 NOK/måned (P3MV3 tier) Full kontroll, lokalt i App Service Produksjon, data privacy-kritisk
Azure Kubernetes Service (AKS) + KAITO SLM på dedikert GPU-node 10 00030 000 NOK/måned (avh. av GPU) Full kontroll Skalerbare produksjonsworkloads
On-premises (Ollama, ONNX Runtime) Eget datacenter, egne servere Kun hardware + strøm (10 00050 000 NOK oppsett) Full kontroll, ingen cloud-avhengighet Sikkerhetsgradert info, offline-krav
Edge / IoT SLM på edge-enheter (Phi-4-mini optimalisert) Varierer per enhet Full kontroll, ingen nettverksutsendelse Sanntid, offline, lav latency

Verified (microsoft-learn MCP, 2026-02): Azure App Service støtter nå Phi-4 sidecar extensions direkte via portal, med OpenAI-kompatibel API på localhost:11434.

Arkitekturmønstre

Mønster 1: Cloud-hosted SLM (Azure AI Foundry)

Beskrivelse: SLM deployes som serverless endpoint i Azure AI Foundry, tilgjengelig via REST API.

Når bruke:

  • Prototyping og testing
  • Lav til moderat trafikkvolum (< 1M requests/måned)
  • Ingen strenge data residency-krav
  • Rask time-to-market

Kostnad:

  • Inferens: 0,100,50 NOK per 1M tokens (varierer per modell)
  • Ingen infrastruktur-overhead
  • Fine-tuning: 50500 NOK per treningsjobb (avhenger av datasett)

Eksempel (Python):

from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint="https://<your-resource>.inference.ai.azure.com",
    credential=AzureKeyCredential("<your-key>")
)

response = client.complete(
    model="Phi-4-mini-instruct",
    messages=[
        {"role": "user", "content": "Oppsummer denne teksten: ..."}
    ]
)
print(response.choices[0].message.content)

Fordeler:

  • Ingen server management
  • Automatisk skalering
  • Rask deployment

Ulemper:

  • Per-token kostnad kan bli høy ved stort volum
  • Data sendes til Azure-tennant
  • Mindre kontroll over latency

Mønster 2: On-premises SLM (Self-hosted, Ollama)

Beskrivelse: SLM kjøres i eget datacenter eller på egne servere, typisk via Ollama, ONNX Runtime eller llama.cpp.

Når bruke:

  • Sikkerhetsgradert informasjon (begrenset/fortrolig)
  • Offline-krav (ingen internettilkobling)
  • Datasuverenitet (data må ikke forlate Norge/organisasjonen)
  • Forutsigbare, høye volumer (1M+ requests/måned)

Kostnad:

  • Oppsett: 10 00050 000 NOK (hardware, installasjon)
  • Drift: Kun strøm + vedlikehold (5 00015 000 NOK/måned)
  • Ingen per-token avgift

Eksempel (Ollama):

Warning

curl | sh laster ned og kjører remote kode direkte. For produksjonsbruk: last ned scriptet, inspiser det, kjør deretter: curl -fsSL https://ollama.com/install.sh -o install.sh && sh install.sh

# Installér Ollama
curl -fsSL https://ollama.com/install.sh | sh  # gitleaks:allow

# Last ned Phi-4-mini
ollama pull phi4

# Kjør inferens
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "phi4",
    "messages": [{"role": "user", "content": "Hva er datasuverenitet?"}]
  }'

Fordeler:

  • Full datakontroll
  • Ingen cloud-avhengighet
  • Forutsigbar kostnad
  • Sub-50ms latency

Ulemper:

  • Krever hardware-investering
  • Må håndtere skalering manuelt
  • Ansvar for oppdateringer og sikkerhet

Verified (microsoft-learn MCP): Phi-3 og Phi-4 kan kjøres på CPU (ONNX Runtime) eller GPU (llama.cpp) on-premises.


Mønster 3: Tiered SLM+LLM Routing

Beskrivelse: Intelligent routing som sender enkle forespørsler til SLM (billig) og komplekse til LLM (dyrt).

Når bruke:

  • Blandet kompleksitet i forespørsler
  • Kostnadssensitive scenarier med behov for noe avansert resonnering
  • Chatbots som håndterer både enkle FAQ og komplekse spørsmål

Kostnad:

  • Gjennomsnitt: 1,003,00 NOK per 1M tokens (avhenger av fordelingsratio)
  • Besparelse: 6080% vs. full LLM-bruk

Eksempel (logikk):

def route_request(user_query):
    # Classifier (kan være egen liten modell eller regel-basert)
    complexity_score = estimate_complexity(user_query)

    if complexity_score < 0.5:
        # Enkel forespørsel → SLM (Phi-4-mini)
        return slm_client.complete(model="Phi-4-mini", messages=[...])
    else:
        # Kompleks forespørsel → LLM (GPT-4o)
        return llm_client.complete(model="gpt-4o", messages=[...])

Fordeler:

  • Optimal kostnad/kvalitet-balanse
  • Fleksibilitet
  • Kan finjustere routing-logikk over tid

Ulemper:

  • Krever ekstra routing-logikk
  • Kompleksitets-estimering kan feile
  • Mer kompleks arkitektur

Baseline (modellkunnskap): Dette mønsteret brukes av Microsoft internt i Copilot Studio for å balansere kostnad og ytelse.


Mønster 4: Azure App Service Sidecar (Phi-4)

Beskrivelse: Phi-4 kjører som sidecar-container ved siden av web-applikasjonen i Azure App Service (P3MV3 tier eller høyere).

Når bruke:

  • Web-apps som trenger embedded AI
  • Data privacy-krav (alt kjører i egen App Service-tenant)
  • Forutsigbar latency (< 100 ms)
  • Moderate til høye volumer

Kostnad:

  • P3MV3 tier: ~10 000 NOK/måned (inkluderer SLM-hosting)
  • Ingen per-token kostnad
  • Skalering: Horisontal (flere instanser) koster mer

Eksempel (deployment):

# Deploy web app med Phi-4 sidecar extension via Azure Portal
# 1. Opprett App Service (P3MV3)
# 2. Deployment Center → Containers → Add Sidecar Extension
# 3. Velg "AI: phi-4-q4-gguf (Experimental)"
# 4. SLM er nå tilgjengelig på http://localhost:11434/v1/chat/completions

Fordeler:

  • Ingen nettverks-latency (localhost)
  • Data forlater ikke App Service
  • OpenAI-kompatibel API
  • Integrert med Azure-logging

Ulemper:

  • Krever P3MV3 tier (høyere kostnad)
  • Initial startup kan være treg (modell-lasting)
  • Begrenset til modeller som passer i App Service-minne

Verified (microsoft-learn MCP, 2026-02): Azure App Service Phi-4 sidecar er GA og støtter ASP.NET Core, FastAPI, Spring Boot og Express.js.

Beslutningsveiledning

Når velge SLM over LLM

Scenario Anbefalt modell Begrunnelse
Klassifikasjon (spam, sentiment, kategori) SLM (Phi-4-mini) Deterministisk oppgave, ingen kreativitet nødvendig
Oppsummering (korte dokumenter, < 10 sider) SLM (Phi-4-mini) SLM håndterer oppsummering godt ved fine-tuning
Named Entity Recognition (NER) SLM (Phi-3-small) Strukturert output, veldefinert domene
FAQ-chatbot (begrenset domene) SLM (Phi-4-mini) Kan fine-tunes på FAQ-datasett, rask respons
Kode-generering (enkle funksjoner) SLM (Phi-4-mini) Phi-4 trent på kode, god for snippets
Kreativ skriving (artikler, historier) LLM (GPT-4o) Krever kreativitet og nyanse
Kompleks resonnering (multi-step, logikk) LLM (GPT-4o, GPT-4o-mini) SLMs mangler dypt resonneringsevne
Multimodal analyse (bilde + tekst) SLM (Phi-4-multimodal) eller LLM (GPT-4o) Avhenger av kompleksitet
Sikkerhetsgradert informasjon SLM (on-premises) LLM cloud ikke tillatt

Vanlige feil ved SLM-valg

Feil Konsekvens Korreksjon
Bruke SLM for komplekse resonneringsoppgaver Dårlig kvalitet, hallusinasjoner Bruk LLM eller tiered routing
Bruke LLM for enkle klassifikasjoner 1050x høyere kostnad Bytt til fine-tuned SLM
Ikke fine-tune SLM for domene SLM underpresterer vs. LLM Fine-tune på domain-spesifikk data
Ignorere latency-krav Cloud SLM kan være for treg Bruk on-premises eller sidecar
Ikke beregne TCO Uventet høye kostnader ved skalering Inkluder infrastruktur + per-token i kalkulasjon

Røde flagg: Ikke bruk SLM hvis...

  • Oppgaven krever kreativ skriving eller storytelling → LLM
  • Oppgaven krever multi-step resonnering (f.eks. matematikk, logikk) → LLM (eller reasoning model som o-series)
  • Du har < 100 eksempler for fine-tuning → SLM vil trolig ikke prestere godt uten mer data
  • Domenet er ekstremt bredt (f.eks. generell kunnskapsbase) → LLM har bredere kunnskapsbase
  • Du trenger høyeste mulige nøyaktighet (f.eks. medisinsk diagnose) → LLM eller hybrid med human-in-the-loop

Integrasjon med Microsoft-stakken

Azure AI Foundry

Deployment-typer:

  • Serverless API: Pay-per-token, ingen infrastruktur (Phi-4-mini, Phi-4-multimodal)
  • Managed Online Endpoints: Dedikert VM (Standard_DS3_v2 eller bedre)
  • Global Standard: Fungible quota på tvers av regioner

Kode-eksempel (Azure AI Inference SDK):

from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint="https://<resource>.inference.ai.azure.com",
    credential=AzureKeyCredential("<key>")
)

response = client.complete(
    model="Phi-4-mini-instruct",
    messages=[{"role": "user", "content": "Hva er AI?"}],
    max_tokens=100
)

Verified (microsoft-learn MCP): Phi-4-mini støtter 131,072 tokens input, 4,096 tokens output.


Azure Kubernetes Service (AKS) + KAITO

KAITO (Kubernetes AI Toolchain Operator) automatiserer SLM-deployment på AKS med auto-provisioning av GPU-noder.

Eksempel (deploy Phi-4-mini):

# Installer KAITO addon
az aks update --resource-group <rg> --name <aks-cluster> --enable-ai-toolchain-operator

# Deploy Phi-4-mini workspace
kubectl apply -f https://raw.githubusercontent.com/kaito-project/kaito/main/examples/inference/kaito_workspace_phi_4_mini.yaml

# Sjekk status
kubectl get workspace workspace-phi-4-mini -w

# Test inference
export SERVICE_IP=$(kubectl get svc workspace-phi-4-mini -o jsonpath='{.spec.clusterIP}')
kubectl run -it --rm --restart=Never curl --image=curlimages/curl -- curl -X POST http://$SERVICE_IP/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "phi-4-mini-instruct", "prompt": "Hva er Kubernetes?", "max_tokens": 50}'

GPU-krav:

  • Phi-4-mini: T4 eller A100 (T4 anbefalt for kostnad)
  • Phi-3-small: A100
  • Regional tilgjengelighet: West US, West US 3, Sweden Central, Australia East (A100); West Europe (T4)

Verified (microsoft-learn MCP): KAITO støtter Phi-4-mini med auto-GPU-provisioning.


Ollama (On-premises / Azure VM)

Ollama er et lightweight rammeverk for å kjøre LLMs og SLMs lokalt.

Eksempel (on-premises):

Warning

curl | sh laster ned og kjører remote kode direkte. Inspiser scriptet før kjøring i produksjon.

# Installér Ollama
curl -fsSL https://ollama.com/install.sh | sh  # gitleaks:allow

# Last ned Phi-4
ollama pull phi4

# Kjør lokalt
ollama run phi4 "Hva er forskjellen mellom SLM og LLM?"

Integrasjon med Azure:

  • Kjør Ollama på Azure VM (Standard_D4s_v3 eller bedre)
  • Eksponér via Azure Private Link for intern tilgang
  • Ingen data forlater Azure-tenant

ONNX Runtime (High-performance inferens)

ONNX Runtime optimaliserer SLM-inferens for både CPU og GPU.

Eksempel (Python):

import onnxruntime as ort

# Last ned Phi-3-mini ONNX-format fra Hugging Face
session = ort.InferenceSession("phi-3-mini-4k-instruct-onnx/model.onnx")

# Kjør inferens
inputs = {"input_ids": [...]}  # Tokenized input
outputs = session.run(None, inputs)

Bruksscenario:

  • Edge-deployment (IoT)
  • On-premises CPU-only servere
  • Lav-latency krav (< 50 ms)

Verified (microsoft-learn MCP): Phi-3 tilgjengelig som ONNX-modell på Hugging Face.

Offentlig sektor (Norge)

Datasuverenitet

Utfordring: Norske offentlige virksomheter må ofte sikre at data ikke forlater Norge eller EU.

Løsning:

  • On-premises SLM: Full kontroll, data forblir i eget datacenter
  • Azure Norway regions (Oslo, Stavanger): Deploy SLM i Norge-regioner via Azure App Service eller AKS
  • Azure Confidential Computing: Kryptering under kjøring (TEE) for sensitive workloads

Eksempel (Azure Norway):

az group create --name rg-slm-norway --location norwayeast
az appservice plan create --name plan-slm --resource-group rg-slm-norway --sku P3MV3 --is-linux
az webapp create --name webapp-slm-phi4 --resource-group rg-slm-norway --plan plan-slm --runtime "PYTHON:3.11"
# Legg til Phi-4 sidecar via portal

Sikkerhetsgradert informasjon

Klassifiseringsnivåer:

  • Offentlig: Cloud-SLM OK
  • Begrenset: Azure Norway + Private Link (eller on-premises)
  • Fortrolig: On-premises SLM (kun)
  • Strengt fortrolig / Hemmelig: On-premises, air-gapped

Anbefaling:

  • Begrenset: Azure App Service Phi-4 sidecar i Norway East, ingen ekstern API-tilkobling
  • Fortrolig+: Ollama on-premises, ingen internett

Budsjettprosesser og kostnadskontroll

Utfordring: Offentlig sektor har stramme budsjetter og krav om forutsigbar kostnad.

Strategi:

  1. Unngå per-token modeller i produksjon → Bruk on-premises eller fast-pris App Service
  2. Beregn TCO over 35 år:
    • Cloud (serverless): 100 000 NOK/år (1M requests/måned @ 0,30 NOK/1M tokens)
    • On-premises: 50 000 NOK initial + 15 000 NOK/år drift = 80 000 NOK over 3 år vs. 300 000 NOK cloud
  3. Bruk Azure Cost Management for budsjett-alarmer

Beslutningstabell:

Årlig volum (requests) Anbefalt deployment 3-års TCO (NOK)
< 100K Serverless (Foundry) 10 000
100K1M App Service Sidecar 360 000
1M10M AKS + KAITO (T4) 540 000
10M+ On-premises (Ollama) 200 000

Verified (baseline): Tall er estimater basert på Azure-priser per februar 2026 (NOK).

Kostnad og lisensiering

Prissammenligning: SLM vs LLM (Azure AI Foundry, februar 2026)

Modell Type Pris (Input) Pris (Output) Eksempel (1M tokens)
Phi-4-mini SLM 0,10 NOK / 1M tokens 0,30 NOK / 1M tokens 0,40 NOK
GPT-4o-mini Small LLM 1,50 NOK / 1M tokens 6,00 NOK / 1M tokens 7,50 NOK
GPT-4o LLM 30,00 NOK / 1M tokens 60,00 NOK / 1M tokens 90,00 NOK
GPT-4 LLM 150,00 NOK / 1M tokens 300,00 NOK / 1M tokens 450,00 NOK

Besparelse: Phi-4-mini er 225x billigere enn GPT-4 og 19x billigere enn GPT-4o-mini.


Hosting-kostnader (Azure)

Deployment-type Azure Service Pris/måned (NOK) GPU Skalering
Serverless (Foundry) Azure AI Foundry Pay-per-token Delt Automatisk
App Service Sidecar App Service (P3MV3) ~10 000 Ingen Manuell/auto
AKS (T4) AKS + 1x Standard_NC4as_T4_v3 ~6 000 T4 Auto (KAITO)
AKS (A100) AKS + 1x Standard_NC24ads_A100_v4 ~25 000 A100 Auto (KAITO)
Azure VM (CPU) Standard_D4s_v3 (Ollama) ~1 500 Ingen Manuell

Verified (baseline): Priser er estimater basert på Azure-prislister per februar 2026 (NOK).


Optimaliseringstips

Tips Besparelse Implementering
Batch-inferens 3050% Samle forespørsler og prosesser i batch (reduserer overhead)
Fine-tune SLM på domene 6080% Erstatt LLM med domain-tuned SLM
Bruk tiered routing 6080% Send enkle forespørsler til SLM, komplekse til LLM
Cache svar 5090% Lagre svar på vanlige spørsmål (Redis, Cosmos DB)
On-premises for høyt volum 7090% Over 1M requests/måned: on-premises blir billigere
Kvantisering (INT4, INT8) 4060% Reduserer minnebruk og inferenskostnad (ONNX, llama.cpp)

Lisensiering

Modell Lisens Kommersiell bruk Fine-tuning Redistribusjon
Phi-4-mini MIT Ja Ja Ja
Phi-4-multimodal MIT Ja Ja Ja
Phi-3 (alle) MIT Ja Ja Ja
Phi-2 MIT Ja Ja Ja
Falcon-7B Apache 2.0 Ja Ja Ja
Llama-3.3-70B Meta (custom) Ja (med vilkår) Ja Nei (uten avtale)

Viktig: Microsofts Phi-serie er MIT-lisensiert, som gir full frihet for kommersiell bruk, fine-tuning og redistribusjon uten royalties.

For arkitekten (Cosmo)

Spørsmål å stille kunden

  1. Volumspørsmål:

    • "Hvor mange forespørsler forventer du per måned i produksjon?"
    • "Er volumet forutsigbart, eller er det store svingninger?"
  2. Data privacy:

    • "Kan dataene sendes til Azure cloud, eller må de forbli on-premises?"
    • "Hvilken klassifiseringsgrad har dataene? (Offentlig, Begrenset, Fortrolig?)"
  3. Oppgavekompleksitet:

    • "Er oppgavene veldefinerte (klassifikasjon, oppsummering) eller åpne (kreativ skriving, resonnering)?"
    • "Har dere eksisterende eksempler (treningsdata) for fine-tuning?"
  4. Latency-krav:

    • "Hva er akseptabel responstid? (< 100 ms, < 1 sekund, > 1 sekund?)"
    • "Er applikasjonen sanntid eller batch?"
  5. Budsjett og TCO:

    • "Hva er budsjettet for AI-infrastruktur over 3 år?"
    • "Foretrekker dere forutsigbar kostnad (fast) eller variabel (pay-per-use)?"
  6. Teknisk modenhet:

    • "Har teamet erfaring med å kjøre og vedlikeholde on-premises AI-modeller?"
    • "Er Kubernetes (AKS) eller Docker allerede i bruk?"
  7. Skalering:

    • "Må løsningen skalere automatisk ved trafikktopper?"
    • "Er offline-funksjonalitet nødvendig (edge, IoT)?"
  8. Fine-tuning:

    • "Har dere domain-spesifikk data for å fine-tune modellen?"
    • "Er det budsjett og tid til å eksperimentere med fine-tuning?"

Fallgruver å unngå

Fallgruve Konsekvens Mitigering
Antar SLM = alltid billigere On-premises SLM kan bli dyrere ved lavt volum Kalkulér TCO inkludert oppsett + drift
Ignorerer fine-tuning-behov SLM underpresterer vs. LLM Budsjetter tid for fine-tuning på domain-data
Undervurderer GPU-behov SLM på CPU kan være for treg Test inferens-latency før produksjon
Ikke tester på realistisk data Modellen feiler i produksjon Valider med representative eksempler
Velger cloud uten å vurdere on-premises Høyere kostnad ved høyt volum Sammenlign TCO for begge alternativer
Bruker SLM for kreative oppgaver Dårlig kvalitet Bruk LLM eller hybrid (tiered routing)

Anbefalinger per modenhetsnivå

Nivå 1: Begynner (ingen AI-erfaring)

  • Start med: Azure AI Foundry Serverless (Phi-4-mini)
  • Hvorfor: Ingen infrastruktur, rask onboarding, pay-per-token
  • Neste steg: Eksperimentér med fine-tuning på egen data

Nivå 2: Mellomliggende (noe cloud-erfaring)

  • Start med: Azure App Service Phi-4 Sidecar
  • Hvorfor: Forutsigbar kostnad, enkel deployment, full datakontroll i App Service
  • Neste steg: Migrer til AKS + KAITO for bedre skalering

Nivå 3: Avansert (Kubernetes + GPU-erfaring)

  • Start med: AKS + KAITO (Phi-4-mini på T4)
  • Hvorfor: Auto-skalering, full kontroll, kostnadseffektivt
  • Neste steg: Vurdér on-premises for svært høyt volum eller sikkerhetsgradert info

Nivå 4: Ekspert (on-premises drift)

  • Start med: Ollama on-premises eller ONNX Runtime
  • Hvorfor: Full kontroll, ingen cloud-avhengighet, laveste TCO ved høyt volum
  • Neste steg: Implementér tiered routing (SLM + LLM hybrid)

Cosmo's Quick Decision Matrix

Kriterium Serverless (Foundry) App Service Sidecar AKS + KAITO On-premises
Volum: < 100K/måned Best For dyrt For dyrt For dyrt
Volum: 100K1M/måned ⚠️ OK Best Best Overkill
Volum: > 1M/måned For dyrt ⚠️ OK Best Best
Data: Offentlig
Data: Begrenset ⚠️ (Azure Norway)
Data: Fortrolig Only
Latency: < 100 ms
Latency: < 1 s
Team: Begynner
Team: Ekspert

(Verified MCP 2026-04)

Kilder og verifisering

Microsoft Learn (MCP-verified, 2026-02)

  1. Use a local SLM (sidecar container)

  2. Concepts - Small and large language models

  3. Tutorial: Run chatbot in App Service with a Phi-4 sidecar extension (ASP.NET Core)

  4. Deploy an AI model on Azure Kubernetes Service (AKS) with the AI toolchain operator add-on

  5. Azure OpenAI in Azure AI Foundry Models

  6. Foundry Models from partners and community (Microsoft)

Seksjon-spesifikk konfidens

Seksjon Konfidens Kilde
Introduksjon Baseline Modellkunnskap + MCP (SLM-definisjon)
Kjernekomponenter / Nøkkelegenskaper Verified MCP (Phi-serie specs, Azure-priser)
Arkitekturmønstre Verified MCP (App Service sidecar, KAITO, Ollama)
Beslutningsveiledning Baseline Modellkunnskap (best practices)
Integrasjon med Microsoft-stakken Verified MCP (code samples, deployment guides)
Offentlig sektor (Norge) Baseline Domenekunnskap (norsk offentlig sektor)
Kostnad og lisensiering Verified (priseksempler) + Baseline (TCO-kalkulasjoner) MCP (Azure-priser) + estimering
For arkitekten (Cosmo) Baseline Erfaringsbaserte anbefalinger

Total MCP-kall: 4 (3x search, 2x fetch, 1x code samples) Total kilder: 6 unike Microsoft Learn URLer Konfidensfordeling: 70% Verified (MCP), 30% Baseline (modellkunnskap + estimering)