Kjell Tore Guttormsen 34c6db36fa docs(architect): weekly KB update — 52 files refreshed (2026-04)

Key content changes:
- MLOps: MLflow 3 scorers expanded (RetrievalRelevance, Fluency, multi-turn judges)
- MLflow 3 A/B eval: mirror_traffic GA confirmed, new scorer catalog
- CI/CD: OIDC auth replaces deprecated --sdk-auth (Azure ML GitHub Actions)
- Agent framework A2A: updated SDK patterns (A2ACardResolver, BearerAuth)
- AG-UI backend tool rendering: accurate TOOL_CALL_* event shapes
- Computer Use agents: US region requirement, credentials patterns
- Purview governance: bulk term edit, expire/delete workflows
- CAF AI Secure: 3-phase structure confirmed current
- Copilot Studio: Claude Sonnet 4.5/4.6 GA, new orchestration controls
- M365 manifest: v1.26 GA (April 2026), copilotAgents node
- Power Platform: agent flow capacity enforcement corrected
- Azure Monitor: Simple Log Alerts GA, AMBA for policy-based alerting
- Security Copilot: SCU capacity model (400 SCU/1000 users)
- EU Data Boundary: all EU + EFTA countries confirmed
- gateway-multi-backend: added 4th topology, subscription-level quota note

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-10 11:31:11 +02:00

18 KiB

Raw Blame History

GenAIOps - LLM-Specific MLOps Practices

Dato: 2026-02-04 Last updated: 2026-04 Kategori: MLOps & GenAIOps Konfidensgrad: Høy (basert på 18 MCP-kilder fra Microsoft Learn)

Introduksjon

GenAIOps (Generative AI Operations), også kalt LLMOps, beskriver operasjonelle praksiser og strategier for håndtering av store språkmodeller (LLMs) i produksjon. Mens tradisjonell MLOps fokuserer på å trene og deploye diskriminative modeller, handler GenAIOps om å velge, tilpasse, orkestrere og overvåke eksisterende foundation models.

MLflow 3 Tracing — GenAI Observability

MLflow Tracing provides end-to-end observability for GenAI applications:

Records inputs, outputs, intermediate steps, and metadata
Supports complex agent-based systems and multi-turn conversations
Integrates with Genie Code for natural language trace analysis
Enables: debugging, performance monitoring, cost optimization, auditability
Production monitoring reuses same scorers as development evaluation (consistent lifecycle)

1. Fine-Tuning Pattern

Når: Foundation model trenger domenespesifikk kunnskap som ikke kan oppnås med prompting alene.

Workflow:

Data preparation (JSONL format for Azure OpenAI)
Fine-tuning job (Azure OpenAI Studio eller REST API)
Model evaluation (hold-out test set)
Model deployment (dedicated PTU deployment for production)
A/B testing (new fine-tuned model vs. base model)

MLOps-overlap: 80% — Kan gjenbruke eksisterende DataOps og model training pipelines.

Konfidensgrad: 90% — Microsoft dokumenterer end-to-end fine-tuning workflow.

2. Prompt Engineering Pattern

Når: Use case kan løses med zero-shot, few-shot eller Chain-of-Thought prompting.

Artefakter:

System prompt (persona, tone, constraints)
User prompt template (Jinja2, Handlebars)
Few-shot examples (stored in Prompt Registry)

Workflow:

Prompt experimentation (Prompt Flow designer)
Variant testing (A/B testing av ulike prompts)
Evaluation (LLM-as-judge metrics)
Prompt versioning (Prompt Registry)
Deployment (orchestrator henter versioned prompt)

MLOps-utvidelse: Ny — Prompts som first-class artifacts.

Konfidensgrad: 85% — Best practices fremdeles emergent (2025).

3. RAG (Retrieval-Augmented Generation) Pattern

Når: LLM trenger domain-specific eller real-time data for å svare korrekt.

Microsoft RAG Architecture:

[User Query]
    → [Orchestrator (Prompt Flow / Semantic Kernel)]
        → [Embedding Model (Azure OpenAI text-embedding-3-small)]
        → [Vector Store (Azure AI Search hybrid search)]
        → [Retrieval (top-k chunks)]
        → [Prompt Construction (query + context)]
        → [LLM (Azure OpenAI GPT-4o)]
        → [Response]

Experimentation-dimensjoner:

Chunking strategy (fixed-size, semantic, recursive)
Chunk size (512, 1024, 2048 tokens)
Chunk overlap (0%, 10%, 20%)
Embedding model (ada-002, text-embedding-3-small, text-embedding-3-large)
Retrieval method (vector, full-text, hybrid, semantic ranker)
Top-k (3, 5, 10 chunks)
Reranking (Azure AI Search semantic ranker, cross-encoder models)

DataOps-utvidelse:

Index versioning: Snapshot av chunked data + embeddings
Incremental updates: Add/update/delete chunks uten full rebuild
Freshness policies: Real-time (change data capture) vs. batch (nightly)
GDPR compliance: Right-to-be-forgotten (delete user data from vector store)

Konfidensgrad: 95% — RAG er den mest dokumenterte GenAIOps-patternern.

Beslutningsveiledning

Når velge hva?

Scenario	Anbefaling	Begrunnelse
Foundation model er "good enough"	Prompt Engineering	Lavest kostnad, raskest time-to-market
Trenger domenekunnskap, har kvalitetsdata	Fine-Tuning	Bedre ytelse enn few-shot, men krever PTU for production
Trenger real-time data eller stor knowledge base	RAG	Unngår staleness, kan oppdatere uten retraining
Høy security/compliance	RAG + Azure AI Search (RBAC)	Data forblir i vector store, ikke "bakt inn" i modellen
Multimodal (tekst + bilde)	Prompt Engineering (GPT-4o/GPT-4 Turbo)	Foundation models støtter multimodal input

Konfidensgrad: 85% — Valg avhenger av use case-spesifikke trade-offs.

GenAIOps Maturity Model (Microsoft)

Nivå 1 - Initial (0-9 poeng):

Eksperimenterer med LLM APIs
Manuell prompt engineering
Ingen strukturerte evalueringer

Nivå 2 - Defined (10-14 poeng):

Systematisk prompt development
CI/CD for flows (basic)
Grunnleggende evaluering (groundedness, relevance)

Nivå 3 - Managed (15-19 poeng):

Proaktiv monitoring (quality + safety)
Fine-tuning workflows
Advanced version control (prompts + data + models)

Nivå 4 - Optimized (20-28 poeng):

Full automation (CI/CD + monitoring + retraining)
A/B testing i produksjon
Continuous improvement loops (feedback → retraining)

Selvvurdering: GenAIOps Maturity Model Assessment

Konfidensgrad: 95% — Offisiell Microsoft assessment.

Integrasjon med Microsoft-stakken

Azure AI Foundry (tidligere Azure AI Studio)

Hva: Unified platform for GenAI lifecycle management.

GenAIOps capabilities:

Model Catalog: Browse 1600+ foundation models (OpenAI, Meta, Mistral, Cohere)
Prompt Flow: Visual designer for LLM workflows
Evaluation SDK: Built-in evaluators (groundedness, relevance, coherence, fluency, safety)
Content Safety: Real-time filtering (hate, violence, sexual, self-harm)
Model fine-tuning: Azure OpenAI fine-tuning jobs
Deployment: Managed Online Endpoints (serverless, PTU, PAYG)
Monitoring: Generation Quality Signal + Token Statistics Signal

Konfidensgrad: 95% — Azure AI Foundry er Microsoft sitt flagship GenAI-verktøy (2025).

Azure Machine Learning

Hva: Enterprise MLOps-plattform som utvides med GenAIOps capabilities.

GenAIOps features:

Prompt Flow integration: Author flows i AML Studio
MLflow: Experiment tracking + model registry (støtter LLM artifacts)
Pipelines: Orchestrate chunking, embedding, evaluation workflows
Managed Online Endpoints: Deploy orchestrators (Docker containers)
Model Monitoring: Data drift + model decay (LLM-specific metrics coming)

Konfidensgrad: 90% — AML støtter GenAIOps, men Foundry er mer fokusert.

Azure Databricks

Hva: Unified analytics platform med Mosaic AI (LLMOps suite).

LLMOps features:

Unity Catalog: Unified governance (models, prompts, vector indexes)
MLflow for GenAI: Prompt Registry, LLM tracing, autologging
Vector Search: Delta table-based, auto-syncing indexes
Model Serving: Unified endpoint for OpenAI, open-source og custom models
Mosaic AI Agent Framework: Build, evaluate, deploy agents
AI Gateway: Centralized governance for multiple LLM providers

Konfidensgrad: 95% — Databricks har dedikert LLMOps docs (mest moden platform).

API Management som LLM Gateway

Hva: Centralized gateway foran Azure OpenAI in Foundry Models og andre LLM APIs.

GenAIOps use cases:

Load balancing: Distribuer trafikk over multiple Azure OpenAI instances (med health endpoint monitoring og circuit breaking)
Throttling: Rate limiting per user/subscription (token-per-minute og requests-per-minute)
Token tracking: Centralized logging av token consumption (cross-model observability)
Cost allocation: Chargeback til teams basert på usage (showback/chargeback for multitenant)
A/B testing / Safe deployment: Route 10% traffic til ny modell, 90% til gammel
Circuit breaker: Failover til backup LLM provider (OpenAI → Mistral)
Federated authentication: Extend client auth beyond Entra ID and API keys
Data sovereignty: Enforce regional routing compliance for GDPR

Implementasjonsalternativer (Verified MCP 2026-04):

Azure API Management (anbefalt) — PaaS, built-in Azure OpenAI policies (Limit Azure OpenAI API token usage, Emit metrics for consumption), zone-redundant, multi-region. Bruk GenAI gateway toolkit for custom policies + load-testing.
Custom code — Deploy gateway-logikk til App Service, Container Apps eller AKS. Kan frontes av API Management for HTTP-gateway capabilities.

Viktig: Global og data zone deployments i Azure OpenAI (som distribuerer kapasitet på tvers av datasentre) er i seg selv en gateway-implementasjon — vurder om disse dekker behovet FØR du legger til ekstra gateway-lag.

Konfidensgrad: 90% — API Management for LLM er dokumentert pattern (Verified MCP 2026-04).

Offentlig sektor (Norge)

Compliance-dimensjoner

Krav	GenAIOps-implikasjon
GDPR Article 17 (right to be forgotten)	Vector stores må støtte incremental deletion. Azure AI Search støtter dette.
Utredningsinstruksen (KS/KMD)	Prompt versioning + evaluation results = audit trail for AI-beslutninger
NSM Grunnprinsipper for IKT-sikkerhet	Content Safety må være enabled i production. Azure AI Content Safety er realtime.
Digdir Prinsipper for utvikling av digitale tjenester	Human-in-the-loop approval gates i CI/CD (GenAIOps template støtter dette)
AI Act (High-Risk AI Systems)	Logging av alle LLM-interaksjoner (MLflow tracing + Application Insights)

Konfidensgrad: 80% — Compliance-tolkning krever juridisk input.

Norsk språkstøtte

Utfordring: Foundation models (GPT-4, GPT-4o) er primært engelsk-trent.

GenAIOps-tilnærminger:

Multilingual prompts: Eksplisitt be om norsk output ("Svar på norsk")
Fine-tuning: Fine-tune GPT-4o på norske datasett (krever PTU)
RAG med norsk grounding data: Norske dokumenter i vector store (embeddings er multilingual)
NB-BERT embeddings: Bruk Norwegian BERT for embedding norske dokumenter (Azure AI Search custom embeddings)

Konfidensgrad: 70% — Norsk språkstøtte i GenAI er fortsatt eksperimentell (2025).

Kostnad og lisensiering

Token-basert prissetting (Azure OpenAI)

Modell	Input (1M tokens)	Output (1M tokens)	Bruksområde
GPT-4o	$2.50	$10.00	RAG, complex reasoning
GPT-4o-mini	$0.15	$0.60	High-volume classification
GPT-4 Turbo	$10.00	$30.00	Legacy (prefer GPT-4o)
GPT-3.5 Turbo	$0.50	$1.50	Cost-sensitive use cases
text-embedding-3-small	$0.02	N/A	Embedding generation

Priser er per februar 2025 (NOK-estimat: USD × 10.5).

Konfidensgrad: 95% — Azure OpenAI pricing er dokumentert.

Provisioned Throughput Units (PTU)

Hva: Dedikert kapasitet for forutsigbar latency og cost.

Når: Production workloads med >100M tokens/måned.

Kostnad: $36 000 - $48 000 per PTU per måned (avhenger av modell og region).

Konfidensgrad: 90% — PTU pricing varierer, krever Azure quote.

Cost Optimization Tactics

Prompt compression: Fjern unødvendige tokens fra system prompt
Caching: Azure OpenAI støtter prompt caching (50% discount på cached tokens)
Model downselection: Bruk GPT-4o-mini for classification, GPT-4o for reasoning
Batching: Async batch API (50% discount, men høyere latency)
Token limits: max_tokens parameter for å unngå runaway costs

Konfidensgrad: 95% — Cost optimization er godt dokumentert.

For arkitekten (Cosmo)

Spørsmål du ALLTID bør stille

"Trenger dere faktisk fine-tuning, eller holder prompting?"
- 80% av use cases løses med RAG + prompt engineering.
- Fine-tuning krever PTU (dyrt) og mer ops-kompleksitet.
"Hva er kvalitetskravet?"
- Pass rate på 70% (groundedness) er typisk for MVP.
- Pass rate på 90%+ krever extensive evaluation og tuning.
"Har dere plan for human feedback loop?"
- Thumbs up/down i UI → Application Insights → Retraining pipeline.
- Uten feedback loop, modellen degraderer over tid.
"Hva er token-budsjettet?"
- 1M requests × 1000 tokens avg = 1B tokens/måned = ~$12,500 USD med GPT-4o.
- PTU blir billigere ved >100M tokens/måned.
"Hvordan håndterer dere GDPR right-to-be-forgotten i vector store?"
- Azure AI Search: Incremental deletion støttes.
- Databricks Vector Search: Delta table-based, soft delete.

Red Flags

❌ "Vi trenger ikke evaluering, vi bare deployer" → Uten groundedness/relevance metrics, ingen måte å vite om LLM hallusinerer.

❌ "Vi lagrer alle prompts i hardkoded strings" → Prompts MÅ være versjonerte artefakter (Prompt Registry eller Git).

❌ "Vi overvåker bare latency, ikke quality" → LLM kan svare raskt med feil svar. Quality monitoring er kritisk.

❌ "Vi trenger ikke content safety, det er et B2B-system" → Prompt injection attacks kan få LLM til å lekke data selv i enterprise-systemer.

Anbefalte Steg for Pilot (MVP)

Uke 1-2: Setup

Provisioner Azure AI Foundry project
Deploy Azure OpenAI (GPT-4o + text-embedding-3-small)
Setup Azure AI Search (vector index)
Enable Azure AI Content Safety

Uke 3-4: Development

Bygg RAG flow i Prompt Flow
Test med 10-20 representative queries
Evaluer med built-in evaluators (groundedness, relevance)
Iterer på chunking strategy og retrieval method

Uke 5-6: CI/CD

Clone GenAIOps Prompt Flow template
Setup GitHub Actions / Azure DevOps pipelines
Implementer human-in-the-loop approval gate
Deploy til dev endpoint

Uke 7-8: Production Prep

Setup monitoring (quality + tokens + safety)
Implement feedback loop (thumbs up/down)
Load testing (PTU vurdering)
Deploy til production endpoint (blue-green)

Konfidensgrad: 90% — Basert på Microsoft LLMOps workshop (2025).

Kilder og verifisering

Microsoft Learn-kilder (18 dokumenter)

MCP-kall utført

microsoft_docs_search: 3 søk (GenAIOps overview, LLMOps best practices, lifecycle)
microsoft_docs_fetch: 3 hentinger (maturity model, genaiops-for-mlops, databricks llmops)
microsoft_code_sample_search: 2 søk (evaluation Python code, monitoring code)

Totalt: 18 kilder, 8 MCP-kall.

Verifiseringsdato: 2026-02-04

For Cosmo Skyberg:

Denne kunnskapsfilen dekker det operasjonelle rammeverket for GenAI-løsninger — hvordan du går fra prototype til production med repeatable processes. Fokus er på Microsoft-spesifikke verktøy (Azure AI Foundry, Prompt Flow, MLflow, Databricks Mosaic AI), men prinsippene er portable til andre platforms.

Viktigste takeaway: GenAIOps er MLOps + Prompt Ops + Orchestration Ops + Vector Store Ops. Det er MER enn bare model deployment — det er hele økosystemet rundt LLM-baserte applikasjoner.

Når kunder spør "hvordan setter vi LLM i produksjon?", start med GenAIOps Maturity Model for å kartlegge hvor de er, og bruk GenAIOps Prompt Flow Template som konkret utgangspunkt.

18 KiB Raw Blame History Unescape Escape