Kjell Tore Guttormsen 6a7632146e feat(ms-ai-architect): add plugin to open marketplace (v1.5.0 baseline)

Initial addition of ms-ai-architect plugin to the open-source marketplace.
Private content excluded: orchestrator/ (Linear tooling), docs/utredning/
(client investigation), generated test reports and PDF export script.
skill-gen tooling moved from orchestrator/ to scripts/skill-gen/.

Security scan: WARNING (risk 20/100) — no secrets, no injection found.
False positive fixed: added gitleaks:allow to Python variable reference
in output-validation-grounding-verification.md line 109.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-04-07 17:17:17 +02:00

25 KiB

Raw Blame History

GenAIOps - LLM-Specific MLOps Practices

Dato: 2026-02-04 Kategori: MLOps & GenAIOps Konfidensgrad: Høy (basert på 18 MCP-kilder fra Microsoft Learn)

Introduksjon

GenAIOps (Generative AI Operations), også kalt LLMOps, beskriver operasjonelle praksiser og strategier for håndtering av store språkmodeller (LLMs) i produksjon. Mens tradisjonell MLOps fokuserer på å trene og deploye diskriminative modeller, handler GenAIOps om å velge, tilpasse, orkestrere og overvåke eksisterende foundation models.

Forskjell mellom MLOps og GenAIOps

Dimensjon	Tradisjonell MLOps	GenAIOps (LLMOps)
Primært fokus	Trene nye modeller fra scratch	Konsumere og fine-tune eksisterende foundation models
Artefakter	Trainede modeller (pkl, ONNX)	Prompts, orchestrators, agents, chains, grounding data
Evaluering	Accuracy, precision, recall (deterministiske)	Groundedness, relevance, coherence, fluency (LLM-as-judge)
Infrastruktur	Modell-serving endepunkter	Orchestrators, vector stores, API gateways, LLM endpoints
Deployment	Modellversjonering	Modell + prompt + grounding data + orchestrator
Monitoring	Model drift, data drift	Data drift + prompt effectiveness + content safety + token usage

Konfidensgrad: 95% — Microsoft dokumentasjon definerer eksplisitt disse forskjellene.

Kjernekomponenter

1. Prompt Engineering og Prompt Registry

Hva: Strukturert håndtering av system- og user prompts som versjonerte artefakter.

Hvorfor: Prompts er den primære "koden" i GenAI-løsninger. Endringer i prompts påvirker output like mye som kodeendringer.

Hvordan (Azure):

MLflow Prompt Registry (Databricks): Versjonert prompt-håndtering med aliaser (f.eks. production, staging)
Azure AI Foundry Prompt Flow: Visuell prompt designer med versjonering og CI/CD-integrasjon
Semantic Kernel Prompt Functions: Prompts som code-artefakter i .txt-filer med Handlebars-syntax

# MLflow Prompt Registry eksempel
import mlflow

prompt = mlflow.genai.register_prompt(
    name="mycatalog.myschema.customer_support",
    template="You are a helpful assistant. Answer this question: {{question}}",
    commit_message="Initial customer support prompt"
)

mlflow.genai.set_prompt_alias(
    name="mycatalog.myschema.customer_support",
    alias="production",
    version=1
)

# I applikasjon
prompt = mlflow.genai.load_prompt(
    name_or_uri="prompts:/mycatalog.myschema.customer_support@production"
)
response = llm.invoke(prompt.format(question="How do I reset my password?"))

Konfidensgrad: 90% — Prompt Registry er dokumentert, men adoption rates varierer.

2. Orchestration Layer

Hva: Systemet som håndterer logikk, kaller datakilder/agenter, genererer prompts og kaller LLM-modeller.

Hvorfor: Generative AI-løsninger er ikke bare modellen — de er komplekse workflows som krever orkestrering.

Microsoft-alternativer:

Azure AI Foundry Agent Service: Low-code agent-orkestrering
Microsoft Agent Framework SDK (Semantic Kernel): Code-first orkestrering med C#/Python
Prompt Flow: Visuell workflow-designer for LLM-chains
LangChain/LlamaIndex: Open source (støttes av Azure ML)

Deployment:

Azure App Service (containerized orchestrator)
Azure Container Apps (serverless orchestrator)
Azure Kubernetes Service (high-scale orchestrator)
Azure Machine Learning Managed Online Endpoints

Konfidensgrad: 85% — Mange deployment-alternativer, best practice varierer med use case.

3. Vector Stores og Grounding Data

Hva: Datalagringsløsninger for RAG (Retrieval-Augmented Generation) som støtter vektor-søk.

Azure-alternativer:

Azure AI Search: Hybrid search (full-text + vector + semantic)
Azure Cosmos DB for MongoDB vCore: Vector search capabilities
Azure Database for PostgreSQL (pgvector): Open source vector extension
Databricks Vector Search: Delta table-basert, auto-syncing

DataOps-utvidelser for GenAIOps:

Chunking pipelines: Split dokumenter i semantisk meningsfulle chunks (Azure Machine Learning pipelines)
Embedding generation: Batch-generering av embeddings (Azure OpenAI text-embedding-ada-002 / text-embedding-3-small)
Index maintenance: Incremental updates vs. full rebuilds (compliance: right-to-be-forgotten)
Data freshness: Real-time vs. batch refresh (business requirements)

Konfidensgrad: 90% — Dokumentert arkitektur, men chunking-strategier er eksperimentelle.

4. Evaluation Framework

Hva: LLM-spesifikke evalueringsmetrikker og human-in-the-loop feedback.

Azure AI Foundry Evaluation SDK:

from azure.ai.evaluation import evaluate, RelevanceEvaluator, CoherenceEvaluator

model_config = {
    "azure_endpoint": os.environ.get("AZURE_OPENAI_ENDPOINT"),
    "api_key": os.environ.get("AZURE_OPENAI_KEY"),
    "azure_deployment": os.environ.get("AZURE_OPENAI_DEPLOYMENT"),
}

result = evaluate(
    data="test_data.jsonl",
    evaluators={
        "relevance": RelevanceEvaluator(model_config=model_config),
        "coherence": CoherenceEvaluator(model_config=model_config),
    },
    evaluator_config={
        "relevance": {
            "column_mapping": {
                "query": "${data.query}",
                "ground_truth": "${data.ground_truth}",
                "response": "${outputs.response}"
            }
        }
    },
    azure_ai_project=azure_ai_project,
    output_path="./evaluation_results.json"
)

Evaluerings-dimensjoner:

Use case	Metrikker
RAG	Groundedness, relevance, coherence, fluency
Summarization	ROUGE, BLEU, BERTScore, METEOR
Translation	BLEU
Classification	Precision, recall, accuracy, F1
Content Safety	Hate/violence/sexual/self-harm scores (Azure AI Content Safety)

Human Feedback Loop:

Mosaic AI Agent Framework Review App (Databricks): UI for human reviewers
Application Insights: Thumbs up/down fra sluttbrukere
Custom feedback APIs: Integrasjon i enterprise workflows

Konfidensgrad: 95% — Built-in evaluators er godt dokumentert.

5. CI/CD for GenAIOps

GenAIOps Prompt Flow Template (Microsoft-anbefalt):

Repository: microsoft/genaiops-promptflow-template
CI/CD: GitHub Actions eller Azure DevOps Pipelines
Lifecycle: Feature branch → PR → Dev → Staging → Production

Pipeline-faser:

PR Pipeline (CI):
- Flow validation
- Unit testing av custom Python code
- Variant experimentation
- Evaluation runs mot test data
Dev Pipeline (CI + CD):
- Batch testing
- Model/prompt registration (conditional)
- Human-in-the-loop approval gate
- Deployment til dev/staging endpoints
Production Pipeline (CD):
- Blue-green deployment
- A/B testing (traffic splitting)
- Canary deployment
- Rollback capabilities

Azure DevOps-integrasjon:

# Eksempel: Prompt Flow evaluation i Azure Pipelines
- task: AzureCLI@2
  displayName: 'Run Prompt Flow Evaluation'
  inputs:
    azureSubscription: 'AzureML-ServiceConnection'
    scriptType: 'bash'
    scriptLocation: 'inlineScript'
    inlineScript: |
      az ml job create --file evaluation-job.yaml \
        --workspace-name $(ML_WORKSPACE) \
        --resource-group $(RESOURCE_GROUP)

Konfidensgrad: 85% — Template er aktiv (2025), men requires customization.

6. Monitoring og Observability

LLM-spesifikke overvåkningsdimensjoner:

Dimensjon	Hva overvåkes	Azure-verktøy
Operational	Latency, token usage, 429 errors, endpoint availability	Azure Monitor, Application Insights
Quality	Groundedness, relevance, coherence, fluency (sampled)	Azure Machine Learning Model Monitoring (Generation Quality Signal)
Safety	Harmful content detection (hate, violence, sexual, self-harm)	Azure AI Content Safety (real-time filtering)
Cost	Token consumption per user/session, quota utilization	Azure Cost Management, API Management gateway logs
Data drift	Changes in user query patterns, grounding data staleness	Azure ML Data Drift monitors
Feedback	User ratings (thumbs up/down), session abandonment rate	Custom telemetry (Application Insights)

MLflow Tracing for GenAI:

import mlflow

# Automatisk tracing av OpenAI calls
mlflow.openai.autolog()

# Custom trace decorators
@mlflow.trace
def my_rag_app(query: str):
    context = retrieve_from_vector_store(query)
    prompt = format_prompt(query, context)
    response = llm.invoke(prompt)
    return response

Azure AI Foundry Monitoring (SDK v2):

from azure.ai.ml.entities import (
    MonitorSchedule, GenerationSafetyQualitySignal,
    GenerationTokenStatisticsSignal
)

# Quality monitoring
gsq_signal = GenerationSafetyQualitySignal(
    connection_id=aoai_connection_id,
    metric_thresholds={
        "groundedness": {"aggregated_groundedness_pass_rate": 0.7},
        "relevance": {"aggregated_relevance_pass_rate": 0.7},
    },
    production_data=[production_data],
    sampling_rate=1.0
)

# Token monitoring
token_signal = GenerationTokenStatisticsSignal()

monitor = MonitorSchedule(
    name="genai-monitor",
    trigger=CronTrigger(expression="15 10 * * *"),
    create_monitor=MonitorDefinition(
        monitoring_signals={"quality": gsq_signal, "tokens": token_signal}
    )
)

Konfidensgrad: 90% — Monitoring capabilities er dokumentert, men sampling rates må justeres for cost.

Arkitekturmønstre

1. Fine-Tuning Pattern

Når: Foundation model trenger domenespesifikk kunnskap som ikke kan oppnås med prompting alene.

Workflow:

Data preparation (JSONL format for Azure OpenAI)
Fine-tuning job (Azure OpenAI Studio eller REST API)
Model evaluation (hold-out test set)
Model deployment (dedicated PTU deployment for production)
A/B testing (new fine-tuned model vs. base model)

MLOps-overlap: 80% — Kan gjenbruke eksisterende DataOps og model training pipelines.

Konfidensgrad: 90% — Microsoft dokumenterer end-to-end fine-tuning workflow.

2. Prompt Engineering Pattern

Når: Use case kan løses med zero-shot, few-shot eller Chain-of-Thought prompting.

Artefakter:

System prompt (persona, tone, constraints)
User prompt template (Jinja2, Handlebars)
Few-shot examples (stored in Prompt Registry)

Workflow:

Prompt experimentation (Prompt Flow designer)
Variant testing (A/B testing av ulike prompts)
Evaluation (LLM-as-judge metrics)
Prompt versioning (Prompt Registry)
Deployment (orchestrator henter versioned prompt)

MLOps-utvidelse: Ny — Prompts som first-class artifacts.

Konfidensgrad: 85% — Best practices fremdeles emergent (2025).

3. RAG (Retrieval-Augmented Generation) Pattern

Når: LLM trenger domain-specific eller real-time data for å svare korrekt.

Microsoft RAG Architecture:

[User Query]
    → [Orchestrator (Prompt Flow / Semantic Kernel)]
        → [Embedding Model (Azure OpenAI text-embedding-3-small)]
        → [Vector Store (Azure AI Search hybrid search)]
        → [Retrieval (top-k chunks)]
        → [Prompt Construction (query + context)]
        → [LLM (Azure OpenAI GPT-4o)]
        → [Response]

Experimentation-dimensjoner:

Chunking strategy (fixed-size, semantic, recursive)
Chunk size (512, 1024, 2048 tokens)
Chunk overlap (0%, 10%, 20%)
Embedding model (ada-002, text-embedding-3-small, text-embedding-3-large)
Retrieval method (vector, full-text, hybrid, semantic ranker)
Top-k (3, 5, 10 chunks)
Reranking (Azure AI Search semantic ranker, cross-encoder models)

DataOps-utvidelse:

Index versioning: Snapshot av chunked data + embeddings
Incremental updates: Add/update/delete chunks uten full rebuild
Freshness policies: Real-time (change data capture) vs. batch (nightly)
GDPR compliance: Right-to-be-forgotten (delete user data from vector store)

Konfidensgrad: 95% — RAG er den mest dokumenterte GenAIOps-patternern.

Beslutningsveiledning

Når velge hva?

Scenario	Anbefaling	Begrunnelse
Foundation model er "good enough"	Prompt Engineering	Lavest kostnad, raskest time-to-market
Trenger domenekunnskap, har kvalitetsdata	Fine-Tuning	Bedre ytelse enn few-shot, men krever PTU for production
Trenger real-time data eller stor knowledge base	RAG	Unngår staleness, kan oppdatere uten retraining
Høy security/compliance	RAG + Azure AI Search (RBAC)	Data forblir i vector store, ikke "bakt inn" i modellen
Multimodal (tekst + bilde)	Prompt Engineering (GPT-4o/GPT-4 Turbo)	Foundation models støtter multimodal input

Konfidensgrad: 85% — Valg avhenger av use case-spesifikke trade-offs.

GenAIOps Maturity Model (Microsoft)

Nivå 1 - Initial (0-9 poeng):

Eksperimenterer med LLM APIs
Manuell prompt engineering
Ingen strukturerte evalueringer

Nivå 2 - Defined (10-14 poeng):

Systematisk prompt development
CI/CD for flows (basic)
Grunnleggende evaluering (groundedness, relevance)

Nivå 3 - Managed (15-19 poeng):

Proaktiv monitoring (quality + safety)
Fine-tuning workflows
Advanced version control (prompts + data + models)

Nivå 4 - Optimized (20-28 poeng):

Full automation (CI/CD + monitoring + retraining)
A/B testing i produksjon
Continuous improvement loops (feedback → retraining)

Selvvurdering: GenAIOps Maturity Model Assessment

Konfidensgrad: 95% — Offisiell Microsoft assessment.

Integrasjon med Microsoft-stakken

Azure AI Foundry (tidligere Azure AI Studio)

Hva: Unified platform for GenAI lifecycle management.

GenAIOps capabilities:

Model Catalog: Browse 1600+ foundation models (OpenAI, Meta, Mistral, Cohere)
Prompt Flow: Visual designer for LLM workflows
Evaluation SDK: Built-in evaluators (groundedness, relevance, coherence, fluency, safety)
Content Safety: Real-time filtering (hate, violence, sexual, self-harm)
Model fine-tuning: Azure OpenAI fine-tuning jobs
Deployment: Managed Online Endpoints (serverless, PTU, PAYG)
Monitoring: Generation Quality Signal + Token Statistics Signal

Konfidensgrad: 95% — Azure AI Foundry er Microsoft sitt flagship GenAI-verktøy (2025).

Azure Machine Learning

Hva: Enterprise MLOps-plattform som utvides med GenAIOps capabilities.

GenAIOps features:

Prompt Flow integration: Author flows i AML Studio
MLflow: Experiment tracking + model registry (støtter LLM artifacts)
Pipelines: Orchestrate chunking, embedding, evaluation workflows
Managed Online Endpoints: Deploy orchestrators (Docker containers)
Model Monitoring: Data drift + model decay (LLM-specific metrics coming)

Konfidensgrad: 90% — AML støtter GenAIOps, men Foundry er mer fokusert.

Azure Databricks

Hva: Unified analytics platform med Mosaic AI (LLMOps suite).

LLMOps features:

Unity Catalog: Unified governance (models, prompts, vector indexes)
MLflow for GenAI: Prompt Registry, LLM tracing, autologging
Vector Search: Delta table-based, auto-syncing indexes
Model Serving: Unified endpoint for OpenAI, open-source og custom models
Mosaic AI Agent Framework: Build, evaluate, deploy agents
AI Gateway: Centralized governance for multiple LLM providers

Konfidensgrad: 95% — Databricks har dedikert LLMOps docs (mest moden platform).

API Management som LLM Gateway

Hva: Centralized gateway foran Azure OpenAI og eksterne LLM APIs.

GenAIOps use cases:

Load balancing: Distribuer trafikk over multiple Azure OpenAI instances
Throttling: Rate limiting per user/subscription
Token tracking: Centralized logging av token consumption
Cost allocation: Chargeback til teams basert på usage
A/B testing: Route 10% traffic til ny modell, 90% til gammel
Circuit breaker: Failover til backup LLM provider (OpenAI → Mistral)

Konfidensgrad: 90% — API Management for LLM er dokumentert pattern (2025).

Offentlig sektor (Norge)

Compliance-dimensjoner

Krav	GenAIOps-implikasjon
GDPR Article 17 (right to be forgotten)	Vector stores må støtte incremental deletion. Azure AI Search støtter dette.
Utredningsinstruksen (KS/KMD)	Prompt versioning + evaluation results = audit trail for AI-beslutninger
NSM Grunnprinsipper for IKT-sikkerhet	Content Safety må være enabled i production. Azure AI Content Safety er realtime.
Digdir Prinsipper for utvikling av digitale tjenester	Human-in-the-loop approval gates i CI/CD (GenAIOps template støtter dette)
AI Act (High-Risk AI Systems)	Logging av alle LLM-interaksjoner (MLflow tracing + Application Insights)

Konfidensgrad: 80% — Compliance-tolkning krever juridisk input.

Norsk språkstøtte

Utfordring: Foundation models (GPT-4, GPT-4o) er primært engelsk-trent.

GenAIOps-tilnærminger:

Multilingual prompts: Eksplisitt be om norsk output ("Svar på norsk")
Fine-tuning: Fine-tune GPT-4o på norske datasett (krever PTU)
RAG med norsk grounding data: Norske dokumenter i vector store (embeddings er multilingual)
NB-BERT embeddings: Bruk Norwegian BERT for embedding norske dokumenter (Azure AI Search custom embeddings)

Konfidensgrad: 70% — Norsk språkstøtte i GenAI er fortsatt eksperimentell (2025).

Kostnad og lisensiering

Token-basert prissetting (Azure OpenAI)

Modell	Input (1M tokens)	Output (1M tokens)	Bruksområde
GPT-4o	$2.50	$10.00	RAG, complex reasoning
GPT-4o-mini	$0.15	$0.60	High-volume classification
GPT-4 Turbo	$10.00	$30.00	Legacy (prefer GPT-4o)
GPT-3.5 Turbo	$0.50	$1.50	Cost-sensitive use cases
text-embedding-3-small	$0.02	N/A	Embedding generation

Priser er per februar 2025 (NOK-estimat: USD × 10.5).

Konfidensgrad: 95% — Azure OpenAI pricing er dokumentert.

Provisioned Throughput Units (PTU)

Hva: Dedikert kapasitet for forutsigbar latency og cost.

Når: Production workloads med >100M tokens/måned.

Kostnad: $36 000 - $48 000 per PTU per måned (avhenger av modell og region).

Konfidensgrad: 90% — PTU pricing varierer, krever Azure quote.

Cost Optimization Tactics

Prompt compression: Fjern unødvendige tokens fra system prompt
Caching: Azure OpenAI støtter prompt caching (50% discount på cached tokens)
Model downselection: Bruk GPT-4o-mini for classification, GPT-4o for reasoning
Batching: Async batch API (50% discount, men høyere latency)
Token limits: max_tokens parameter for å unngå runaway costs

Konfidensgrad: 95% — Cost optimization er godt dokumentert.

For arkitekten (Cosmo)

Spørsmål du ALLTID bør stille

"Trenger dere faktisk fine-tuning, eller holder prompting?"
- 80% av use cases løses med RAG + prompt engineering.
- Fine-tuning krever PTU (dyrt) og mer ops-kompleksitet.
"Hva er kvalitetskravet?"
- Pass rate på 70% (groundedness) er typisk for MVP.
- Pass rate på 90%+ krever extensive evaluation og tuning.
"Har dere plan for human feedback loop?"
- Thumbs up/down i UI → Application Insights → Retraining pipeline.
- Uten feedback loop, modellen degraderer over tid.
"Hva er token-budsjettet?"
- 1M requests × 1000 tokens avg = 1B tokens/måned = ~$12,500 USD med GPT-4o.
- PTU blir billigere ved >100M tokens/måned.
"Hvordan håndterer dere GDPR right-to-be-forgotten i vector store?"
- Azure AI Search: Incremental deletion støttes.
- Databricks Vector Search: Delta table-based, soft delete.

Red Flags

❌ "Vi trenger ikke evaluering, vi bare deployer" → Uten groundedness/relevance metrics, ingen måte å vite om LLM hallusinerer.

❌ "Vi lagrer alle prompts i hardkoded strings" → Prompts MÅ være versjonerte artefakter (Prompt Registry eller Git).

❌ "Vi overvåker bare latency, ikke quality" → LLM kan svare raskt med feil svar. Quality monitoring er kritisk.

❌ "Vi trenger ikke content safety, det er et B2B-system" → Prompt injection attacks kan få LLM til å lekke data selv i enterprise-systemer.

Anbefalte Steg for Pilot (MVP)

Uke 1-2: Setup

Provisioner Azure AI Foundry project
Deploy Azure OpenAI (GPT-4o + text-embedding-3-small)
Setup Azure AI Search (vector index)
Enable Azure AI Content Safety

Uke 3-4: Development

Bygg RAG flow i Prompt Flow
Test med 10-20 representative queries
Evaluer med built-in evaluators (groundedness, relevance)
Iterer på chunking strategy og retrieval method

Uke 5-6: CI/CD

Clone GenAIOps Prompt Flow template
Setup GitHub Actions / Azure DevOps pipelines
Implementer human-in-the-loop approval gate
Deploy til dev endpoint

Uke 7-8: Production Prep

Setup monitoring (quality + tokens + safety)
Implement feedback loop (thumbs up/down)
Load testing (PTU vurdering)
Deploy til production endpoint (blue-green)

Konfidensgrad: 90% — Basert på Microsoft LLMOps workshop (2025).

Kilder og verifisering

Microsoft Learn-kilder (18 dokumenter)

MCP-kall utført

microsoft_docs_search: 3 søk (GenAIOps overview, LLMOps best practices, lifecycle)
microsoft_docs_fetch: 3 hentinger (maturity model, genaiops-for-mlops, databricks llmops)
microsoft_code_sample_search: 2 søk (evaluation Python code, monitoring code)

Totalt: 18 kilder, 8 MCP-kall.

Verifiseringsdato: 2026-02-04

For Cosmo Skyberg:

Denne kunnskapsfilen dekker det operasjonelle rammeverket for GenAI-løsninger — hvordan du går fra prototype til production med repeatable processes. Fokus er på Microsoft-spesifikke verktøy (Azure AI Foundry, Prompt Flow, MLflow, Databricks Mosaic AI), men prinsippene er portable til andre platforms.

Viktigste takeaway: GenAIOps er MLOps + Prompt Ops + Orchestration Ops + Vector Store Ops. Det er MER enn bare model deployment — det er hele økosystemet rundt LLM-baserte applikasjoner.

Når kunder spør "hvordan setter vi LLM i produksjon?", start med GenAIOps Maturity Model for å kartlegge hvor de er, og bruk GenAIOps Prompt Flow Template som konkret utgangspunkt.

25 KiB Raw Blame History Unescape Escape