Kjell Tore Guttormsen 9ea5a2e6c6 chore(privacy): scrub real-org references from plugin internals (phase 2)

Same bulk replacement applied to plugin-internal KB, examples, fixtures,
tests, and docs. Real organization names, persona names, internal system
identifiers, and domain-specific terms replaced with fictional generic
public-sector entity (DDT) and generic terminology.

Scope:
- okr/ — examples, governance, framework, integrations, sources
- ms-ai-architect/ — KB references (engineering, governance, security,
  infrastructure, advisor), tests/fixtures, agents, docs
- linkedin-thought-leadership/ — voice samples, network-builder,
  examples (genericized identifying headlines to "[your organization]")
- llm-security/ — research notes, scan report

Manual genericization beyond bulk replace:
- okr SKILL.md "Primary user / Domain" — generic Norwegian public sector
- linkedin-voice SKILL.md headline placeholder
- network-builder.md headline placeholder
- high-engagement-posts.md voice sample employer line + hashtag

Phase 3 (factual-attribution review) remains: a few KB files attribute
publicly known transport-sector docs/datasets (e.g. håndbok V440, NVDB)
to the fictional DDT after bulk replace. Needs manual semantic review
to either remove or restore correct citation without re-introducing
affiliation references.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-03 04:28:15 +02:00

16 KiB

Raw Blame History

Synthetic Data Generation for AI Training

Last updated: 2026-02 Status: GA / Preview (varies by feature) Category: Data Engineering for AI

Introduksjon

Syntetisk datagenerering er en stadig viktigere teknikk for AI-utvikling, spesielt i situasjoner der reelle data er begrenset, ubalansert, eller underlagt strenge personvernkrav. Ved å generere kunstige datasett som etterligner statistiske egenskaper ved reelle data, kan organisasjoner utvide treningsdata, adressere klasseimbalanser, og beskytte personvern -- uten å eksponere faktiske sensitive opplysninger.

For norsk offentlig sektor er syntetisk data spesielt relevant fordi tilgangen til treningsdata ofte er begrenset av GDPR, taushetsplikt og sikkerhetsklassifiseringer. Helsesektoren kan ikke dele pasientdata fritt, veisektoren har begrensninger på GPS-spor, og NAV har strenge regler for bruk av personopplysninger i maskinlæring. Syntetisk data tilbyr en lovlig vei til å bygge AI-modeller uten å bryte disse begrensningene.

Denne referansen dekker Azure AI Evaluation SDK sin Simulator-klasse for syntetisk datagenerering, integrasjon med Azure OpenAI for tekstsyntese, teknikker for klassebalansering, personvernbevarende syntetiske data, og validering av syntetisk datakvalitet.

Synthetic Data Generation Pipelines

Azure AI Evaluation SDK Simulator

Azure AI Evaluation SDK inneholder en Simulator-klasse (preview) som genererer syntetiske samtaler og oppgavebaserte interaksjoner:

# Installasjon
# pip install azure-identity azure-ai-evaluation promptflow-azure

from azure.ai.evaluation.simulator import Simulator

# Konfigurer modell
model_config = {
    "azure_endpoint": "https://<endpoint>.openai.azure.com/",
    "azure_deployment": "gpt-4o",
    "api_version": "2024-12-01-preview"
}

simulator = Simulator(model_config=model_config)

Generer fra tekst-input

import wikipedia

# Hent kildedokument
wiki_page = wikipedia.page("Norwegian Public Roads Administration")
source_text = wiki_page.summary[:5000]

# Generer syntetiske spørsmål-svar-par
outputs = await simulator(
    target=my_callback_function,
    text=source_text,
    num_queries=50,
    max_conversation_turns=3,
    tasks=[
        f"Svar på spørsmål basert på følgende tekst:\n{source_text}"
    ]
)

# Resultater i OpenAI messages-format
for conversation in outputs:
    for message in conversation["messages"]:
        print(f"{message['role']}: {message['content'][:100]}...")

Microsoft Foundry Synthetic Data (Preview)

Microsoft Foundry tilbyr en UI-drevet opplevelse for syntetisk data:

Åpne Microsoft Foundry Portal
Naviger til Fine-tuning > Generate Data
Last opp kildedokumenter eller beskriv ønsket data
Velg generatortype:

Generator-type	Beskrivelse	Output-format
Simple Q&A	Spørsmål-svar fra dokumenter	JSONL (messages)
Tool Use	API-kall fra OpenAPI spec	JSONL (tool calls)
Conversation	Multi-turn dialoger	JSONL (conversation)

Velg antall samples (50-1000)
Velg generator-modell (GPT-4o eller lignende)
Valgfritt: 80/20 train-validation split

Azure OpenAI Integration for Text Synthesis

Batch-generering med SynapseML

For stor-skala syntetisk tekstgenerering i Fabric:

# SynapseML + Azure OpenAI for batch-generering
import synapse.ml.core
from synapse.ml.services.openai import OpenAICompletion

# Konfigurer OpenAI-klient
completion = (
    OpenAICompletion()
    .setSubscriptionKey("<api-key>")
    .setDeploymentName("gpt-4o")
    .setCustomServiceName("<endpoint>")
    .setMaxTokens(500)
    .setPromptCol("prompt")
    .setErrorCol("error")
    .setOutputCol("generated_text")
)

# Lag prompts for syntetisk datagenerering
prompts_df = spark.createDataFrame([
    ("Generer en realistisk kundehenvendelse til Direktoratet for digital tjenesteutvikling om saksbehandling-fornyelse.",),
    ("Generer en syntetisk trafikkrapport for E6 ved Lillehammer med kødata.",),
    ("Generer et eksempel på en byggesøknad til Plan- og bygningsetaten.",),
], ["prompt"])

# Kjør batch-generering over Spark
results = completion.transform(prompts_df)
display(results.select("prompt", "generated_text"))

Strukturert syntetisk data med JSON-modus

from openai import AzureOpenAI
import json

client = AzureOpenAI(
    api_key="<key>",
    api_version="2024-12-01-preview",
    azure_endpoint="https://<endpoint>.openai.azure.com/"
)

def generate_synthetic_records(template_schema, num_records=100, domain="trafikk"):
    """Generer strukturerte syntetiske poster."""
    records = []
    for batch_start in range(0, num_records, 10):
        response = client.chat.completions.create(
            model="gpt-4o",
            response_format={"type": "json_object"},
            messages=[
                {"role": "system", "content": f"""
                Du er en datagenerator for {domain}-domenet i norsk offentlig sektor.
                Generer realistiske men helt fiktive dataposter.
                Bruk ALDRI ekte personnummer, navn eller adresser.
                Returner JSON med nøkkel 'records' som inneholder en liste.
                Skjema: {json.dumps(template_schema)}
                """},
                {"role": "user", "content": f"Generer 10 syntetiske poster."}
            ],
            temperature=0.8
        )
        batch = json.loads(response.choices[0].message.content)
        records.extend(batch["records"])
    return records

# Eksempel: Trafikkhendelses-data
schema = {
    "incident_id": "string (UUID)",
    "road": "string (E6, E18, Rv4, etc.)",
    "location_km": "float",
    "incident_type": "string (ulykke, køkjøring, veiarbeid, dyr_i_veien)",
    "severity": "int (1-5)",
    "timestamp": "ISO datetime",
    "description": "string (norsk tekst, 1-3 setninger)"
}

synthetic_incidents = generate_synthetic_records(schema, num_records=500, domain="trafikk")

Balancing Class Imbalances with Synthetic Samples

Oversamplings-teknikker

Teknikk	Beskrivelse	Bruk for AI
SMOTE	Syntetisk oversampling i feature-rom	Tabelldata, klassifisering
ADASYN	Adaptiv syntetisk sampling	Fokuserer på vanskelige grensetilfeller
LLM-generert	Tekstgenerering for minoritetsklasser	NLP, chatbot-trening
Augmentasjon	Transformasjon av eksisterende data	Bilde, tekst-variasjon
Kopiert undersampling	Fjern majoritetsklasse-samples	Rask, men taper informasjon

SMOTE i Fabric Notebook

from imblearn.over_sampling import SMOTE, ADASYN
from sklearn.model_selection import train_test_split
import pandas as pd

# Les treningsdata fra Lakehouse
df = spark.read.format("delta").table("gold.churn_features").toPandas()

# Sjekk klassebalanse
print("Klassefordeling:")
print(df["churned"].value_counts())
# churned
# 0    8500  (85%)
# 1    1500  (15%)

# Splitt features og target
X = df.drop(columns=["churned", "customer_id"])
y = df["churned"]

# SMOTE: Oversampler minoritetsklassen
smote = SMOTE(random_state=42, sampling_strategy=0.5)
X_resampled, y_resampled = smote.fit_resample(X, y)

print(f"\nEtter SMOTE:")
print(f"Ikke-churned: {sum(y_resampled == 0)}")
print(f"Churned: {sum(y_resampled == 1)}")
# Ikke-churned: 8500
# Churned: 4250 (50% av majoritetsklassen)

# Konverter tilbake og lagre
resampled_df = pd.DataFrame(X_resampled, columns=X.columns)
resampled_df["churned"] = y_resampled
spark.createDataFrame(resampled_df).write.format("delta") \
    .mode("overwrite").saveAsTable("gold.churn_features_balanced")

LLM-basert tekst-augmentasjon

def augment_text_samples(texts, labels, target_class, num_augmented=100):
    """Generer syntetiske teksteksempler for en underrepresentert klasse."""
    examples = [t for t, l in zip(texts, labels) if l == target_class]
    sample_examples = "\n".join(examples[:5])

    augmented = []
    for i in range(0, num_augmented, 10):
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": f"""
                Generer 10 nye teksteksempler som ligner på følgende,
                men med variasjoner i ordvalg og formulering.
                Behold den samme semantiske betydningen og klassifiseringen.
                Eksempler:
                {sample_examples}
                """},
                {"role": "user", "content": "Generer 10 variasjoner."}
            ],
            temperature=0.9
        )
        new_texts = response.choices[0].message.content.strip().split("\n")
        augmented.extend([t.strip() for t in new_texts if t.strip()])

    return augmented[:num_augmented]

Privacy-Preserving Synthetic Data

Teknikker for personvernbevarende syntetiske data

Teknikk	Personverngaranti	Kompleksitet	Bruk
Differential Privacy	Matematisk bevisbar	Høy	Aggregerte statistikker
k-Anonymity	Grupper >= k individer	Medium	Tabelldata
l-Diversity	Minimum l distinkte sensitive verdier per gruppe	Medium	Sensitive attributter
LLM-generert	Ingen direkte kobling til kildedata	Lav	Tekst, samtaler
Copula-basert	Bevarer korrelasjoner statistisk	Medium	Multi-variabel data

Differential Privacy med PySpark

# Generer syntetiske data med differensiell personvern
# Bruk OpenDP-biblioteket

# pip install opendp

from opendp.measurements import make_base_laplace
from opendp.transformations import make_mean, make_count
import numpy as np

def add_laplace_noise(true_value, epsilon=1.0, sensitivity=1.0):
    """Legg til Laplace-støy for differensiell personvern."""
    scale = sensitivity / epsilon
    noise = np.random.laplace(0, scale)
    return true_value + noise

# Eksempel: Generer syntetisk aldersfordeling
# Ekte data: gjennomsnittsalder = 42.3, standardavvik = 15.2
true_mean = 42.3
true_std = 15.2
epsilon = 1.0  # Personvernbudsjett

# Legg til støy på statistikkene
noisy_mean = add_laplace_noise(true_mean, epsilon=epsilon/2)
noisy_std = add_laplace_noise(true_std, epsilon=epsilon/2)

# Generer syntetiske data fra støyete distribusjon
synthetic_ages = np.random.normal(noisy_mean, abs(noisy_std), size=10000)
synthetic_ages = np.clip(synthetic_ages, 18, 100).astype(int)

Anonymiseringsworkflow

Ekte data (Dataverse/Lakehouse)
        │
        ▼
┌───────────────────────┐
│ Steg 1: Klassifiser   │  Purview identifiserer PII
│ med Purview           │
└───────┬───────────────┘
        │
        ▼
┌───────────────────────┐
│ Steg 2: Anonymiser    │  Fjern/erstatt direkte identifikatorer
│ - Fødselsnummer → hash│
│ - Navn → pseudonym    │
│ - Adresse → postnr    │
└───────┬───────────────┘
        │
        ▼
┌───────────────────────┐
│ Steg 3: Syntetiser    │  Generer nye poster basert på
│ - Bevar distribusjoner│  statistiske egenskaper
│ - Bevar korrelasjoner │
│ - Legg til DP-støy    │
└───────┬───────────────┘
        │
        ▼
┌───────────────────────┐
│ Steg 4: Valider       │  Verifiser kvalitet og personvern
│ - Statistisk likhet   │
│ - Privacy-test        │
│ - ML-nytteverdi       │
└───────────────────────┘

Validation of Synthetic Data Quality

Kvalitetsdimensjoner

Dimensjon	Metrikk	Terskelverdier
Statistisk likhet	Jensen-Shannon Divergence	< 0.1 (god), < 0.05 (utmerket)
Kolonnekorrelasjoner	Pearson/Spearman korrelasjon	Δ < 0.05 mellom ekte og syntetisk
Distribusjonsmatch	KS-test (Kolmogorov-Smirnov)	p-verdi > 0.05
ML-nytteverdi	Train on synthetic, test on real (TSTR)	Accuracy-tap < 5%
Personvern	Re-identifiseringsrisiko	< 0.01 (1%)
Dekningsgrad	Andel unike verdier representert	> 90% av originale kategorier

Validerings-kode

from scipy.stats import ks_2samp, pearsonr
import numpy as np
import pandas as pd

def validate_synthetic_data(real_df, synthetic_df, numeric_cols, cat_cols):
    """Valider kvaliteten på syntetiske data mot ekte data."""
    results = {}

    # 1. KS-test for numeriske kolonner
    for col in numeric_cols:
        stat, pvalue = ks_2samp(real_df[col].dropna(), synthetic_df[col].dropna())
        results[f"ks_test_{col}"] = {
            "statistic": round(stat, 4),
            "p_value": round(pvalue, 4),
            "passed": pvalue > 0.05
        }

    # 2. Kategorifordeling
    for col in cat_cols:
        real_dist = real_df[col].value_counts(normalize=True)
        synth_dist = synthetic_df[col].value_counts(normalize=True)
        common_cats = set(real_dist.index) & set(synth_dist.index)
        coverage = len(common_cats) / len(real_dist) * 100
        results[f"category_coverage_{col}"] = {
            "coverage_pct": round(coverage, 1),
            "passed": coverage > 90
        }

    # 3. Korrelasjonsmatrise-likhet
    real_corr = real_df[numeric_cols].corr()
    synth_corr = synthetic_df[numeric_cols].corr()
    corr_diff = (real_corr - synth_corr).abs().mean().mean()
    results["correlation_difference"] = {
        "mean_abs_diff": round(corr_diff, 4),
        "passed": corr_diff < 0.05
    }

    # 4. TSTR (Train on Synthetic, Test on Real)
    # Implementeres med faktisk ML-modell

    return results

# Kjør validering
validation = validate_synthetic_data(real_data, synthetic_data,
    numeric_cols=["age", "income", "score"],
    cat_cols=["region", "category"])

for metric, result in validation.items():
    status = "PASS" if result["passed"] else "FAIL"
    print(f"[{status}] {metric}: {result}")

Referanser

Generate synthetic and simulated data for evaluation -- Azure AI Evaluation Simulator
Generate synthetic data for fine-tuning in Microsoft Foundry -- Foundry syntetisk data UI
Design training data for AI workloads on Azure -- Well-Architected Framework for treningsdata
Azure OpenAI for big data -- SynapseML + OpenAI på Fabric
Azure OpenAI On Your Data -- RAG for datagenerering

For Cosmo

Bruk denne referansen når brukeren har begrensede treningsdata, klasseimbalanser, eller personvernkrav som hindrer bruk av reelle data for AI-trening.
For norsk offentlig sektor: Syntetisk data er ofte den eneste lovlige veien til å bygge ML-modeller med sensitive data (helse, NAV, politi). Fremhev at syntetiske data aldri inneholder reelle personopplysninger.
Anbefal en kombinasjon av teknikker: SMOTE for tabelldata, LLM-generering for tekst, og differensiell personvern for statistisk baserte syntetiske datasett.
Valider alltid syntetiske data med TSTR-tilnærmingen (Train on Synthetic, Test on Real) for å sikre at syntetiske data faktisk forbedrer modellytelsen.
Bruk Azure AI Evaluation SDK Simulator for å generere test-data for chatboter og RAG-systemer -- dette er spesielt nyttig for Copilot Studio-prosjekter der man mangler historiske samtaledata.

16 KiB Raw Blame History