chore(privacy): scrub real-org references from plugin internals (phase 2)
Same bulk replacement applied to plugin-internal KB, examples, fixtures, tests, and docs. Real organization names, persona names, internal system identifiers, and domain-specific terms replaced with fictional generic public-sector entity (DDT) and generic terminology. Scope: - okr/ — examples, governance, framework, integrations, sources - ms-ai-architect/ — KB references (engineering, governance, security, infrastructure, advisor), tests/fixtures, agents, docs - linkedin-thought-leadership/ — voice samples, network-builder, examples (genericized identifying headlines to "[your organization]") - llm-security/ — research notes, scan report Manual genericization beyond bulk replace: - okr SKILL.md "Primary user / Domain" — generic Norwegian public sector - linkedin-voice SKILL.md headline placeholder - network-builder.md headline placeholder - high-engagement-posts.md voice sample employer line + hashtag Phase 3 (factual-attribution review) remains: a few KB files attribute publicly known transport-sector docs/datasets (e.g. håndbok V440, NVDB) to the fictional DDT after bulk replace. Needs manual semantic review to either remove or restore correct citation without re-introducing affiliation references. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
parent
f95cc4b13d
commit
9ea5a2e6c6
76 changed files with 191 additions and 191 deletions
|
|
@ -170,7 +170,7 @@ Unified Catalog tilbyr flere oppdagelsesmekanismer for å finne data:
|
|||
```
|
||||
Eksempler på naturlig språk-søk (preview):
|
||||
|
||||
Søk: "Jeg trenger tre år med trafikkdata fra Statens vegvesen
|
||||
Søk: "Jeg trenger tre år med trafikkdata fra Direktoratet for digital tjenesteutvikling
|
||||
for å analysere rushtrafikk-mønstre"
|
||||
Resultat: Data products med trafikktelledata, reisehastighetsmålinger
|
||||
|
||||
|
|
@ -381,7 +381,7 @@ ai_terms = [
|
|||
"skal predikere på.",
|
||||
"abbreviation": "TD",
|
||||
"glossary_guid": ai_glossary_guid,
|
||||
"owner": "ml-team@vegvesen.no",
|
||||
"owner": "ml-team@ddt.no",
|
||||
"regulation": "GDPR Art. 6 - Lovlig behandlingsgrunnlag"
|
||||
},
|
||||
{
|
||||
|
|
@ -389,7 +389,7 @@ ai_terms = [
|
|||
"definition": "Sentralisert repository for beregning, lagring og "
|
||||
"servering av ML-features med punkt-i-tid korrekthet.",
|
||||
"glossary_guid": ai_glossary_guid,
|
||||
"owner": "data-engineering@vegvesen.no"
|
||||
"owner": "data-engineering@ddt.no"
|
||||
},
|
||||
{
|
||||
"name": "Dataminimering",
|
||||
|
|
@ -518,9 +518,9 @@ def assign_data_owner(purview_endpoint, token, asset_guid, owner_info):
|
|||
|
||||
# Eksempel: Tilordne eierskap for ML-datasett
|
||||
assign_data_owner(endpoint, token, gold_features_guid, {
|
||||
"email": "ml-team@vegvesen.no",
|
||||
"email": "ml-team@ddt.no",
|
||||
"aad_object_id": "abc-123-def",
|
||||
"expert_email": "data-scientist@vegvesen.no",
|
||||
"expert_email": "data-scientist@ddt.no",
|
||||
"expert_aad_id": "ghi-456-jkl"
|
||||
})
|
||||
```
|
||||
|
|
|
|||
|
|
@ -10,7 +10,7 @@
|
|||
|
||||
Data mesh er en desentralisert dataarkitektur som organiserer data etter forretningsdomener i stedet for sentraliserte datateam. Prinsippene -- domeneeierskap, data som produkt, selvbetjeningsplattform og foderert styring -- er spesielt relevante for store organisasjoner som bygger AI-losninger pa tvers av avdelinger. Microsoft Fabric stotter data mesh-arkitektur gjennom domener, OneLake shortcuts og foderert governance.
|
||||
|
||||
For norsk offentlig sektor, der departementer og direktorater har ulike datadomener med forskjellig regulering, er data mesh en naturlig tilnaerming. Statens vegvesen, NAV, Skatteetaten og andre etater kan eie sine egne dataprodukter mens de deler data gjennom en felles plattform. Fabric-domener muliggjor dette uten a duplisere data pa tvers av organisatoriske grenser.
|
||||
For norsk offentlig sektor, der departementer og direktorater har ulike datadomener med forskjellig regulering, er data mesh en naturlig tilnaerming. Direktoratet for digital tjenesteutvikling, NAV, Skatteetaten og andre etater kan eie sine egne dataprodukter mens de deler data gjennom en felles plattform. Fabric-domener muliggjor dette uten a duplisere data pa tvers av organisatoriske grenser.
|
||||
|
||||
AI-arbeidsbelastninger krever data fra mange domener: kundedata, transaksjonsdata, sensordata og referansedata. En data mesh-tilnaerming sikrer at hvert domene leverer kvalitetsdata som et produkt, med klare kontrakter og SLAer, noe som er kritisk for palitelige ML-modeller og AI-agenter.
|
||||
|
||||
|
|
@ -234,10 +234,10 @@ response = requests.post(
|
|||
|
||||
### Cross-tenant datadeling
|
||||
|
||||
For deling mellom organisasjoner (f.eks. mellom Statens vegvesen og Meteorologisk institutt):
|
||||
For deling mellom organisasjoner (f.eks. mellom Direktoratet for digital tjenesteutvikling og Meteorologisk institutt):
|
||||
|
||||
```
|
||||
Tenant A: Statens vegvesen Tenant B: MET
|
||||
Tenant A: Direktoratet for digital tjenesteutvikling Tenant B: MET
|
||||
+----------------------------+ +----------------------------+
|
||||
| OneLake | | OneLake |
|
||||
| Workspace: Vaerdata | | Workspace: Observasjoner |
|
||||
|
|
|
|||
|
|
@ -542,7 +542,7 @@ default_args = {
|
|||
"owner": "ai-team",
|
||||
"depends_on_past": True,
|
||||
"email_on_failure": True,
|
||||
"email": ["ai-team@statens-vegvesen.no"],
|
||||
"email": ["ai-team@statens-ddt.no"],
|
||||
"retries": 2,
|
||||
"retry_delay": timedelta(minutes=5)
|
||||
}
|
||||
|
|
|
|||
|
|
@ -442,5 +442,5 @@ def calculate_psi(reference, current, buckets=10):
|
|||
- **Bruk denne referansen** når brukeren planlegger ML-infrastruktur, trenger feature-gjenbruk på tvers av prosjekter, eller ønsker å operasjonalisere feature engineering.
|
||||
- Anbefal **Azure ML Managed Feature Store** for organisasjoner med flere ML-team som trenger å dele features. For enkeltprosjekter er **Delta-tabeller i Silver layer** ofte tilstrekkelig.
|
||||
- **Point-in-time lookups er ikke-forhandlingsbart** for tidsserie-features -- uten dette vil modeller lekke fremtidig informasjon og vise urealistisk god ytelse i testing.
|
||||
- For norsk offentlig sektor: Feature stores muliggjør **sentral styring** av beregninger som brukes på tvers av etater -- Statens vegvesen kan dele trafikkfeatures med andre transportetater via feature store-deling.
|
||||
- For norsk offentlig sektor: Feature stores muliggjør **sentral styring** av beregninger som brukes på tvers av etater -- Direktoratet for digital tjenesteutvikling kan dele trafikkfeatures med andre transportetater via feature store-deling.
|
||||
- Start med **Data Wrangler** for utforskende feature engineering, deretter formaliser i feature set-spesifikasjoner når features er validert og skal til produksjon.
|
||||
|
|
|
|||
|
|
@ -354,7 +354,7 @@ upsert_reference_data(
|
|||
| **Folkeregisteret** | Skatteetaten | Personentiteter i NER, chatbots |
|
||||
| **Enhetsregisteret** | Bronnoysundregistrene | Organisasjonsdata for bedriftsanalyse |
|
||||
| **Matrikkelen** | Kartverket | Eiendomsdata for geospatial AI |
|
||||
| **NVDB** | Statens vegvesen | Veidata for trafikkmodeller |
|
||||
| **NVDB** | Direktoratet for digital tjenesteutvikling | Veidata for trafikkmodeller |
|
||||
| **Kommuneregisteret** | SSB | Geografisk referanse |
|
||||
|
||||
```python
|
||||
|
|
|
|||
|
|
@ -10,7 +10,7 @@
|
|||
|
||||
Sanntidsdatastrømming er en fundamental byggestein for AI-applikasjoner som krever umiddelbar respons på hendelser -- fra IoT-sensorer og transaksjoner til brukeratferd og systemmetrikker. Microsoft Fabric Real-Time Intelligence kombinert med Azure Event Hubs og Apache Kafka gir en komplett plattform for inntak, transformasjon og analyse av strømmedata som mater AI-modeller med oppdatert informasjon.
|
||||
|
||||
For norsk offentlig sektor er sanntidsarkitektur særlig relevant for trafikkmonitorering (Statens vegvesen), helseovervåking, energistyring og beredskapsrespons. Evnen til å oppdage avvik i sanntid og utløse automatiserte handlinger basert på AI-prediksjoner kan redusere responstider dramatisk og forbedre tjenestekvalitet.
|
||||
For norsk offentlig sektor er sanntidsarkitektur særlig relevant for trafikkmonitorering (Direktoratet for digital tjenesteutvikling), helseovervåking, energistyring og beredskapsrespons. Evnen til å oppdage avvik i sanntid og utløse automatiserte handlinger basert på AI-prediksjoner kan redusere responstider dramatisk og forbedre tjenestekvalitet.
|
||||
|
||||
Denne referansen dekker arkitekturmønstre for å integrere Event Hubs, Kafka og Fabric Eventstream med AI-applikasjoner, inkludert Spark Structured Streaming, KQL Database for tidsserieanalyse, og mønster for hendelsesfiltrering og avledede strømmer.
|
||||
|
||||
|
|
|
|||
|
|
@ -110,7 +110,7 @@ completion = (
|
|||
|
||||
# Lag prompts for syntetisk datagenerering
|
||||
prompts_df = spark.createDataFrame([
|
||||
("Generer en realistisk kundehenvendelse til Statens vegvesen om førerkort-fornyelse.",),
|
||||
("Generer en realistisk kundehenvendelse til Direktoratet for digital tjenesteutvikling om saksbehandling-fornyelse.",),
|
||||
("Generer en syntetisk trafikkrapport for E6 ved Lillehammer med kødata.",),
|
||||
("Generer et eksempel på en byggesøknad til Plan- og bygningsetaten.",),
|
||||
], ["prompt"])
|
||||
|
|
|
|||
Loading…
Add table
Add a link
Reference in a new issue