docs(architect): weekly KB update — 66 files refreshed (2026-04)
Updated 66 stale knowledge base reference files (10 critical, 56 high) across all 5 skills using Microsoft Learn MCP research. Key factual updates: - Groundedness Detection API: `correction` → `mitigating` param, `correctedText` → `correctionText` (breaking change) - Copilot Studio: GPT-4.1 mini now default (was GPT-4o mini); Claude Sonnet 4.5 + Opus 4.5 added (experimental, 200K ctx) - Agentic Retrieval: still public preview; 50M free tokens/month - Azure security baselines: "Cognitive Services" → "Foundry Tools" - Databricks: Delta Live Tables → Lakeflow Spark Declarative Pipelines - MLflow 3 GenAI: new Feedback/Expectation data model - Token tracking doc: "Azure OpenAI in Foundry Models through a gateway" - Agent Registry: Risks column (M365 E7), Graph API (preview) - Copilot DLP: new Entra AI Admin + Purview Data Security AI Admin roles - ISO/IEC 42001: scope expanded to M365 Copilot, Foundry, Security Copilot - Zero Trust: CAE now via Conditional Access, Strict Location Enforcement - Purview: new Fabric Copilots/agents governance section - AG-UI HITL: ApprovalRequiredAIFunction (C#), @tool approval_mode (Python) All files: Last updated → 2026-04, *(Verified MCP 2026-04)* markers added. Build registry: 1341 URLs from 387 files (+2 new URLs). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
parent
1793faa1f2
commit
ad8a411f38
73 changed files with 727 additions and 301 deletions
|
|
@ -1,6 +1,6 @@
|
|||
# RAG Cost Optimization and Efficiency
|
||||
|
||||
**Last updated:** 2026-02
|
||||
**Last updated:** 2026-04
|
||||
**Status:** GA
|
||||
**Category:** RAG Architecture & Semantic Search
|
||||
|
||||
|
|
@ -23,13 +23,13 @@ Valg av Azure AI Search pricing tier er avgjørende for total kostnad:
|
|||
| Tier | Use Case | Storage | QPM Limit | Pris/mnd (estimat) |
|
||||
|------|----------|---------|-----------|-------------------|
|
||||
| **Free** | POC, testing | 50 MB | Begrenset | NOK 0 |
|
||||
| **Basic** | Små produksjonsløsninger | 2 GB | Moderat | ~NOK 700 |
|
||||
| **Basic** | Små produksjonsløsninger | 15 GB (services opprettet etter april 2024; eldre: 2 GB) | Moderat | ~NOK 700 | Verified (MCP 2026-04) |
|
||||
| **S1** | Standard produksjon | 25 GB/partition | Høy | ~NOK 2,500 |
|
||||
| **S2** | Store løsninger | 100 GB/partition | Meget høy | ~NOK 10,000 |
|
||||
| **S3 HD** | Multitenant, mange små indekser | 200 GB | Høy | ~NOK 20,000 |
|
||||
| **L1/L2** | Storage-optimized, sjeldne queries | 1 TB+ | Lavere | ~NOK 15,000+ |
|
||||
|
||||
**Viktig:** Services opprettet etter april 2024 får større partitions til samme pris. Basic og S1 gir full API-tilgang til laveste per-SU-rate.
|
||||
**Viktig:** Services opprettet etter april 2024 får større partitions til samme pris. Basic-tier: 15 GB per partisjon (eldre services: 2 GB). S1: 25 GB per partisjon. Tier switching er nå støttet — du kan bytte mellom Basic og Standard S1 direkte uten å recreate servicen. Verified (MCP 2026-04).
|
||||
|
||||
### 2. Token Cost Reduction Strategies
|
||||
|
||||
|
|
@ -214,7 +214,7 @@ Multi-step Task → GPT-4o + reasoning mode
|
|||
| Scenario | Anbefaling | Begrunnelse |
|
||||
|----------|-----------|-------------|
|
||||
| Pilot med < 10K dokumenter | **Basic** | Koster ~1/3 av S1, tilstrekkelig for testing |
|
||||
| Produksjon < 100K dokumenter | **Basic** | Kan skalere til 3 replicas for HA |
|
||||
| Produksjon < 100K dokumenter | **Basic** | Kan skalere til 3 replicas for HA; 15 GB/partisjon gir god buffer |
|
||||
| Produksjon > 100K dokumenter | **S1** | Bedre partition size, raskere indexing |
|
||||
| Multitenant med mange små indekser | **S3 HD** | Optimalisert for høy index-count |
|
||||
| Stort arkiv, sjeldne queries | **L1/L2** | Beste storage/kostnad-ratio |
|
||||
|
|
@ -347,7 +347,7 @@ Metrics:
|
|||
| Tier | Hourly Rate (NOK) | Monthly (730 hrs) | Search Units (SU) | Note |
|
||||
|------|-------------------|-------------------|-------------------|------|
|
||||
| Free | 0.00 | 0 | 1 | 50 MB, 1 index limit |
|
||||
| Basic | ~1.00 | ~730 | 1-3 | 2 GB per partition |
|
||||
| Basic | ~1.00 | ~730 | 1-3 | 15 GB per partition (etter april 2024) | Verified (MCP 2026-04) |
|
||||
| S1 | ~3.50 | ~2,555 | 1-36 | 25 GB per partition |
|
||||
| S2 | ~13.50 | ~9,855 | 1-36 | 100 GB per partition |
|
||||
| S3 | ~27.00 | ~19,710 | 1-36 | 200 GB per partition |
|
||||
|
|
@ -540,4 +540,4 @@ Metrics:
|
|||
**Document version:** 1.0
|
||||
**Research sources:** 13 Microsoft Learn articles
|
||||
**MCP calls:** 3 (search) + 2 (fetch) = 5 total
|
||||
**Last validated:** 2026-02-03
|
||||
**Last validated:** 2026-04-09
|
||||
|
|
|
|||
|
|
@ -1,6 +1,6 @@
|
|||
# RAG at Enterprise Scale - Indexing and Serving
|
||||
|
||||
**Last updated:** 2026-02
|
||||
**Last updated:** 2026-04
|
||||
**Status:** GA
|
||||
**Category:** RAG Architecture & Semantic Search
|
||||
|
||||
|
|
@ -25,7 +25,7 @@ Microsoft tilbyr to grunnleggende tilnærminger til indexing: **push model** (pr
|
|||
| **Exponential Backoff** | Retry-strategi ved 503/207 errors | Implementer 2× delay ved feil, maks 5 forsøk |
|
||||
| **Progress Tracking** | Logging og monitoring av batch progress | Logg failed documents, track indexing rate (docs/sec eller MB/sec) |
|
||||
|
||||
**Push model**: Bruk `IndexDocumentsBatch.Upload()` eller `SearchIndexingBufferedSender` for asynkron batch-opplasting. Azure SDK håndterer automatisk 503-retries, men 207 (partial failure) må håndteres eksplisitt.
|
||||
**Push model**: Bruk `IndexDocumentsBatch.Upload()` eller `SearchIndexingBufferedSender` (Azure.Search.Documents SDK v11.7.0, v11.8.0-beta.1 tilgjengelig) for asynkron batch-opplasting. Verified (MCP 2026-04). Azure SDK håndterer automatisk 503-retries, men 207 (partial failure) må håndteres eksplisitt.
|
||||
|
||||
**Pull model (indexers)**: Batch size settes via `batchSize`-parameter. Default varierer per datakilde: 1000 for SQL/Cosmos DB, 10 for Blob Storage (grunnet større dokumentstørrelse).
|
||||
|
||||
|
|
@ -77,7 +77,7 @@ Azure AI Search distribuerer automatisk queries på tvers av replicas. Ingen man
|
|||
- Queries per second (QPS) nærmer seg kapasitetsgrense
|
||||
|
||||
**Partition Scaling Triggers**:
|
||||
- Index size nærmer seg partition-grense (varierer per tier: Basic 2 GB, Standard 25 GB, Standard S2 100 GB, etc.)
|
||||
- Index size nærmer seg partition-grense (varierer per tier: Basic 15 GB [services etter april 2024; eldre: 2 GB], Standard 25 GB, Standard S2 100 GB, etc.) — Verified (MCP 2026-04)
|
||||
- HTTP 429 errors (storage full)
|
||||
- Indexing throughput for lav
|
||||
|
||||
|
|
@ -144,7 +144,7 @@ For global enterprise-løsninger med latency-krav:
|
|||
|
||||
| Tier | Storage per Partition | Indexing Speed | Use Case |
|
||||
|------|----------------------|----------------|----------|
|
||||
| **Basic** | 2 GB (nyere: 15 GB) | Moderat | < 500K dokumenter, low update frequency |
|
||||
| **Basic** | 15 GB (services opprettet etter april 2024; eldre services: 2 GB) | Moderat | < 500K dokumenter, low update frequency | Verified (MCP 2026-04) |
|
||||
| **Standard S1** | 25 GB | God | 1-5M dokumenter, daily updates |
|
||||
| **Standard S2** | 100 GB | Meget god | 5-20M dokumenter, hourly updates |
|
||||
| **Standard S3** | 200 GB | Svært god | 20M+ dokumenter, continuous updates |
|
||||
|
|
@ -258,7 +258,7 @@ Azure AI Search støtter følgende Norge-regioner:
|
|||
|
||||
| Tier | SU-pris (NOK/time)* | Storage per Partition | QPS Estimate |
|
||||
|------|---------------------|----------------------|--------------|
|
||||
| Basic | ~10 kr | 15 GB | ~15 |
|
||||
| Basic | ~10 kr | 15 GB (services etter april 2024) | ~15 | Verified (MCP 2026-04) |
|
||||
| Standard S1 | ~120 kr | 25 GB | ~15 |
|
||||
| Standard S2 | ~480 kr | 100 GB | ~60 |
|
||||
| Standard S3 | ~960 kr | 200 GB | ~120 |
|
||||
|
|
|
|||
Loading…
Add table
Add a link
Reference in a new issue