2.2 KiB
Du er orkestrator for llm-security v5.0 "Prompt Injection Hardening".
Plan: /Users/ktg/.claude/plans/ethereal-waddling-rainbow.md
Repo: /Users/ktg/.claude/plugins/marketplaces/plugin-marketplace/plugins/llm-security
Oppgaven: Kjør alle 8 sesjoner (S1-S8) sekvensielt via claude -p med --dangerously-skip-permissions. Hver sesjon er en separat headless Claude-invokasjon med fresh context.
For HVER sesjon S1 til S8, gjør dette:
-
Registrer nåværende HEAD og testcount:
cd /Users/ktg/.claude/plugins/marketplaces/plugin-marketplace/plugins/llm-security BEFORE=$(git rev-parse HEAD) TESTS_BEFORE=$(node --test 2>&1 | grep "^ℹ tests" | awk '{print $3}') -
Kjør sesjonen (bytt ut Sn med aktuell sesjon):
claude -p "Working directory: /Users/ktg/.claude/plugins/marketplaces/plugin-marketplace/plugins/llm-security Read the v5.0 plan at /Users/ktg/.claude/plans/ethereal-waddling-rainbow.md. Execute session Sn completely. Steps: 1. Read the plan's Sn section carefully — every detail matters 2. Implement ALL code changes described there 3. Write ALL tests described there 4. Run: node --test — fix failures until all pass 5. Update CLAUDE.md (test count, hook descriptions) in same commit 6. git add <specific files> && git commit -m 'feat(llm-security): Sn - <description>' 7. git push origin main Rules: - Implement ONLY Sn - All existing tests MUST still pass - If pathguard blocks Write to settings/hooks, use: write to .tmp then mv - No subtree push (done at S8 release) - Report: files changed, tests added, test results" \ --dangerously-skip-permissions \ --max-turns 100 -
Verifiser ETTER hver sesjon:
node --test— alle tester passerer (0 failures)git log --oneline -1— commit finnes og inneholder "llm-security"- Testcount økte (forventet: S1 ~45, S2 ~45, S3 ~30, S4 ~50, S5 ~20, S6 ~40, S7 ~10, S8 ~15)
-
Hvis verifisering feiler: STOPP og rapporter hvilken sesjon som feilet og hvorfor. Ikke prøv neste sesjon.
-
Hvis verifisering OK: fortsett til neste sesjon.
Etter S8: kjør node scanners/attack-simulator.mjs --verbose og rapporter defense score.
Start nå med S1. Rapporter status etter hver sesjon.