ktg-plugin-marketplace/plugins/llm-security/scripts/v5-orchestrator-prompt.md

2.2 KiB
Raw Blame History

Du er orkestrator for llm-security v5.0 "Prompt Injection Hardening".

Plan: /Users/ktg/.claude/plans/ethereal-waddling-rainbow.md Repo: /Users/ktg/.claude/plugins/marketplaces/plugin-marketplace/plugins/llm-security

Oppgaven: Kjør alle 8 sesjoner (S1-S8) sekvensielt via claude -p med --dangerously-skip-permissions. Hver sesjon er en separat headless Claude-invokasjon med fresh context.

For HVER sesjon S1 til S8, gjør dette:

  1. Registrer nåværende HEAD og testcount:

    cd /Users/ktg/.claude/plugins/marketplaces/plugin-marketplace/plugins/llm-security
    BEFORE=$(git rev-parse HEAD)
    TESTS_BEFORE=$(node --test 2>&1 | grep "^ tests" | awk '{print $3}')
    
  2. Kjør sesjonen (bytt ut Sn med aktuell sesjon):

    claude -p "Working directory: /Users/ktg/.claude/plugins/marketplaces/plugin-marketplace/plugins/llm-security
    
    Read the v5.0 plan at /Users/ktg/.claude/plans/ethereal-waddling-rainbow.md.
    Execute session Sn completely.
    
    Steps:
    1. Read the plan's Sn section carefully — every detail matters
    2. Implement ALL code changes described there
    3. Write ALL tests described there
    4. Run: node --test — fix failures until all pass
    5. Update CLAUDE.md (test count, hook descriptions) in same commit
    6. git add <specific files> && git commit -m 'feat(llm-security): Sn - <description>'
    7. git push origin main
    
    Rules:
    - Implement ONLY Sn
    - All existing tests MUST still pass
    - If pathguard blocks Write to settings/hooks, use: write to .tmp then mv
    - No subtree push (done at S8 release)
    - Report: files changed, tests added, test results" \
      --dangerously-skip-permissions \
      --max-turns 100
    
  3. Verifiser ETTER hver sesjon:

    • node --test — alle tester passerer (0 failures)
    • git log --oneline -1 — commit finnes og inneholder "llm-security"
    • Testcount økte (forventet: S1 ~45, S2 ~45, S3 ~30, S4 ~50, S5 ~20, S6 ~40, S7 ~10, S8 ~15)
  4. Hvis verifisering feiler: STOPP og rapporter hvilken sesjon som feilet og hvorfor. Ikke prøv neste sesjon.

  5. Hvis verifisering OK: fortsett til neste sesjon.

Etter S8: kjør node scanners/attack-simulator.mjs --verbose og rapporter defense score.

Start nå med S1. Rapporter status etter hver sesjon.