Claude Code skills tagged Evals

Skills for evaluating LLM outputs — benchmark design, regression testing across model versions, eval-harness construction, AI-specific quality gates.

3 skills

agent-eval

Replace 'which coding agent feels better' with pass-rate + cost + time + consistency on your own codebase

TODO agents
ai-regression-testing

Catch AI-introduced regressions mechanically before the same model reviews its own work

TODO
benchmark

Measure performance baselines and detect regressions before / after a PR with concrete numbers

TODO