skill-eval

📁 stanah/dotagents 📅 5 days ago

总安装量

周安装量

#73998

全站排名

安装命令

npx skills add https://github.com/stanah/dotagents --skill skill-eval

Agent 安装分布

opencode 2

gemini-cli 2

claude-code 2

github-copilot 2

codex 2

kimi-cli 2

Skill 文档

skill-eval: ã¹ãã«è©ä¾¡ã¹ãã«

doc-code-sync ã¹ãã«ã®åè³ªã2å±¤ã§æ¤è¨¼ããè©ä¾¡ã¬ãã¼ããçæããã

è©ä¾¡å¯¾è±¡

Layer	å¯¾è±¡	ææ³
Layer 1	ã¨ã¯ã¹ãã©ã¯ã¿ã¹ã¯ãªãã	`run-tests.sh` ã«ããåä½ãã¹ãï¼æ±ºå®çï¼
Layer 2	ã¹ãã«ã¯ã¼ã¯ããã¼å¨ä½	ãã£ã¯ã¹ãã£ã«å¯¾ããæ¤åºçã»ç²¾åº¦è©ä¾¡

å©ç¨å¯è½ãªãã£ã¯ã¹ãã£

åå	è¨èª	ç®ç	æå¾
`mismatch-project`	TypeScript + Solidity	æ¤åºè½åãã¹ã	é«æ¤åºç
`clean-project`	TypeScript	FP = 0 ãã¹ã	æ¤åºã¼ã
`tricky-project`	TypeScript	FP èªçºãã¹ã	ä½ FP
`python-project`	Python (FastAPI)	å¤è¨èªå¯¾å¿ãã¹ã	é«æ¤åºç
`go-project`	Go (Gin)	å¤è¨èªå¯¾å¿ãã¹ã	é«æ¤åºç
`monorepo-project`	TypeScript	ãã¬ã«ã¨ã¯ã¹ãã¼ãå¯¾å¿ãã¹ã	é«æ¤åºç

ã¯ã¼ã¯ããã¼

Step 1: ãã¹ãå¯¾è±¡ã®ç¹å®

å¼æ°ãããã¹ãå¯¾è±¡ã¹ãã«ã¨ãã£ã¯ã¹ãã£ãå¤å®ãã:
- ããã©ã«ãã¹ãã«: doc-code-sync
- ããã©ã«ããã£ã¯ã¹ãã£: mismatch-project
- ãªãã·ã§ã³: --fixture <name> ã§ç¹å®ãã£ã¯ã¹ãã£ãæå®
- ãªãã·ã§ã³: --all ã§å¨ãã£ã¯ã¹ãã£ããã¹ã
- ãªãã·ã§ã³: --runs N ã§è¤æ°åå®è¡ï¼çµ±è¨è©ä¾¡ï¼
ãã¹ããã£ã¯ã¹ãã£ã®åå¨ãç¢ºèªãã:
- Layer 1: .claude/skills/doc-code-sync/tests/run-tests.sh
- Layer 2: .claude/skills/skill-eval/references/fixtures/<fixture-name>/
Ground Truth ãã¡ã¤ã«ã®ãã¹ãè¨é²ããï¼ãã®æç¹ã§ã¯èªã¿è¾¼ã¾ãªãï¼:
- .claude/skills/skill-eval/references/ground-truths/<fixture-name>.json

Step 2: Layer 1 å®è¡ï¼ã¨ã¯ã¹ãã©ã¯ã¿åä½ãã¹ãï¼

ãã¹ãã¹ã¯ãªãããå®è¡ãã:
```
bash .claude/skills/doc-code-sync/tests/run-tests.sh
```
åºåãã PASS/FAIL ä»¶æ°ãè¨é²ããã
FAIL ãããå ´åãå¤±æãããã¹ãåã¨è©³ç´°ãè¨é²ããã

Step 3: Layer 2 å®è¡ï¼ã¯ã¼ã¯ããã¼è©ä¾¡ï¼

Phase 1: æ¤åºãã§ã¼ãºï¼ãµãã¨ã¼ã¸ã§ã³ãï¼

Task ãã¼ã«å¼ã³åºã:
- subagent_type: "general-purpose"
- description: "doc-code-sync æ¤åºå®è¡"
- prompt: |
    ä»¥ä¸ã®ãã£ã¬ã¯ããªã«å¯¾ãã¦ `/doc-code-sync` ã¹ãã«ãå®è¡ãã¦ãã ãã:

    å¯¾è±¡ãã£ã¬ã¯ããª: .claude/skills/skill-eval/references/fixtures/<fixture-name>/

    æé :
    1. Skill ãã¼ã«ã§ `doc-code-sync` ãå¼ã³åºã
    2. å¯¾è±¡ãã£ã¬ã¯ããªã `.claude/skills/skill-eval/references/fixtures/<fixture-name>/` ã«æå®
    3. çæããã `.docstore/sync-report.md` ã®åå®¹ãåºåã¨ãã¦è¿ã

    **ç¦æ¢äºé **:
    - `ground-truths/` ãã£ã¬ã¯ããªã¸ã®ã¢ã¯ã»ã¹ç¦æ¢
    - `ground-truth` ãå«ããã¡ã¤ã«ã®èªã¿è¾¼ã¿ç¦æ¢

    ã¿ã¹ã¯å®äºæãsync-report.md ã®å¨åå®¹ãè¿ãã¦ãã ããã

Phase 2: è©ä¾¡ãã§ã¼ãºï¼è¦ªã¨ã¼ã¸ã§ã³ãï¼

ãµãã¨ã¼ã¸ã§ã³ãå®äºå¾ãè¦ªã¨ã¼ã¸ã§ã³ããè©ä¾¡ãå®è¡ãã:

ãµãã¨ã¼ã¸ã§ã³ãã®åºåï¼sync-report.md ã®åå®¹ï¼ãåå¾ããã
ãã®æç¹ã§åãã¦ ground-truth ãèªã¿è¾¼ã:
```
cat .claude/skills/skill-eval/references/ground-truths/<fixture-name>.json
```
Step 4 ã® Ground Truth æ¯è¼ãå®è¡ããã

Step 3b: è¤æ°åå®è¡ã¢ã¼ãï¼ãªãã·ã§ã³ï¼

--runs N ãªãã·ã§ã³æå®æ:

Phase 1 ã N åå®è¡ããï¼ååãµãã¨ã¼ã¸ã§ã³ããèµ·åï¼
ååã® sync-report.md ã sync-report-{i}.md ã¨ãã¦ä¿å
Phase 2 ã§å¨ã¬ãã¼ããéç´ããçµ±è¨ãç®åº:
- å¹³åæ¤åºç (Mean Recall)
- æ¨æºåå·® (Std Dev)
- æå°/æå¤§æ¤åºç
- å®å®æ§ã¹ã³ã¢ (1 – CV, where CV = Std Dev / Mean)
å®å®æ§ã¹ã³ã¢ã 0.8 ä»¥ä¸ã§ PASS

Step 4: Ground Truth æ¯è¼

æ¨æºãã£ã¯ã¹ãã£ï¼mismatch-project, python-project, go-project, monorepo-projectï¼

ground-truths/<fixture-name>.json ã® expected_issues éåã®åé ç®ã«ã¤ãã¦:
- True Positive (TP): sync-report.md ã«å¯¾å¿ããæ¤åºé ç®ãåå¨ããã
  - ã«ãã´ãªãä¸è´ããèª¬æã®è¶£æ¨ãåè´ãã¦ããã° TP ã¨ããã
  - ãã¡ã¤ã«ãã¹ãæå®ããã¦ããå ´åããã®ãã¡ã¤ã«ã¸ã®è¨åãç¢ºèªããã
- False Negative (FN): æå¾ãããã sync-report.md ã«æ¤åºããã¦ããªãã
- False Positive (FP): sync-report.md ã«æ¤åºããã¦ããã ground-truth ã«æå¾ããªãã
  - FP ã®å¤å®ã¯ fuzzyï¼ææ§ä¸è´ï¼ã¨ããæããã«èª¤ã£ãæ¤åºã®ã¿ã«ã¦ã³ãããã
ã«ãã´ãªå¥ã®æ¤åºçãç®åºãã:
- æ¤åºç (Recall) = TP / (TP + FN)
- ç²¾åº¦ (Precision) = TP / (TP + FP)

å¦å®ãã¹ã: clean-project

sync-report.md ã«æ¤åºãããåé¡ã ã¼ã ã§ãããã¨ãç¢ºèªããã
ãããªãåé¡ãæ¤åºãããå ´åããã¹ã¦ False Positive ã¨ãã¦ã«ã¦ã³ãã
åæ ¼åºæº: FP = 0

å¦å®ãã¹ã: tricky-project

ground-truths/tricky-project.json ã® expected_non_issues ãç¢ºèªããã
åãã¿ã¼ã³ã«ã¤ãã¦:
- sync-report.md ã«ãã®ãã¿ã¼ã³ãèª¤ã£ã¦æ¤åºããã¦ããªããç¢ºèªã
- æ¤åºããã¦ããã° False Positive ã¨ãã¦ã«ã¦ã³ãã
åæ ¼åºæº: FP â¤ 1 (max_false_positives)

.docstore/eval-report.md ã«ä»¥ä¸ã®å½¢å¼ã§åºåãã:

# Skill Evaluation Report

**å¯¾è±¡ã¹ãã«**: doc-code-sync
**è©ä¾¡æ¥**: YYYY-MM-DD
**ãã£ã¯ã¹ãã£**: <fixture-name>

## Layer 1: ã¨ã¯ã¹ãã©ã¯ã¿ãã¹ã

| ãã¹ã | çµæ |
|--------|------|
| TypeScript JSON ã¹ãã¼ã | PASS/FAIL |
| TypeScript ã·ã³ãã«æ¤åº | PASS/FAIL |
| TypeScript ã«ã¼ãæ¤åº | PASS/FAIL |
| TypeScript è¨å®ãã¼æ¤åº | PASS/FAIL |
| Solidity ã³ã³ãã©ã¯ãæ¤åº | PASS/FAIL |
| Solidity NatSpec æ½åº | PASS/FAIL |
| åè¨ | X/Y PASS |

## Layer 2: ã¯ã¼ã¯ããã¼è©ä¾¡

### æ¤åºçãµããªã¼

| ã«ãã´ãª | æå¾ | æ¤åº | æ¤åºç |
|---------|------|------|--------|
| BROKEN_REF | N | N | X% |
| STALE_EXAMPLE | N | N | X% |
| UNDOCUMENTED | N | N | X% |
| CONFIG_DRIFT | N | N | X% |
| VERSION_DRIFT | N | N | X% |
| API_DRIFT | N | N | X% |
| NATSPEC_DRIFT | N | N | X% |
| MISSING_NATSPEC | N | N | X% |

### True Positives (æ¤åºæå)

- â CATEGORY: èª¬æ

### False Negatives (æ¤åºæ¼ã)

- â CATEGORY: èª¬æ

### False Positives (èª¤æ¤åº)

- â ï¸ CATEGORY: èª¬æ
- (è©²å½ãªã ã®å ´åã¯ãã®æ¨ãè¨è¼)

## ç·åè©ä¾¡

**æ¤åºç (Recall)**: X% (TP / (TP + FN))
**ç²¾åº¦ (Precision)**: X% (TP / (TP + FP))
**åæ ¼åºæº**: æ¤åºç 75% ä»¥ä¸
**å¤å®**: PASS / FAIL

è¤æ°åå®è¡æã®ã¬ãã¼ãæ¡å¼µ

## Layer 2: ã¯ã¼ã¯ããã¼è©ä¾¡ï¼N=5 åå®è¡ï¼

### çµ±è¨ãµããªã¼

| ææ¨ | å¤ |
|------|-----|
| å®è¡åæ° | 5 |
| å¹³åæ¤åºç | 87.5% |
| æ¨æºåå·® | 12.5% |
| æå°æ¤åºç | 75% |
| æå¤§æ¤åºç | 100% |
| å®å®æ§ã¹ã³ã¢ | 0.86 |

### ååã®çµæ

| Run | TP | FN | FP | Recall | Precision |
|-----|----|----|----| -------|-----------|
| 1 | 8 | 0 | 0 | 100% | 100% |
| 2 | 7 | 1 | 0 | 87.5% | 100% |
| ... |

### å¤å®

**å®å®æ§åºæº**: CV < 0.2 (å®å®æ§ã¹ã³ã¢ > 0.8)
**å¤å®**: PASS / FAIL

å¦å®ãã¹ãæã®ã¬ãã¼ãå½¢å¼

## Layer 2: å¦å®ãã¹ãè©ä¾¡

### ãã£ã¯ã¹ãã£: clean-project

**ç®ç**: False Positive = 0 ã®ç¢ºèª

| ææ¨ | çµæ |
|------|------|
| æ¤åºæ° | 0 |
| æå¾å¤ | 0 |
| FP æ° | 0 |
| å¤å® | PASS |

### ãã£ã¯ã¹ãã£: tricky-project

**ç®ç**: FP èªçºãã¿ã¼ã³ã®æ£ããé¤å¤ç¢ºèª

| ãã¿ã¼ã³ | èª¤æ¤åº | å¤å® |
|---------|--------|------|
| ååé¢æ°ã®èª¤æ¤åº | ãªã | â |
| ã³ã¡ã³ãåã³ã¼ãã®èª¤æ¤åº | ãªã | â |
| ãã¹ããã¡ã¤ã«ã®èª¤æ¤åº | ãªã | â |
| deprecated é¢æ°ã®èª¤æ¤åº | ãªã | â |

| ææ¨ | çµæ |
|------|------|
| FP æ° | 0 |
| è¨±å®¹ FP | 1 |
| å¤å® | PASS |

Step 6: ã¿ã¼ããã«ãµããªã¼è¡¨ç¤º

## Skill Evaluation å®äº

### Layer 1: ã¨ã¯ã¹ãã©ã¯ã¿ãã¹ã
X/Y PASS

### Layer 2: ã¯ã¼ã¯ããã¼è©ä¾¡
ãã£ã¯ã¹ãã£: <name>
æ¤åºç: X% (TP/æå¾ä»¶æ°)
ç²¾åº¦: X% (TP/(TP+FP))

### å¤å®
(PASS: æ¤åºç 75% ä»¥ä¸ / FAIL: æ¤åºç 75% æªæº)

è©³ç´°ã¬ãã¼ã: .docstore/eval-report.md

åæ ¼åºæº

ãã£ã¯ã¹ãã£	ææ¨	åºæº
mismatch-project	Recall	â¥ 75%
python-project	Recall	â¥ 75%
go-project	Recall	â¥ 75%
monorepo-project	Recall	â¥ 75%
clean-project	FP	= 0
tricky-project	FP	â¤ 1
è¤æ°åå®è¡	å®å®æ§ã¹ã³ã¢	â¥ 0.8 (CV < 0.2)

æ³¨æäºé

Layer 2 ã®æ¤åºã¯ LLM ãã¼ã¹ã®ãããå®è¡ãã¨ã«çµæãç°ãªãå¯è½æ§ãããã
Ground Truth æ¯è¼ã¯æå³çä¸è´ï¼fuzzy matchingï¼ã§è¡ããå®å¨ä¸è´ã¯æ±ããªãã
ãã£ã¯ã¹ãã£ãå¤æ´ããå ´åã¯å¯¾å¿ãã ground-truth ãã¡ã¤ã«ãæ´æ°ãããã¨ã

ã³ã³ããã¹ãåé¢ã®è¨è¨æ ¹æ

Layer 2 ã§ Task ãã¼ã«ãä½¿ç¨ããçç±:

Ground Truth ãã¡ã¤ã«ã¯ references/ground-truths/ ã«éç½®ããããã£ã¯ã¹ãã£ãã£ã¬ã¯ããªã¨ã¯åé¢ããã¦ãããããã«ããããµãã¨ã¼ã¸ã§ã³ãããã£ã¯ã¹ãã£ãæ¢ç´¢ãã¦ã ground-truth ã«ã¢ã¯ã»ã¹ãããã¨ã¯ãªãã

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

skill-eval

Agent 安装分布

Skill 文档

skill-eval: ã¹ã­ã«è©ä¾¡ã¹ã­ã«

è©ä¾¡å¯¾è±¡

å©ç¨å¯è½ãªãã£ã¯ã¹ãã£

ã¯ã¼ã¯ãã­ã¼

Step 1: ãã¹ãå¯¾è±¡ã®ç¹å®

Step 2: Layer 1 å®è¡ï¼ã¨ã¯ã¹ãã©ã¯ã¿åä½ãã¹ãï¼

Step 3: Layer 2 å®è¡ï¼ã¯ã¼ã¯ãã­ã¼è©ä¾¡ï¼

Phase 1: æ¤åºãã§ã¼ãºï¼ãµãã¨ã¼ã¸ã§ã³ãï¼

Phase 2: è©ä¾¡ãã§ã¼ãºï¼è¦ªã¨ã¼ã¸ã§ã³ãï¼

Step 3b: è¤æ°åå®è¡ã¢ã¼ãï¼ãªãã·ã§ã³ï¼

Step 4: Ground Truth æ¯è¼

æ¨æºãã£ã¯ã¹ãã£ï¼mismatch-project, python-project, go-project, monorepo-projectï¼

å¦å®ãã¹ã: clean-project

å¦å®ãã¹ã: tricky-project

Step 5: è©ä¾¡ã¬ãã¼ãçæ

è¤æ°åå®è¡æã®ã¬ãã¼ãæ¡å¼µ

å¦å®ãã¹ãæã®ã¬ãã¼ãå½¢å¼

Step 6: ã¿ã¼ããã«ãµããªã¼è¡¨ç¤º

åæ ¼åºæº

æ³¨æäºé

ã³ã³ãã­ã¹ãåé¢ã®è¨­è¨æ ¹æ