mixseek-evaluator-config

📁 drillan/mixseek-plus 📅 13 days ago

总安装量

周安装量

#47635

全站排名

安装命令

npx skills add https://github.com/drillan/mixseek-plus --skill mixseek-evaluator-config

Agent 安装分布

claude-code 1

Skill 文档

MixSeek è©ä¾¡è¨å®çæ

æ¦è¦

åææ¡ä»¶

ã¯ã¼ã¯ã¹ãã¼ã¹ãåæåããã¦ãããã¨ï¼mixseek-workspace-initåç§ï¼
ç°å¢å¤æ° MIXSEEK_WORKSPACE ãè¨å®ããã¦ãããã¨ï¼æ¨å¥¨ï¼

çæãã¡ã¤ã«

ãã¡ã¤ã«	ç¨é	éç½®å ´æ
`evaluator.toml`	Submissionã®ã¹ã³ã¢ãªã³ã°è¨å®	`configs/evaluators/`
`judgment.toml`	æçµå¤å®ã®è¨å®	`configs/judgment/`

ä½¿ç¨æ¹æ³

Step 1: è¦ä»¶ã®ãã¢ãªã³ã°

ã¦ã¼ã¶ã¼ã«ä»¥ä¸ãç¢ºèªãã¦ãã ãã:

è©ä¾¡ã®éç¹: ä½ãéè¦ãã¦è©ä¾¡ãããï¼æç¢ºæ§ãã«ãã¬ãã¸ãé¢é£æ§ãªã©ï¼
éã¿ä»ã: åã¡ããªã¯ã¹ã®éè¦åº¦ï¼åç or ã«ã¹ã¿ã ï¼
å¤å®ã¹ã¿ã¤ã«: æ±ºå®è«çï¼temperature=0ï¼or å¤æ§æ§éè¦

Step 2: ã¡ããªã¯ã¹è¨å®ã®ææ¡

æ¨æºã¡ããªã¯ã¹ããé¸æ:

ã¡ããªã¯ã¹	èª¬æ	ç¨é
`ClarityCoherence`	æç¢ºæ§ã¨ä¸è²«æ§	èªã¿ãããéè¦ã®ã¿ã¹ã¯
`Coverage`	ã«ãã¬ãã¸	ç¶²ç¾æ§éè¦ã®ã¿ã¹ã¯
`LLMPlain`	æ±ç¨LLMè©ä¾¡	ã«ã¹ã¿ã è©ä¾¡åºæºãå¿è¦ãªã¿ã¹ã¯
`Relevance`	é¢é£æ§	çç¢ºãéè¦ã®ã¿ã¹ã¯

Step 3: è¨å®ãã¡ã¤ã«ã®çæ

evaluator.toml:

default_model = "google-gla:gemini-2.5-pro"
temperature = 0.0

[[metrics]]
name = "ClarityCoherence"
weight = 0.34

[[metrics]]
name = "Coverage"
weight = 0.33

[[metrics]]
name = "Relevance"
weight = 0.33

judgment.toml:

model = "google-gla:gemini-2.5-pro"
temperature = 0.0
timeout_seconds = 60

Step 4: ãã¡ã¤ã«ã®ä¿å

$MIXSEEK_WORKSPACE/configs/evaluators/evaluator.toml
$MIXSEEK_WORKSPACE/configs/judgment/judgment.toml

éè¦: ã«ã¹ã¿ã ãã¹ï¼configs/evaluators/ãconfigs/judgment/ï¼ãä½¿ç¨ããå ´åã¯ãå¿ãorchestrator.tomlã§ãã¹ãæç¤ºçã«æå®ãã¦ãã ãããæå®ããªãã¨ããã©ã«ããã¹ï¼configs/evaluator.tomlãconfigs/judgment.tomlï¼ãæ¤ç´¢ãããè¨å®ãåæ ããã¾ããã

# orchestrator.toml
[orchestrator]
evaluator_config = "configs/evaluators/evaluator.toml"
judgment_config = "configs/judgment/judgment.toml"

Step 5: è¨å®ãã¡ã¤ã«ã®æ¤è¨¼ï¼å¿é ï¼

çæå¾ã¯å¿ãæ¤è¨¼ãå®è¡ãã¦ãã ããã

# Evaluatorè¨å®ã®æ¤è¨¼
uv run python skills/mixseek-config-validate/scripts/validate-config.py \
    $MIXSEEK_WORKSPACE/configs/evaluators/evaluator.toml --type evaluator

# Judgmentè¨å®ã®æ¤è¨¼
uv run python skills/mixseek-config-validate/scripts/validate-config.py \
    $MIXSEEK_WORKSPACE/configs/judgment/judgment.toml --type judgment

æ¨æºã¡ããªã¯ã¹è©³ç´°

ClarityCoherenceï¼æç¢ºæ§ã»ä¸è²«æ§ï¼

åçã®èªã¿ãããã¨è«ççä¸è²«æ§ãè©ä¾¡ãã¾ãã

è©ä¾¡è¦³ç¹:

æç« æ§é ã®æç¢ºã
è«ççãªæµã
å°éç¨èªã®é©åãªä½¿ç¨
çµè«ã®æç¢ºã

æ¨å¥¨ç¨é:

èª¬ææã®çæ
ã¬ãã¼ãä½æ
æè²ã³ã³ãã³ã

Coverageï¼ã«ãã¬ãã¸ï¼

è³ªåã«å¯¾ããåçã®ç¶²ç¾æ§ãè©ä¾¡ãã¾ãã

è©ä¾¡è¦³ç¹:

è³ªåã®å¨å´é¢ã¸ã®å¯¾å¿
é¢é£ãããã¯ã®åå«
ä¾ç¤ºã®åå®åº¦
è£è¶³æå ±ã®æç¡

æ¨å¥¨ç¨é:

ãªãµã¼ãã¿ã¹ã¯
FAQä½æ
æè¡ããã¥ã¡ã³ã

Relevanceï¼é¢é£æ§ï¼

åçãè³ªåã«å¯¾ãã¦ã©ãã ãçç¢ºããè©ä¾¡ãã¾ãã

è©ä¾¡è¦³ç¹:

è³ªåã¸ã®ç´æ¥çãªåç
ä¸è¦ãªæå ±ã®æé¤
ç¦ç¹ã®ç¶æ
æèã¸ã®é©å

æ¨å¥¨ç¨é:

Q&A
ã«ã¹ã¿ãã¼ãµãã¼ã
æ¤ç´¢çµæã®è©ä¾¡

LLMPlainï¼æ±ç¨LLMè©ä¾¡ï¼

system_instructionã§å®ç¾©ããã«ã¹ã¿ã è©ä¾¡åºæºã«åºã¥ãã¦LLMãè©ä¾¡ãã¾ãã

ç¹å¾´:

äºåå®ç¾©ãããè©ä¾¡ãã¸ãã¯ãæããªã
system_instructionã§å®å¨ã«ã«ã¹ã¿ãã¤ãºå¯è½
ç¹æ®ãªè©ä¾¡åºæºãå¿è¦ãªå ´åã«ä½¿ç¨

æ¨å¥¨ç¨é:

ãã¡ã¤ã³åºæã®è©ä¾¡ï¼æ³å¾ãå»çãªã©ï¼
ããã¸ã§ã¯ãåºæã®åè³ªåºæº
ä»ã®ã¡ããªã¯ã¹ã§ã«ãã¼ã§ããªãè¦³ç¹

è¨å®ä¾:

[[metrics]]
name = "LLMPlain"
weight = 0.5
system_instruction = """
ã»ãã¥ãªãã£è¦³ç¹ããåçãè©ä¾¡ãã¦ãã ãã:
1. æ©å¯æå ±ã®æ¼æ´©ãªã¹ã¯
2. å®å¨ãªã³ã¼ãã£ã³ã°å®è·µ
3. èå¼±æ§ã®æç¡
0-100ã®ã¹ã³ã¢ã§è©ä¾¡ãã¦ãã ããã
"""

ä¾

åçéã¿ä»ãè¨å®

User: è©ä¾¡è¨å®ãä½æãã¦

Agent: è©ä¾¡è¨å®ãææ¡ãã¾ãã

       ã¡ããªã¯ã¹ï¼åçéã¿ä»ãï¼:
       - ClarityCoherence: 33.4%
       - Coverage: 33.3%
       - Relevance: 33.3%

       ãã®æ§æã§ããããã§ããï¼

User: ã¯ã

Agent: è¨å®ãã¡ã¤ã«ãçæãã¾ãã:
       â configs/evaluators/evaluator.toml
       â configs/judgment/judgment.toml

ã«ã¹ã¿ã éã¿ä»ãè¨å®

User: æ£ç¢ºæ§ãéè¦ããè©ä¾¡è¨å®ãä½ã£ã¦

Agent: é¢é£æ§ï¼Relevanceï¼ãéè¦ããè¨å®ãææ¡ãã¾ãã

       ã¡ããªã¯ã¹:
       - Relevance: 50%ï¼éè¦ï¼
       - ClarityCoherence: 30%
       - Coverage: 20%

       ãã®æ§æã§ããããã§ããï¼

User: ã¯ã

çæãããè¨å®ãã¡ã¤ã«ä¾

evaluator.tomlï¼ã«ã¹ã¿ã éã¿ä»ãï¼:

# MixSeek Evaluator Configuration
# Generated by mixseek-evaluator-config skill

default_model = "google-gla:gemini-2.5-pro"
temperature = 0.0
timeout_seconds = 300
max_retries = 3

[[metrics]]
name = "Relevance"
weight = 0.5

[[metrics]]
name = "ClarityCoherence"
weight = 0.3

[[metrics]]
name = "Coverage"
weight = 0.2

judgment.toml:

# MixSeek Judgment Configuration
# Generated by mixseek-evaluator-config skill

model = "google-gla:gemini-2.5-pro"
temperature = 0.0
timeout_seconds = 60
max_retries = 3

éã¿ä»ãã«ã¼ã«

éã¿ä»ãã«ã¯ä»¥ä¸ã®ã«ã¼ã«ãããã¾ã:

å¨ã¦æå® or å¨ã¦çç¥: ä¸é¨ã®ã¡ããªã¯ã¹ã ãã«éã¿ãæå®ãããã¨ã¯ã§ãã¾ãã
åè¨1.0: å¨ã¦ã®éã¿ã®åè¨ã¯1.0ï¼Â±0.001ï¼ã§ããå¿è¦ãããã¾ã
çç¥æã¯åç: éã¿ãçç¥ããã¨èªåçã«åçéåããã¾ã

# æå¹: å¨ã¦æå®
[[metrics]]
name = "ClarityCoherence"
weight = 0.5

[[metrics]]
name = "Coverage"
weight = 0.5

# æå¹: å¨ã¦çç¥ï¼åçéåï¼
[[metrics]]
name = "ClarityCoherence"

[[metrics]]
name = "Coverage"

# ç¡å¹: ä¸é¨ã®ã¿æå®
[[metrics]]
name = "ClarityCoherence"
weight = 0.5  # â

[[metrics]]
name = "Coverage"
# weightçç¥ â

éã¿åè¨ã¨ã©ã¼

Error: Weights must sum to 1.0

è§£æ±ºæ¹æ³:

å¨ã¦ã®éã¿ã®åè¨ã1.0ã«ãªãããèª¿æ´
ã¾ãã¯å¨ã¦ã®éã¿ãçç¥ãã¦åçéå

Error: Unknown metric name

è§£æ±ºæ¹æ³:

æå¹ãªã¡ããªã¯ã¹åãä½¿ç¨: ClarityCoherence, Coverage, LLMPlain, Relevance
å¤§æåå°æåã«æ³¨æ

å¤å®ãä¸å®å®

è§£æ±ºæ¹æ³:

judgment.tomlã®temperatureã0.0ã«è¨å®ï¼æ±ºå®è«çï¼
seedãåºå®å¤ã«è¨å®

åç§

æ¨æºã¡ããªã¯ã¹: references/METRICS.md
ãªã¼ã±ã¹ãã¬ã¼ã¿ã¼è¨å®: skills/mixseek-orchestrator-config/

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

mixseek-evaluator-config

Agent 安装分布

Skill 文档

MixSeek è©ä¾¡è¨å®çæ

æ¦è¦

åææ¡ä»¶

çæãã¡ã¤ã«

ä½¿ç¨æ¹æ³

Step 1: è¦ä»¶ã®ãã¢ãªã³ã°

Step 2: ã¡ããªã¯ã¹è¨å®ã®ææ¡

Step 3: è¨å®ãã¡ã¤ã«ã®çæ

Step 4: ãã¡ã¤ã«ã®ä¿å

Step 5: è¨å®ãã¡ã¤ã«ã®æ¤è¨¼ï¼å¿é ï¼

æ¨æºã¡ããªã¯ã¹è©³ç´°

ClarityCoherenceï¼æç¢ºæ§ã»ä¸è²«æ§ï¼

Coverageï¼ã«ãã¬ãã¸ï¼

Relevanceï¼é¢é£æ§ï¼

LLMPlainï¼æ±ç¨LLMè©ä¾¡ï¼

ä¾

åçéã¿ä»ãè¨å®

ã«ã¹ã¿ã éã¿ä»ãè¨å®

çæãããè¨å®ãã¡ã¤ã«ä¾

éã¿ä»ãã«ã¼ã«

ãã©ãã«ã·ã¥ã¼ãã£ã³ã°

éã¿åè¨ã¨ã©ã¼

ã¡ããªã¯ã¹åã¨ã©ã¼

å¤å®ãä¸å®å®

åç§

mixseek-evaluator-config

Agent 安装分布

Skill 文档

MixSeek è©ä¾¡è¨­å®çæ

æ¦è¦

åææ¡ä»¶

çæãã¡ã¤ã«

ä½¿ç¨æ¹æ³

Step 1: è¦ä»¶ã®ãã¢ãªã³ã°

Step 2: ã¡ããªã¯ã¹è¨­å®ã®ææ¡

Step 3: è¨­å®ãã¡ã¤ã«ã®çæ

Step 4: ãã¡ã¤ã«ã®ä¿å­

Step 5: è¨­å®ãã¡ã¤ã«ã®æ¤è¨¼ï¼å¿ é ï¼

æ¨æºã¡ããªã¯ã¹è©³ç´°

ClarityCoherenceï¼æç¢ºæ§ã»ä¸è²«æ§ï¼

Coverageï¼ã«ãã¬ãã¸ï¼

Relevanceï¼é¢é£æ§ï¼

LLMPlainï¼æ±ç¨LLMè©ä¾¡ï¼

ä¾

åç­éã¿ä»ãè¨­å®

ã«ã¹ã¿ã éã¿ä»ãè¨­å®

çæãããè¨­å®ãã¡ã¤ã«ä¾

éã¿ä»ãã«ã¼ã«

ãã©ãã«ã·ã¥ã¼ãã£ã³ã°

éã¿åè¨ã¨ã©ã¼

ã¡ããªã¯ã¹åã¨ã©ã¼

å¤å®ãä¸å®å®

åç §

MixSeek è©ä¾¡è¨å®çæ

æ¦è¦

åææ¡ä»¶

çæãã¡ã¤ã«

ä½¿ç¨æ¹æ³

Step 1: è¦ä»¶ã®ãã¢ãªã³ã°

Step 2: ã¡ããªã¯ã¹è¨å®ã®ææ¡

Step 3: è¨å®ãã¡ã¤ã«ã®çæ

Step 4: ãã¡ã¤ã«ã®ä¿å

Step 5: è¨å®ãã¡ã¤ã«ã®æ¤è¨¼ï¼å¿é ï¼

æ¨æºã¡ããªã¯ã¹è©³ç´°

ClarityCoherenceï¼æç¢ºæ§ã»ä¸è²«æ§ï¼

Coverageï¼ã«ãã¬ãã¸ï¼

Relevanceï¼é¢é£æ§ï¼

LLMPlainï¼æ±ç¨LLMè©ä¾¡ï¼

ä¾

åçéã¿ä»ãè¨å®

ã«ã¹ã¿ã éã¿ä»ãè¨å®

çæãããè¨å®ãã¡ã¤ã«ä¾

éã¿ä»ãã«ã¼ã«

ãã©ãã«ã·ã¥ã¼ãã£ã³ã°

éã¿åè¨ã¨ã©ã¼

ã¡ããªã¯ã¹åã¨ã©ã¼

å¤å®ãä¸å®å®

åç§