cost-aware-llm-pipeline

📁 shimo4228/claude-code-learned-skills 📅 14 days ago

总安装量

周安装量

#56151

全站排名

安装命令

npx skills add https://github.com/shimo4228/claude-code-learned-skills --skill cost-aware-llm-pipeline

Agent 安装分布

replit 3

openclaw 3

mcpjam 2

claude-code 2

windsurf 2

zencoder 2

Skill 文档

Cost-Aware LLM Pipeline

ã³ã¹ãæé©åLLMãã¤ãã©ã¤ã³

Extracted / æ½åºæ¥: 2026-02-08 Context / ã³ã³ããã¹ã: LLMãä½¿ãã¢ããªã§ãã³ã¹ãå¶å¾¡ããªããåè³ªãç¶æãããã¿ã¼ã³

Problem / èª²é¡

åç´ãªã¿ã¹ã¯ã«ãé«ä¾¡ãªã¢ãã«ãä½¿ã£ã¦ãã¾ã
ä¸æçãªã¨ã©ã¼ã§ãªãã©ã¤ããå¤±æãã
åãã·ã¹ãã ããã³ãããæ¯åéä¿¡ããã¼ã¯ã³ãæµªè²»ãã
äºç®è¶éã«æ°ã¥ããªã

Solution / è§£æ±ºç

4ã¤ã®è¦ç´ ãçµã¿åãããï¼

1. Model Routingï¼ã¢ãã«èªåé¸æï¼

ã¿ã¹ã¯ã®è¤éåº¦ã«åºã¥ãã¦ã¢ãã«ãèªåé¸æããã

MODEL_SONNET = "claude-sonnet-4-5-20250929"
MODEL_HAIKU = "claude-haiku-4-5-20251001"

_SONNET_TEXT_THRESHOLD = 10_000  # chars
_SONNET_CARD_THRESHOLD = 30     # items

def select_model(
    text_length: int,
    item_count: int,
    force_model: str | None = None,
) -> str:
    """Automatically select model based on task complexity."""
    if force_model is not None:
        return force_model
    if text_length >= _SONNET_TEXT_THRESHOLD or item_count >= _SONNET_CARD_THRESHOLD:
        return MODEL_SONNET  # Complex task
    return MODEL_HAIKU  # Simple task (3-4x cheaper)

2. Immutable Cost Trackingï¼ä¸å¤ã³ã¹ãè¿½è·¡ï¼

from dataclasses import dataclass

@dataclass(frozen=True, slots=True)
class CostRecord:
    model: str
    input_tokens: int
    output_tokens: int
    cost_usd: float

@dataclass(frozen=True, slots=True)
class CostTracker:
    budget_limit: float = 1.00
    records: tuple[CostRecord, ...] = ()

    def add(self, record: CostRecord) -> "CostTracker":
        """Return new tracker with added record (never mutates self)."""
        return CostTracker(
            budget_limit=self.budget_limit,
            records=(*self.records, record),
        )

    @property
    def total_cost(self) -> float:
        return sum(r.cost_usd for r in self.records)

    @property
    def over_budget(self) -> bool:
        return self.total_cost > self.budget_limit

from anthropic import (
    APIConnectionError,
    InternalServerError,
    RateLimitError,
)

_RETRYABLE_ERRORS = (APIConnectionError, RateLimitError, InternalServerError)
_MAX_RETRIES = 3

def _call_with_retry(func, *, max_retries: int = _MAX_RETRIES):
    """Retry only on transient errors, fail fast on others."""
    for attempt in range(max_retries):
        try:
            return func()
        except _RETRYABLE_ERRORS:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)  # Exponential backoff
    # AuthenticationError, BadRequestError etc. â raise immediately

4. Prompt Cachingï¼ããã³ãããã£ãã·ã¥ï¼

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": system_prompt,
                "cache_control": {"type": "ephemeral"},  # Cache this
            },
            {
                "type": "text",
                "text": user_input,  # Variable part
            },
        ],
    }
]

Composition / çµã¿åããæ¹

def process(text: str, config: Config, tracker: CostTracker) -> tuple[Result, CostTracker]:
    # 1. Route model
    model = select_model(len(text), estimated_items, config.force_model)

    # 2. Check budget
    if tracker.over_budget:
        raise BudgetExceededError(tracker.total_cost, tracker.budget_limit)

    # 3. Call with retry + caching
    response = _call_with_retry(lambda: client.messages.create(
        model=model,
        messages=build_cached_messages(system_prompt, text),
    ))

    # 4. Track cost (immutable)
    record = CostRecord(model=model, input_tokens=..., output_tokens=..., cost_usd=...)
    tracker = tracker.add(record)

    return parse_result(response), tracker

Pricing Reference (2025-2026) / ä¾¡æ ¼åè

Model	Input ($/1M tokens)	Output ($/1M tokens)
Haiku 4.5	$0.80	$4.00
Sonnet 4.5	$3.00	$15.00
Opus 4.5	$15.00	$75.00

When to Use / ä½¿ç¨ãã¹ãå ´é¢

Claude/OpenAI APIãä½¿ãã¢ããªã±ã¼ã·ã§ã³å¨è¬
ãããå¦çã§ã³ã¹ãç®¡çãå¿è¦ãªå ´å
è¤æ°ã¢ãã«ãä½¿ãåãããå ´å
é·ãã·ã¹ãã ããã³ãããç¹°ãè¿ãéä¿¡ããå ´å

Related Patterns / é¢é£ãã¿ã¼ã³

immutable-model-updates.md â Swiftçã®ä¸å¤æ´æ°ãã¿ã¼ã³

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

cost-aware-llm-pipeline

Agent 安装分布

Skill 文档

Cost-Aware LLM Pipeline

ã³ã¹ãæé©åLLMãã¤ãã©ã¤ã³

Problem / èª²é¡

Solution / è§£æ±ºç­

1. Model Routingï¼ã¢ãã«èªåé¸æï¼

2. Immutable Cost Trackingï¼ä¸å¤ã³ã¹ãè¿½è·¡ï¼

3. Narrow Retry Logicï¼éå®çãªãã©ã¤ï¼

4. Prompt Cachingï¼ãã­ã³ããã­ã£ãã·ã¥ï¼

Composition / çµã¿åããæ¹

Pricing Reference (2025-2026) / ä¾¡æ ¼åè

When to Use / ä½¿ç¨ãã¹ãå ´é¢

Related Patterns / é¢é£ãã¿ã¼ã³