ai-annotation-workflow

📁 dengineproblem/agents-monorepo 📅 Jan 29, 2026

总安装量

周安装量

#13314

全站排名

安装命令

npx skills add https://github.com/dengineproblem/agents-monorepo --skill ai-annotation-workflow

Agent 安装分布

github-copilot 3

amp 2

claude-code 2

kimi-cli 2

gemini-cli 2

Skill 文档

AI Annotation Workflow Expert

ÐÑÐ½Ð¾Ð²Ð½ÑÐµ Ð¿ÑÐ¸Ð½ÑÐ¸Ð¿Ñ

Ð¦Ð¸ÐºÐ» ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸ Ð´Ð°Ð½Ð½ÑÑ

ÐÐ»Ð°Ð½Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ: ÐÐ¿ÑÐµÐ´ÐµÐ»ÐµÐ½Ð¸Ðµ Ð·Ð°Ð´Ð°ÑÐ¸, ÑÐ¾Ð·Ð´Ð°Ð½Ð¸Ðµ guidelines
ÐÐ¸Ð»Ð¾Ñ: Ð¢ÐµÑÑÐ¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ Ñ Ð¼Ð°Ð»Ð¾Ð¹ Ð²ÑÐ±Ð¾ÑÐºÐ¾Ð¹
ÐÐ°ÑÑÑÐ°Ð±Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ: Ð Ð°ÑÑÐ¸ÑÐµÐ½Ð¸Ðµ Ð½Ð° Ð¿Ð¾Ð»Ð½ÑÐ¹ Ð´Ð°ÑÐ°ÑÐµÑ
ÐÐ¾Ð½ÑÑÐ¾Ð»Ñ ÐºÐ°ÑÐµÑÑÐ²Ð°: ÐÐ¾ÑÑÐ¾ÑÐ½Ð½ÑÐ¹ Ð¼Ð¾Ð½Ð¸ÑÐ¾ÑÐ¸Ð½Ð³
ÐÑÐµÑÐ°ÑÐ¸Ñ: Ð£Ð»ÑÑÑÐµÐ½Ð¸Ðµ Ð½Ð° Ð¾ÑÐ½Ð¾Ð²Ðµ Ð¾Ð±ÑÐ°ÑÐ½Ð¾Ð¹ ÑÐ²ÑÐ·Ð¸

Ð¢Ð¸Ð¿Ñ Ð·Ð°Ð´Ð°Ñ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸

ÐÐ»Ð°ÑÑÐ¸ÑÐ¸ÐºÐ°ÑÐ¸Ñ: ÐÐ°ÑÐµÐ³Ð¾ÑÐ¸Ð·Ð°ÑÐ¸Ñ Ð´Ð°Ð½Ð½ÑÑ
ÐÐµÑÐµÐºÑÐ¸Ñ Ð¾Ð±ÑÐµÐºÑÐ¾Ð²: Bounding boxes
Ð¡ÐµÐ³Ð¼ÐµÐ½ÑÐ°ÑÐ¸Ñ: ÐÐ¸ÐºÑÐµÐ»ÑÐ½Ð°Ñ ÑÐ°Ð·Ð¼ÐµÑÐºÐ°
NER: Named Entity Recognition
Sentiment: ÐÐ½Ð°Ð»Ð¸Ð· ÑÐ¾Ð½Ð°Ð»ÑÐ½Ð¾ÑÑÐ¸
Ð¢ÑÐ°Ð½ÑÐºÑÐ¸Ð¿ÑÐ¸Ñ: ÐÑÐ´Ð¸Ð¾ Ð² ÑÐµÐºÑÑ

Ð¡Ð¾Ð·Ð´Ð°Ð½Ð¸Ðµ Guidelines

Ð¡ÑÑÑÐºÑÑÑÐ° Ð´Ð¾ÐºÑÐ¼ÐµÐ½ÑÐ°

# Annotation Guidelines v1.0

## ÐÐ°Ð´Ð°ÑÐ°
Ð Ð°Ð·Ð¼ÐµÑÐºÐ° Ð¸Ð·Ð¾Ð±ÑÐ°Ð¶ÐµÐ½Ð¸Ð¹ ÑÐ¾Ð²Ð°ÑÐ¾Ð² Ð´Ð»Ñ e-commerce

## ÐÐ°ÑÐµÐ³Ð¾ÑÐ¸Ð¸
1. ÐÐ´ÐµÐ¶Ð´Ð°
   - ÐÐµÑÑÐ½ÑÑ Ð¾Ð´ÐµÐ¶Ð´Ð°
   - ÐÐ¸Ð¶Ð½ÑÑ Ð¾Ð´ÐµÐ¶Ð´Ð°
   - ÐÐºÑÐµÑÑÑÐ°ÑÑ

2. ÐÐ»ÐµÐºÑÑÐ¾Ð½Ð¸ÐºÐ°
   - Ð¡Ð¼Ð°ÑÑÑÐ¾Ð½Ñ
   - ÐÐ¾ÑÑÐ±ÑÐºÐ¸
   - ÐÐºÑÐµÑÑÑÐ°ÑÑ

## ÐÑÐ°Ð²Ð¸Ð»Ð° ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸
- ÐÑÐ±Ð¸ÑÐ°Ð¹ÑÐµ Ð½Ð°Ð¸Ð±Ð¾Ð»ÐµÐµ ÑÐ¿ÐµÑÐ¸ÑÐ¸ÑÐ½ÑÑ ÐºÐ°ÑÐµÐ³Ð¾ÑÐ¸Ñ
- ÐÑÐ¸ Ð½ÐµÐ¾Ð¿ÑÐµÐ´ÐµÐ»ÑÐ½Ð½Ð¾ÑÑÐ¸ Ð¸ÑÐ¿Ð¾Ð»ÑÐ·ÑÐ¹ÑÐµ "ÐÑÑÐ³Ð¾Ðµ"
- ÐÐ´Ð¸Ð½ Ð¾Ð±ÑÐµÐºÑ = Ð¾Ð´Ð½Ð° ÐºÐ°ÑÐµÐ³Ð¾ÑÐ¸Ñ

## ÐÑÐ¸Ð¼ÐµÑÑ
[ÐÑÐ¸Ð¼ÐµÑÑ Ñ Ð¸Ð·Ð¾Ð±ÑÐ°Ð¶ÐµÐ½Ð¸ÑÐ¼Ð¸ Ð¸ Ð¿ÑÐ°Ð²Ð¸Ð»ÑÐ½Ð¾Ð¹ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¾Ð¹]

## Edge Cases
- Ð¢Ð¾Ð²Ð°Ñ ÑÐ°ÑÑÐ¸ÑÐ½Ð¾ Ð²Ð¸Ð´ÐµÐ½: ÑÐ°Ð·Ð¼ÐµÑÐ°Ð¹ÑÐµ ÐµÑÐ»Ð¸ >50% Ð²Ð¸Ð´Ð½Ð¾
- ÐÐµÑÐºÐ¾Ð»ÑÐºÐ¾ ÑÐ¾Ð²Ð°ÑÐ¾Ð²: ÑÐ°Ð·Ð¼ÐµÑÐ°Ð¹ÑÐµ ÐºÐ°Ð¶Ð´ÑÐ¹ Ð¾ÑÐ´ÐµÐ»ÑÐ½Ð¾

ÐÐµÑÑÐ¸ÐºÐ¸ ÐºÐ°ÑÐµÑÑÐ²Ð°

Inter-Annotator Agreement (IAA)

from sklearn.metrics import cohen_kappa_score, fleiss_kappa

def calculate_agreement(annotations_a, annotations_b):
    """Ð Ð°ÑÑÑÑ ÑÐ¾Ð³Ð»Ð°ÑÐ¾Ð²Ð°Ð½Ð½Ð¾ÑÑÐ¸ Ð¼ÐµÐ¶Ð´Ñ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¾ÑÐ°Ð¼Ð¸"""

    # Cohen's Kappa Ð´Ð»Ñ Ð´Ð²ÑÑ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¾ÑÐ¾Ð²
    kappa = cohen_kappa_score(annotations_a, annotations_b)

    # ÐÐ½ÑÐµÑÐ¿ÑÐµÑÐ°ÑÐ¸Ñ
    if kappa < 0.20:
        interpretation = "Poor"
    elif kappa < 0.40:
        interpretation = "Fair"
    elif kappa < 0.60:
        interpretation = "Moderate"
    elif kappa < 0.80:
        interpretation = "Good"
    else:
        interpretation = "Excellent"

    return {
        'kappa': kappa,
        'interpretation': interpretation
    }

Quality Metrics

class AnnotationQualityMonitor:
    def __init__(self):
        self.metrics = []

    def calculate_metrics(self, annotations, gold_standard):
        """Ð Ð°ÑÑÑÑ Ð¼ÐµÑÑÐ¸Ðº ÐºÐ°ÑÐµÑÑÐ²Ð° Ð¾ÑÐ½Ð¾ÑÐ¸ÑÐµÐ»ÑÐ½Ð¾ ÑÑÐ°Ð»Ð¾Ð½Ð°"""

        from sklearn.metrics import precision_score, recall_score, f1_score

        precision = precision_score(gold_standard, annotations, average='weighted')
        recall = recall_score(gold_standard, annotations, average='weighted')
        f1 = f1_score(gold_standard, annotations, average='weighted')

        return {
            'precision': precision,
            'recall': recall,
            'f1': f1,
            'accuracy': sum(a == g for a, g in zip(annotations, gold_standard)) / len(annotations)
        }

    def detect_drift(self, window_size=100):
        """ÐÐ±Ð½Ð°ÑÑÐ¶ÐµÐ½Ð¸Ðµ Ð´ÑÐ¸ÑÑÐ° ÐºÐ°ÑÐµÑÑÐ²Ð°"""

        if len(self.metrics) < window_size * 2:
            return False

        recent = self.metrics[-window_size:]
        previous = self.metrics[-window_size*2:-window_size]

        recent_avg = sum(m['f1'] for m in recent) / len(recent)
        previous_avg = sum(m['f1'] for m in previous) / len(previous)

        # ÐÑÐ¸ÑÑ ÐµÑÐ»Ð¸ Ð¿Ð°Ð´ÐµÐ½Ð¸Ðµ > 5%
        return (previous_avg - recent_avg) / previous_avg > 0.05

Workflow Ð°Ð²ÑÐ¾Ð¼Ð°ÑÐ¸Ð·Ð°ÑÐ¸Ð¸

Label Studio Ð¸Ð½ÑÐµÐ³ÑÐ°ÑÐ¸Ñ

from label_studio_sdk import Client

class AnnotationPipeline:
    def __init__(self, api_key, url):
        self.client = Client(url=url, api_key=api_key)

    def create_project(self, name, label_config):
        """Ð¡Ð¾Ð·Ð´Ð°Ð½Ð¸Ðµ Ð¿ÑÐ¾ÐµÐºÑÐ° ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸"""

        project = self.client.create_project(
            title=name,
            label_config=label_config
        )
        return project

    def import_tasks(self, project_id, data):
        """ÐÐ¼Ð¿Ð¾ÑÑ Ð·Ð°Ð´Ð°Ñ Ð´Ð»Ñ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸"""

        project = self.client.get_project(project_id)
        project.import_tasks(data)

    def export_annotations(self, project_id, format='JSON'):
        """ÐÐºÑÐ¿Ð¾ÑÑ Ð³Ð¾ÑÐ¾Ð²ÑÑ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¸Ð¹"""

        project = self.client.get_project(project_id)
        return project.export_tasks(format=format)

Active Learning Pipeline

class ActiveLearningAnnotation:
    def __init__(self, model, unlabeled_pool):
        self.model = model
        self.unlabeled_pool = unlabeled_pool
        self.labeled_data = []

    def select_samples_for_annotation(self, n_samples=100, strategy='uncertainty'):
        """ÐÑÐ±Ð¾Ñ Ð¾Ð±ÑÐ°Ð·ÑÐ¾Ð² Ð´Ð»Ñ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸"""

        if strategy == 'uncertainty':
            # ÐÑÐ±Ð¾Ñ Ð¾Ð±ÑÐ°Ð·ÑÐ¾Ð² Ñ Ð½Ð°Ð¸Ð±Ð¾Ð»ÑÑÐµÐ¹ Ð½ÐµÐ¾Ð¿ÑÐµÐ´ÐµÐ»ÑÐ½Ð½Ð¾ÑÑÑÑ
            predictions = self.model.predict_proba(self.unlabeled_pool)
            uncertainties = -np.sum(predictions * np.log(predictions + 1e-10), axis=1)
            indices = np.argsort(uncertainties)[-n_samples:]

        elif strategy == 'diversity':
            # ÐÑÐ±Ð¾Ñ ÑÐ°Ð·Ð½Ð¾Ð¾Ð±ÑÐ°Ð·Ð½ÑÑ Ð¾Ð±ÑÐ°Ð·ÑÐ¾Ð²
            from sklearn.cluster import KMeans
            kmeans = KMeans(n_clusters=n_samples)
            kmeans.fit(self.unlabeled_pool)
            indices = [
                np.argmin(np.linalg.norm(self.unlabeled_pool - center, axis=1))
                for center in kmeans.cluster_centers_
            ]

        return self.unlabeled_pool[indices]

    def update_model(self, new_annotations):
        """ÐÐ±Ð½Ð¾Ð²Ð»ÐµÐ½Ð¸Ðµ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ð¿Ð¾ÑÐ»Ðµ Ð¿Ð¾Ð»ÑÑÐµÐ½Ð¸Ñ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¸Ð¹"""

        self.labeled_data.extend(new_annotations)
        X = [item['features'] for item in self.labeled_data]
        y = [item['label'] for item in self.labeled_data]
        self.model.fit(X, y)

Ð£Ð¿ÑÐ°Ð²Ð»ÐµÐ½Ð¸Ðµ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¾ÑÐ°Ð¼Ð¸

ÐÐ½Ð±Ð¾ÑÐ´Ð¸Ð½Ð³

class AnnotatorOnboarding:
    def __init__(self, gold_standard_samples):
        self.gold_standard = gold_standard_samples
        self.passing_threshold = 0.85

    def run_qualification_test(self, annotator_id, annotations):
        """ÐÐ²Ð°Ð»Ð¸ÑÐ¸ÐºÐ°ÑÐ¸Ð¾Ð½Ð½ÑÐ¹ ÑÐµÑÑ Ð´Ð»Ñ Ð½Ð¾Ð²ÑÑ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¾ÑÐ¾Ð²"""

        correct = sum(
            a == g for a, g in zip(annotations, self.gold_standard)
        )
        accuracy = correct / len(self.gold_standard)

        return {
            'annotator_id': annotator_id,
            'accuracy': accuracy,
            'passed': accuracy >= self.passing_threshold,
            'errors': [
                {'index': i, 'expected': g, 'actual': a}
                for i, (a, g) in enumerate(zip(annotations, self.gold_standard))
                if a != g
            ]
        }

ÐÐ¾Ð½Ð¸ÑÐ¾ÑÐ¸Ð½Ð³ Ð¿ÑÐ¾Ð¸Ð·Ð²Ð¾Ð´Ð¸ÑÐµÐ»ÑÐ½Ð¾ÑÑÐ¸

class AnnotatorPerformanceTracker:
    def __init__(self):
        self.annotator_stats = {}

    def log_annotation(self, annotator_id, task_id, time_spent, quality_score):
        if annotator_id not in self.annotator_stats:
            self.annotator_stats[annotator_id] = []

        self.annotator_stats[annotator_id].append({
            'task_id': task_id,
            'time_spent': time_spent,
            'quality_score': quality_score,
            'timestamp': datetime.now()
        })

    def get_annotator_report(self, annotator_id):
        stats = self.annotator_stats.get(annotator_id, [])

        if not stats:
            return None

        return {
            'total_tasks': len(stats),
            'avg_time': sum(s['time_spent'] for s in stats) / len(stats),
            'avg_quality': sum(s['quality_score'] for s in stats) / len(stats),
            'tasks_per_hour': len(stats) / (
                (stats[-1]['timestamp'] - stats[0]['timestamp']).total_seconds() / 3600
            ) if len(stats) > 1 else 0
        }

ÐÐ½ÑÑÑÑÐ¼ÐµÐ½ÑÑ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸

ÐÐ¾Ð¿ÑÐ»ÑÑÐ½ÑÐµ Ð¿Ð»Ð°ÑÑÐ¾ÑÐ¼Ñ

Label Studio: Open-source, Ð³Ð¸Ð±ÐºÐ°Ñ ÐºÐ¾Ð½ÑÐ¸Ð³ÑÑÐ°ÑÐ¸Ñ
Labelbox: Enterprise, ML-assisted labeling
Scale AI: Managed workforce
Amazon SageMaker Ground Truth: AWS Ð¸Ð½ÑÐµÐ³ÑÐ°ÑÐ¸Ñ
Prodigy: NLP-focused, active learning

ÐÑÐ±Ð¾Ñ Ð¸Ð½ÑÑÑÑÐ¼ÐµÐ½ÑÐ°

ÐÑÐ¸ÑÐµÑÐ¸Ð¹	Label Studio	Labelbox	Scale AI
Ð¡ÑÐ¾Ð¸Ð¼Ð¾ÑÑÑ	Free/Open	$$	$$$
Workforce	Self-managed	Optional	Included
ML Assist	Basic	Advanced	Advanced
Customization	High	Medium	Low

ÐÑÑÑÐ¸Ðµ Ð¿ÑÐ°ÐºÑÐ¸ÐºÐ¸

ÐÐ°ÑÐ¸Ð½Ð°Ð¹ÑÐµ Ñ Ð¿Ð¸Ð»Ð¾ÑÐ° â 100-200 Ð¾Ð±ÑÐ°Ð·ÑÐ¾Ð² Ð´Ð»Ñ ÐºÐ°Ð»Ð¸Ð±ÑÐ¾Ð²ÐºÐ¸
ÐÑÐµÑÐ¸ÑÑÐ¹ÑÐµ guidelines â Ð¾Ð±Ð½Ð¾Ð²Ð»ÑÐ¹ÑÐµ Ð¿Ð¾ Ð¼ÐµÑÐµ Ð¾Ð±Ð½Ð°ÑÑÐ¶ÐµÐ½Ð¸Ñ edge cases
ÐÑÐ¿Ð¾Ð»ÑÐ·ÑÐ¹ÑÐµ gold standard â 5-10% Ð´Ð°Ð½Ð½ÑÑ Ð´Ð»Ñ ÐºÐ¾Ð½ÑÑÐ¾Ð»Ñ ÐºÐ°ÑÐµÑÑÐ²Ð°
ÐÐ°Ð»Ð°Ð½ÑÐ¸ÑÑÐ¹ÑÐµ ÑÐºÐ¾ÑÐ¾ÑÑÑ Ð¸ ÐºÐ°ÑÐµÑÑÐ²Ð¾ â Ð½Ðµ Ð´Ð°Ð²Ð¸ÑÐµ Ð½Ð° Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¾ÑÐ¾Ð²
ÐÐ¾ÐºÑÐ¼ÐµÐ½ÑÐ¸ÑÑÐ¹ÑÐµ ÑÐµÑÐµÐ½Ð¸Ñ â Ð·Ð°Ð¿Ð¸ÑÑÐ²Ð°Ð¹ÑÐµ Ð²ÑÐµ ÑÐ°Ð·ÑÑÑÐ½ÐµÐ½Ð¸Ñ
ÐÐ²ÑÐ¾Ð¼Ð°ÑÐ¸Ð·Ð¸ÑÑÐ¹ÑÐµ ÑÑÐ¾ Ð¼Ð¾Ð¶Ð½Ð¾ â pre-labeling, validation rules

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

ai-annotation-workflow

Agent 安装分布

Skill 文档

AI Annotation Workflow Expert

ÐÑÐ½Ð¾Ð²Ð½ÑÐµ Ð¿ÑÐ¸Ð½ÑÐ¸Ð¿Ñ

Ð¦Ð¸ÐºÐ» ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸ Ð´Ð°Ð½Ð½ÑÑ

Ð¢Ð¸Ð¿Ñ Ð·Ð°Ð´Ð°Ñ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸

Ð¡Ð¾Ð·Ð´Ð°Ð½Ð¸Ðµ Guidelines

Ð¡ÑÑÑÐºÑÑÑÐ° Ð´Ð¾ÐºÑÐ¼ÐµÐ½ÑÐ°

ÐÐµÑÑÐ¸ÐºÐ¸ ÐºÐ°ÑÐµÑÑÐ²Ð°

Inter-Annotator Agreement (IAA)

Quality Metrics

Workflow Ð°Ð²ÑÐ¾Ð¼Ð°ÑÐ¸Ð·Ð°ÑÐ¸Ð¸

Label Studio Ð¸Ð½ÑÐµÐ³ÑÐ°ÑÐ¸Ñ

Active Learning Pipeline

Ð£Ð¿ÑÐ°Ð²Ð»ÐµÐ½Ð¸Ðµ Ð°Ð½Ð½Ð¾ÑÐ°ÑÐ¾ÑÐ°Ð¼Ð¸

ÐÐ½Ð±Ð¾ÑÐ´Ð¸Ð½Ð³

ÐÐ¾Ð½Ð¸ÑÐ¾ÑÐ¸Ð½Ð³ Ð¿ÑÐ¾Ð¸Ð·Ð²Ð¾Ð´Ð¸ÑÐµÐ»ÑÐ½Ð¾ÑÑÐ¸

ÐÐ½ÑÑÑÑÐ¼ÐµÐ½ÑÑ ÑÐ°Ð·Ð¼ÐµÑÐºÐ¸

ÐÐ¾Ð¿ÑÐ»ÑÑÐ½ÑÐµ Ð¿Ð»Ð°ÑÑÐ¾ÑÐ¼Ñ

ÐÑÐ±Ð¾Ñ Ð¸Ð½ÑÑÑÑÐ¼ÐµÐ½ÑÐ°

ÐÑÑÑÐ¸Ðµ Ð¿ÑÐ°ÐºÑÐ¸ÐºÐ¸