categorical-encoder

📁 dengineproblem/agents-monorepo 📅 Jan 29, 2026

总安装量

周安装量

#14769

全站排名

安装命令

npx skills add https://github.com/dengineproblem/agents-monorepo --skill categorical-encoder

Agent 安装分布

github-copilot 3

amp 2

claude-code 2

kimi-cli 2

gemini-cli 2

Skill 文档

Categorical Encoder Expert

ÐÑÐ±Ð¾Ñ Ð½Ð° Ð¾ÑÐ½Ð¾Ð²Ðµ ÐºÐ°ÑÐ´Ð¸Ð½Ð°Ð»ÑÐ½Ð¾ÑÑÐ¸

ÐÐ°ÑÐ´Ð¸Ð½Ð°Ð»ÑÐ½Ð¾ÑÑÑ	Ð ÐµÐºÐ¾Ð¼ÐµÐ½Ð´Ð°ÑÐ¸Ñ
ÐÐ¸Ð·ÐºÐ°Ñ (<10)	One-hot, Dummy
Ð¡ÑÐµÐ´Ð½ÑÑ (10-50)	Target, Frequency, Binary
ÐÑÑÐ¾ÐºÐ°Ñ (>50)	Hash, Embeddings
ÐÐ¾ÑÑÐ´ÐºÐ¾Ð²Ð°Ñ	Ordinal

One-Hot Encoding

from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# ÐÐ»Ñ pandas
df_encoded = pd.get_dummies(df, columns=['category_col'], prefix='cat')

# ÐÐ»Ñ sklearn
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
X_train_encoded = encoder.fit_transform(X_train[['category_col']])
X_test_encoded = encoder.transform(X_test[['category_col']])

# ÐÐ¾Ð»ÑÑÐ¸ÑÑ Ð½Ð°Ð·Ð²Ð°Ð½Ð¸Ñ Ð¿ÑÐ¸Ð·Ð½Ð°ÐºÐ¾Ð²
feature_names = encoder.get_feature_names_out(['category_col'])

Target Encoding Ñ ÐºÑÐ¾ÑÑ-Ð²Ð°Ð»Ð¸Ð´Ð°ÑÐ¸ÐµÐ¹

from sklearn.model_selection import KFold
import numpy as np

def target_encode_cv(X, y, column, n_splits=5, alpha=1.0):
    """
    Target ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ Ñ CV Ð´Ð»Ñ Ð¿ÑÐµÐ´Ð¾ÑÐ²ÑÐ°ÑÐµÐ½Ð¸Ñ Ð¿ÐµÑÐµÐ¾Ð±ÑÑÐµÐ½Ð¸Ñ
    """
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
    encoded = np.zeros(len(X))
    global_mean = y.mean()

    for train_idx, val_idx in kf.split(X):
        # ÐÑÑÐ¸ÑÐ»Ð¸ÑÑ ÑÑÐµÐ´Ð½Ð¸Ðµ Ð½Ð° ÑÑÐµÐ½Ð¸ÑÐ¾Ð²Ð¾ÑÐ½Ð¾Ð¹ Ð²ÑÐ±Ð¾ÑÐºÐµ
        category_means = y.iloc[train_idx].groupby(
            X[column].iloc[train_idx]
        ).mean()

        # ÐÐ°Ð¹ÐµÑÐ¾Ð²ÑÐºÐ¾Ðµ ÑÐ³Ð»Ð°Ð¶Ð¸Ð²Ð°Ð½Ð¸Ðµ
        category_counts = X[column].iloc[train_idx].value_counts()
        smoothed_means = (
            category_counts * category_means + alpha * global_mean
        ) / (category_counts + alpha)

        # ÐÐ°ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°ÑÑ Ð²Ð°Ð»Ð¸Ð´Ð°ÑÐ¸Ð¾Ð½Ð½ÑÑ Ð²ÑÐ±Ð¾ÑÐºÑ
        encoded[val_idx] = X[column].iloc[val_idx].map(
            smoothed_means
        ).fillna(global_mean)

    return encoded

Binary Encoding

import category_encoders as ce

# Binary ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ ÑÐ¼ÐµÐ½ÑÑÐ°ÐµÑ ÑÐ°Ð·Ð¼ÐµÑÐ½Ð¾ÑÑÑ
binary_encoder = ce.BinaryEncoder(cols=['high_cardinality_col'])
X_train_binary = binary_encoder.fit_transform(X_train)
X_test_binary = binary_encoder.transform(X_test)

# ÐÐ»Ñ 100 ÐºÐ°ÑÐµÐ³Ð¾ÑÐ¸Ð¹: one-hot = 100, binary = 7 Ð¿ÑÐ¸Ð·Ð½Ð°ÐºÐ¾Ð²
print(f"ÐÑÑÐ¾Ð´Ð½ÑÑ ÐºÐ°ÑÐµÐ³Ð¾ÑÐ¸Ð¹: {X_train['col'].nunique()}")
print(f"Binary Ð¿ÑÐ¸Ð·Ð½Ð°ÐºÐ¾Ð²: {len([c for c in X_train_binary.columns if 'col' in c])}")

Frequency Ð¸ Count Encoding

def frequency_encode(train_series, test_series=None):
    """ÐÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ Ð¿Ð¾ ÑÐ°ÑÑÐ¾ÑÐµ Ð¿Ð¾ÑÐ²Ð»ÐµÐ½Ð¸Ñ"""
    freq_map = train_series.value_counts(normalize=True).to_dict()
    train_encoded = train_series.map(freq_map)

    if test_series is not None:
        test_encoded = test_series.map(freq_map).fillna(0)
        return train_encoded, test_encoded
    return train_encoded

def count_encode(train_series, test_series=None):
    """ÐÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ Ð¿Ð¾ ÐºÐ¾Ð»Ð¸ÑÐµÑÑÐ²Ñ"""
    count_map = train_series.value_counts().to_dict()
    train_encoded = train_series.map(count_map)

    if test_series is not None:
        test_encoded = test_series.map(count_map).fillna(0)
        return train_encoded, test_encoded
    return train_encoded

from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import OneHotEncoder

def create_categorical_embeddings(X_train, X_test, column, n_components=10):
    """Ð¡Ð¾Ð·Ð´Ð°ÑÑ ÑÐ¼Ð±ÐµÐ´Ð´Ð¸Ð½Ð³Ð¸ Ð¸Ð· one-hot"""
    # One-hot ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ
    encoder = OneHotEncoder(sparse_output=True, handle_unknown='ignore')
    X_train_oh = encoder.fit_transform(X_train[[column]])
    X_test_oh = encoder.transform(X_test[[column]])

    # ÐÐ¾Ð½Ð¸Ð¶ÐµÐ½Ð¸Ðµ ÑÐ°Ð·Ð¼ÐµÑÐ½Ð¾ÑÑÐ¸
    svd = TruncatedSVD(n_components=n_components, random_state=42)
    X_train_emb = svd.fit_transform(X_train_oh)
    X_test_emb = svd.transform(X_test_oh)

    return X_train_emb, X_test_emb, encoder, svd

Multiple Encoding Strategy

def multi_encode_categorical(df, column, target=None):
    """Ð¡Ð¾Ð·Ð´Ð°ÑÑ Ð¼Ð½Ð¾Ð¶ÐµÑÑÐ²ÐµÐ½Ð½ÑÐµ ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ñ"""
    encodings = {}

    # Frequency
    encodings[f'{column}_freq'] = frequency_encode(df[column])

    # Count
    encodings[f'{column}_count'] = count_encode(df[column])

    # Target (ÐµÑÐ»Ð¸ ÐµÑÑÑ)
    if target is not None:
        encodings[f'{column}_target'] = target_encode_cv(df, target, column)

    # Ordinal Ð´Ð»Ñ Ð´ÑÐµÐ²ÐµÑÐ½ÑÑ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    encodings[f'{column}_ordinal'] = le.fit_transform(df[column])

    return pd.DataFrame(encodings)

Production-ready Encoder

class RobustCategoricalEncoder:
    def __init__(self, encoding_type='onehot', handle_unknown='mode'):
        self.encoding_type = encoding_type
        self.handle_unknown = handle_unknown
        self.encoders = {}
        self.fallback_values = {}

    def fit(self, X, y=None):
        for column in X.select_dtypes(include=['object', 'category']).columns:
            if self.encoding_type == 'onehot':
                encoder = OneHotEncoder(
                    sparse_output=False,
                    handle_unknown='ignore'
                )
                encoder.fit(X[[column]])
                self.encoders[column] = encoder

            elif self.encoding_type == 'target' and y is not None:
                target_map = y.groupby(X[column]).mean().to_dict()
                self.encoders[column] = target_map
                self.fallback_values[column] = y.mean()

        return self

    def transform(self, X):
        X_transformed = X.copy()

        for column, encoder in self.encoders.items():
            if self.encoding_type == 'onehot':
                encoded = encoder.transform(X_transformed[[column]])
                feature_names = encoder.get_feature_names_out([column])
                encoded_df = pd.DataFrame(
                    encoded,
                    columns=feature_names,
                    index=X.index
                )
                X_transformed = pd.concat([
                    X_transformed.drop(column, axis=1),
                    encoded_df
                ], axis=1)

            elif self.encoding_type == 'target':
                X_transformed[column] = X_transformed[column].map(
                    encoder
                ).fillna(self.fallback_values[column])

        return X_transformed

Ð ÐµÐºÐ¾Ð¼ÐµÐ½Ð´Ð°ÑÐ¸Ð¸ Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹

ÐÐ¾Ð´ÐµÐ»Ñ	Ð ÐµÐºÐ¾Ð¼ÐµÐ½Ð´ÑÐµÐ¼Ð¾Ðµ ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ðµ
ÐÑÐµÐ²ÐµÑÐ½ÑÐµ (RF, XGB)	Ordinal, Target, Frequency
ÐÐ¸Ð½ÐµÐ¹Ð½ÑÐµ (LR, SVM)	One-hot, Ð¸Ð·Ð±ÐµÐ³Ð°ÑÑ ordinal
ÐÐµÐ¹ÑÐ¾Ð½Ð½ÑÐµ ÑÐµÑÐ¸	Embeddings Ð´Ð»Ñ Ð²ÑÑÐ¾ÐºÐ¾Ð¹ ÐºÐ°ÑÐ´Ð¸Ð½Ð°Ð»ÑÐ½Ð¾ÑÑÐ¸
ÐÐ° Ð¾ÑÐ½Ð¾Ð²Ðµ ÑÐ°ÑÑÑÐ¾ÑÐ½Ð¸Ñ	Ð¡ÑÐ°Ð½Ð´Ð°ÑÑÐ¸Ð·Ð¸ÑÐ¾Ð²Ð°Ð½Ð½ÑÐµ Ð·Ð°ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð½ÑÐµ

ÐÑÐµÐ´Ð¾ÑÐ²ÑÐ°ÑÐµÐ½Ð¸Ðµ ÑÑÐµÑÐºÐ¸ Ð´Ð°Ð½Ð½ÑÑ

# ÐÐ ÐÐÐÐÐ¬ÐÐ: fit ÑÐ¾Ð»ÑÐºÐ¾ Ð½Ð° train
encoder.fit(X_train)
X_train_enc = encoder.transform(X_train)
X_test_enc = encoder.transform(X_test)

# ÐÐÐÐ ÐÐÐÐÐ¬ÐÐ: fit Ð½Ð° Ð²ÑÐµÑ Ð´Ð°Ð½Ð½ÑÑ
encoder.fit(X_all)  # Ð£ÑÐµÑÐºÐ°!

ÐÐ°Ð»Ð¸Ð´Ð°ÑÐ¸Ñ

def validate_encoding(X_original, X_encoded):
    """ÐÐ°Ð»Ð¸Ð´Ð¸ÑÐ¾Ð²Ð°ÑÑ ÑÐµÐ·ÑÐ»ÑÑÐ°ÑÑ ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð¸Ñ"""
    print(f"ÐÑÑÐ¾Ð´Ð½Ð°Ñ ÑÐ°Ð·Ð¼ÐµÑÐ½Ð¾ÑÑÑ: {X_original.shape}")
    print(f"ÐÐ°ÐºÐ¾Ð´Ð¸ÑÐ¾Ð²Ð°Ð½Ð½Ð°Ñ ÑÐ°Ð·Ð¼ÐµÑÐ½Ð¾ÑÑÑ: {X_encoded.shape}")
    print(f"ÐÐ°Ð¼ÑÑÑ: {X_encoded.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

    # ÐÑÐ¾Ð²ÐµÑÐ¸ÑÑ NaN
    null_count = X_encoded.isnull().sum().sum()
    if null_count > 0:
        print(f"ÐÑÐµÐ´ÑÐ¿ÑÐµÐ¶Ð´ÐµÐ½Ð¸Ðµ: {null_count} Ð¿ÑÑÑÑÑ Ð·Ð½Ð°ÑÐµÐ½Ð¸Ð¹")

    # ÐÐ¾ÑÑÑÐ¸ÑÐ¸ÐµÐ½Ñ ÑÐ°ÑÑÐ¸ÑÐµÐ½Ð¸Ñ
    print(f"Ð Ð°ÑÑÐ¸ÑÐµÐ½Ð¸Ðµ: {X_encoded.shape[1] / X_original.shape[1]:.2f}x")

ÐÑÑÑÐ¸Ðµ Ð¿ÑÐ°ÐºÑÐ¸ÐºÐ¸

Fit ÑÐ¾Ð»ÑÐºÐ¾ Ð½Ð° train â Ð¸Ð·Ð±ÐµÐ³Ð°Ð¹ÑÐµ ÑÑÐµÑÐºÐ¸ Ð´Ð°Ð½Ð½ÑÑ
ÐÐ±ÑÐ°Ð±Ð°ÑÑÐ²Ð°Ð¹ÑÐµ unknown â Ð¸ÑÐ¿Ð¾Ð»ÑÐ·ÑÐ¹ÑÐµ fallback ÑÑÑÐ°ÑÐµÐ³Ð¸Ñ
ÐÑÐ¿Ð¾Ð»ÑÐ·ÑÐ¹ÑÐµ CV Ð´Ð»Ñ target encoding â Ð¿ÑÐµÐ´Ð¾ÑÐ²ÑÐ°ÑÐ°ÐµÑ Ð¿ÐµÑÐµÐ¾Ð±ÑÑÐµÐ½Ð¸Ðµ
ÐÐ¾Ð½Ð¸ÑÐ¾ÑÑÑÐµ ÑÐ°Ð·Ð¼ÐµÑÐ½Ð¾ÑÑÑ â one-hot Ð²Ð·ÑÑÐ²Ð°ÐµÑ ÑÐ°Ð·Ð¼ÐµÑÐ½Ð¾ÑÑÑ
ÐÑÐ±Ð¸ÑÐ°Ð¹ÑÐµ Ð¿Ð¾ Ð¼Ð¾Ð´ÐµÐ»Ð¸ â ÑÐ°Ð·Ð½ÑÐµ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ð¿ÑÐµÐ´Ð¿Ð¾ÑÐ¸ÑÐ°ÑÑ ÑÐ°Ð·Ð½Ð¾Ðµ

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

categorical-encoder

Agent 安装分布

Skill 文档

Categorical Encoder Expert

ÐÑÐ±Ð¾Ñ Ð½Ð° Ð¾ÑÐ½Ð¾Ð²Ðµ ÐºÐ°ÑÐ´Ð¸Ð½Ð°Ð»ÑÐ½Ð¾ÑÑÐ¸

One-Hot Encoding

Target Encoding Ñ ÐºÑÐ¾ÑÑ-Ð²Ð°Ð»Ð¸Ð´Ð°ÑÐ¸ÐµÐ¹

Binary Encoding

Frequency Ð¸ Count Encoding

Embeddings Ð´Ð»Ñ Ð²ÑÑÐ¾ÐºÐ¾Ð¹ ÐºÐ°ÑÐ´Ð¸Ð½Ð°Ð»ÑÐ½Ð¾ÑÑÐ¸

Multiple Encoding Strategy

Production-ready Encoder

Ð ÐµÐºÐ¾Ð¼ÐµÐ½Ð´Ð°ÑÐ¸Ð¸ Ð´Ð»Ñ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹

ÐÑÐµÐ´Ð¾ÑÐ²ÑÐ°ÑÐµÐ½Ð¸Ðµ ÑÑÐµÑÐºÐ¸ Ð´Ð°Ð½Ð½ÑÑ

ÐÐ°Ð»Ð¸Ð´Ð°ÑÐ¸Ñ

ÐÑÑÑÐ¸Ðµ Ð¿ÑÐ°ÐºÑÐ¸ÐºÐ¸