df-basic-stats

📁 qmakescl/qskills 📅 1 day ago

总安装量

周安装量

#50967

全站排名

安装命令

npx skills add https://github.com/qmakescl/qskills --skill df-basic-stats

Agent 安装分布

amp 1

opencode 1

kimi-cli 1

codex 1

antigravity 1

Skill 文档

DataFrame ê¸°ì´ íµê³ ë¶ì ì¤í¬

ê°ì

ìí¬íë¡ì°

1. ë°ì´í° ë¡ë       â ì¬ì©ì íì¼ì pd.DataFrameì¼ë¡ ì½ê¸°
2. íì ì¶ë¡          â ê° ì´ì 4ê°ì§ íìì¼ë¡ ë¶ë¥
3. íµê³ ì°ì¶         â íìë³ ë§ì¶¤ íµê³ ê³ì°
4. íë¡íì¼ ë¦¬í¬í¸   â ydata-profiling HTML ìì±
5. ê²°ê³¼ ì ë¬         â JSON ìì½ + HTML ë¦¬í¬í¸ë¥¼ ì¬ì©ììê² ì ê³µ

ì¤í ë°©ë²

Step 1: ìì¡´ì± íì¸

pip install pandas numpy matplotlib ydata-profiling --break-system-packages -q

ydata-profilingì´ ì¤ì¹ ì¤í¨íë©´ Step 4(íë¡íì¼ ë¦¬í¬í¸)ë§ ê±´ëë´ë¤. matplotlibì´ ì¤ì¹ ì¤í¨íë©´ ë²ì£¼í ë¶í¬ ì°¨í¸ë§ ê±´ëë´ë¤. ëë¨¸ì§ íµê³ ì°ì¶ì pandas/numpyë§ì¼ë¡ ëìíë¤.

Step 2: ë°ì´í° ë¡ë

íê²½ ë³ì / ê´ë¡	ì¤ëª
`$UPLOAD_DIR` ëë íë«í¼ ì ê³µ ê²½ë¡	ì¬ì©ì ìë¡ë íì¼ ìì¹
`$OUTPUT_DIR` ëë íë«í¼ ì ê³µ ê²½ë¡	ê²°ê³¼ë¬¼ ì ë¬ ìì¹
ë³ë ê²½ë¡ ê·ì¹ì´ ìì¼ë©´	íì¬ ìì ëë í ë¦¬(CWD) ê¸°ì¤

import pandas as pd

# íì¥ìì ë°ë¼ ìë ì í
df = pd.read_csv(path)        # .csv
df = pd.read_excel(path)      # .xlsx, .xls
df = pd.read_parquet(path)    # .parquet
df = pd.read_json(path)       # .json

Step 3: íµê³ ì°ì¶ ì¤í¬ë¦½í¸ ì¤í

# ê¸°ë³¸ ì¤í (JSON + MD + HTML + ì°¨í¸ ëª¨ë ìë ìì±)
python $SKILL_DIR/scripts/compute_stats.py <input_file>

# HTML ë¦¬í¬í¸ ìì´
python $SKILL_DIR/scripts/compute_stats.py <input_file> --no-html

# MD ë¦¬í¬í¸ ìì´
python $SKILL_DIR/scripts/compute_stats.py <input_file> --no-md

ì¶ë ¥ íì¼ëªì ìë ¥ íì¼ëªìì ìë ê²°ì ëë¤:

{dataset_name}-stats.json â ì´ë³ íµê³ (êµ¬ì¡°í ë°ì´í°)
report/{dataset_name}-stats.md â ê¸°ì´íµê³ + ì°¨í¸ + ì¸ì¬ì´í¸ íµí© ë¦¬í¬í¸
{dataset_name}-ydata-profiling.html â ìì¸ íë¡íì¼ ë¦¬í¬í¸
charts/*.png â ë²ì£¼í ë¶í¬ ì°¨í¸ ì´ë¯¸ì§

ëë Pythonìì ì§ì import (sys.pathì ì¤í¬ ëë í ë¦¬ ì¶ê° íì):

import sys, os
sys.path.insert(0, os.path.join(os.environ.get("SKILL_DIR", "."), "scripts"))
from compute_stats import compute_basic_stats

result = compute_basic_stats(
    df,
    dataset_name="titanic",
    profile_report_path="titanic-ydata-profiling.html",
    chart_output_dir="./",
    md_output_path="titanic-stats.md",
)

Step 4: ê²°ê³¼ ì ë¬

{dataset_name}-stats.json â ì´ë³ íµê³ (êµ¬ì¡°í ë°ì´í°)
{dataset_name}-stats.md â ê¸°ì´íµê³ + ì°¨í¸ + ì¸ì¬ì´í¸ íµí© ë¦¬í¬í¸ (ì£¼ ê²°ê³¼ë¬¼)
{dataset_name}-ydata-profiling.html â ìì¸ íë¡íì¼ ë¦¬í¬í¸
charts/*.png â ë²ì£¼í ë¶í¬ ì°¨í¸ ì´ë¯¸ì§

ìì´ì í¸ë report/{dataset_name}-stats.mdë¥¼ ì½ì´ ì¬ì©ììê² íì¤í¸ë¡ ì¤ëªíë ê²ì ê¸°ë³¸ì¼ë¡ íë¤.

íì ì¶ë¡ ê·ì¹

íì ìì	ì¡°ê±´	ë¶ë¥
1	`datetime64` dtype	`datetime`
2	ì ì dtype (numpy int, pandas Int)	`integer`
3	ì¤ì dtype (float)	`continuous`
4	objectì¸ë° 80%+ ì«ì ë³í ê°ë¥ & ëª¨ë ì ì	`integer`
5	objectì¸ë° 80%+ ì«ì ë³í ê°ë¥ & ììì í¬í¨	`continuous`
6	objectì¸ë° 80%+ ë ì§ íì± ê°ë¥	`datetime`
7	ê·¸ ì¸ ì ë¶	`categorical`

ìì¸ ì¶ë¡ ë¡ì§ì references/type-inference.md ì°¸ì¡°.

íìë³ ì°ì¶ íµê³

íµê³ íëª©	continuous	integer	categorical	datetime
ìëµì (valid_count)	â	â	â	â
ê²°ì¸¡ì (missing_count)	â	â	â	â
ê²°ì¸¡ë¥ (missing_rate)	â	â	â	â
íê· (mean)	â	â
íì¤í¸ì°¨ (std)	â	â
ì¤ìê° (median)	â	â
ìµìê° (min)	â	â		â
ìµëê° (max)	â	â		â
ìµë¹ê° (mode)		â	â	â
ê³ ì ê° ì (unique_count)			â
ìì ë¹ëê° (top5_values)			â (>8 ë²ì£¼)
ë¶í¬ (distribution)			â (â¤8 ë²ì£¼)
ë¶í¬ ì¤ëª (distribution_description)			â (â¤8 ë²ì£¼)
ë¶í¬ ì°¨í¸ (distribution_chart)			â (â¤8 ë²ì£¼)

ì¶ë ¥ íì

ê²°ê³¼ë ë¤ì JSON êµ¬ì¡°ë¡ ë°íëë¤:

{
  "dataframe_shape": {"rows": 1000, "cols": 8},
  "columns": [
    {
      "column_name": "age",
      "inferred_type": "integer",
      "total_count": 1000,
      "valid_count": 985,
      "missing_count": 15,
      "missing_rate": 0.015,
      "mean": 42.3,
      "std": 14.2,
      "median": 41.0,
      "min": 18.0,
      "max": 75.0,
      "mode": 35
    }
  ],
  "profile_report": "report.html"
}

ì£ì§ ì¼ì´ì¤ ì²ë¦¬

ì ì²´ ê²°ì¸¡ ì´: íµê³ê°ì ëª¨ë nullë¡ ë°í
ydata-profiling ë¯¸ì¤ì¹: ê²½ê³ ë§ ì¶ë ¥íê³ íë¡íì¼ ë¦¬í¬í¸ ìì´ ëë¨¸ì§ íµê³ ì ì ë°í

íë«í¼ ê²½ë¡ ì¤ì

ë³ì	ìë¯¸	ìì
`SKILL_DIR`	ì´ ì¤í¬ì´ ì¤ì¹ë ëë í ë¦¬	`/mnt/skills/user/df-basic-stats`
`UPLOAD_DIR`	ì¬ì©ì íì¼ ìë¡ë ìì¹	íë«í¼ ì ê³µ ê²½ë¡ ëë CWD
`OUTPUT_DIR`	ê²°ê³¼ íì¼ ì ë¬ ìì¹	íë«í¼ ì ê³µ ê²½ë¡ ëë CWD

íë«í¼ë³ ì°¸ê³ :

Anthropic Claude ì»´í¨í°: UPLOAD_DIR=/mnt/user-data/uploads, OUTPUT_DIR=/mnt/user-data/outputs
OpenAI Code Interpreter: ë ë¤ /mnt/data/
ë¡ì»¬ ìì´ì í¸ (LangChain, Claude Code ë±): íì¬ ìì ëë í ë¦¬(CWD) ê¸°ì¤

ì°¸ê³ ë¬¸ì

references/type-inference.md â íì ì¶ë¡ ìê³ ë¦¬ì¦ ìì¸ ì¤ëª
references/output-schema.md â ì ì²´ ì¶ë ¥ JSON ì¤í¤ë§ ì ì

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

df-basic-stats

Agent 安装分布

Skill 文档

DataFrame ê¸°ì´ íµê³ ë¶ì ì¤í¬

ê°ì

ìí¬íë¡ì°

ì¤í ë°©ë²

Step 1: ìì¡´ì± íì¸

Step 2: ë°ì´í° ë¡ë

Step 3: íµê³ ì°ì¶ ì¤í¬ë¦½í¸ ì¤í

Step 4: ê²°ê³¼ ì ë¬

íì ì¶ë¡ ê·ì¹

íì ë³ ì°ì¶ íµê³

ì¶ë ¥ íì

ì£ì§ ì¼ì´ì¤ ì²ë¦¬

íë«í¼ ê²½ë¡ ì¤ì 

ì°¸ê³ ë¬¸ì