china-news-crawler

📁 nanmicoder/newscrawler 📅 Jan 25, 2026

总安装量

周安装量

#5857

全站排名

安装命令

npx skills add https://github.com/nanmicoder/newscrawler --skill china-news-crawler

Agent 安装分布

opencode 26

claude-code 21

gemini-cli 16

codex 16

openclaw 15

antigravity 12

Skill 文档

China News Crawler Skill

æ¯æå¹³å°

å¹³å°	ID	URL ç¤ºä¾
å¾®ä¿¡å¬ä¼å·	wechat	`https://mp.weixin.qq.com/s/xxxxx`
ä»æ¥å¤´æ¡	toutiao	`https://www.toutiao.com/article/123456/`
ç½ææ°é»	netease	`https://www.163.com/news/article/ABC123.html`
æçæ°é»	sohu	`https://www.sohu.com/a/123456_789`
è¾è®¯æ°é»	tencent	`https://news.qq.com/rain/a/20251016A07W8J00`

ä½¿ç¨æ¹å¼

åºæ¬ç¨æ³

# æåæ°é»ï¼èªå¨æ£æµå¹³å°ï¼è¾åº JSON + Markdown
uv run .claude/skills/china-news-crawler/scripts/extract_news.py "URL"

# æå®è¾åºç®å½
uv run .claude/skills/china-news-crawler/scripts/extract_news.py "URL" --output ./output

# ä»è¾åº JSON
uv run .claude/skills/china-news-crawler/scripts/extract_news.py "URL" --format json

# ä»è¾åº Markdown
uv run .claude/skills/china-news-crawler/scripts/extract_news.py "URL" --format markdown

# ååºæ¯æçå¹³å°
uv run .claude/skills/china-news-crawler/scripts/extract_news.py --list-platforms

è¾åºæä»¶

{news_id}.json – ç»æå JSON æ°æ®
{news_id}.md – Markdown æ ¼å¼æç«

å·¥ä½æµç¨

æ¥æ¶ URL – ç¨æ·æä¾æ°é»é¾æ¥
å¹³å°æ£æµ – èªå¨è¯å«å¹³å°ç±»å
åå®¹æå – è°ç¨å¯¹åºç¬è«è·åå¹¶è§£æåå®¹
æ ¼å¼è½¬æ¢ – çæ JSON å Markdown
è¾åºæä»¶ – ä¿åå°æå®ç®å½

è¾åºæ ¼å¼

JSON ç»æ

{
  "title": "æç« æ é¢",
  "news_url": "åå§é¾æ¥",
  "news_id": "æç« ID",
  "meta_info": {
    "author_name": "ä½è/æ¥æº",
    "author_url": "",
    "publish_time": "2024-01-01 12:00"
  },
  "contents": [
    {"type": "text", "content": "æ®µè½ææ¬", "desc": ""},
    {"type": "image", "content": "https://...", "desc": ""},
    {"type": "video", "content": "https://...", "desc": ""}
  ],
  "texts": ["æ®µè½1", "æ®µè½2"],
  "images": ["å¾çURL1", "å¾çURL2"],
  "videos": []
}

Markdown ç»æ

# æç« æ é¢

## æç« ä¿¡æ¯
**ä½è**: xxx
**åå¸æ¶é´**: 2024-01-01 12:00
**åæé¾æ¥**: [é¾æ¥](URL)

---

## æ£æåå®¹

æ®µè½åå®¹...

![å¾ç](URL)

---

## åªä½èµæº
### å¾ç (N)
1. URL1
2. URL2

ä½¿ç¨ç¤ºä¾

æåå¾®ä¿¡å¬ä¼å·æç«

uv run .claude/skills/china-news-crawler/scripts/extract_news.py \
  "https://mp.weixin.qq.com/s/ebMzDPu2zMT_mRgYgtL6eQ"

è¾åº:

[INFO] Platform detected: wechat (å¾®ä¿¡å¬ä¼å·)
[INFO] Extracting content...
[INFO] Title: æç« æ é¢
[INFO] Author: å¬ä¼å·åç§°
[INFO] Text paragraphs: 15
[INFO] Images: 3
[SUCCESS] Saved: ./output/ebMzDPu2zMT_mRgYgtL6eQ.json
[SUCCESS] Saved: ./output/ebMzDPu2zMT_mRgYgtL6eQ.md

æåä»æ¥å¤´æ¡æç«

uv run .claude/skills/china-news-crawler/scripts/extract_news.py \
  "https://www.toutiao.com/article/7434425099895210546/"

ä¾èµè¦æ±

parsel
pydantic
requests
curl-cffi
tenacity
demjson3

éè¯¯å¤ç

éè¯¯ç±»å	è¯´æ	è§£å³æ¹æ¡
`æ æ³è¯å«è¯¥å¹³å°`	URL ä¸å¹éä»»ä½æ¯æçå¹³å°	æ£æ¥ URL æ¯å¦æ£ç¡®
`å¹³å°ä¸æ¯æ`	éä¸å½ç«ç¹	æ¬ Skill ä»æ¯æä¸å½æ°é»ç«ç¹
`æåå¤±è´¥`	ç½ç»éè¯¯æé¡µé¢ç»æåå	éè¯ææ£æ¥ URL æææ§

æ³¨æäºé¡¹

ä¸è¦è¿è¡å¤§è§æ¨¡ç¬å
å°éç®æ ç½ç«ç robots.txt åæå¡æ¡æ¬¾
å¾®ä¿¡å¬ä¼å·å¯è½éè¦ææç Cookieï¼å½åé»è®¤éç½®éå¸¸å¯ç¨ï¼

ç®å½ç»æ

china-news-crawler/
âââ SKILL.md                      # [å¿é] Skill å®ä¹æä»¶
âââ references/
â   âââ platform-patterns.md      # å¹³å° URL æ¨¡å¼è¯´æ
âââ scripts/
    âââ extract_news.py           # CLI å¥å£èæ¬
    âââ models.py                 # æ°æ®æ¨¡å
    âââ detector.py               # å¹³å°æ£æµ
    âââ formatter.py              # Markdown æ ¼å¼å
    âââ crawlers/                 # ç¬è«æ¨¡å
        âââ __init__.py
        âââ base.py               # BaseNewsCrawler åºç±»
        âââ fetchers.py           # HTTP è·åçç¥
        âââ wechat.py             # å¾®ä¿¡å¬ä¼å·
        âââ toutiao.py            # ä»æ¥å¤´æ¡
        âââ netease.py            # ç½ææ°é»
        âââ sohu.py               # æçæ°é»
        âââ tencent.py            # è¾è®¯æ°é»

åè

å¹³å° URL æ¨¡å¼è¯´æ

GitHub 仓库 ↗ ← 返回陌讯 Skills 聚合平台

china-news-crawler

Agent 安装分布

Skill 文档

China News Crawler Skill

æ¯æå¹³å°

ä½¿ç¨æ¹å¼

åºæ¬ç¨æ³

è¾åºæä»¶

å·¥ä½æµç¨

è¾åºæ ¼å¼

JSON ç»æ

Markdown ç»æ

ä½¿ç¨ç¤ºä¾

æåå¾®ä¿¡å ¬ä¼å·æç«

æåä»æ¥å¤´æ¡æç«

ä¾èµè¦æ±

éè¯¯å¤ç

æ³¨æäºé¡¹

ç®å½ç»æ

åè