extract-to-md

📁 kanlac/agent-steroids 📅 3 days ago
3
总安装量
3
周安装量
#57110
全站排名
安装命令
npx skills add https://github.com/kanlac/agent-steroids --skill extract-to-md

Agent 安装分布

codex 3
mcpjam 2
claude-code 2
junie 2
windsurf 2
zencoder 2

Skill 文档

提取为 Markdown

适用场景

  • 用户要求将网页或 PDF 内容整理成 Markdown 草稿。
  • 文档存在错行、断段、乱码符号或摘要序号混乱。
  • 需要先完成 Markdown 校对,再二次导出 PDF。
  • 需要尽量贴近原 PDF 的图片位置与章节结构。

工作流程

1. 输入与提取

  • 识别来源类型:网页导出 PDF、原生 PDF、复制文本。
  • 提取正文文本、页面顺序、图片资源与坐标信息(若可用)。
  • 记录源页码,供后续定位与核对。

2. 先清洗噪声

  • 在做标点转换前,先去掉页面噪声,包括页眉页脚、时间戳、导航栏文本、孤立 URL、页码计数(如 x/y)。
  • 这样可避免 URL 被误改或正文被误判。

3. 恢复段落

  • 以版面间距为主依据,合并同段内错误换行。
  • 段落之间通常保留空行,避免把相邻段误并成一段。
  • 跨页首行若明显是续句则合并;若是标题样式则保持分段。

4. 构建 Markdown 结构

  • 统一输出结构:报告标题页信息、摘要、正文。
  • 摘要条目必须使用 1.、2.、3. 的编号形式。
  • 同一条摘要的换行内容应合并为一条,避免拆成两点。

5. 图片处理

  • 将图片导出到独立目录(例如 xxx-assets/)。
  • 图片按源文档页序与阅读顺序插入到 Markdown 对应位置。

6. 表格处理策略

  • 表格结构清晰时,优先转为 Markdown 表格。
  • 表格识别不稳时,改为「关键数据列表 + 原图」方案。
  • 保留单位、数值与来源位置,确保可复核。

7. 套用风格偏好

  • 结构修复后再处理标点和样式。
  • 与风格相关的具体规则,按 references/style-profile-zh.md 执行。
  • 注意 URL、邮箱、代码片段中的半角符号不要被误替换。

8. 交付前检查

  • 摘要条目数与原文一致,且无误拆分。
  • 小数点、编号句点与中英文混排格式正确。
  • 加粗范围符合用户要求,不多加、不漏加。
  • 图片链接可用,关键图表无缺失。
  • 最终交付为一个可编辑 .md 文件和一个图片目录。

交付规范

  • 生成的脚本、临时中间文件、调试产物统一放在一个临时目录下(例如 tmp/)。
  • 临时目录应与最终交付物分离,便于工作完成后整体清理删除。