← 返回
未分类

News To Markdown

输入文章 URL,输出干净的 Markdown 正文。支持17个平台专项优化(头条、微信公众号、知乎、36kr、虎嗅、华尔街见闻、澎湃、InfoQ 等),双引擎提取、图片本地化、三层抓取策略。常与 browser-web-search skill 配合:先用 bws 搜索拿到 url 列表,再逐篇调用本 skill 读取正文。
输入文章 URL,输出干净的 Markdown 正文。支持17个平台专项优化(头条、微信公众号、知乎、36kr、虎嗅、华尔街见闻、澎湃、InfoQ 等),双引擎提取、图片本地化、三层抓取策略。常与 browser-web-search skill 配合:先用 bws 搜索拿到 url 列表,再逐篇调用本 skill 读取正文。
PingAI 品智
未分类 community v3.1.6 7 版本 100000 Key: 无需
★ 0
Stars
📥 289
下载
💾 27
安装
7
版本
#latest

概述

news-to-markdown Skill

> 输入文章 URL,输出干净的 Markdown 正文。17 个平台专项优化,为 AI Agent 而生。

🎯 核心特点

  • 📰 17 个平台专项适配 — 头条、微信、知乎、36kr、虎嗅、华尔街见闻、澎湃、InfoQ 等
  • 🔄 三层抓取策略 — curl → wget → Playwright 自动回退,静态/动态页面均支持
  • 🧠 双引擎提取 — Mozilla Readability + news-extractor-node 智能取优
  • 🖼️ 图片本地化 — 可选将远程图片下载到本地,防止 URL 过期
  • 🎨 无封面自动兜底 — 文章未识别到封面图时,基于标题生成抽象图案占位封面写入 frontmatter cover:,避免下游发布链路(如微信公众号)因缺少封面失败
  • 📦 零安装 — 通过 npx 按需拉取,无需全局安装

🚀 快速开始

# 基本转换,输出到终端
npx --yes news-to-markdown@^3.3.1 --url "https://www.toutiao.com/article/123"

# 保存到文件
npx --yes news-to-markdown@^3.3.1 --url "https://mp.weixin.qq.com/s/xxx" --output article.md

# 下载图片到本地(推荐,防止图片 URL 过期)
npx --yes news-to-markdown@^3.3.1 --url "https://www.toutiao.com/article/123" \
  --download-images --output-dir ./article

# 只要正文
npx --yes news-to-markdown@^3.3.1 --url "https://www.zhihu.com/p/xxx" --no-metadata

🔗 与 browser-web-search 配合使用

最常见的 AI Agent 编排模式:

browser-web-search  →  搜索,产出 URL 列表
news-to-markdown    →  读取正文,产出 Markdown
# Step 1:用 bws 搜索,拿到文章 URL 列表
bws site toutiao/search "ai agent" --count 3

# Step 2:对每个 URL 提取正文
npx --yes news-to-markdown@^3.3.1 --url "https://www.toutiao.com/article/111"
npx --yes news-to-markdown@^3.3.1 --url "https://www.toutiao.com/article/222"
npx --yes news-to-markdown@^3.3.1 --url "https://www.toutiao.com/article/333"

适用搜索命令(browser-web-search 0.4.2,30 个平台):

  • 🇨🇳 国内文章类:toutiao/searchweixin/searchzhihu/search36kr/searchxiaohongshu/searchhuxiu/searchwallstreetcn/searchthepaper/searchqqnews/searchnetease/searchsina/searchjuejin/searchcsdn/searchcnblogs/searchinfoq/search
  • 🌏 国际文章类:verge/searchars/searchengadget/searchhn/search(外链文章)

> 注意github/searchreddit/searchx/searchweibo/search 等平台的 bws 结果本身是结构化数据,无需再用本工具提取正文。


📋 支持平台

专项优化平台(17 个)

平台域名专项说明
-----------------
今日头条toutiao.com标题规范化、data-src 图片、列表修复
微信公众号mp.weixin.qq.com#js_content 提取、移动端 UA 回退
小红书xiaohongshu.com.note-content 提取、懒加载图片
知乎zhihu.com真实 Chrome 绕过 zse-ck 反爬
36kr36kr.com自动转移动端 URL 绕过反爬
虎嗅huxiu.com正文区域提取、懒加载图片修复
华尔街见闻wallstreetcn.com财经正文提取、去高亮 标签
澎湃新闻thepaper.cn.news_txt 正文区域提取
InfoQinfoq.cn / infoq.com技术文章正文提取
Bilibili 专栏bilibili.com/read/ 路径文章提取
掘金juejin.cn代码块与正文提取
CSDNcsdn.net去广告侧边栏、#content_views 提取
博客园cnblogs.com技术博客正文提取
简书jianshu.com文章正文提取
SegmentFaultsegmentfault.com技术问答正文提取
开源中国oschina.net资讯正文提取
人人都是产品经理woshipm.com产品文章正文提取

其余平台(The Verge、Ars Technica、Engadget 等英文站)走通用 Readability 算法。


🔧 命令参数

npx --yes news-to-markdown@^3.3.1 --url <URL> [选项]
参数类型说明
------------------
--urlstring文章 URL(必填)
--outputstring输出文件路径(默认输出到终端)
--download-imagesflag下载图片到本地(推荐)
--output-dirstring图片输出目录(--download-images 时使用)
--no-metadataflag只要正文,不含标题/作者/时间
--selectorstring自定义内容区域 CSS 选择器
--noisestring移除元素的选择器,逗号分隔
--verboseflag详细日志(调试用)

📋 标准操作流程 (SOP)

操作 1:基础文章转换

场景:用户提供一个文章 URL,要求转换为 Markdown

npx --yes news-to-markdown@^3.3.1 \
  --url "https://www.toutiao.com/article/123" \
  --output article.md

操作 2:转换并下载图片(推荐)

场景:需要保留图片,或后续要发布到微信公众号

npx --yes news-to-markdown@^3.3.1 \
  --url "https://www.toutiao.com/article/123" \
  --download-images \
  --output-dir ./article
# 输出:./article/article.md + ./article/images/*.jpg

> 头条、微信等平台的图片 URL 包含签名,数小时后失效。下载到本地可避免此问题。


操作 3:只提取正文

场景:用户说"只要文章内容,不要标题作者等信息"

npx --yes news-to-markdown@^3.3.1 \
  --url "https://36kr.com/p/xxx" \
  --no-metadata

操作 4:批量处理多篇文章

场景:配合 bws 搜索结果批量提取

# 先搜索
bws site zhihu/search "大模型" --count 5 --jq '[.items[].url]'

# 再逐篇提取
for url in "${urls[@]}"; do
  npx --yes news-to-markdown@^3.3.1 --url "$url" --output "articles/$(echo $url | md5sum | cut -c1-8).md"
done

操作 5:自定义提取(去噪 / 指定区域)

场景:提取结果不准,用户要求去掉广告或指定正文区域

# 去掉广告和评论
npx --yes news-to-markdown@^3.3.1 \
  --url "https://example.com/article" \
  --noise ".ad,.sidebar,.comments"

# 指定内容区域
npx --yes news-to-markdown@^3.3.1 \
  --url "https://example.com/article" \
  --selector "article.main-content"

操作 6:调试失败页面

场景:抓取或提取失败,需要排查

npx --yes news-to-markdown@^3.3.1 \
  --url "https://example.com/article" \
  --verbose

常见原因与解决方案

问题原因解决方案
------------------
抓取失败需要 JS 渲染自动使用 Playwright(需提前安装)
内容为空选择器不匹配使用 --selector 指定内容区域
图片显示不了URL 过期使用 --download-images
反爬拦截无头浏览器被检测知乎已内置 Chrome UA,其他平台视情况处理

可选安装 Playwright 浏览器(动态页面支持):

npx playwright install chromium

🎓 示例对话

用户:帮我把这篇虎嗅文章转成 Markdown,图片也要保存

npx --yes news-to-markdown@^3.3.1 \
  --url "https://www.huxiu.com/article/xxx.html" \
  --download-images \
  --output-dir ./huxiu-article

用户:搜索头条最新 3 篇关于 AI Agent 的文章,并获取每篇正文

# Step 1: 搜索
bws site toutiao/search "AI Agent" --count 3

# Step 2: 逐篇提取(对每个 url 执行)
npx --yes news-to-markdown@^3.3.1 --url "<url>" --output "<title>.md"

用户:只要这篇知乎文章的正文,不要其他信息

npx --yes news-to-markdown@^3.3.1 \
  --url "https://www.zhihu.com/p/xxx" \
  --no-metadata

⚠️ 安全与版权

两条调用路径

  1. 直接终端调用(人类 / Agent shell 命令):保持 npx --yes news-to-markdown@^3.3.1 … 习惯用法,无需任何额外安装。
  2. Skill 插件路径scripts/run.js convert …):在进程内 require() 已固定版本的 npm 包,不再 fork 子进程、不再调用 npx。该路径需要一次性安装:

```bash

npm install -g news-to-markdown@3.3.1

```

未安装时,启动器会以可操作的 JSON 错误提示退出(不会自动安装、不会回退到子进程)。该选择是为了消除 ^3.3.1 范围内的运行时版本漂移与 child_process 调用面,匹配 codeguard-0-supply-chain-securitycodeguard-0-input-validation-injection 的硬化要求。

供应链风险:本 Skill 透传到第三方 npm 包,使用前请审计源码:

  • 源码:https://github.com/sipingme/news-to-markdown
  • 入口:https://github.com/sipingme/news-to-markdown/blob/main/src/index.ts

入参收紧scripts/run.js 仅放行 SKILL.md 中文档化的子命令与参数(allow-list),并对每个参数做长度上限与控制字符校验后才注入到 CLI 进程的 argv,不会进入 shell。

版权提示:本工具默认用于个人学习和内容归档。对外发布时,请保留来源链接和作者信息,并确认来源站点的版权声明与转载政策。


📝 维护说明

  • 版本: 3.3.1
  • 最后更新: 2026-04-28
  • 维护者: Ping Si
  • 许可证: MIT

📚 参考资料

版本历史

共 4 个版本

  • v3.1.6 Initial release 当前
    2026-04-29 15:40 安全 安全
  • v3.1.4 Initial release
    2026-04-24 21:59 安全
  • v3.1.1 Initial release
    2026-04-06 18:27 安全
  • v1.0.0 Initial release
    2026-04-02 23:01 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Browser Web Search

user_2c495456
一行命令搜遍全网 — 55 个平台 91+ 个命令,头条、知乎、豆瓣、YouTube、GitHub、Reddit、Hacker News 等。专为 OpenClaw 设计,复用浏览器登录态,返回结构化 JSON,天然适配 AI Agent
★ 1 📥 566

Toutiao MCP

user_2c495456
通过 MCP 协议操作今日头条平台,支持内容发布、账号管理等功能
★ 0 📥 237

Markdown AI Rewriter

user_2c495456
基于 markdown-ai-rewriter 的 Markdown AI 改写 Skill(保留结构、章节/全文模式、多模型、图片生成、视频生成、音乐生成)
★ 0 📥 172