← 返回
未分类

smart-web-fetch-plus

智能网页内容获取技能,自动尝试多种 markdown 转换服务(markdown.new/, defuddle.md/, r.jina.ai/)来获取网页的 clean markdown 版本。当需要读取网页文章、新闻、文档等内容时使用此技能,支持微信文章、新闻网站等各种需要内容提取的场景。如果这些服务都失败,会尝试使用 Scrapling 爬虫工具。
智能网页内容获取技能,自动尝试多种 markdown 转换服务(markdown.new/, defuddle.md/, r.jina.ai/)来获取网页的 clean markdown 版本。当需要读取网页文章、新闻、文档等内容时使用此技能,支持微信文章、新闻网站等各种需要内容提取的场景。如果这些服务都失败,会尝试使用 Scrapling 爬虫工具。
Hub智研
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 40
下载
💾 0
安装
1
版本
#latest

概述

Smart Web Fetch

智能网页内容获取技能,优先使用 markdown 转换服务,自动降级到 Scrapling。

使用流程

  1. 首先尝试 markdown.new/ + URL
  2. 失败则尝试 defuddle.md/ + URL
  3. 再失败尝试 r.jina.ai/ + URL
  4. 全部失败则使用 Scrapling 爬虫

使用方法

使用 web_fetch 工具:

# 按顺序尝试各服务
services = [
    "https://markdown.new/",
    "https://defuddle.md/",
    "https://r.jina.ai/"
]

for service in services:
    try:
        result = web_fetch(url=service + original_url)
        if result and len(result.get("text", "")) > 100:
            return result
    except:
        continue

使用浏览器工具(遇到验证时):

browser.open(url=original_url)
# 等待加载后 snapshot 获取内容

使用 Scrapling(最后手段):

查看 scripts/scrapling_fetcher.py 脚本。

服务特点

  • markdown.new/: 适合 Cloudflare 站点,转换质量高
  • defuddle.md/: 通用性好,支持更多网站
  • r.jina.ai/: Jina AI 提供,稳定可靠

脚本说明

  • scripts/scrapling_fetcher.py - Scrapling 爬虫脚本,当所有转换服务失败时使用

版本历史

共 1 个版本

  • v1.0.0 完美支持微信文章读取 当前
    2026-06-01 19:42 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Stock Watcher

robin797860
管理和监控个人股票自选列表,支持利用同花顺数据添加、删除、列出股票及汇总近期表现。适用于用户希望追踪特定股票、获取表现汇总或管理自选列表时。
★ 112 📥 46,282
data-analysis

Tavily 搜索

jacky1n7
通过 Tavily API 进行网页搜索(Brave 替代方案)。当用户要求搜索网页、查找来源或链接,且 Brave 网页搜索不可用时使用。
★ 273 📥 100,422
data-analysis

AdMapix

fly0pants
AdMapix 原始数据层,提供广告创意、应用、排名、下载/收入及市场元数据。返回 AdMapix API 的结构化 JSON;调用方...
★ 297 📥 140,977