智能网页内容获取技能,优先使用 markdown 转换服务,自动降级到 Scrapling。
markdown.new/ + URLdefuddle.md/ + URLr.jina.ai/ + URL使用 web_fetch 工具:
# 按顺序尝试各服务
services = [
"https://markdown.new/",
"https://defuddle.md/",
"https://r.jina.ai/"
]
for service in services:
try:
result = web_fetch(url=service + original_url)
if result and len(result.get("text", "")) > 100:
return result
except:
continue
使用浏览器工具(遇到验证时):
browser.open(url=original_url)
# 等待加载后 snapshot 获取内容
使用 Scrapling(最后手段):
查看 scripts/scrapling_fetcher.py 脚本。
scripts/scrapling_fetcher.py - Scrapling 爬虫脚本,当所有转换服务失败时使用共 1 个版本