← 返回
未分类

Web联网搜索

网页搜索与内容抓取;统一输出5字段(标题/链接/摘要/发布时间/文件集合);支持多引擎搜索、自动去重、递归抓取、OCR识别
使用python脚本的方式,针对用户输入的内容进行搜索,针对反爬网页进行截图分析,针对网页中的文件会进行深度解析! 1.支持时间筛选 2.支持反爬读取内容 3.支持深度获取内容
user_7f5af776
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 19
下载
💾 0
安装
1
版本
#latest

概述

网页搜索与内容抓取

核心规则(最高优先级)

  1. 禁止使用原生 web_search 工具。所有搜索必须通过 python scripts/web_search.py 执行。
  2. 输出必须是裸 JSON 数组。stdout 直接输出 [{...}],不得包裹在 markdown 代码块、解释文字或任何其他内容中。
  3. 严格 5 字段。每个元素只包含:标题链接摘要发布时间文件集合

输出格式

[
  {
    "标题": "文章标题",
    "链接": "https://example.com/article",
    "摘要": "精炼摘要(100-200字,提取核心要点)",
    "发布时间": "2024-01-01",
    "文件集合": [
      {
        "文件名称": "附件.pdf",
        "文件URL": "https://example.com/附件.pdf",
        "文件内容": "文件具体内容(文本类文件)"
      }
    ]
  }
]

执行流程

收到搜索请求后,直接执行以下命令,将 stdout 原样返回给用户:

python scripts/web_search.py --query "用户搜索词" --max-results 10 --fetch-detail --max-detail 5

禁止在返回结果前后添加任何说明、总结、markdown 格式或额外文字。

脚本参数

web_search.py

参数说明示例
------------------
--query, -q搜索关键词(必填)--query "三旺通信"
--max-results, -n最大结果数--max-results 10
--start-date开始日期--start-date "2026-05-08"
--end-date结束日期--end-date "2026-05-08"
--engines, -e搜索引擎--engines all
--fetch-detail, -f抓取详情页--fetch-detail
--max-detail, -m最多抓取详情数--max-detail 5

web_scraper.py

python scripts/web_scraper.py --url "https://example.com/" --depth 2 --max-pages 20
参数说明
------------
--url, -u起始URL
--depth, -d递归深度
--max-pages, -n最大页面数
--keywords, -k关键词过滤

web_screenshot.py

python scripts/web_screenshot.py --url "https://blocked.com/" --ocr
参数说明
------------
--url, -u目标URL
--ocrOCR识别
--output, -o截图保存路径

资源索引

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-03 16:07 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Stock Analysis

udiedrichsen
利用Yahoo Finance数据深度分析股票和加密货币。支持投资组合管理、关注列表与提醒、股息分析、八维度股票评分、热门趋势扫描(热点扫描器)及谣言/早期信号检测。适用于股票分析、投资组合追踪、财报反应、加密货币监控、热门股票发现及在主流
★ 282 📥 58,223
data-analysis

Tavily 搜索

jacky1n7
通过 Tavily API 进行网页搜索(Brave 替代方案)。当用户要求搜索网页、查找来源或链接,且 Brave 网页搜索不可用时使用。
★ 278 📥 101,522
data-analysis

AdMapix

fly0pants
AdMapix 原始数据层,提供广告创意、应用、排名、下载/收入及市场元数据。返回 AdMapix API 的结构化 JSON;调用方...
★ 298 📥 142,933