← 返回
未分类

free-web-search-js

Playwright/HTTP 联网搜索与网页正文抓取,零 API Key。用于实时搜索、查资料、新闻、教程、网页内容读取;支持国内 Bing、海外 DDG、自动抓取正文。
Playwright/HTTP 联网搜索与网页正文抓取,零 API Key。用于实时搜索、查资料、新闻、教程、网页内容读取;支持国内 Bing、海外 DDG、自动抓取正文。
ucsdzehualiu
未分类 clawhub v1.0.1 2 版本 100000 Key: 无需
★ 0
Stars
📥 442
下载
💾 0
安装
2
版本
#latest

概述

free-web-search-js

一步式:search → 搜索 → 自动抓内容 → 返回。优先 HTTP,必要时 Playwright 兜底;在无桌面/服务器环境默认 headless,避免 GUI 依赖。

架构

国内:
  Playwright headless 打开 Bing → 首页拿 cookie → 搜索框提交
  → 结果为空时自动兜底 DDG HTTP
  → 自动抓取 top 3 页面内容

海外:
  纯 HTTP → DDG HTML 解析
  → fetch 失败时用 Playwright request 兜底
  → 自动抓取 top 3 页面内容

搜索引擎

引擎协议区域说明
------------------------
Bing CNPlaywright 搜索框提交国内先访问首页拿 cookie,再搜索框输入提交
搜狗纯 HTTP国内--engine=sogou 可选,⚠ 无 cookie 易被反爬拦截,结果不稳定
DDG HTML Lite纯 HTTP海外html.duckduckgo.com

策略

区域搜索抓取
------------------
国内Bing CN (Playwright headless),空结果兜底 DDG自动抓前 3 条
海外DDG HTML,fetch 失败兜底 Playwright request;DDG 为空再兜底 Bing自动抓前 3 条

IP 怎么判断

每次搜索时自动检测,三轮探测并行,谁先成功用谁:

轮次探测服务逻辑
---------------------
第1轮myip.ipip.net / cip.cc国内可达优先
第2轮ipinfo.io / ipapi.co国际探测
第3轮试连 cn.bing.com能通大概率国内
兜底默认国内

出口 IP 走代理时可能误判,用 --region=cn--region=intl 手动指定。

去重

智能去重:域名 + 路径主干(忽略 www/m 子域、tracking 参数、尾部斜杠、.html 后缀)。

Bing 跳转 URL(bing.com/ck/)自动解码为直链。

抓取模式

搜索后自动抓取 top N 条 URL 内容(默认 3 条)。

层级方式速度说明
------------------------
第1层轻量 HTTP + cheerio⚡ 秒出不启动浏览器
第2层Playwright headed🟡 慢完整浏览器,支持 JS 渲染

第1层增强:

  • JSON API 响应:自动检测 Content-Type 并提取结构化内容
  • JSON-LD:提取