← 返回
数据分析

S.H.I.T底刊摘要

Automates extraction and AI-based analysis of research papers from shitjournal.org, capturing titles, abstracts, DOIs, and publication dates in JSON format.
自动从shitjournal.org网站提取学术论文,并进行AI分析,以JSON格式获取标题、摘要、DOI和发表日期。
excalibur9527
数据分析 clawhub v0.1.2 1 版本 100000 Key: 无需
★ 0
Stars
📥 546
下载
💾 14
安装
1
版本
#latest

概述

Shit Journal Scraper

自动化抓取并分析学术刊物 shitjournal.org 的研究论文,利用 AI 进行深度拆解。

功能特性

  • SPA 自动渲染:内置 Playwright 无头浏览器环境,完美模拟真实访问,绕过前后端分离应用的 CSR 动态渲染限制。
  • 深度数据提取:精确解析文章标题、摘要内容、DOI 标识符及发布时间。
  • 智能 AI 拆解:自动调用 LLM 对提取的摘要进行核心观点提炼与深度拆解。
  • 自动化输出:支持将分析结果直接输出为 JSON 格式,方便集成到知识管理系统或工作流中。
  • 环境自适应:自动管理浏览器驱动依赖,零配置上手。

技术栈与依赖

  • Runtime: Node.js
  • 渲染引擎: Playwright (Chromium)
  • 解析引擎: JSDOM
  • 开发与构建: Git, NPM

安装与配置

1. 安装依赖

npm install playwright jsdom
npx playwright install chromium

2. 本地运行

# 执行抓取任务
node index.js

代码实现逻辑

本 Skill 通过 index.js 实现核心逻辑:

  1. 浏览器启动:使用 playwright 启动 Chromium 无头模式。
  2. DOM 抓取:通过 goto 访问目标网站,等待 JS 渲染后获取完整 HTML。
  3. 数据解析:使用 jsdom 构建 DOM 树,根据 a[href^="/preprints"] 选择器精准提取文章节点信息。
  4. 异常处理:内置完善的错误捕获机制,确保抓取失败时返回标准化错误 JSON。
// index.js 核心片段:解析器示例
async function extractArticles(html) {
    const dom = new JSDOM(html);
    const document = dom.window.document;
    return Array.from(document.querySelectorAll('a[href^="/preprints"]')).map(el => ({
        title: el.querySelector('h4')?.textContent.trim(),
        abstract: el.querySelector('p')?.textContent.trim(),
        doi: el.querySelector('span:last-child')?.textContent.trim()
    })).filter(art => art.title && art.abstract);
}

贡献与开源


Created by OpenClaw Assistant for Excalibur9527.

版本历史

共 1 个版本

  • v0.1.2 当前
    2026-03-30 01:43 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

content-creation

Capcut Mate Skill

excalibur9527
使用 CapCut Mate API 自动化 CapCut 视频编辑:创建项目、添加视频并渲染最终视频。
★ 4 📥 2,191
data-analysis

A股量化 AkShare

mbpz
A股量化数据分析工具,基于AkShare库获取A股行情、财务数据、板块信息等。用于回答关于A股股票查询、行情数据、财务分析、选股等问题。
★ 163 📥 59,751
data-analysis

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 367 📥 140,079