← 返回
未分类

文章获取爬虫

Crawls Chinese government and news websites for AI, digitalization, and informatization articles. Invoke when user needs to collect articles about artificial intelligence, digital transformation, or technology policy from Chinese official sources.
CAPOOCAT
未分类 community v1.0.0 1 版本 99631 Key: 无需
★ 0
Stars
📥 270
下载
💾 39
安装
1
版本
#latest

概述

Web Crawler Skill

This skill provides web crawling capabilities to collect articles about artificial intelligence, digitalization, and informatization from Chinese government and news websites.

Supported Sources

Government Websites

  • 国家能源局 (www.nea.gov.cn)
  • 工业和信息化部 (www.miit.gov.cn)
  • 国家互联网信息办公室 (www.cac.gov.cn)
  • 国家发展和改革委员会 (www.ndrc.gov.cn)
  • 四川省经济和信息化厅 (jxt.sc.gov.cn)
  • 国家信息化专家咨询委员会 (www.sic.gov.cn)

News Websites

  • 新华网 (www.xinhuanet.com)
  • 人民网 (www.people.com.cn)
  • 央视新闻 (news.cctv.com)
  • 观察者网 (www.guancha.cn)
  • 澎湃新闻 (www.thepaper.cn)

Keywords Filter

Include Keywords

  • 人工智能 (Artificial Intelligence)
  • 数字化 (Digitalization)
  • 信息化 (Informatization)
  • 智能化 (Intelligentization)
  • 智能技术 (Intelligent Technology)
  • AI
  • 算法 (Algorithm)
  • 大数据 (Big Data)
  • 云计算 (Cloud Computing)
  • 数字经济 (Digital Economy)
  • 数字转型 (Digital Transformation)

Exclude Keywords

  • 报表, 采购, 公示, 公告, 招标, 投标, 结果, 租赁, 服务
  • 通知, 办法, 目录, 处罚, 检查, 认定, 标准
  • 设备, 购买, 购置, 询价, 竞争性, 谈判
  • 单一来源, 中标, 成交, 合同

Usage

Run the Crawler

python gov_crawler.py

Output Structure

  • original_articles/ - Original article content
  • article_links/ - Article metadata and links
  • ai_summaries/ - AI-generated summaries
  • crawled_links.json - Deduplication tracking

Features

  • Automatic deduplication
  • Publication date sorting
  • Incremental file indexing
  • AI content summarization
  • Error handling and retry mechanisms

Customization

To modify keywords or add new sources, edit the gov_crawler.py file:

  1. Add new keywords: Update the keywords list in each crawler class
  2. Add new sources: Create a new crawler class inheriting from BaseCrawler
  3. Adjust filters: Modify the exclude_keywords list

Dependencies

requests
beautifulsoup4
lxml

Install with: pip install -r requirements.txt

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-04-09 09:47 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,225 📥 267,662
ai-agent

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,078 📥 808,672
dev-programming

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 676 📥 325,263