← 返回
未分类 中文

Yandex Archive Scraper

Search and extract data from Yandex.Archive (Яндекс.Архив) — metric books, newspapers, directories. Bypasses bot protection via Scrapling.
从Yandex.Archive(Яндекс.Архив)搜索并提取数据——包括户籍册、报纸、目录等。通过Scrapling绕过机器人防护。
flobo3 flobo3 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 348
下载
💾 0
安装
1
版本
#latest

概述

yandex-archive-scraper

A powerful skill for searching and extracting data from Yandex.Archive (Яндекс.Архив) using Scrapling to bypass bot protection and Cloudflare Turnstile.

Features

  • Converts natural language queries into optimized Yandex.Archive search URLs.
  • Uses Scrapling (StealthyFetcher) to bypass Yandex bot protection.
  • Extracts search results (document titles, text snippets, and direct links).
  • Supports pagination to collect multiple pages of results.
  • Can search across all three Yandex.Archive indexes:
  • archive (Архивы) — Metric books, revision tales, confessional statements.
  • mass_media (Периодика) — Old newspapers (e.g., "Senate Gazette", "Provincial Gazette").
  • directories (Справочники) — Address calendars, lists of residents, memorable books.

Tools

yandex_archive_search

Search Yandex.Archive based on a natural language query.

Parameters:

  • query (string): The search query (e.g., "Александр Пушкин Москва").
  • index (string, optional): The index to search in. Options: archive (default), mass_media, directories.
  • max_pages (integer, optional): Maximum number of pages to scrape (default 1).

Requirements

  • scrapling
  • playwright
  • curl_cffi
  • patchright
  • msgspec
  • browserforge

yandex-archive-scraper (Русский)

Мощный скилл для поиска и извлечения данных из Яндекс.Архива с использованием фреймворка Scrapling для обхода защиты от ботов и Cloudflare Turnstile.

Возможности

  • Преобразует запросы на естественном языке в оптимизированные URL для поиска по Яндекс.Архиву.
  • Использует Scrapling (StealthyFetcher) для обхода защиты Яндекса.
  • Извлекает результаты поиска (названия документов, текстовые фрагменты/сниппеты и прямые ссылки).
  • Поддерживает пагинацию для сбора нескольких страниц результатов.
  • Умеет искать по всем трем базам Яндекс.Архива:
  • archive (Архивы) — Метрические книги, ревизские сказки, исповедные ведомости.
  • mass_media (Периодика) — Старые газеты (например, "Сенатские ведомости", "Губернские ведомости").
  • directories (Справочники) — Адрес-календари, списки жителей, памятные книжки.

Инструменты (Tools)

yandex_archive_search

Поиск по Яндекс.Архиву на основе текстового запроса.

Параметры:

  • query (string): Поисковый запрос (например, "Александр Пушкин Москва").
  • index (string, optional): Раздел для поиска. Варианты: archive (по умолчанию), mass_media, directories.
  • max_pages (integer, optional): Максимальное количество страниц для парсинга (по умолчанию 1).

Зависимости

  • scrapling
  • playwright
  • curl_cffi
  • patchright
  • msgspec
  • browserforge

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 08:19 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Chords Fetcher

flobo3
从热门网站(mychords.net、amdm.ru、ultimate-guitar.com)获取干净的吉他谱和歌词,去除制表符并修正格式。
★ 0 📥 416

Genealogy Agent

flobo3
从原始文本提取、整理、研究并可视化家族历史。构建知识图谱,生成Mermaid树、Obsidian知识库和GEDCOM导出文件。
★ 0 📥 327

Skill Graphify

flobo3
将任意代码、文档、论文或图片文件夹转换为可查询的知识图谱。跨平台 graphify CLI 包装器。
★ 0 📥 595