← 返回
未分类 中文

Redact

Privacy redaction toolkit for images, PDFs, Word documents, and PowerPoint presentations. Use when the user needs to redact, mask, or replace sensitive/priva...
用于图像、PDF、Word文档和PowerPoint演示文稿的隐私脱敏工具包,在需要删除、遮蔽或替换敏感/私密信息时使用。
darknoah
未分类 clawhub v0.1.1 1 版本 99736.8 Key: 无需
★ 0
Stars
📥 379
下载
💾 0
安装
1
版本
#latest

概述

Redact Skill

Privacy redaction toolkit using PPStructureV3 OCR for text detection and replacement.

Scripts

ScriptFormatCommand
-------------------------
read.pyImages / PDF / Word / PowerPointread.py [--info] [--mode json]
redact-image.pyImages (png, jpg, etc.)redact-image.py
redact-pdf.pyPDFredact-pdf.py
redact-document.pyWord (docx, doc)redact-document.py
redact-presentation.pyPowerPoint (pptx, ppt)redact-presentation.py

CSV Rules Format

target_text,replacement_text
张三,李四
手机号,
身份证号,
RuleEffect
--------------
原文本,新文本Replace with new text
原文本,Empty = mask with █ (documents) or solid color block (images/PDF)

Masking Behavior

FormatEmpty Replacement
---------------------------
Images, PDFSolid color block overlay
Word, PowerPoint characters (same length as target)

Read Features

read.py supports:

  • Reading text from images, PDF, Word, and PowerPoint files
  • OCR for image files and embedded images
  • Page-aware output for PDF / Word / PowerPoint
  • --info structured output:
  • ... for OCR text extracted from images

JSON Output

Document-like files (pdf, docx, doc, pptx) output:

{
  "type": "pptx",
  "pages": [
    {
      "page_index": 1,
      "content": [
        { "type": "text", "text": "..." },
        { "type": "image", "text": "ocr text..." }
      ]
    }
  ]
}

Image files output:

{
  "type": "image",
  "content": "..."
}

Features

FeatureImagePDFDocumentPresentation
---------:-----::---::--------::------------:
Read text
JSON output
Text replacement
Solid color mask--
█ character mask--
OCR detection✅ (images)✅ (images)
Tables-
Headers/Footers--
Embedded images-

Environment Setup

使用 uv 安装依赖:

# 进入 skill 目录
cd skills/redact

# 同步依赖(自动创建虚拟环境并安装)
uv sync

Dependencies

  • Python 3.10+
  • PaddleOCR / PPStructureV3
  • python-docx, python-pptx, PyMuPDF, Pillow

版本历史

共 1 个版本

  • v0.1.1 当前
    2026-05-03 10:27 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

productivity

Qwen3 Audio

darknoah
面向 Apple Silicon 的高性能音频库,支持文本转语音 (TTS) 与语音转文本 (STT)。
★ 0 📥 830

视频自动笔记制作

darknoah
当用户提供视频URL并希望获得完整的Markdown学习笔记时使用此技能。它会下载原始视频,使用qwen-a...进行音频转录,生成结构化的Markdown学习笔记。
★ 1 📥 949
content-creation

Free Resource

darknoah
在需要时,从 Pexels(照片/视频)、Pixabay(图片/视频)、Freesound(音效)和 Jamendo(音乐/背景音乐)中搜索并获取免版税媒体资源。
★ 0 📥 960