← 返回
数据分析

Humanize Chinese

Detect and humanize AI-generated Chinese text. 20+ detection categories, weighted 0-100 scoring with sentence-level analysis, 7 style transforms (casual/zhih...
检测并人性化AI生成的中文文本。支持20+检测类别、0-100加权评分、句子级分析及7种风格转换(如口语/知乎风...)。
swaylq
数据分析 clawhub v2.4.0 3 版本 99728.9 Key: 无需
★ 5
Stars
📥 2,475
下载
💾 89
安装
3
版本
#latest

概述

Humanize Chinese AI Text v2.1

检测和改写中文 AI 生成文本的完整工具链。可独立运行(CLI),也可作为 LLM prompt 指南使用。

CLI Tools

所有脚本在 scripts/ 目录下,纯 Python,无依赖。

# 检测 AI 模式(20+ 维度,0-100 分)
python scripts/detect_cn.py text.txt
python scripts/detect_cn.py text.txt -v          # 详细 + 最可疑句子
python scripts/detect_cn.py text.txt -s           # 仅评分
python scripts/detect_cn.py text.txt -j           # JSON 输出

# 改写
python scripts/humanize_cn.py text.txt -o clean.txt
python scripts/humanize_cn.py text.txt --scene social -a   # 社交场景 + 激进模式
python scripts/humanize_cn.py text.txt --style xiaohongshu # 先改写再转风格

# 风格转换
python scripts/style_cn.py text.txt --style zhihu -o out.txt

# 前后对比
python scripts/compare_cn.py text.txt --scene tech -a

# 学术论文 AIGC 降重
python scripts/academic_cn.py paper.txt -o clean.txt --compare
python scripts/academic_cn.py paper.txt -o clean.txt -a --compare  # 激进

评分标准

分数等级含义
------------------
0-24LOW基本像人写的
25-49MEDIUM有些 AI 痕迹
50-74HIGH大概率 AI 生成
75-100VERY HIGH几乎确定是 AI

参数速查

参数说明
------------
-v详细模式,显示可疑句子
-s仅评分
-jJSON 输出
-o输出文件
-a激进模式
--seed N固定随机种子
--scenegeneral / social / tech / formal / chat
--stylecasual / zhihu / xiaohongshu / wechat / academic / literary / weibo
--compare前后对比

工作流

# 1. 检测
python scripts/detect_cn.py document.txt -v
# 2. 改写 + 对比
python scripts/compare_cn.py document.txt -a -o clean.txt
# 3. 验证
python scripts/detect_cn.py clean.txt -s
# 4. 可选:转风格
python scripts/style_cn.py clean.txt --style zhihu -o final.txt

LLM 直接使用指南

当用户要求"去 AI 味"、"降 AIGC"、"人性化文本"、"改成人话"时,如果无法运行 CLI 工具,按以下流程手动处理。

第一步:检测 AI 写作模式

扫描文本中的以下模式,按严重程度分类:

🔴 高危模式(一眼就能看出是 AI)

三段式套路:

  • 首先…其次…最后
  • 一方面…另一方面
  • 第一…第二…第三

机械连接词:

值得注意的是、综上所述、不难发现、总而言之、与此同时、由此可见、不仅如此、换句话说、更重要的是、不可否认、显而易见、不言而喻、归根结底

空洞宏大词:

赋能、闭环、数字化转型、协同增效、降本增效、深度融合、全方位、多维度、系统性、高质量发展、新质生产力

🟠 中危模式

AI 高频词: 助力、彰显、凸显、底层逻辑、抓手、触达、沉淀、复盘、迭代、破圈、颠覆

填充废话: 值得一提的是、众所周知、毫无疑问、具体来说、简而言之

模板句式:

  • 随着…的不断发展
  • 在当今…时代
  • 在…的背景下
  • 作为…的重要组成部分
  • 这不仅…更是…

平衡论述套话: 虽然…但是…同时、既有…也有…更有

🟡 低危模式

  • 犹豫语过多(在一定程度上、某种程度上 出现 >5 次)
  • 列举成瘾(动辄①②③④⑤)
  • 标点滥用(大量分号、破折号)
  • 修辞堆砌(排比对偶过多)

⚪ 风格信号

  • 段落长度高度一致
  • 句子长度单调
  • 情感表达平淡
  • 开头方式重复
  • 信息熵低(用词可预测)

第二步:改写策略

按以下顺序处理:

1. 砍掉三段式

把"首先…其次…最后"打散,用自然过渡代替。不是每个论点都要编号。

2. 替换 AI 套话

  • 综上所述 → 总之 / 说到底 / (直接删掉)
  • 值得注意的是 → (直接删掉,后面的话自己能说清楚)
  • 赋能 → 帮助 / 支持 / 提升
  • 数字化转型 → 信息化改造 / 技术升级
  • 不难发现 → 可以看到 / (删掉)
  • 助力 → 帮 / 推动

3. 句式重组

  • 过短的句子合并("他很累。他决定休息。" → "他累了,干脆歇会儿。")
  • 过长的句子拆开(在"但是""不过""同时"等转折处断开)
  • 打破均匀节奏(长短句交替,不要每句差不多长)

4. 减少重复用词

同一个词出现 3 次以上就换同义词。比如"进行"可以换成"做""搞""开展""着手"。

5. 注入人味

  • 加一两句口语化表达(场景允许的话)
  • 用具体的例子代替抽象概括
  • 偶尔加个反问或感叹
  • 不要每段都总分总结构

6. 段落节奏

打破每段差不多长的格局。有的段落 2 句话,有的 5 句话,像人写东西时自然的长短变化。

第三步:学术论文特殊处理

当文本是学术论文时,改写规则不同——不能口语化,要保持学术严谨性:

学术专用检测维度:

  1. AI 学术措辞("本文旨在""具有重要意义""进行了深入分析")
  2. 被动句式过度("被广泛应用""被认为是")
  3. 段落结构过于整齐(每段总-分-总)
  4. 连接词密度异常
  5. 同义表达匮乏("研究"出现 8 次)
  6. 引用整合度低(每个引用都是"XX(2020)指出…")
  7. 数据论述模板化("从表中可以看出")
  8. 过度列举(①②③④ 频繁出现)
  9. 结论过于圆满(只说好不说局限)
  10. 语气过于确定("必然""毫无疑问")

学术改写策略:

  • 替换 AI 学术套话(保持学术性):
  • 本文旨在 → 本文尝试 / 本研究关注
  • 具有重要意义 → 值得关注 / 有一定参考价值
  • 研究表明 → 前人研究发现 / 已有文献显示 / 笔者观察到
  • 进行了深入分析 → 做了初步探讨 / 展开了讨论
  • 取得了显著成效 → 产生了一定效果 / 初见成效
  • 减少被动句:
  • 被广泛应用 → 得到较多运用 / 在多个领域有所应用
  • 被认为是 → 通常被看作 / 一般认为
  • 注入学术犹豫语(hedging):

在过于绝对的判断前加"可能""在一定程度上""就目前而言""初步来看"

  • 增强作者主体性:
  • 研究表明 → 笔者认为 / 本研究发现
  • 可以认为 → 笔者倾向于认为
  • 补充局限性:

如果结论段没有提到局限,补一句"当然,本研究也存在一定局限…"

  • 打破结构均匀度:

调整段落长度,避免每段都一样。合并过短的段落,拆分过长的。

第四步:验证

改写完成后,用 CLI 工具验证效果:

python scripts/detect_cn.py output.txt -s

目标:通用文本降到 25 分以下,学术论文降到 30 分以下。


配置说明

所有检测模式和替换规则在 scripts/patterns_cn.json,可自定义:

  • 添加新 AI 词汇
  • 调整权重
  • 增加替换规则
  • 修改正则匹配

外部配置字段

critical_patterns    — 高权重检测(三段式、连接词、空洞词)
high_signal_patterns — 中权重检测(AI 高频词、模板句)
replacements         — 替换词库(正则 + 纯文本)
academic_patterns    — 学术专用检测与替换
scoring              — 权重和阈值配置

版本历史

共 3 个版本

  • v2.4.0 当前
    2026-03-28 21:21 安全 安全
  • v1.1.0
    2026-03-26 21:25
  • v2.0.0
    2026-03-18 07:24

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 367 📥 140,079
developer-tools

Session Memory

swaylq
AI代理持久记忆工具包。保存上下文、相关性评分召回、整合洞察、跨会话追踪决策。功能重要...
★ 1 📥 5,455
data-analysis

Data Analysis

ivangdavila
{"answer":"数据分析与可视化。查询数据库、生成报告、自动化电子表格,将原始数据转化为清晰可行的见解。适用于:(1) 您……"}
★ 198 📥 64,918