概述

蛋白质关键序列片段预测分析

> 本流程适用于任何蛋白质家族，对多物种 FASTA 序列执行 MSA → 共识序列 → 关键片段识别 → 氨基酸组成统计 → 功能预测的完整分析链路。

核心文件

主分析脚本：scripts/protein_key_fragment_analysis.py（完整分析流程）
批量运行入口：scripts/run_full_analysis.py（多物种批量 + 大样本采样）
方法细节：references/method.md
功能域参考：references/functional_domains.md（分析新蛋白家族时，在此补充对应 Pfam 保守域）

快速运行

# 单物种分析
python3 protein_key_fragment_analysis.py <物种名> <fasta路径>

# 多物种批量分析（推荐）
# 1. 将各物种 .fasta 文件放入 input_clean/ 目录
# 2. 运行批量脚本
python3 run_full_analysis.py

分析流程

Step 1：序列读取

解析标准 FASTA 格式，统计序列数量和长度分布
大样本处理：序列数超过阈值时随机采样（seed=42，保证可复现）

Step 2：多序列比对（MSA）

工具：ClustalOmega（apt install clustalo 或 conda install clustalo）
单序列物种跳过 MSA，直接使用原始序列

Step 3：共识序列提取

各位点最高频氨基酸占比 ≥ 阈值（默认 0.5）则写入，否则标 X
去除 gap（-）后得到连续共识序列

共识序列生成原理：

MSA比对结果（多序列对齐）
位置:  1 2 3 4 5 ...
Seq1:  M K H L P ...
Seq2:  M K H L P ...
Seq3:  M K H L A ...
      ↓ 统计频率
位置1: M(100%) → 写入 M
位置5: P(67%), A(33%) → 写入 P（若阈值≤67%）或 X（若阈值>67%）

关键参数：

共识序列提取阈值：50%（默认）
关键片段识别阈值：90%（推荐，见下文调整阈值部分）

Step 4：关键片段识别（三维度并行）

已知功能块匹配：在共识序列中搜索目标蛋白家族的 Pfam 保守域特征序列（需在 functional_domains.md 中预先配置）
高保守连续区检测：保守率 ≥ 90%、长度 ≥ 6aa 的连续区段
保守 Cys 检测：统计共识序列中 Cys 数量（潜在二硫键网络）

> 分析新蛋白家族时，在 KNOWN_MOTIFS 和 CONSERVED_BLOCKS 中补充对应的 Pfam 特征序列（来源：Pfam / InterPro / UniProt）。

Step 4.5：片段氨基酸组成与理化性质分析

对每个关键片段统计各功能类别氨基酸的出现频率：

类别	氨基酸
------	--------
Hydrophobic（疏水性）	V, L, I, M
Nucleophilic（亲核性）	S, T, C
Aromatic（芳香性）	F, Y, W
Amide（酰胺类）	N, Q
Acidic（酸性）	D, E
Cationic（阳离子性）	H, K, R
排除不统计	X, A, G, P

> ⚠️ 此分类体系与 aa-pair-analysis 完全一致，A/G/P 排除不统计。

主导类别判定：某类别占比 ≥ 35% 则为该类主导，否则判定为 Mixed（混合型）
结果写入 composition 字段（含各类别计数、比例、主导类别、理化性质描述）

Step 5：基于氨基酸组成的功能预测

根据各类别比例按优先级推断主要功能，结果写入 function_prediction 字段：

优先级	判断条件	功能预测
--------	---------	---------
1	Pfam 已知功能块命中	🔴 已知功能位点——高度保守催化/结合区域
2	Cys 在片段中占比 ≥ 12%	🟡 二硫键网络/结构骨架
3	Nucleophilic ≥ 40%	🟢 催化活性位点/磷酸化调控区（Ser/Thr/Cys核心）
4	Hydrophobic ≥ 45%	⬛ 疏水折叠核心/跨膜区
5	Aromatic ≥ 20%	🟣 底物识别/π-π堆叠区
6	Cationic ≥ 35%	⚡ 正电荷底物结合区
7	Acidic ≥ 35%	🔵 金属离子螯合/催化酸基区
8	Nucleophilic ≥ 25% + Cationic ≥ 15%	🔵 亲核-阳离子协作底物识别区
9	Hydrophobic ≥ 25% + Nucleophilic ≥ 25%	⬛ 两亲性蛋白-蛋白相互作用界面
10	Acidic ≥ 20% + Cationic ≥ 20%	⚡ 电荷互补区（盐桥网络/静电引导）
11	Amide ≥ 20%	🔵 酰胺富集区（氢键网络/糖基化位点）
12	以上均不满足	🔵 混合型功能区（Linker/多功能结合界面）

Step 6：生成报告

每物种：_分析报告.md + _key_fragments.json（含 composition 和 function_prediction 字段）
全物种：汇总分析报告_含功能预测.md

输出文件结构

旧版结构（已弃用）

results/
├── Species_A/
│   ├── Species_A_aligned.fasta
│   ├── Species_A_consensus.fasta
│   ├── Species_A_key_fragments.json
│   └── Species_A_分析报告.md
└── ...

自定义配置

添加新蛋白家族的功能域

编辑 scripts/protein_key_fragment_analysis.py：

KNOWN_MOTIFS = {
    # 你的蛋白家族特征序列
    "你的功能域名称": {
        "pattern": ["序列模式"],
        "context_note": "描述",
        "function": "功能说明",
        "criticality": "重要性级别"
    }
}

调整保守性阈值

关键片段识别阈值（推荐）：

# 严格模式（推荐用于核心功能位点识别）
# 连续区域保守率 ≥ 90%，长度 ≥ 6aa
# 结果更精细，片段更短但保守性更高

# 宽松模式（默认）
# 连续区域保守率 ≥ 50%，长度 ≥ 6aa
# 结果片段更长，但可能包含保守性较低的区域

> 实践建议：

> - 研究核心功能位点 → 使用 90%阈值

> - 初步筛选保守区域 → 使用 50%阈值

> - 不同阈值会导致完全不同的生物学解释，需根据研究目的选择

命令行调整：

python3 protein_key_fragment_analysis.py <物种> <fasta> --threshold 0.9

依赖安装

# Ubuntu/Debian
sudo apt install clustalo

# 或 conda
conda install -c bioconda clustalo

数据独立性检查清单

⚠️ 重要：多分类分析时必须验证数据独立性

当对同一批数据的不同分类（如阳离子-pi、贻贝粘附蛋白）进行分析时：

[ ] 每个分类使用独立的FASTA源文件
[ ] MSA缓存目录分开（shared_alignments_分类名）
[ ] 物种列表无重叠（除非确实为同物种）
[ ] 配方数据无重复
[ ] 共识序列和关键片段分别提取

常见问题：

不同分类错误地共享了相同的氨基酸对分析CSV数据，导致结果不可靠。

验证方法：

# 检查MSA缓存独立性
ls shared_alignments_分类A/
ls shared_alignments_分类B/
# 应无相同文件名（同物种名除外）

# 检查配方独立性
# 对比不同分类的 species_formulations.csv
# 同物种的配方应不同（若数据来源不同）

与 aa-pair-analysis 的关系

维度	aa-pair-analysis	protein-key-fragment-analysis（本工具）
------	------------------	--------------------------------------
关注点	氨基酸类别组合统计规律	具体序列片段的结构/功能
输出	φ值、Top5对型排名	片段序列、位置、功能注释
配合	可作为本工具的前置输入	需先进行 MSA 获取共识序列

联合分析推荐流程：

# 1. 先用 aa-pair-analysis 进行统计筛选
# 2. 再用本工具进行详细功能片段分析
python3 run_combined_analysis.py <任务名> <FASTA目录>

# 3. 生成物种综合分析报告（包含完整共识序列）
python3 integrate_species_results.py

物种综合分析报告

报告内容

每个物种生成 物种综合分析报告.md，包含：

氨基酸对频率分析

总对数、配方
各类别φ值分布
Top 5氨基酸对详情

共识序列（Consensus Sequence）

完整FASTA格式序列
每行60个氨基酸
氨基酸组成统计

关键功能片段预测

高保守片段列表（90%阈值）
每个片段的序列、位置、保守率
保守半胱氨酸位置

生成命令

# 批量生成所有物种的综合分析报告
python3 generate_species_reports.py \
  --input-base analysis_results/ \
  --output-dir 整合分析结果/

版本历史

共 3 个版本

v1.0.5 当前

2026-05-01 05:38 安全
v1.0.1

2026-03-30 23:33 安全安全
v1.0.3

2026-03-18 21:38

安全检测

腾讯云安全 (Keen)

suspicious

查看报告

腾讯云安全 (Sanbu)

安全，无风险