← 返回
数据分析

aa-pair-analysis

蛋白质氨基酸功能类别相邻对频率分析。对任意蛋白质家族的多物种序列进行多序列比对(MSA)、共识序列提取、对型统计和配方计算,输出Top5高频对型及φ值。适用于:(1)对新物种/类群运行完整分析流程,(2)从已有共识序列进行对型统计,(3)横向比较不同物种/类群的氨基酸对组成差异,(4)修改氨基酸分类或统计参数后重...
对蛋白质家族多物种序列进行多序列比对、共识序列提取、对型统计与配方计算,输出Top5高频对型及φ值。适用于新物种/类群完整分析、已有共识序列统计、跨物种/类群氨基酸对组成比较及参数修改后重分析。
wuhen9nine
数据分析 clawhub v1.1.0 4 版本 100000 Key: 无需
★ 0
Stars
📥 801
下载
💾 45
安装
4
版本
#latest

概述

氨基酸对频率分析(aa-pair-analysis)

首次使用:环境初始化

首次调用本 skill 前,先运行初始化脚本,自动检测并安装所有依赖:

bash skills/aa-pair-analysis/scripts/setup.sh

脚本会依次检查并安装:

依赖说明自动安装方式
------------------------
Python 3.8+运行分析脚本需手动预装
pandas数据处理与CSV输出pip install pandas
biopython序列处理(可选)pip install biopython
ClustalOmega多序列比对(MSA)apt / brew / conda / 二进制下载

> 如果环境已配置好,跳过此步骤直接运行分析即可。


联合分析(与关键片段预测联动)

当同时需要氨基酸对频率分析 + 蛋白质关键片段预测时,使用联合分析包装器,MSA 只执行一次,并自动生成单体配方投料表

cd skills/aa-pair-analysis

# 联合分析(自动整合 + 自动生成投料表)
python scripts/run_combined_analysis.py 任务名 数据目录

工作流:

  1. 共享 MSA(clustalo,缓存复用)
  2. aa-pair 分析(跳过已比对物种)
  3. 关键片段预测(跳过已完成物种)
  4. 整合物种结果(按物种合并两份分析结果)
  5. 自动生成单体配方投料表 Word 文档

单体配方投料表生成

联合分析完成后自动调用:

python scripts/gen_monomer_formulation_table.py 整合结果目录

投料规则(2026-05-11 更新)

  • 单体总浓度:1.0 M
  • 最终总体积:1.5 mL
  • DMSO:根据单体总投料量动态补全至 1.5 mL
  • 总摩尔数 = 1.0 M × 0.0015 L = 1.5 mmol
  • 各单体按 φ 值比例分配 1.5 mmol
  • 引发剂 2-oxoglutaric acid:3.75 mg(MW 146.10)
  • 交联剂:不使用

单体对照

氨基酸类别单体M (g/mol)密度/浓度
---------------------------------------
HydrophobicBA128.170.90 g/mL
NucleophilicHEA116.121.10 g/mL
AromaticPEA192.211.10 g/mL
AmideAAm71.080.18 g/mL
AcidicCBEA144.131.10 g/mL
CationicATAC (80%)193.671.15 g/mL

输出:横向A4 Word 文档,按分类分表,含斑马纹。


核心文件

  • 分析脚本(完整流程): scripts/species_analysis_workflow.py(FASTA→MSA→结果)
  • 联合分析包装器: scripts/run_combined_analysis.py(MSA共享 + 自动整合 + 自动投料表)
  • 投料表生成器: scripts/gen_monomer_formulation_table.py(Word文档生成)
  • 结果整合工具: scripts/integrate_species_results.py(按物种合并两份分析结果)
  • 方法详情: references/method.md
  • 氨基酸分类: references/classification.md

快速运行

cd skills/aa-pair-analysis

# 从原始FASTA完整流程(MSA→共识→对分析)
python scripts/species_analysis_workflow.py 任务名 数据目录 --threshold 0.5

# 断点续传
python scripts/species_analysis_workflow.py 任务名 数据目录 --resume 已有结果目录

关键参数

参数默认值说明
--------------------
--threshold0.5共识序列保守性阈值(最高频氨基酸占比≥该值才写入,否则标X)
--resume指定已有结果目录,从断点继续

输出文件

文件内容
------------
species_formulations.csv每个类群的Top5对型、φ值、21种对型计数
top_5_pairs_details.csvTop5对型逐条明细
formulation_summary.csv总类群数、独特配方数

氨基酸分类(固定,不可更改)

详见 references/classification.md

参与统计(17种):Hydrophobic(V,L,I,M) / Nucleophilic(S,T,C) / Aromatic(F,Y,W) / Amide(N,Q) / Acidic(D,E) / Cationic(H,K,R)

排除(不统计):X、A(丙氨酸)、G(甘氨酸)、P(脯氨酸)

计数方法(已验证,不可更改)

  1. 剔除共识序列中所有 X/A/G/P,直接拼接为新序列
  2. 统计新序列所有相邻对(有方向)
  3. 合并对称对(N-H + H-N → H-N)得21种无向对型
  4. 按计数排名选Top5

修改分析参数时的注意事项

  • 修改氨基酸分类:同步更新 scripts/run_pdf_analysis.pyscripts/species_analysis_workflow.py 中的 FUNCTIONAL_CLASSES 字典
  • 修改阈值:使用 --threshold 参数,无需改代码
  • 修改计数方法:Step3(过滤拼接)和Step5(对称合并)需同步修改两个脚本

版本历史

共 4 个版本

  • v1.1.0 当前
    2026-05-12 04:44 安全 安全
  • v1.0.4
    2026-05-01 06:23 安全
  • v1.0.0
    2026-03-31 01:39 安全
  • v1.0.2
    2026-03-19 02:12

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Data Analysis

ivangdavila
{"answer":"数据分析与可视化。查询数据库、生成报告、自动化电子表格,将原始数据转化为清晰可行的见解。适用于:(1) 您……"}
★ 198 📥 65,121
data-analysis

Stock Analysis

udiedrichsen
{"answer":"基于雅虎财经数据,分析股票与加密货币。支持投资组合管理、自选股预警、股息分析、8维评分、热门趋势扫描及传闻/早期信号探测。适用于股票分析、持仓追踪、财报异动、加密监控、热门股追踪或提前发掘非主流传闻。"}
★ 270 📥 56,974
data-analysis

A股量化 AkShare

mbpz
A股量化数据分析工具,基于AkShare库获取A股行情、财务数据、板块信息等。用于回答关于A股股票查询、行情数据、财务分析、选股等问题。
★ 165 📥 60,018