AliFilter v1.0.1安装与使用--bioinformatistic tools 089
AliFilter:基于机器学习的序列比对修剪工具
01 工具简介
https://github.com/arklumpus/AliFilter #官网
序列比对修剪(过滤)是指去除 DNA 或蛋白比对序列中的部分位点,以提升下游系统发育重建等分析效果。被剔除的比对位点通常存在以下问题:由比对软件引入比对错误、无进化信息、含有大量噪声干扰。
序列比对修剪主要分为两种方式:一是人工检视比对结果,手动识别并移除异常位点;二是借助专业软件自动处理,常用工具包括 BMGE、ClipKIT、Gblocks、Noisy、trimAL 等(各类工具综述可参考 Tan 等人 2015 年研究)。
自动化修剪工具优势在于可适配大数据集、结果稳定可重复;但除少量自定义参数外,大多属于黑箱模式,无法自主控制位点保留与剔除规则。人工修剪耗时久、重复性差,但可以实现精细化位点筛选。
AliFilter 旨在用机器学习模拟人工修剪逻辑:依托少量人工修剪的比对结果训练机器学习模型,利用该模型批量、可重复地完成大量序列比对修剪;软件内置预训练模型,下载即可直接使用,无需自行训练。
trimAl v1.5.0 安装与使用----bioinformatistic tools 69-CSDN博客
02 安装
环境要求
无需安装依赖,直接下载对应系统的预编译版本即可使用。
wget -c https://github.com/arklumpus/AliFilter/releases/download/v1.0.1/AliFilter-linux-x64.tar.gz
源码编译说明
日常使用直接下载预编译程序即可,无需手动编译;若需从源码构建,需提前安装 .NET 8.0 SDK,克隆源码仓库后执行对应平台编译脚本。
Windows 平台
需代码签名证书(无证书仍可编译出未签名程序),按架构执行脚本:
- Windows-x64:
BuildRelease-win-x64.cmd <subject> <pin> - Windows-arm64:
BuildRelease-win-arm64.cmd <subject> <pin>
Linux 平台
赋予脚本执行权限后运行:
- Linux-x64
chmod +x BuildRelease-linux-x64.sh
./BuildRelease-linux-x64.sh
- Linux-arm64
chmod +x BuildRelease-linux-arm64.sh
./BuildRelease-linux-arm64.sh
macOS 平台
无开发者账号可填写随机参数,仍可生成可执行文件:
- macOS-x64
chmod +x BuildRelease-mac-x64.sh
./BuildRelease-mac-x64.sh <Developer ID Application> <Apple ID> <App-specific password> <Developer team ID>
- macOS-arm64
chmod +x BuildRelease-mac-arm64.sh
./BuildRelease-mac-arm64.sh <Developer ID Application> <Apple ID> <App-specific password> <Developer team ID>
03 使用
基础修剪命令
AliFilter -i alignment.fas -o output.fas
alignment.fas:待修剪的原始比对文件output.fas:修剪后输出文件- 支持格式:FASTA、宽松 PHYLIP 格式
- 默认调用软件内置预训练模型完成自动修剪
指定自定义模型修剪
AliFilter -i alignment.fas -o output.fas -m <model>
<model> 可为官方标准模型标识,或自定义训练模型 model.json 文件路径;标准模型列表可查阅官方 Wiki。
管道串联运行(衔接 MAFFT 比对)
省略 -i -o 参数时,支持标准输入 / 标准输出,可与比对软件一行串联:
mafft --auto unaligned.fas | AliFilter > filtered.fas
直接完成序列比对 → AliFilter 修剪,输出修剪后的比对文件 filtered.fas。
If you just wish to filter an alignment using the default model implemented in AliFilter, run the following command:
AliFilter -i alignment.fas -o output.fas
Here, alignment.fas is the input (unfiltered) alignment, while output.fas is the name of the file where the output (filtered) alignment will be saved. Alignments can be in FASTA or relaxed PHYLIP format.
If you wish to use a specific model, you can use the -m argument:
AliFilter -i alignment.fas -o output.fas -m <model>
Where <model> is either a standard model specification, or the path to a model.json file containing a custom trained model.
If you do not provide the -i or -o arguments, the program will read from the standard input or write to the standard output. This makes it possible to concatenate sequence alignment and filtering in a single line; for example, if you are using mafft to align the sequences:
mafft --auto unaligned.fas | AliFilter > filtered.fas
This command will directly create a file called filtered.fas containing the filtered sequence alignment.
拓展功能
支持自定义训练新模型、两组比对 / 掩码文件差异对比、多掩码合并等功能,详细用法见官方 Wiki。
04 引用格式
使用该工具发表研究,请按以下格式引用:Bianchini, G., Zhu, R., Cicconardi, F., & Moody, E. R. R. (2025).AliFilter: a machine learning approach to alignment filtering.Zenodo. https://doi.org/10.5281/zenodo.14861812
[1] Criscuolo, A., Gribaldo, S. BMGE (Block Mapping and Gathering with Entropy): a new software for selection of phylogenetic informative regions from multiple sequence alignments. BMC Evol Biol 10, 210 (2010). https://doi.org/10.1186/1471-2148-10-210
[2] Steenwyk JL, Buida TJ III, Li Y, Shen X-X, Rokas A (2020) ClipKIT: A multiple sequence alignment trimming software for accurate phylogenomic inference. PLoS Biol 18(12): e3001007. https://doi.org/10.1371/journal.pbio.3001007
[3] Castresana, J. (2000). Selection of Conserved Blocks from Multiple Alignments for Their Use in Phylogenetic Analysis. Molecular Biology and Evolution, 17(4), 540–552. https://doi.org/10.1093/OXFORDJOURNALS.MOLBEV.A026334
[4] Dress, A.W., Flamm, C., Fritzsch, G. et al. Noisy: Identification of problematic columns in multiple sequence alignments. Algorithms Mol Biol 3, 7 (2008). https://doi.org/10.1186/1748-7188-3-7
[5] Salvador Capella-Gutiérrez, José M. Silla-Martínez, Toni Gabaldón, trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses, Bioinformatics, Volume 25, Issue 15, August 2009, Pages 1972–1973, https://doi.org/10.1093/bioinformatics/btp348
[6] Ge Tan, Matthieu Muffato, Christian Ledergerber, Javier Herrero, Nick Goldman, Manuel Gil, Christophe Dessimoz, Current Methods for Automated Filtering of Multiple Sequence Alignments Frequently Worsen Single-Gene Phylogenetic Inference, Systematic Biology, Volume 64, Issue 5, September 2015, Pages 778–791, https://doi.org/10.1093/syv0334
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)