CanDrA
概述 | |
描述 | 具有优化特征的癌症特异性潜水员错义突变注释 |
发展信息 | |
语言 | Perl |
当前版本 | + |
平台 | 在Centos 5.5 (x86_64)和Ubuntu 10.04LTS (x86 32位)上测试。它被假定在编译后可以在大多数X-NIX系统中工作。 |
许可证 | GPL v3 |
状态 | 活跃的 |
最后一次更新 | 2013/04/05 |
新闻 | 版本Plus可用 |
参考文献 | |
引用 | 毛勇,陈洪,梁洪等,CanDrA:具有优化功能的癌症特异性驱动错义突变注释,《公共科学图书馆•综合》(2013)https://doi.org/10.1371/journal.pone.0077945 |
帮助和支持 | |
联系 | 肯•陈 |
CanDrA是一个机器学习程序,基于96个结构、进化和基因特征,通过超过10个其他功能预测算法来预测癌症类型特定的驱动误义突变。在挖掘COSMIC数据库的基础上收集CanDrA训练集。Plus版,可分析15种癌症类型(膀胱癌、乳腺癌、结直肠癌、宫颈癌鳞状细胞癌、子宫内膜样癌、GBM、肾癌、肺腺癌、肺小细胞癌、肺鳞状细胞癌、成神经管细胞瘤、恶性黑色素瘤、卵巢癌、前列腺癌、鳞状细胞皮肤癌)。它还提供了一个额外的模型来预测突变是否通常是所有癌症的驱动因素。COSMIC版本62用于CanDrA Plus。
CanDrA包包括两部分,可执行文件和每个特定癌症的注释数据文件。用户需要下载可执行文件和至少1个注释数据文件才能运行。
版本1.0
在CanDrA v1.0中,它使用95个结构和进化特征来构建预测模型,可以分析6种癌症类型:多形性胶质母细胞瘤(GBM)、卵巢癌、乳腺癌、结直肠癌、恶性黑色素瘤、鳞状细胞皮肤癌。根据COSMIC version 58收集训练集。
可执行方案
特定癌症的注释数据文件
基因组生物学论文,比较了CanDrA和其他几个癌症驱动因子https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0484-1
版本(加),过时,变异显著性加权基因水平的显著性
可执行方案
特定癌症的注释数据文件
如何设置CanDrA?
输入文件的格式是什么?
输入文件的列是
输入文件应该是用制表符分隔的格式。更多请参考包中的demo_input.txt;
输出文件的格式是什么?
输出文件是用制表符分隔的格式;输出文件的列是
如何使用CanDrA程序?
版本: | + | |
用法: | Perl open_candra.pl |
|
选项: | 支持 |
|
例子: | perl open_candra.pl OVC demo_input.txt > demo.annotated |
要注释特定癌症背景下的错义突变,需要约1g的存储空间来存储相应的注释数据库文件。
问:CanDrA支持什么类型的参考基因组?
答:对于1.0版本,它只支持hg19 (NCBI Build 37)。
Q:当我做查询时,我看到消息为“[tabix]索引文件不存在或比vcf文件更早。请重建索引。的结果。哪里错了吗?
答:这意味着tabix索引文件(*.tbi)在你们的平台上不能很好地运行,因为它与我们的测试平台不同。解决方案是运行' /Path/to/CanDrA*/tabix-0.2.6/tabix -f -s 1 -b 2 -e 2 sorted_CanDrA_*.gz '在/Path/to/CanDrA*/database/*目录,其中*是您正在使用的特定癌症类型。目的是生成一个新的sorted_CanDrA_*.gz。用Tbi代替旧的。