为了分析蛋白质组数据,我们目前使用
为了展示如何使用克伦威尔,我们目前的分析包之一,我们创建了一个使用血清质量控制(QC)数据的例子,这些数据来自Pusztai等人2004年的数据集。克伦威尔的一揽子计划被描述为库姆斯等人,蛋白质组学,2005.
这个例子不是完全自包含的。它需要MATLAB和水稻小波工具箱.克伦威尔包在Coombes等人的《蛋白质组学2005》中有描述。
至此,我们提供的MATLAB脚本可以处理仅包含XML文件中的示例数据的文本文件。我们提供了一个简单的Perl脚本xml2txt.pl,用于从XML文件中剥离所需的数据。Perl脚本和处理脚本都假定一个相当特定的目录结构,因此必须更改硬编码的名称。
可供下载的档案:
克伦威尔一揽子政策的发展库姆斯等人,蛋白质组学,2005使用了一组24个SELDI光谱,这些光谱是从乳腺癌患者和健康对照者的乳头吸液汇集(质量控制)样本中收集的。
在论文中库姆斯等。,我们描述了克伦威尔包,我们用来处理质谱数据。在那篇论文中,我们用一组来自乳腺癌研究的24个质量控制光谱来说明这种方法。这些原始光谱和处理中使用的额外脚本可在这里:
更多关于乳腺癌研究的细节,可以从QC谱中找到:
飞行时间质谱显示健康女性和乳腺癌患者乳头吸液蛋白表达的显著差异.
Pawlik TM, Fritsche H, Coombes KR, Xiao L, Krishnamurthy S, Hunt KK, Pusztai L, Chen JN, Clarke CH, Arun B, Hung MC, Kuerer HM。
乳腺癌治疗。2005年1月;89(2):149-57。
乳腺癌患者导管液蛋白组表达谱与淋巴结转移的关系.
Kuerer HM, Coombes KR, Chen JN, Xiao L, Clarke C, Fritsche H, Krishnamurthy S, Marcy S, Hung MC, Hunt KK。
手术。2004年11月,136(5):1061 - 9。
乳头吸液表面增强激光解吸和电离收集的蛋白质组学数据的质量控制和峰值发现.
Coombes KR, Fritsche HA Jr, Clarke C, Chen JN, Baggerly KA, Morris JS, Xiao LC, Hung MC, Kuerer HM。
临床化学。2003十月;49(10):1615-23。
在我们的论文中,使用平均谱寻找峰值和量化,我们模拟了数百个蛋白质组学数据集。我们用仿真数据比较了两种不同处理算法的结果。数据集在这里是可用的,所以其他人可以比较他们的算法和我们的算法在一个标准数据集上,知道每个光谱的峰值是什么。
每个zip文件包含25个数据集。每个数据集解压缩到它自己的目录Dataset_X,其中X是从1到100的数字。
每个数据集目录包含两个子目录:“RawSpectra”和“truePeaks”。
“RawSpectra”子目录包含100个文本文件。每个文本文件代表一个带有两列数据的光谱,一列是质量,一列是强度。
“‘truePeaks’”子目录还包含100个文本文件,表示数据中的真实峰值列表。真相也在两列中给出,第一列包含质量,第二列包含模拟中该质量的离子数量。
最后,Dataset_X目录包含一个名为“' true_peaks.txt '”的文件。这是一个用逗号分隔值的UNIX文本文件,有4列,包含对生成100个虚拟频谱的虚拟总体的描述。每一个峰值都有一行,用它的质量、它的流行度(它出现在单个光谱中的概率)、它的平均对数强度和对数强度的标准差来描述。
生物医学应用中使用平均光谱的质谱特征提取和定量
Morris JS, Coombes KR, Koomen J, Baggerly KA, Kobayashi R。
生物信息学。2005;21:1764 - 75。