模拟蛋白质组学谱

在我们的论文中使用平均光谱进行峰值发现和量化,我们模拟了数百种蛋白质组学数据集。我们使用模拟数据来比较两个不同处理算法的结果。此处可提供数据集,因此其他人可以将其算法与我们的算法进行比较,在标准数据集中,真相是关于每个频谱中的峰值的真实性。

每个zip文件包含25个数据集。每个数据都将解压缩到自己的目录中,dataset_x., 在哪里X是1到100的数字。

每个数据集目录包含两个子目录:RawSpectra.truepeaks.

RawSpectra.子目录包含100个文本文件。每个文本文件代表一个具有两列数据的单频谱,一个用于质量,一个用于强度。

truepeaks.子目录还包含100个文本文件,表示数据中的真峰列表。真相还在两列中给出,第一列包含质量和第二柱,其中含有模拟中该质量的离子数。

最后,dataset_x.目录包含一个名为true_peaks.txt.。这是一个具有4列的逗号分隔值UNIX文本文件,其中包含生成100个虚拟谱的虚拟群体的描述。每个峰值都有一行,其由其质量描述,其普遍性(其出现在单个频谱中的概率),其平均日志强度以及日志强度的标准偏差。

参考

Morris JS,Coombes KR,Komen J,Baggerly Ka,Kobayashi R.使用平均光谱的生物医学应用中的质谱特征提取和定量。生物信息学。2005;21.:1764-75。