在我们的论文中使用平均光谱进行峰值发现和量化,我们模拟了数百种蛋白质组学数据集。我们使用模拟数据来比较两个不同处理算法的结果。此处可提供数据集,因此其他人可以将其算法与我们的算法进行比较,在标准数据集中,真相是关于每个频谱中的峰值的真实性。
每个zip文件包含25个数据集。每个数据都将解压缩到自己的目录中,dataset_x.
, 在哪里X
是1到100的数字。
每个数据集目录包含两个子目录:RawSpectra.
和truepeaks.
。
这RawSpectra.
子目录包含100个文本文件。每个文本文件代表一个具有两列数据的单频谱,一个用于质量,一个用于强度。
这truepeaks.
子目录还包含100个文本文件,表示数据中的真峰列表。真相还在两列中给出,第一列包含质量和第二柱,其中含有模拟中该质量的离子数。
最后,dataset_x.
目录包含一个名为true_peaks.txt.
。这是一个具有4列的逗号分隔值UNIX文本文件,其中包含生成100个虚拟谱的虚拟群体的描述。每个峰值都有一行,其由其质量描述,其普遍性(其出现在单个频谱中的概率),其平均日志强度以及日志强度的标准偏差。