模拟蛋白质组学谱

在我们的论文中使用平均光谱进行峰值发现和量化，我们模拟了数百种蛋白质组学数据集。我们使用模拟数据来比较两个不同处理算法的结果。此处可提供数据集，因此其他人可以将其算法与我们的算法进行比较，在标准数据集中，真相是关于每个频谱中的峰值的真实性。

每个zip文件包含25个数据集。每个数据都将解压缩到自己的目录中，dataset_x.，在哪里X是1到100的数字。

每个数据集目录包含两个子目录：RawSpectra.和truepeaks.。

这RawSpectra.子目录包含100个文本文件。每个文本文件代表一个具有两列数据的单频谱，一个用于质量，一个用于强度。

这truepeaks.子目录还包含100个文本文件，表示数据中的真峰列表。真相还在两列中给出，第一列包含质量和第二柱，其中含有模拟中该质量的离子数。

最后，dataset_x.目录包含一个名为true_peaks.txt.。这是一个具有4列的逗号分隔值UNIX文本文件，其中包含生成100个虚拟谱的虚拟群体的描述。每个峰值都有一行，其由其质量描述，其普遍性（其出现在单个频谱中的概率），其平均日志强度以及日志强度的标准偏差。

参考

Morris JS，Coombes KR，Komen J，Baggerly Ka，Kobayashi R.使用平均光谱的生物医学应用中的质谱特征提取和定量。生物信息学。2005;21.：1764-75。