该项目已被归档,不再维护。
克伦威尔
概述 | |
描述 | Cromwell是一组Matlab脚本,用于执行质谱蛋白质组学数据的低级处理。 |
发展信息 | |
语言 | Matlab |
当前版本 | 1.0 |
平台 | Matlab平台支持 |
地位 | 不活跃的 |
最后一次更新 | 2004-03-26 |
参考文献 | |
引用 | Coombes KR, Tsavachidis S, Morris JS, Baggerly KA, Hung MC, Kuerer HM。(2005)。采用非抽取离散小波变换去噪谱,改进了表面增强激光解吸电离质谱数据的峰值检测和定量。蛋白质组学5(16), 4107 - 4117。https://doi.org/10.1002/pmic.200401261 |
帮助和支持 | |
联系 | mdacc-bioinfo-it-admin@mdanderson.org. |
Cromwell是我们用于质谱蛋白质组学数据低层次处理的算法的实现。克伦威尔代表了我们第三次尝试(至少)找到一种既能快速工作又能取得相当好的结果的光谱处理方法。因此,这个名字来源于一个历史双关语:正如奥利弗·克伦威尔(Oliver Cromwell)通过打造和领导“新模型陆军”(New Model Army)而成为英格兰的统治者一样,我们打算用我们的“新模型处理器”(New Model processor)引领更好的蛋白质组学数据处理方式。
下载包包含以下matlab脚本:
Cromwell使用未命定的离散小波变换来代盘谱;关键参数是用于去噪的阈值。我们开发了图形Matlab工具,以帮助用户做出这一决定。这是可用的单独的下载包.
实际的Cromwell的代码是在zip文件中打包的一组matlab文件。
Cromwell不是自我含量的。由于它实现为一组MATLAB脚本,因此它需要访问可从中提供的商业软件包MathWorks.
克伦威尔还使用非抽取的离散小波变换去噪光谱,如实现水稻小波工具箱.
请设置Matlab路径以包含包含脚本的目录。你可以在这里找到如何做到这一点的说明。
有关功能的文档可以通过help命令获取。为了方便您,我们在这里包含了文档注释。
这些功能按字母顺序排列。每个函数对应于下载包中的同名MATLAB .m脚本文件。
功能BC = BaseCorr2(RAW,RAWMASS,M,L,THLD)%BC = BASECORR2(RAW,RAWMASS,L,L,THLD)%包装器执行小波去噪,基线校正和%峰值查找在谱的集合上.%%输入是:%RAW%矩阵的强度%RACMAS%群众的群体%M%的数据点数忽略在开始%L%L%小波级%THLD%THLD%MAD的MAD阈值%输出为:%BC%基线矩阵校正强度%副作用:%在当前目录中创建越来越的二进制Matlab(* .mat)文件在当前目录%baselinec rower%中,矩阵Bc%噪声%噪声估算估计%矩阵的归一化基底蛋白校准的基础矩阵矩阵含有平均基线校正的百分比百分比载体的载体含有含有平均归一化光谱%峰值%峰值(使用Trivialpeakfinder)%Numpeaks%峰值PE谱的峰值的峰值
function [spec, mass] = colllatespectra (dirName, rawOrCorrected, oneOrMany, skipLines) % colllatespectra (DIRECTORY, rawOrCorrected, oneOrMany, skipLines) % %该函数将整个光谱集收集成一个单一的矩阵。DIRECTORY参数将函数指向包含数据的顶级目录。参数RAWORCORRECTED确定我们是在核对原始光谱还是基线校正和归一化的%光谱。如果RAWORCORRECTED值为“raw”,则数据在子目录“RawSpectra”中找到%,并由文件“RawFiles.txt”描述;%此文件的格式在batchProcessRawFiles的联机帮助中定义。%如果RAWORCORRECTED任务的值为"corrected",那么数据会在"CorrectedSpectra"子目录中找到,并被名为% "CorrectedFiles.txt"的文件描述;这与相应的原始文件具有相同的格式。参数ONEORMANY,它只能接受值“one”或“many”,告诉我们数据文件是包含一个频谱还是多个频谱。最后,SKIPLINES参数告诉我们每个数据文件顶部%处有多少标题行。该函数返回两个项目% SPEC =一个矩阵,每个频谱一行,每个时间点一列。 % MASS = a vector with (some estimate) of the common masses. % % Note: this routine does not do any fine tuning of the alignment across spectra. % It implicitly assumesd all the masses are the same, and that the time points in % different spectra coincide with the same masses. Further, everything is truncated % to the length of the shortest spectrum in the set.
将输入向量或矩阵X(被认为是在相同时间点收集的一个或多个质量%谱)转换为输出向量mx,以质量尺度等百分比间隔。它使用校准矢量MASS来给出从时间到质量的映射,并使用标量分辨率来确定质量测量之间的间隔。主要的应用是允许在质量轴上绘制图像或热图,而不是在时间轴上。例如,% mx = massTrans(X, mass, 1);%显示亮度图像(mx)
功能碱基=单调eminimim(滑块,饱和)%基线=单调eminimum(ShapdingSpectrum,SaturationEnd)%%该功能估计光谱的基线作为单调的最小值。它以饱和度假率达到的最大级别开始。达到此最大值之前的所有内容都会从%频谱中删除。在此之后的一切都被计算为函数%的幂%,总是承担到目前为止所看到的最小值。返回基线曲线%。
w = pad(spectrum, L) % % w = pad(spectrum, L) % %填充一个表示频谱的输入向量,通过反映频谱的末端,使其长度等于2^L的下一个较大倍数%。
[x, y] = peakSet(peaksByMass, minimumSN, secondSN, tickSeparation, massSeparation) % % [x, y] = peakSet(peaksByMass, minSN, secondSN, massSeparation) %输入:% % % peaksByMass是一个矩阵与每个峰一行五列%代表%频谱ID %峰值位置时钟%峰值位置质量% %规范化baseline-corrected峰值强度的信噪比所需的% minimumSN =峰值信噪比单一的峰数;通常10%秒dsn =信号噪声需要包括在第二次通过;分离=可分辨峰之间的最小距离,在时钟%的滴答声中,通常为7%。通常0.003。% %输出:% X =峰类信息,一个矩阵,每个峰类一行,% 13列,代表%惟一的类ID %最小蜱虫%最大蜱虫%最小质量%最大质量%的这种独特的光谱峰值%这个类的山峰收集%最小S / N %最大S / N %的意思是S / N %值蜱虫%的归一化强度%标准差的归一化强度% Y =从山峰映射到类,一个矩阵,每峰一行,% 5列,代表%峰类ID(如X) %谱ID %标记位置%质量位置% s/N
功能sn = signal2noise(原始,base,spoolly)%帮助不可用,但功能很简单
function [Peak, leftMin, rightMin] = trivialPeakFinder(w) % [PEAKS, leftMin, rightMin] = mixedup(spectrum) % %输入是一个频谱的强度级别。我们假设频谱%已经经过小波平滑和基线校正。我们确定%峰值为局部最大值。% %返回值为:% PEAKS:一个峰值位置列表,以刻度表示。% LEFTMIN:一个距离每个峰值左侧最近的最小值列表。% RIGHTMIN:一个距离每个峰值右侧最近的最小值列表
函数dataname = truncateName(filename) % dataname = truncateName(filename) % %该函数以表示文件名的字符串作为输入。去掉扩展名(final '.'后面的所有内容)来创建一个变量名。为了确保变量名%在MATLAB中是有效的,它用下划线替换所有不是普通的%字母或数字的内容。
function [baselineCorrected, smoothSpec] = waveletSmoothAndBaselineCorrect(spectrum, t, saturate, L) % [B S] = waveletSmoothAndBaseleinCorrect(spectrum, threshold, saturation, L) % computes a denoised spectrum using a wavelet transform, and a baseline corrected % denoised spectrum using a monotone minimum from a raw spectrum. The wavelet % transform is performed using code supplied as part of the Rice Wavelet Toolbox % (http://www-dsp.rice.edu/software/rwt.shtml). The wavelet transform will only % work on input vectors whose length is a multiple of a power of 2. To get the % lengths right, we reverse the end of the spectrum and pad to the next multiple, % and then truncate the processed spectrum to the original length. % % Inputs: % spectrum = vector of intensities, assumed to be collected at consecutive time points % threshold = multiple of 0.67*MAD at which to threshold the wavelet coefficients % we typically use thresholds in the range of 4-10. % saturation = index at which saturation ends and baseline correction should start % L = power of 2 to use to compute wavelets (default value is L = 10, which says % to use blocks of size 1024) % Outputs: % B = vector of denoised and baseline corrected intensities % S = vector of denoised intensities % % Example: % [B S] = waveletSmoothAndBaselineCorrect(spectrum, 6, 2500, 10); % noise = spectrum - S; % plot(spectrum) % hold on % plot(S, 'r')
克伦威尔的版权归MD安德森癌症中心所有;考虑到克伦威尔是一个学术机构提供的自由软件,许可细节很简单。
这是"克伦威尔"质谱分析包。使用条件:版权所有(c) 2003, 2004 UT MD Anderson癌症中心。保留所有权利。这个软件是分发和授权给你在一个非独占的基础上,免费的。在满足以下条件的情况下,允许以源代码和二进制形式重新发布和使用,无论是否进行修改:再发布源代码必须保留上述版权声明、本条件列表和以下免责声明。2.以二进制形式再发布必须复制上述版权声明、本条件列表和以下免责声明在文件和/或与发布一起提供的其他材料中。3.本产品包括由德克萨斯大学安德森癌症中心(休斯顿)及其贡献者开发的软件。 4. Neither the name of the University nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY UNIVERSITY OF TEXAS MD ANDERSON CANCER CENTER, HOUSTON, TEXAS, AND CONTRIBUTORS AS IS AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL MD ANDERSON OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTIONS) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE), PRODUCT LIABILITY, OR OTHERWISE ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
克伦威尔的算法和性能在我们的技术报告中有描述
Coombes KR, Tsavachidis S, Morris JS, Baggerly KA, Hung MC, Kuerer HM。
采用非抽取离散小波变换去噪谱,改进了表面增强激光解吸电离质谱数据的峰值检测和定量。utmdabtr - 001 - 04。
我们继续发展克伦威尔。我们使用的工具之一是质谱分析仿真引擎(版本2.1)从Insightful Corp.在S-Plus统计软件包中实施了模拟和初步应用程序的模型的详细信息在另一个技术报告中描述:Coombes Kr,Komen JM,Baggerly Ka,Morris JS,Kobayashi R.了解质量的特征光谱测定数据通过使用模拟。
在Morris JS, Coombes KR, Koomen J, Baggerly KA, Kobayashi R的出版物中广泛使用了模拟引擎。使用平均光谱的生物医学应用中质谱法的特征提取和定量.生物信息学。2005;21:1764 - 75。为本出版物模拟的数据集如下可从我们的网站上获得.