该项目已存档,不再维护。
完美搭配
概述 | |
描述 | 该程序分析了Affymetrix Inc.产生的寡核苷酸。它使用李Zhang的位置依赖性最近邻(PDNN)模型计算来自文件的基因表达水平。 |
发展信息 | |
当前版本 | 2.3.3. |
平台 | 视窗 |
状态 | 不活跃 |
最后一次更新 | 2005-04-04 |
新闻 | 新的!从Affymetrix的最新版本已更新参数文件,请下载并使用新文件进行PerfectMatch程序。 |
参考 | |
引用 | 张璐,迈尔斯,杜兰特。短寡核苷酸微阵列的分子相互作用模型。自然生物技术21.(7),818-821,2003http://dx.doi.org/10.1038/nbt836. |
PerfectMatch程序旨在使用PDNN模型来分析Affymetrix MicroArray数据。该模型假设寡核苷酸阵列上的两种结合方式:基因特异性结合和非特异性结合(交叉杂交)。对于每个探针,该模型给出了两个结合能量的估计,一个用于基因特异性结合,另一个用于非特异性结合。探针结合能量被计算为最近邻核苷酸的堆叠能量的加权和,其中重量取决于沿探针的位置。使用亲和值,然后通过匹配观察到的探针信号和模型拟合值来估计基因表达水平。有关该方法的更多详细信息,请参阅Li Zhang等人发布的稿件。论自然生物技术,2003年7月;21(7):818-21。稿件也包含在PerfectMtach包中。
下载探针绑定能量计算器这里。该程序可以使用PDNN参数计算任何给定的探针序列的探针结合能量。创建该程序,用于评估探头性能以辅助探头设计。
下载PerfectMatch包的新更新(更新于04-04-2005; v2.3.3)。然后解压缩文件并运行安装程序。该程序是在PC Windows操作系统上开发的。它不需要用户在安装后重新启动计算机。
您还需要一组序列和参数文件来运行该程序。请选择数组类型并下载文件。
下载这些文件后,您需要将它们解压缩,并在PerfectMatch程序中使用它们。
请注意,详细的文档也可以在程序本身中找到
菜单>帮助>帮助主题
该程序有六个选项卡:
在使用该程序之前,用户应首先将所有需要分析的微阵列数据(CEL文件)收集到一个目录中。除了微阵列数据,程序还需要额外的文件来运行。这些文件分别是探针序列文件、能量参数文件和基因注释文件http://odin.mdacc.tmc.edu/~zhangli/PerfectMatch。请选择特定数组类型,因为文件根据数组类型打包。
要使用程序,用户应该总是从正常化选项卡以规范化CEL文件。这是运行其他选项卡的先决条件。该程序使用分位数规范化过程,该过程仅在探测序列文件中使用具有指定探测序列的PM信号。用户必须为程序选择一个标准的CEL文件。这个标准文件可以是预先存在的CEL文件,也可以是程序通过对CEL文件目录中的所有CEL文件求平均值而创建的CEL文件。
然后,用户应继续优化所选标准CEL文件的能量参数。之后,用户可以选择使用估计表达标签或查看CEL标签。使用查看基因标签或者散点图Tab,前提条件是完成基因表达的估计。因为程序在注册表中保留了指定输入文件的副本,用户不需要重新输入输入信息。因此,如果表达式值是从一组CEL文件中获得的,用户可以选择使用查看基因每次不从标准化开始的制表符。
指定输入文件
点击cel文件目录(1)浏览器指定包含要处理的所有* .cel文件的目录。注意,程序希望目录中的所有CEL文件具有相同的数组类型。该目录下的所有CEL文件将显示在左侧面板的“CEL文件”(7)下。
点击探测Oligo序列文件浏览器(2)指定一个包含数组探测序列信息的文件。该文件可从Affymetrix网站下载中心获取。请确保获取表格格式的文件。你也可以从我们的网站上下载http://din.mdacc.tmc.edu/~zhangli/perfectmatch/
选择归一化法(3):单击其中2个单选按钮之一以选择归一化方法。该过程将仅使用具有指定探针序列的PM信号进行定量标准化。用户必须为程序选择一个标准的CEL文件。归一化过程将改变PM探针信号,以改变CEL中的相对等级。在归一化之后,调整后的PM探头信号强度分布与Stardard CEL文件的PM探针信号强度分布相同。此标准CEL文件可以通过在CEL文件目录中的所有CEL文件中进行平均来选择要由程序创建的预先存在的CEL文件或CEL文件。
在验证所有输入字段的值是否正确后,用户可以单击分位数正常化(5)按钮开始归一化。归一化后,视图分位数文件(6)将启用按钮。分位式文件记录了PM强度的分散。它报告每个CEL文件的2,25,25,50,75和95百分位的探针信号。不寻常的发行版在微阵列数据中提出了重大错误。
在执行过程中,状态栏显示进度。
优化参数选项卡用于使用PDNN模型优化特定CEL文件的探针绑定能量参数。建议用户使用此程序为分位数归一化所选择的标准CEL文件获取优化的能量参数。
指定输入文件
验证所有输入后单击开始优化开始优化。注意,优化过程可能需要几个小时才能收敛。但如果健身水平没有什么进展,用户可以选择提前终止(查看状态栏)。该程序每100个蒙特卡罗周期更新优化的文件。因此,提前终止程序不会丢失文件。
此选项卡旨在为存储在CEL文件目录中的多个样本指定输入文件和计算基因表达式值。
指定输入文件
指定输入文件后,用户可以单击“估计基因表达“按钮(8)。
将弹出消息框以让用户决定是否使用完整的探测器作为探针的一部分。单击“继续”以使用默认选择,使用完整的探测器。否则,检查使用部分probeset.并指定要使用的探测索引范围,然后单击继续。
底部的“状态栏”将显示计算进度。对于每个CEL文件,状态栏中将显示四个步骤:读取CEL文件,归一化数据,估计表达式和更新摘要输出文件。
完成完成后,状态栏将显示“计算完成”,用户可以单击“查看输出\”(7)或“查看日志\”(6)按钮以检查输出和日志文件。
输出文件的描述
程序生成的输出文件是一个制表符分隔的电子表格文件,每一行代表一个探针集(基因),每一列代表一个样本。它包含CEL文件目录中所有数组的表达式级别。表达式值用自然对数标度表示。基因注释与表达水平一起列出。除了这个电子表格文件外,程序还自动生成一个日志文件。PDNN.log“和答:* .pdn.每个关联的cel文件的文件。以下是示例* .pdn文件的分数:
File_ID | probeset. | lnN0 | lnn-c1.cel. | err_T | corr | p_size. | Crosspm. | avg_affynity. |
---|---|---|---|---|---|---|---|---|
C1.CEL. | 1007年_s_at | 12.3 | 12.288 | 0.701 | 0.9941 | 16 | 0.112 | 0.0043 |
C1.CEL. | 1053年_at | 12.5 | 12.454 | 0.83 | 0.9886. | 15 | 0.169 | 0.0014. |
C1.CEL. | 117_at. | 11.6 | 11.559 | 0.554 | 0.9943 | 14 | 0.245 | 0.0019. |
C1.CEL. | 121年_at | 11.3 | 11.342 | 0.307 | 0.9988 | 15 | 0.376 | 0.0054 |
C1.CEL. | 1255年_g_at | 11.5. | 11.48 | 0.806 | 0.9867 | 16 | 0.048 | 0.0017. |
C1.CEL. | 1294年_at | 11.3 | 11.314 | 0.453 | 0.9963 | 15 | 0.233 | 0.0028 |
C1.CEL. | 1316年_at | 11.9 | 11.866 | 0.574 | 0.9944 | 16 | 0.058 | 0.0033 |
请注意
这些列提供了评估探针性能的信息。请注意,用于基因表达分析的是第三列。File_ID是与这个。pdn文件关联的CEL文件;探针集是探针集(基因)的名称;LnN0为剔除异常值前的基因在自然对数尺度上的表达水平(此列可以忽略);LnN为自然对数尺度上的基因表达水平;err_T定义了模型与探测集观测数据的拟合优度;corr为观测lnPM信号与模型拟合lnPM信号之间的相关系数;P_size为模型拟合使用的探针数量;cross_PM是估计的非特异性结合信号与总探针信号的比值; avg_affynity is average gene specific binding affinity of the probes in a probeset.
PDNN.log文件记录质量控制的信息。下面是一个示例日志文件:
概括 | num基因 | Cross-hyb常量 | 背景 | 健康 | 不存在基因 | 缩放因子 |
---|---|---|---|---|---|---|
C1.CEL. | 22283 | 5114.7. | 192.671 | 1.303 | 0 | 1 |
请注意
“缩放因子”和“缺失基因”在当前版本中没有正确计算。请忽略这些值。
此选项卡旨在显示详细的探针电平数据以及型号拟合探头信号。用户需要检查是否探测Oligo序列文件和能量参数文件在"估计基因表达“ 标签。
要选择或改变要显示的基因,用户可以从左侧面板的基因列表(1)中选择一个探针集(基因)。所选探头的液位数据将在右面板中显示。更改样本时,从CEL文件下拉列表(2)中选择一个CEL文件,程序将在显示窗口中显示预测数据(使用PDNN)和观测数据。当勾选“隐藏MM信号”复选框(3)时,可以隐藏MM探头数据。
保存数据和图像
点击“保存图片(4)按钮将探头电平数据的图形图像保存为PNG格式的文件。文件名是通过连接CEL文件名和探测集名称自动生成的。图中显示的数字数据可以保存在一个以文本分隔的文件,当保存数据(5)按钮被点击。生成的文件名与图像文件相同,但带有“三种“ 后缀。点击“批量保存“(6)按钮可将CEL文件列表中的所有样本中的数值数据保存在同一探测器中。
链接到基因功能信息和Probeset设计的信息。
点击“链接到基因和探针SEQ信息“(7)按钮打开新的浏览器和直接用户到Affymetrix网站。Affymetrix网站提供了详细的探针设计信息以及基因的功能注释。用户需要在网站上注册以获取登录名和密码。PerfectMatch程序仅询问用户指定一次用户登录名和密码。
”细胞图像标签界面设计用于显示观察到的微阵列数据,并与模型拟合的探针信号进行比较。请注意,这个窗口中有四个字段:显示模式,放大比例,图像文件和一个演示窗口用于显示图形。
用户有两种模式可供选择:“显示LN(信号)“ 和 ”显示残渣ln(信号/安装)“。用户可以单击CEL文件名(3)以选择要查看的特定样本。图像可以缩放(2)。
有第一个选择,“显示LN(信号)“,图像将在日志刻度上显示探头信号。最大(实际上只有98百分位数)PM探针信号以红色显示,最小(实际只是2个百分位数)探头信号,为绿色,中位数为白色。通过插值示出了具有介入值的探针信号。请注意,忽略所有MM探头信号。
用第二个选择,“显示残渣ln(信号/安装),该图像将显示PM探头信号和模型拟合探头信号之间的对数比。下面展示了一个例子。类似地,探测信号98%用红色表示,50%用白色表示,2%用绿色表示。其他中间值用插值表示。另外还有两种颜色,黑色和蓝色,分别表示无效值和异常值。
残留情节
“散点图”标签用来自动生成散点图来比较多个样本中的基因表达值。该程序将为所有可能的比较生成图。用户须指定“基因表达输出文件”,点击“构建情节“要生成图表的按钮。
生成图表后,用户可以从左侧面板中显示的列表中选择一个,以查看图。绘图以PNG格式生成并存储在CEL文件目录中。非对角点以红色显示,其大致呈现出在基因表达中具有超过两倍变化的基因。
2.2版本发布。窗口框架的大小现在可以调整。一些bug修复。
请注意,本网站上的PDF文件与在自然生物技术杂志上发表的PDF文件略有不同,其中包含了图例的几个错误。