生物资讯及计算生物学学系

首页>公共软件>脾脏eSQ.>数据加载

脾脏eSQ.

隐藏的行 对于表布局
概述
描述 用于研究下一代mRNA序列数据中替代mRNA剪接的工具
发展信息
语言 java.
当前版本 2.1
平台 平台独立
许可证 免费供学术和商业使用
地位 积极的
最后一次更新 2014年2月21日
参考文献
引用 Ryan, m.c., Cleland, J., Kim, R.G., Wong, W. C., Weinstein, J. N.,脾脏eSQ:用于替代剪接的RNA-SEQ数据的分析和可视化资源及其功能影响,生物信息学28.(18)第2385(2012)。https://doi.org/10.1093/bioinformatics/bts452
帮助和支持
联系 binf@insilico.us.com.

拼接中的数据加载DB

使用SPLICEMEQ分析器进行拼接SPRICESQ DB中的加载数据,该分析器由SpliceSQ查看器控制。以下是SPLICESQ DB上的数据加载概述:

SpliceSeq Analyzer将RNASeq样本读取对齐到我们预先构造的拼接图。剪接图确定了基因的已知外显子结构、剪接模式和编码区域。拼接图是使用一组来自公开的转录结构来源的替代转录序列和注释组装的。RefSeq, GenBank, UCSC Gene, Sanger Vega, ensemble bl和/或AceView模型都可以使用。目前,我们已经实现了最直观的结果使用ensemble转录本作为转录变体的来源。在UniProt中,集成转录本代表了广泛的剪接变异,并与蛋白质注释保持高度的对齐。

SpliceSeq Analyzer使用原始的未对齐读取将读取对齐到拼接图,因为包含基因组对齐读取的文件通常会排除关键的拼接连接对齐。SpliceSeq Analyzer支持FASTA或FASTQ格式的单个或成对读取。读取可以是标准的核酸序列读取或颜色空间读取。对于成对的读取,读取应该在两个单独的文件中(参见领结有关输入文件格式的更多详细信息的文档)。

自拼接符号的1.2版以来,数据加载过程仍然相同。要加载样本数据,您可以定义一个研究,并执行所有相关的分析,然后控制器进程执行所有数据加载和分析步骤。要加载数据,您必须拥有Bowtie和SpliceSQ DB的本地安装。有两种方法可用于加载本地数据。第一个是配置和运行来自SpliceMEQ查看器的拼接SPLICESQ分析器。这种方法很容易,但负载过程可能需要很长时间,具体取决于样品的数量,并且在负载处理时无法关闭负载的计算机无法关闭。第二种方法是从服务器计算机上的命令行运行acciCESQ分析器。这章概述了这两种方法。

数据加载的配置

每个分析步骤由控制器程序执行,该控制程序作为单独的Java进程运行。SPLICEMEQ查看器配置面板或STORALYZERPRAGIONS.PROPERTIES文件中的SAGRALYZERPROGROMS选项卡可用于调整提供给这些程序的堆空间。默认情况下,这些都设置为使用2 GB内存。该值可以增加或减少以适合本地环境,但如果减少了堆错误。

通过SPLICEMEQ查看器加载数据

研究定义列表和研究定义生成器使用拼接查看器GUI导入样本,请从SpliceMEQ查看器菜单栏中的数据标题中选择Load Scount数据选项。注意:如果SpliceSQ查看器配置面板的DB选项卡上的DBUSER在SPLICESEQ DB上没有完全权限,则此菜单选项将被灰白色熄灭。

这个选项将提出研究定义列表用于创建研究定义的面板和运行拼接分析仪进行研究分析。如果列表中已经有研究定义文件,可以通过单击它们来运行,然后按跑步(加载将开始它在停止或之前有错误)或清洁和运行(加载将清除现有数据,完成每个分析步骤的完整运行)。点击研究定义文件编辑按钮将使您能够编辑研究定义。选择新的按钮来设置第一项学习。

选择新的或者编辑会提起研究定义建设者面板有助于创建或修改研究定义。

本面板指导您通过定义研究的过程。命令按钮参数面板用于在交互方式编写研究定义行(研究定义文件中的每个命令行)。命令按钮在它们有效之前将被灰色(例如,除非定义样品,否则无法比较样本)。参数面板定义所选命令的参数命令按钮到编辑按钮将添加与a的研究定义线命令按钮参数面板研究定义编辑器

学习名称

每项研究必须具有唯一的名称。创建研究定义文件的第一步是命名该研究。选择研究按钮,键入学习名称参数面板和命中率到编辑按钮.将添加定义研究名称的研究定义行研究定义编辑器.然后启用注释样本按钮。

定义样品

下一步是添加您希望包含在研究中的样本。这个步骤将指示SpliceSeq Analyzer将从FASTQ或FASTA文件的示例读取对齐到SpliceSeq拼接图。选择样本按钮,填写参数并击中到编辑按钮将样本添加到研究定义中。参数对样本命令行是:

物种-样本的生物体。

样本名称- 此示例的唯一名称。

读取长度-长度的RNASeq读取用于优化对齐拼接图形。对于读取长度不同的样本,输入最大读取长度(读取长度而不是插入长度)。

颜色空间- 如果样本是颜色空间,则读n如果不是。

读取文件- FASTA或FASTQ文件,RNA序列读取

[可选] - 配对文件—如果样本是成对读取,每对的第二次读取应该在一个单独的文件中。这是配对读取文件的名称,如果sample没有配对结束,则不提供。

注释样本

这是一个可选的步骤,但可以更好地理解研究中的样本并可用于组分类。当使用大量的RNASEQ样品时,可以将样品分组并比较组的聚合拼接图案(例如,将10个正常肺部比较至10个癌症肺样本。为了支持各种样本分组,拼接SPRICESQ分析仪存储稍后可以用于创建组的每个样本的属性。

样本注释从ARFF格式的文件加载。ARFF格式是一种自描述文件格式,可灵活支持各种类型的属性。看飞机救援消防规范关于格式的详细信息。SpliceSeq Analyzer目前支持的是Regular ARFF格式,而不是Spars格式。我们要求第一个属性是一个具有示例名称的字符串属性(与给定给样本上面的命令行)。不匹配加载示例名称的ARFF文件中的条目将被丢弃。

这是一个示例ARFF文件:

@relation tccacoad @Attribute样本字符串@Attribute年龄数字@Attribute性别{男,女性} @Data TCGA-AA-A004,81,男性TCGA-AA-A00D,70,男性TCGA-AA-A00O,83,女TCGA-AA-A00R,64,女性

要注释样本,请选择注释按钮,并确定要使用的飞机救援消防文件。

比较样本

如果您想获得两个个体样本之间的差异拼接分析(例如,来自同一患者的肿瘤与正常样本),请选择比较样本按钮,确定要比较的两个样本,然后到编辑按钮.你必须先添加样本命令行在添加之前定义样本比较样本线。

定义团体

如果您想查看聚合的拼接模式或执行对样本组的差异拼接分析,则必须创建示例组。选择团体按钮,命名组,选择将包含在组中的示例,然后命中到编辑按钮.样品可以用两种方法中的一种来分组。首先,您可以手动选择样本样本选择框.使用Shift左键单击以选择多个样本。或者,您可以通过使用示例属性的选择标准指定组。用属性标准下拉列表以构建选择标准。如果需要多个属性(例如性别=男性和年龄> 50)来定义一个组,请使用“+”按钮添加更多标准。

比较群体

要定义用于比较两组样本的命令行,请按比较群体按下按钮,选择两组中参数面板,然后点击到编辑按钮

研究定义编辑器

熟悉研究定义命令行的语法后,您可以直接编辑它们研究定义编辑器.可以通过用鼠标拖动它们并使用Ctrl-C(用于副本)来复制部分,然后使用Ctrl-V(用于粘贴)。可以通过在编辑器中的任何位置进行编辑或添加线路。编辑器执行实时语法检查。命令行将变为红色,并将显示一条消息错误消息框如果命令行包含语法错误。之前必须纠正所有错误保存并关闭按钮已启用。

跑步研究定义文件

写入研究定义完成后,单击保存并关闭按钮。这将返回您研究定义列表面板,现在新的研究定义文件将在左边的选择框中列出。现在可以通过从列表中选择研究定义文件并单击加载和分析研究数据跑步或者清洁和运行按钮。跑步如果已停止,将恢复研究定义文件的数据加载过程。清洁和运行将从开头启动数据加载过程。两个都跑步清洁和运行SpliceSeq Analyzer将作为一个单独的Java进程启动,SpliceSeq Analyzer将执行数据加载和分析。分析运行时的状态更新可以在右侧的选项卡中看到研究定义列表.对齐读数可能需要几个小时,具体取决于读取文件的样本数和大小。拼接符号查看器可以关闭,而SpliceSQ Analyzer在后台运行,但是不得关闭分析运行的计算机。可以通过重新启动SpliceSQ查看器并进行分析的状态研究定义列表并单击研究定义文件进行分析。

如果在分析期间发生任何错误,则研究的状态研究定义列表将会改变失败的统计日志, 或者SYS.选项卡将包含错误消息。如果作业通过选择学习和单击,则可以重新启动处理。跑步按钮。先前成功完成的步骤将不会被重新加工。如果您希望从数据库中清除所有研究数据并从头开始重新加工,请选择“清洁”和“运行”按钮。

在成功加载一个研究之后,它的状态将是Complete。如果您稍后决定希望对样本进行额外的分析(例如,添加新组和进行组比较),您可以通过选择并单击来编辑研究定义编辑按钮。然后可以将定义行添加到研究中。保存更改后,选择研究,然后再次单击跑步按钮。先前成功完成的步骤将不会重新运行,但新步骤将运行,并且在完成时状态将完成。

指令行数据加载通过拼接分析仪

不是从拼接查看器运行数据分析,而不是运行在服务器计算机上运行分析。这可以通过从命令行运行SpliceSQ分析器来完成。使用相同的拼接分析仪进程运行命令行分析,该过程使用研究定义文件来指定数据和分析步骤。获取研究定义文件的一种方法是使用上面概述的GUI来创建文件。点击后保存并关闭,研究定义文件将保存在安装SpliceSeq Viewer的目录中。文件名将与学习名+ " .def "相同。

或者,如果您熟悉研究定义文件的语法,则可以使用文本编辑器直接创建文件。这是一个示例研究定义文件:

H_sapiens Samp1 76 N C:\SpliceTool\test\save\reads_1。fa SAMPLE H_sapiens Samp2 76 N C:\SpliceTool\test\save\reads_2。fa SAMPLE H_sapiens Samp3 76 N C:\SpliceTool\test\save\reads_3。fa SAMPLE H_sapiens Samp4 76 N C:\SpliceTool\test\save\reads_4。fa注释C: \ SpliceTool \ \保存\试验。arff COMPARE Samp1 Samp3 COMPARE Samp2 Samp4 GROUP Cancer disease='Cancer' GROUP Normal disease='Normal' COMPARE_GROUPS Normal Cancer

要运行分析,必须在服务器上安装SpliceSeq Analyzer的本地副本(参见本地安装)。运行SpliceSeq Analyzer的命令是:

$ java -cp  /spliceSqanalyze.jar splicetool.Analyze.AnalysisController [重新加载]

命令行参数如下:

- 安装拼接分析器的目录。这需要在类路径中,以便分析器进程可以找到其属性文件。

[重新加载]- 可选的。如果您希望清除以前的研究数据,请添加“重新加载”,并为所有分析进行清除,并从头开始进行。这与单击一样清洁和运行研究定义列表控制板。

当控制器运行时,它将将每个步骤的高级状态写入调用的文件 .def.stat并将写入详细状态 .def.log。在控制器完成后,请选中.stat文件以确保所有步骤都成功。加载后,只需指向加载的拼接符号DB即可调查结果。请记住选择您感兴趣的视图:样本样本比较团体, 或者团体

比较。

如果在作业步骤中获取课程未找到错误,则可能需要在SargeNalezerPrograms.properties文件中完全限定Java可执行行上的类路径项目,以指向SpliceSeq Install目录。例如:

InsertStudy = java -cp /home/mike/bin:/home/mike/bin/SpliceSeqAnalyze.jar

性能

通过增加Bowtie运行的并发线程数可以提高数据负载性能。在拼接者中,打开配置面板(帮助-配置面板…)然后单击新兴策策选项卡。向BowtieParms添加-p选项。通常,这里的最大值是运行分析的机器上的CPU内核数。如果您正在命令行上运行分析,您可以只编辑SGAnalyzer。在SpliceSeq Analyzer的本地安装中直接添加这个值。