gct考试很容易 gct考试是什么考试( 九 )

文章插图

接下来是富集分析的图示，该图示分为三部分，在图中已做标记：

第一部分是Enrichment score折线图：显示了当分析沿着排名列表按排序计算时，ES值在计算到每个位置时的展示。最高峰处的得分 (垂直距离0.0最远)便是基因集的ES值。
第二部分，用线条标记了基因集合中成员出现在基因排序列表中的位置，黑线代表排序基因表中的基因存在于当前分析的功能注释基因集。leading edge subset 就是（0,0）到绿色曲线峰值ES出现对应的这部分基因。
第三部分是排序后所有基因rank值得分布，热图红色部分对应的基因在NGT中高表达，蓝色部分对应的基因在DMT中高表达，每个基因对应的信噪比（Signal2noise，前面选择的排序值计算方式）以灰色面积图显展示。

在上图中，我们一般关注ES值，峰出现在排序基因集的前端还是后端（ES值大于0在前端，小于0在后端）以及Leading edge subset（即对富集贡献最大的部分，领头亚集）；在ES图中出现领头亚集的形状，表明这个功能基因集在某处理条件下具有更显著的生物学意义；对于分析结果中，我们一般认为|NES|>1，NOM p-val<0.05，FDR q-val<0.25的通路是显著富集的。

文章插图

最后还有一个该GO基因集下每个基因的详细统计信息表，RANK IN GENE LIST表示在排序好的基因集中所处的位置；RANK METRIC SCORE是基因排序评分，我们这里是Signal2noise；RUNNING ES是分析过程中动态的ES值；CORE ENRICHMENT是对ES值有主要贡献的基因，即Leading edge subset，在表中以绿色标记。
2. Dataset details
芯片原始数据和去重后的数据；如果分析的时候没有用到芯片数据或没涉及到名字转换则前后基因数目一样。

文章插图

3. Gene set details
我们分析提供的gmt文件中有多个GO条目，每个GO条目里又有多个基因；GSEA分析软件会在每个GO条目中搜索表达数据集gct文件中的基因，并判断有多少个在GO条目中；若经过筛选后保留在GO条目中的基因在15-500（闭区间）时该GO条目才被保留下来进行后续的分析。

文章插图

此结果显示我们从5917个GO条目中淘汰了了1964个GO，剩下3953个GO条目用作后续分析。
点击gene sets used and their sizes可以下载详细Excel表。
Excel第一列是GO名称，第二列是GO条目中包含的基因数目，第三列是筛选后每个GO中还有多少基因属于表达数据集文件中的基因，不满足参数（15-500）的条目被抛弃，显示为Rejected不纳入后续分析。
备注：此处的筛选范围15-500是可调参数，在软件的参数basic fields处的Max size和Min size处更改。

文章插图

4. Gene markers for the NGT versus DMT comparison
这部分展示的是我们提供的表达数据集文件中的基因在两个组别中的表达情况。
输入的文件中总共有15056个基因，其中有7993个基因在正常人（NGT）中表达更高，占总基因数的53.1%；有7063个基因在糖尿病患者（DMT）中表达更高，占总基因数的46.9% 。后面一个面积百分比，稍后看图的时候再做解释。

文章插图

点击rank ordered gene list可以下载一个排序好的基因集Excel表，排序原则是根据Basic fields参数设置处的Metric for ranking genes决定的。我们选的是信噪比（signal2noise），显示在表格中的最后一列。根据NGT_vs_DMT评分得到一个降序排列的基因集，之后便可以做基因的富集分析了。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。