Wenlong Shen's Blog

不宠无惊过一生

Circos基础（2）

图形配置

本章主要对circos环图中最基本的元素进行设置，包括karyotype、ideogram、ticks等模块。 Karyotype Karyotype的信息就如同坐标轴一般，其大小、顺序、位置等直接决定了后续数据的展示。这里我们新建一个karyotype.conf文件用来设置karyoty...

Posted by Wenlong Shen on March 22, 2017

Circos基础（1）

Hello World

由Martin Krzywinski等人开发的Circos，一出现便引起轰动，它打破了常规基因组学数据可视化的思路，通过对差异化交互数据的多维度展示，可以从不同层次全方位描述组学信息，让组学数据展示变成了艺术品。由于其实用性、美观性，Circos如今也广泛应用于社交网络、交通运输等领域。下...

Posted by Wenlong Shen on March 19, 2017

Multiple Testing Correction

多重检验校正

这么多年了，被p值折磨得死去活来… 检验，多重检验组学研究，实际把生命科学带入了大数据时代，对统计学的要求越来越高。面对一个又一个的样本，一个接一个的实验，万一科学假设太离谱，或者手抖做的糙，怎么能知道数据结果是不是碰巧成功的？为此，p值频频出现在各种组学数据分析中，RNA-seq、...

Posted by Wenlong Shen on March 12, 2017

Single Nucleotide Polymorphisms

单核苷酸多态性

一样又不一样，不一样的也不一样，人与人之间因微妙的DNA差异而变得不同… 变异 DNA是生命的设计书，几乎所有表型的基础都隐藏在DNA中。也许有人会提出表观遗传等观点，但我还是认为甲基化、组蛋白修饰等等都是依据local DNA的特性特点而决定的，或者具有一定的相关性。人与人之间存在的...

Posted by Wenlong Shen on March 5, 2017

Expectation Maximization Algorithm

最大期望算法

掐指一算，概率最大的模型最有可能出现… 最大似然建立模型，求得其中各个参数、分布，是对生物学问题的数学解决之道。然而如何做参数估计？“最大似然（maximum likelihood）”给出了这样一种理论，即从模型总体随机抽取n组样本观测值后，最合理的参数估计应该使得从模型中抽取该n组...

Posted by Wenlong Shen on February 26, 2017

Principal Component Analysis

主成分分析

抽丝剥茧，去粗取精… 要降维，不要降信息量测序技术带来了基因组数据爆炸式的增长，每个样本会观测到N个指标，带来N维矩阵，庞大的信息量往往让生物学家无所适从。科学探索追求一个最简单的准则：所见即所得。如何将N维数据更好地呈现出来，是生物信息学家迫切需要做到的。于是乎，“降维”几乎成了数...

Posted by Wenlong Shen on February 19, 2017

Support Vector Machine

支持向量机

给我几个支持向量，我可以支撑起整个超平面… 二分类是与否，有跟无，调控非调控，变异非变异，乃至得病与否的判断，二分类是最直观的生物学问题。我们往往希望在基因检测之后，判断患者的病症、肿瘤类型，就好像在茫茫数据点中，用洪荒之力分出一个平面，这边是癌症，那边是健康。 Support V...

Posted by Wenlong Shen on February 12, 2017