Wenlong Shen's Blog

不宠无惊过一生

Circos基础(1)

Hello World

由Martin Krzywinski等人开发的Circos,一出现便引起轰动,它打破了常规基因组学数据可视化的思路,通过对差异化交互数据的多维度展示,可以从不同层次全方位描述组学信息,让组学数据展示变成了艺术品。由于其实用性、美观性,Circos如今也广泛应用于社交网络、交通运输等领域。 下...

Multiple Testing Correction

多重检验校正

这么多年了,被p值折磨得死去活来… 检验,多重检验 组学研究,实际把生命科学带入了大数据时代,对统计学的要求越来越高。面对一个又一个的样本,一个接一个的实验,万一科学假设太离谱,或者手抖做的糙,怎么能知道数据结果是不是碰巧成功的?为此,p值频频出现在各种组学数据分析中,RNA-seq、...

Single Nucleotide Polymorphisms

单核苷酸多态性

一样又不一样,不一样的也不一样,人与人之间因微妙的DNA差异而变得不同… 变异 DNA是生命的设计书,几乎所有表型的基础都隐藏在DNA中。也许有人会提出表观遗传等观点,但我还是认为甲基化、组蛋白修饰等等都是依据local DNA的特性特点而决定的,或者具有一定的相关性。人与人之间存在的...

Expectation Maximization Algorithm

最大期望算法

掐指一算,概率最大的模型最有可能出现… 最大似然 建立模型,求得其中各个参数、分布,是对生物学问题的数学解决之道。然而如何做参数估计?“最大似然(maximum likelihood)”给出了这样一种理论,即从模型总体随机抽取n组样本观测值后,最合理的参数估计应该使得从模型中抽取该n组...

Principal Component Analysis

主成分分析

抽丝剥茧,去粗取精… 要降维,不要降信息量 测序技术带来了基因组数据爆炸式的增长,每个样本会观测到N个指标,带来N维矩阵,庞大的信息量往往让生物学家无所适从。科学探索追求一个最简单的准则:所见即所得。如何将N维数据更好地呈现出来,是生物信息学家迫切需要做到的。于是乎,“降维”几乎成了数...

Support Vector Machine

支持向量机

给我几个支持向量,我可以支撑起整个超平面… 二分类 是与否,有跟无,调控非调控,变异非变异,乃至得病与否的判断,二分类是最直观的生物学问题。我们往往希望在基因检测之后,判断患者的病症、肿瘤类型,就好像在茫茫数据点中,用洪荒之力分出一个平面,这边是癌症,那边是健康。 Support V...

DNA Sequence Motifs

DNA序列模体

漫天繁星,你却只寻找那偏爱的motif… 一致性序列 如果基因组DNA是生命的设计图,那转录因子(再加上核酸酶等)就像小黄人一样,将各个重要部件解构出来。然而转录因子数量众多、功能不同,他们如何知道自己应该结合于基因组的位置,这就得依靠DNA序列motif来标识。下图即是CTCF的结合...