PUseqClust:一种RNA-seq数据聚类分析方法
作者:
作者单位:

作者简介:

石险峰(1992-),男,安徽安庆人,硕士,主要研究领域为生物信息学;张礼(1985-),男,博士,讲师,CCF专业会员,主要研究领域为机器学习,生物信息学;刘学军(1976-),女,博士,教授,博士生导师,CCF专业会员,主要研究领域为机器学习,生物信息学.

通讯作者:

刘学军,E-mail:xuejun.liu@nuaa.edu.cn

中图分类号:

TP311

基金项目:

国家自然科学基金(61170152);航空基金(20151452021)


PUseqClust: A Clustering Analysis Method for RNA-Seq Data
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (61170152); Aeronautical Science Foundation of China (20151452021)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    基因的聚类分析是基因表达数据分析研究的重要技术,它按照表达谱相近原则将基因表达数据归类,探究未知的基因功能.近年来,RNA-seq技术广泛应用于测量基因表达水平,产生了大量的读段数据,为基因表达聚类分析提供了充分条件.由于读段非均匀分布的特性,对读段计数一般采用负二项分布进行建模.现有的负二项分布算法和传统的聚类算法对于聚类分析都是直接对读段计数进行建模,没有充分考虑实验本身存在的各种噪声,以及基因表达水平测量的不确定性,或者对聚类中心的不确定性考虑不够.基于PGSeq模型,模拟读段的随机产生过程,采用拉普拉斯方法考虑多条件多重复基因表达水平之间的相关性,获得了基因表达水平的不确定性,联合混合t分布聚类模型,提出PUseqClust (propagating uncertainty into RNA-seq clustering)框架进行RNA-seq读段数据的聚类分析.实验结果表明,该方法相比其他方法获得了更具生物意义的聚类结果.

    Abstract:

    Clustering analysis is an important technique for gene expression data analysis. It groups the data according to similar gene expression patterns to explore the unknown gene functions. In recent years, RNA-seq technology has been widely adopted to measure gene expression. It produces a large number of read data, which provide possibilities for clustering analysis of gene expression. In this area, read counts are popularly modeled by the negative binomial distribution to reduce the impact of the non-uniform read distribution, while most existing clustering methods process directly read counts. They donot fully consider the various noise existing in the data, and the uncertainty of gene expression measurements. Some methods also ignore the variability of clustering centers. This study proposes PUseqClust (propagating uncertainty into RNA-Seq clustering) framework for clustering of RNA-seq data. This framework first uses PGSeq to model the stochastic process of read generation. Laplace method is next used to consider correlation between expressions under various conditions and replicates to obtain the uncertainty of expression estimation. Finally, the method adopts the student's t mixture model to perform gene expression clustering. Results show that the proposed methods obtained more biologically relevant clustering results.

    参考文献
    相似文献
    引证文献
引用本文

石险峰,刘学军,张礼. PUseqClust:一种RNA-seq数据聚类分析方法.软件学报,2019,30(9):2857-2868

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-01-03
  • 最后修改日期:2017-09-17
  • 录用日期:
  • 在线发布日期: 2019-09-06
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号