DNA序列数据挖掘技术
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

Supported by the National Natural Science Foundation of China under Grant No.60573093 (国家自然科学基金); the National High-Tech Research and Development Plan of China under Grant No.2006AA02Z329 (国家高技术研究发展计划(863))


DNA Sequence Data Mining Technique
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.

    Abstract:

    DNA sequence is one of the basic and important data among biological data.Researching DNA sequence data and then comprehending life essential is a necessary task in post-genomie era.At present,data mining technique is one of the most efficient data analysis means,which finds out information hidden in data.It has also become main data analysis technique adopted in Bioinformatics.It has been applied in DNA sequence analysis, which has got wide attention and rapid development.And considerable research achievements have emerged. Provides an overview of research progress in DNA sequence data mining field.In more detail,it proposes three research phases including statistics-based data mining methods application,general data mining methods application,and specialized DNA sequence-oriented data mining methods design,and then elaborates that sequence similarity is foundation of DNA sequence data mining technique.It also analyzes and comments some key techniques in this field by combining with biological background,such as DNA sequential pattern,association, clustering,classification and outlier mining.Finally,future work and open issues are given,including the research of a novel storage model and index methods,the design of data mining algorithm based on biological domain knowledge.

    参考文献
    相似文献
    引证文献
引用本文

朱扬勇,熊赟. DNA序列数据挖掘技术.软件学报,2007,18(11):2766-2781

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2007-01-23
  • 最后修改日期:2007-04-25
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号