主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第10期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
颜深根,张云泉,龙国平,李焱.基于OpenCL 的归约算法优化.软件学报,2011,22(zk2):163-171
基于OpenCL 的归约算法优化
Reduction Algorithm Optimization Based on the OpenCL
投稿时间:2011-07-15  修订日期:2011-12-02
DOI:
中文关键词:  GPU  并行归约  OpenCL  CUDA
英文关键词:GPU  parallel reduction  OpenCL  CUDA
基金项目:国家自然科学基金(60303020, 60533020); 国家高技术研究发展计划(863) (2006AA01A102); ISCAS-AMD 联合fusion 软件中心资助项目
作者单位E-mail
颜深根 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190
中国科学院 软件研究所 计算机科学国家重点实验室,北京 100190
中国科学院 研究生院,北京 100190 
yanshengen@gmail.com 
张云泉 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190
中国科学院 软件研究所 计算机科学国家重点实验室,北京 100190 
 
龙国平 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190  
李焱 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190
中国科学院 软件研究所 计算机科学国家重点实验室,北京 100190
中国科学院 研究生院,北京 100190 
 
摘要点击次数: 2120
全文下载次数: 3975
中文摘要:
      归约算法在科学计算和图像等领域有着广泛应用,系统研究了在OpenCL 框架下,归约算法在GPU 上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,基于OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax 函数为例,对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU 和NVIDIA GPU 平台分别测试的结果表明,优化后的算法在两个平台上都能实现很好的性能加速.在AMD ATI Radeon HD 5850 平台上,Int 和Float 类型数据带宽利用最高达到了实测带宽的89%.在NVIDIA GPU Tesla C2050 平台上,性能也达到了CUDA 版本的相应函数性能的1.3~1.9 倍.
英文摘要:
      Reduction algorithm has a wide range of applications in areas such as scientific computing and image processing. This paper systematically studies the reduction algorithm optimization on the GPU’s cross-platform performance optimization based on the OpenCL framework. Previous research has generally focused on a single hardware architecture, however, this paper based on the OpenCL, studies various kinds of optimization methods, such as using vector, on-chip memory bank conflict, threads organization, instruction selection and so on. The research takes the minMax function for example, dilatationed each optimization method for develep the performance, and detailed the reason. The study tests the algorithm both on AMD GPU and NVIDIA GPU platforms. The test results show that the optimized algorithm on both platforms has achieved good performance. In the AMD ATI Radeon HD 5850 platform, Int and Float types of data bandwidth utilization up to 89%. In the NVIDIA GPU Tesla C2050 platform, the performance has reached 1.3 to 1.9 times compare to appropriate function version of CUDA.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利