2020, 31(11):3640-3656.DOI: 10.13328/j.cnki.jos.005828
摘要:深度卷积神经网络使用像素级标注,在图像语义分割任务中取得了优异的分割性能.然而,获取像素级标注是一项耗时并且代价高的工作.为了解决这个问题,提出一种基于图像级标注的弱监督图像语义分割方法.该方法致力于使用图像级标注获取有效的伪像素标注来优化分割网络的参数.该方法分为3个步骤:(1)首先,基于分类与分割共享的网络结构,通过空间类别得分(图像二维空间上像素点的类别得分)对网络特征层求导,获取具有类别信息的注意力图;(2)采用逐次擦除法产生显著图,用于补充注意力图中缺失的对象位置信息;(3)融合注意力图与显著图来生成伪像素标注并训练分割网络.在PASCAL VOC 2012分割数据集上的一系列对比实验,证明了该方法的有效性及其优秀的分割性能.
2017, 28(10):2640-2653.DOI: 10.13328/j.cnki.jos.005137
摘要:高通量测序技术的发展,极大地推动了基因组结构变异识别的研究.当前,该领域主要使用覆盖度、读分割或片段组装方法来识别变异,但目前的方法识别结果不够准确,敏感度高,对基因组结构变异的信息(如变异序列、变异坐标等)挖掘不充分.插入和删除类型的结构变异统称为indels,在基因组结构变异中最为常见.为此,针对indels的精确识别,提出了基于读分割和动态规划的最优序列匹配算法(optimal split-read matching algorithm,简称OSRM).OSRM算法能将异常读片段以最少的空位打断比对到参考序列上.首先,建立异常读片段与特定参考序列的匹配得分矩阵;然后,建立回溯路径矩阵;最后,用以变异特点设计的得分公式对每条路径进行最优匹配筛选,输出精确识别的indels坐标及序列.实验结果显示,该方法对小中型的indels有很高的识别性能.此外,与读分割法的经典算法Pindel进行了比较,证实OSRM算法在小中型的indels识别方面有更好的效果,可识别更复杂的情况.
2017, 28(11):2851-2864.DOI: 10.13328/j.cnki.jos.005339
摘要:弱标记学习是多标记学习的一个重要分支,近几年已被广泛研究并被应用于多标记样本的缺失标记补全和预测等问题.然而,针对特征集合较大、更容易拥有多个语义标记和出现标记缺失的高维数据问题,现有弱标记学习方法普遍易受这类数据包含的噪声和冗余特征的干扰.为了对高维多标记数据进行准确的分类,提出了一种基于标记与特征依赖最大化的弱标记集成分类方法EnWL.EnWL首先在高维数据的特征空间多次利用近邻传播聚类方法,每次选择聚类中心构成具有代表性的特征子集,降低噪声和冗余特征的干扰;再在每个特征子集上训练一个基于标记与特征依赖最大化的半监督多标记分类器;最后,通过投票集成这些分类器实现多标记分类.在多种高维数据集上的实验结果表明,EnWL在多种评价度量上的预测性能均优于已有相关方法.
2017, 28(11):3094-3102.DOI: 10.13328/j.cnki.jos.005351
摘要:microRNAs(miRNAs)在生命进程中发挥着重要作用.近年来,预测miRNAs与疾病的关联关系成为一个研究热点.当前,计算方法整体上可以分为两大类:基于相似度度量的方法和基于机器学习的方法.前者通过度量网络中节点之间的关联强度预测miRNA-疾病关联,但需要构建高质量的生物网络模型;后者将机器学习相关算法应用到这个问题中,但需要构建高可信度的负例集合.基于以上困难和不足,提出了一种计算模型BNPDCMDA,用于预测miRNAs-疾病关联关系.该方法首先构建miRNA-疾病双层网络模型,然后利用miRNA的功能相似度对其进行基于密度的聚类,进而将二分网络投影应用于聚类后的miRNAs及疾病集合构成的miRNA-疾病双层子网中,最终完成对miRNA与疾病关联关系的预测.实验结果表明,采用留一交叉验证法得到的AUC值可达99.08%,明显优于当前其他高效方法.最后,采用BNPDCMDA方法对某些常见疾病所关联的miRNAs进行预测,实验结果获得了文献的支持,进一步表明了该方法的有效性.
2017, 28(12):3115-3128.DOI: 10.13328/j.cnki.jos.005237
摘要:研究加速K-medoids聚类算法,首先以PAM(partitioning around medoids)、TPAM(triangular inequalityelimination criteria PAM)算法为基础给出两个加速引理,并基于中心点之间距离不等式提出两个新加速定理.同时,以O(n+K2)额外内存空间开销辅助引理、定理的结合而提出加速SPAM(speed up PAM)聚类算法,使得K-medoids聚类算法复杂度由O(K(n-K)2)降低至O((n-K)2).在实际及人工模拟数据集上的实验结果表明:相对于PAM,TPAM,FKMEDOIDS(fast K-medoids)等参考算法均有改进,运行时间比PAM至少提升0.828倍.
2008, 19(3):663-673.
摘要:提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.
1998, 9(5):383-389.
摘要:图象处理中的抖动模式问题是彩色图象打印输出的一个关键问题.提出由评价函数驱动的模式抖动方式,并利用模拟退火算法加以实现,在此基础上,提出了几种影响抖动模式的评价函数.实验结果表明该方法优于Jarvis抖动处理.
:1-18.DOI: 10.13328/j.cnki.jos.007233
摘要:域适应(domain adaptation, DA)是一类训练集(源域)和测试集(目标域)数据分布不一致条件下的机器学习任务. 其核心在于如何克服数据域的分布差异对分类器泛化能力的负面影响, 即设计合理而有效的训练策略, 通过最小化数据域之间的差异, 获得高泛化能力的分类模型. 研究了源域中包含标注信息, 目标域中缺少标注信息条件下的无监督域适应(unsupervised domain adaptation, UDA)任务. 将其形式化为如何利用部分标注样本和其余未标注样本进行分类器训练的半监督学习问题, 进而引入伪标签(pseudo label, PL)和一致性正则化(consistent regularization, CR)这两种半监督学习技术, 对所观测数据域有目的进行标记和样本扩增, 使用扩增后的训练样本学习分类器, 从而, 在无监督域适应任务上取得了良好的泛化能力. 提出一种融合扩增技术的无监督域适应(augmentation-based unsupervised domain adaptation, A-UDA)方法, 在分类器的训练过程中: 首先, 使用随机数据增强技术(random augmentation)对目标域中的未标注样本进行扩增, 即样本扩增; 其次, 利用模型的预测输出结果, 对高置信度的未标注样本添加伪标记, 即标注扩增; 最后, 使用扩增后的数据集训练分类模型, 利用最大均值差异(maximum mean difference, MMD)计算源域和目标域的分布距离, 通过最小化该分布距离获得具有高泛化能力的分类器. 在MNIST-USPS, Office-Home和ImageCLEF-DA等多个无监督域适应任务上对所提出方法进行比较, 与现有其他工作相比, 获得了更好的分类效果.