2011, 22(8):1699-1713. DOI: 10.3724/SP.J.1001.2011.04053 CSTR:
摘要:马尔可夫逻辑网络是将马尔可夫网络与一阶逻辑相结合的一种统计关系学习模型,在自然语言处理、复杂网络、信息抽取等领域都有重要的应用前景.较为全面、深入地总结了马尔可夫逻辑网络的理论模型、推理、权重和结构学习,最后指出了马尔可夫逻辑网络未来的主要研究方向.
2011, 22(8):1714-1724. DOI: 10.3724/SP.J.1001.2011.03873 CSTR:
摘要:锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.
2011, 22(8):1725-1737. DOI: 10.3724/SP.J.1001.2011.03885 CSTR:
摘要:研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL 相关特征的基础上,进一步提出了名词性谓词SRL 相关的特征集.此外,探索了中文动词性谓词SRL 对中文名词性谓词SRL 的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank 上的实验结果表明,中文动词性谓词的SRL 合理使用能够大幅度提高中文名词性谓词的SRL 性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL 性能F1 值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1 值为55.14.
2011, 22(8):1738-1748. DOI: 10.3724/SP.J.1001.2011.03830 CSTR:
摘要:提出了一种基于动态小生境的自组织学习算法(dynamic niche-based self-organizing learning algorithm,简称DNSLA),实现了基于0-1 编码的动态学习机制.种群中的个体由被动适应转为主动学习,即通过系统的自组织学习而实现与环境的友好交互,因而具有更强健的动态环境适应能力,能够及时、准确地侦测到环境的变化并跟踪极值点在搜索空间内的运动轨迹,具有良好的可移植性和很强的泛化能力.一系列动态测试问题的对比仿真实验结果表明,该算法即使在剧烈动荡的环境中也能很好地与环境进行稳定而友好的交互学习,表现出了很强的鲁棒性,其动态搜索能力和极值点跟踪能力远优于同类搜索方法.
2011, 22(8):1749-1760. DOI: 10.3724/SP.J.1001.2011.04000 CSTR:
摘要:为了提高挖掘结果的准确性,提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法(learning and synchronized privacy preserving frequent pattern mining,简称LS-PPFM).该方法充分利用不需要隐私保护的个体数据,首先对不需要保护的数据学习,得到样例数据中蕴涵的强关联项,然后在对数据随机化时,将强关联项绑定在一起作同步随机化变换,以保持项与项之间的潜在关联性.实验结果表明,相对于项独立随机化,LS-PPFM 能够在略微牺牲一定的隐私保护性的情况下,显著提高频繁模式挖掘结果的准确性.
杨宁 , 唐常杰 , 王悦 , 陈瑜 , 郑皎凌 , 李红军
2011, 22(8):1761-1770. DOI: 10.3724/SP.J.1001.2011.03893 CSTR:
摘要:把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov 复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov 复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov 复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性.
2011, 22(8):1771-1784. DOI: 10.3724/SP.J.1001.2011.03852 CSTR:
摘要:搜索引擎用户经常提交意图模糊的查询,从而导致搜索失败.为此,提出一种检索交互方式——智能查询推荐,它可以自动辨别查询是否语义明确,并对模糊查询建立体现其不同语义概念的分类目录,这个目录将帮助用户快速定位到合适查询.为了实现智能查询推荐,提出了一种基于自然语言小世界性质的查询语义识别算法——TECH(term concept hunting).TECH 综合利用了物理学领域社区发现知识和计算机领域信息检索技术,给出了一种可扩展的算法框架.实验结果表明,与传统查询推荐方式相比,用户更喜欢智能查询推荐;TECH 能够有效地辨识模糊查询的不同语义概念,并统计显著优于3 个知名的对比系统.
2011, 22(8):1785-1804. DOI: 10.3724/SP.J.1001.2011.03857 CSTR:
摘要:提出了一种通用的高质量主题发现框架.在该框架下,利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题.提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性.在腾讯论坛数据集上进行了大量的实验.实验结果表明,该框架能够很好地发现高质量主题.提出的特征抽取算法、特征选择算法以及高质量主题发现框架能够在很多Web2.0 领域得到应用,例如,博客、社会网络平台等.
2011, 22(8):1805-1815. DOI: 10.3724/SP.J.1001.2011.03904 CSTR:
摘要:针对移动对象的多用户连续K 近邻查询处理问题,结合多核多线程技术的发展,提出了一种基于多线程的两阶段多用户连续K 近邻查询处理框架.将查询处理分为查询预处理阶段和查询执行阶段,分别执行数据更新任务和查询处理任务.每个阶段都设计了优化cache 访问命中率,并利用多线程技术提高多用户连续查询处理并行性的方法及数据结构.提出了一种查询执行阶段的查询分组技术,利用查询之间的相关性提高了算法执行时内存访问的时间局部性.基于查询处理框架和移动对象内存格网索引结构提出了K 近邻查询处理算法.充分的实验结果表明,采用了多线程和cache 优化技术的连续查询处理框架与其他算法相比,在性能上具有较大优势,并且在不同核心数目的CPU 平台下具有较好的性能扩展性.
2011, 22(8):1816-1826. DOI: 10.3724/SP.J.1001.2011.03890 CSTR:
摘要:在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了“表达差异”问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS 具有很好的抵抗噪声的能力,在大规模实验中获得了准确率>90%和召回率>85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果.
2011, 22(8):1827-1837. DOI: 10.3724/SP.J.1001.2011.03848 CSTR:
摘要:提出了一种有效的基于仿射传播聚类算法和后处理方法的蛋白质序列聚类方法.在聚类分析蛋白质序列时,为了优化仿射传播聚类算法的聚类结果,采用后处理的方式来提高聚类结果的质量.为了度量蛋白质序列之间的相似度,给出了一种改进的无比对计算方法.在6 个蛋白质序列数据集上进行对比实验,实验结果表明,所给出的方法能够有效地分析蛋白质序列.
2011, 22(8):1838-1854. DOI: 10.3724/SP.J.1001.2011.04034 CSTR:
摘要:分析了基于有穷状态自动机的正则表达式匹配方法的时间复杂度、空间复杂度以及二者之间的制约关系,深入讨论了在网络安全应用中遇到的特有问题与挑战.围绕这两个问题,对当前出现的多种优化技术和策略进行了全面的综述和评价,最后对未来的研究方向进行了总结和展望.
2011, 22(8):1855-1871. DOI: 10.3724/SP.J.1001.2011.03894 CSTR:
摘要:基于网络效用最大化的思想研究了网络跨层映射,给出了应用层的服务映射到传输层的多个连接再映射到网络层的多条路径的多对多映射的数学模型,指出了映射的目标就是合理地为源端用户分配路径传输能力,从而使用户的聚合效用达到最优.针对该映射模型,为了得到各个用户的最优带宽分配,提出了一种分布式算法.该算法是渐进稳定的,且平衡点就是映射模型的最优点.仿真结果验证了算法的收敛性.另外,理论分析了映射机制的安全性和可靠性,分别给出了当网络中存在侦听和分布式攻击时,服务能够成功完成的概率.仿真结果表明,多对多映射确实提高了数据传输的安全性和可靠性.
2011, 22(8):1872-1883. DOI: 10.3724/SP.J.1001.2011.03868 CSTR:
摘要:针对敏感空间地理矢量数据形状不规则、跨多级敏感区域分布的特点,对传统的强制访问控制模型进行空间扩展,提出了一种细粒度的空间矢量数据强制查询访问控制模型SV_MAC(spatial vector data mandatory access control model).并进一步将空间数据查询与安全策略检索相结合,提出了一种AR+树(access R+树)索引结构,以在空间矢量数据查询过程中高效地实现SV_MAC授权判定.实验结果表明,AR+树在为空间矢量数据的检索提供不可绕过的细粒度安全防护的同时,保障了前台响应速率和用户体验.
2011, 22(8):1884-1896. DOI: 10.3724/SP.J.1001.2011.03822 CSTR:
摘要:通过设计一种数字指纹的线性无关特征码,提出基于协同学的残留特征跟踪的抗合谋数字指纹,将协同学应用于数字指纹的合谋跟踪,建立了一套基于残留特征跟踪的抗合谋数字指纹方案.实验结果及分析表明,该方案能够在大幅度提高数字指纹的编码效率和跟踪效率的同时,基本上保证数字指纹的鲁棒性和抗合谋性.
2011, 22(8):1897-1910. DOI: 10.3724/SP.J.1001.2011.03960 CSTR:
摘要:近年来,基于机器学习算法的分布式拒绝服务(distributed denial-of-service,简称DDoS)攻击检测技术已取得了很大的进展,但仍存在一些不足:(1) 不能充分利用蕴涵于标记和特征观测序列中的上下文信息;(2) 对多特征的概率分布存在过强的假设.条件随机场模型具有融合利用上下文信息和多特征的能力,将其应用于DDoS 检测,能够有效地弥补上述不足.提出了一种基于条件随机场的DDoS 攻击检测方法:首先,定义流特征条件熵(traffic feature conditional entropy,简称TFCE)、行为轮廓偏离度(behavior profile deviate degree,简称BPDD)两组统计量,对TCP flood,UDP flood,ICMP flood 这3 类攻击的特点进行描述;然后以此为基础,使用条件随机场,通过对其有效训练,分别为3 类攻击建立分类模型;最后,通过对模型的有效训练,应用模型推断来完成对DDoS 攻击的检测.实验结果表明,该方法能够充分发挥条件随机场模型的优势,准确区分正常流量和攻击流量,与同类方法相比,具有更好的抗背景流量干扰的能力.
2011, 22(8):1911-1917. DOI: 10.3724/SP.J.1001.2011.03875 CSTR:
摘要:重新评估了Zodiac 算法抗不可能差分攻击和积分攻击的能力.已有结果显示,Zodiac 算法存在15 轮不可能差分和8 轮积分区分器.首先得到了算法概率为1 的8 轮截断差分,以此构造了Zodiac 算法完整16 轮不可能差分和9 轮积分区分器.利用9 轮积分区分器,对不同轮数Zodiac 算法实施了积分攻击,对12 轮、13 轮、14 轮、15 轮和16 轮Zodiac 的攻击复杂度分别为234, 259, 293, 2133 和2190 次加密运算,选择明文数均不超过16.结果表明,完整16 轮192 比特密钥的Zodiac 算法也是不抗积分攻击的.
2011, 22(8):1918-1926. DOI: 10.3724/SP.J.1001.2011.03891 CSTR:
摘要:近几年,仅提出了6 个无证书签密方案,其中大部分不能提供保密性和不可伪造性.即使有些签密方案是安全的,它们也都需要双线性对运算.为了解决上述问题,提出了一个无需对运算的无证书签密方案,并在随机预言模型下,基于计算Diffie-Hellman 假设和离散对数困难问题证明了其保密性和认证性.该方案无需双线性对操作.到目前为止,它是己知最有效的无证书签密方案.
2011, 22(8):1927-1933. DOI: 10.3724/SP.J.1001.2011.03932 CSTR:
摘要:提出一种顺序独立透明现象的单遍高效绘制算法.首先设计了一个基于计算统一设备架构(compute unified device architecture,简称CUDA)的可编程渲染器.该系统采用扫描线算法光栅化场景,为每个像素生成多个对应的片元,同时,在GPU(graphics processing unit)的全局内存上为每个像素分配一个数组,以存储其相应的片元.基于这个框架,提出了两种并发的片元收集及排序策略,以单遍高效地绘制顺序独立的透明现象.第1 种策略利用CUDA 的原子操作符atomicMin 收集各个像素上对应的所有片元并按深度动态排序,在后处理中片元即可按序逐一融合;第2 种策略采用CUDA 的原子操作符atomicInc 按光栅化顺序收集所有片元,然后在后处理中按深度排序后再逐一融合.实验结果表明,与基于传统图形管线的经典深度剥离方法相比,该方法可以更高效地绘制顺序独立的透明现象,同时生成正确的绘制效果.
2011, 22(8):1934-1947. DOI: 10.3724/SP.J.1001.2011.04022 CSTR:
摘要:提出了一种应用物理学原理的树枝和雨滴交互作用的真实感动态仿真技术.树枝和叶柄被描述为一种方便由4 种弹簧控制的三棱柱弹簧模型(extended three-prism spring model,简称ETPSM).树枝、树叶的运动源于树枝系统与雨滴相互之间能量的双向转换.二者之间的交互作用可以通过一种高效的技术很好地模拟.该技术被专门设计用来模拟液体在具有亲水性的非刚体表面上运动.当雨滴撞击树枝后,树枝会发生震动与转动;雨滴会沿着树叶表面流动,合并成一个更大的雨滴或者悬挂在叶片边缘;当雨滴从树叶边缘落下后,树枝会弹起并恢复到原来的位置.实验结果表明,该技术能够高效、真实地仿真雨滴撞击树枝系统后的相互作用效果,同时可以简单而有效地模拟杆状物体在外力作用下的弹性形变,诸如旋转、震动等.
2011, 22(8):1948-1959. DOI: 10.3724/SP.J.1001.2011.03865 CSTR:
摘要:针对现有的预计算辐射传递算法对三维场景限制严格、适合于低频光照环境等问题,提出了一种动态场景的全频阴影绘制算法.在预处理阶段使用球体对三维物体进行拟合,同时对光照函数和BRDF(bidirectional reflectance distribution function)函数进行Harr 小波变换;在运行时阶段利用不同基函数的优势,在像素基空间进行多个球体可见性函数的快速合并,在小波基空间进行光照函数、BRDF 函数和可见性函数的三乘积分,得到最终的光照值.使用CUDA(computed unified device architecture)实现了该算法,充分利用了图形硬件的最新功能.实验结果表明,阴影绘制质量有很大的提高,可以基本达到实时绘制.
2011, 22(8):1960-1972. DOI: 10.3724/SP.J.1001.2011.03851 CSTR:
摘要:引入模糊理论对流场特征的描述,提出了一种流场特征区域描述与提取算法.通过采用模糊理论对流场特征区域进行描述,从基本属性Φ、衍生属性γ、关联属性Π 这3 个层次建立了测度规则,然后对各规则分析建立了相应的特征向量,并基于特征向量偏差给出了模糊测度隶属度的确定方法.理论分析表明,该描述与提取算法在最小平方和准则下是对流场区域的最优模糊划分,并具有良好的划分性质.实验结果表明,与传统的提取方法相比,该方法能够更准确地提取各种流场的典型特征区域,既可以有效地支持流场特征强度变化的定量分析,又易于设计转换函数,从而有效地解决3D 流场可视化存在的遮挡和混淆问题.