摘要:为解决困扰词义消歧及译文消歧任务中存在的数据稀疏及知识获取问题,提出一种利用双语词汇Web间接关联的完全无指导消歧方法.首先做出词汇歧义可由双语词汇的间接关联度决定的假设,为译文消歧提供了一种新的知识.在此基础上,对4种常用计算间接关联的方法进了改造并定义了双语词汇Web间接关联.随后进行基于Web的词汇消歧知识获取并设计了3种消歧决策方法.最后,在国际语义评测SemEval-2007中的Multilingual Chinese English Lexical Sample Task测试集进行了测试.该方法的Pmar值为44.4%,超过了该评测上最好的无指导系统的结果.
摘要:提出了一种基于核主成分分析(kernel principal component analysis,简称KPCA)和拉普拉斯正则化最小二乘(Laplacian regularized least squares,简称LapRLS)的合成孔径雷达(synthetic aperture radar,简称SAR)目标识别方法.KPCA特征提取方法不仅能够提取目标主要特征,而且有效地降低了特征维数.Laplacian正则化最小二乘分类是一种半监督学习方法,将训练集样本作为有标识样本,测试集样本作为无标识样本,在学习过程中将测试集样本包含进来以获得更高的识别率.在MSTAR实测SAR地面目标数据上进行实验,结果表明,该方法具有较高的识别率,并对目标角度间隔具有鲁棒性.与模板匹配法、支撑矢量机以及正则化最小二乘监督学习方法相比,具有更高的SAR目标识别正确率.此外,还通过实验分析了不同情况下有标识样本数目对目标识别性能的影响.
摘要:基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.
摘要:为了解决梯度向量流力场(gradient vector flow,简称GVF)难以进入目标凹部的问题,提出了一种新的主动轮廓模型外力场——各向异性梯度向量流.GVF的扩散项是各向同性且光滑性强的拉普拉斯算子,它在各个方向的扩散速度相同.拉普拉斯算子根据图像的局部结构可分为沿边界法线和切线方向的扩散,沿切线方向的扩散具有增强边界的作用,而法线方向扩散具有去除噪音、扩散力场的作用.基于分析二者在扩散过程中的作用,提出了一种各向异性梯度向量流扩散方法,切线和法线方向的扩散速度可以根据图像的局部结构自适应地选择.实验结果表明,与GVF相比,所提出的方法考虑了扩散过程中法线和切线方向的不同作用,能够进入细长的凹部,并改进了分割结果.
摘要:数据立方体计算通常会产生大量的输出结果,冰山立方体和封闭立方体是解决这个问题的比较流行的两种策略,二者可以结合使用.鉴于封闭冰山立方体(closed iceberg cube)的重要性和实用性,如何高效地计算封闭冰山立方体是一个值得研究的问题.提出一种缓存敏感(cache-conscious)的计算封闭冰山立方体的方法,在自底向上对数据进行聚集的同时,寻找覆盖聚集单元的封闭单元,将其输出,使用两种策略进行剪枝,去掉不必要的递归,同时使用Apriori剪枝技术,支持冰山立方体(iceberg cube)的计算.为了减少与内存相关的延迟,快速得到聚集结果,对多个维进行预排序,并将软件预取技术引入到数据扫描中.在模拟数据和真实数据上进行了详细而全面的实验研究,结果表明,封闭冰山立方体的计算方法是快速、有效的.
摘要:由于RFID(radio frequency identification)技术采用无线射频信号进行数据通信,漏读和多读现象时有发生,降低了其在事件检测中查询结果的准确性.在很多RFID监控应用中,监控物体都是以动态变化的小组为单位进行活动的.通过定义关联度和动态聚簇对各个RFID监控物体所在的小组进行动态的分析,并在此基础上定义了一套关联度维护和数据清洗的模型和算法,通过对图模型进行压缩,提出了基于分裂重组思想的链模型关联度维护策略,提高了维护的时空效率.模拟实验结果表明,该数据清洗模型可以获得较好的效率和准确性.
摘要:许多应用中会连续不断产生大量随时间演变的序列型数据,构成时间序列数据流,如传感器网络、实时股票行情、网络及通信监控等场合.聚类是分析这类并行多数据流的一种有力工具.但数据流长度无限、随时间演变和大数据量的特点,使得传统的聚类方法无法直接应用.利用数据流的遗忘特性,应用离散小波变换,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流与聚类中心之间的近似距离,实现了一种适合并行多数据流的K-means聚类方法.所进行的实验验证了该聚类方法的有效性.
摘要:超团模式是一种新型的关联模式,这种模式所包含的项目相互间具有很高的亲密度.超团模式中某个项目在事务中的出现很强地暗示了模式中其他项目也会相应地出现.极大超团模式是一组超团模式更加紧凑的表示,可被用于多种应用.挖掘这两种模式的标准算法是完全不同的.提出一种基于FP-tree(frequent pattern tree)的快速挖掘算法——混合超团模式增长(hybrid hyperclique pattern growth,简称HHCP-growth),统一了两种模式的挖掘.算法采用递归挖掘方法,并应用多种有效的剪枝策略.提出并证明几个相关命题来说明剪枝策略的有效性和算法的正确性.实验结果表明,HHCP-growth算法相对于标准的超团模式挖掘算法和极大超团模式挖掘算法都具有更高的效率,尤其对于大数据集或在低支持度条件下更为显著.
摘要:在数据库理论中,如何在较小的空间条件下快速地比较不同的XML(extensible markup language)流的差异性是一个基本问题.在这一问题的研究中,人们提出了树编辑距离等测度来描述XML文本的差异性.提出了一种基于Hamming范数的l0测度——即XML树的不同子树的个数,并以此来刻画XML文本的相关性.在数据流模型下,给出了基于空间有界伪随机数发生器、稳态分布于哈希函数的l0测度的概率算法.理论上的时空复杂性分析、正确性证明与实验模拟结果表明,这一概率算法对问题的输入提供了一个理想的近似.
摘要:为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失.
摘要:尽管在1994年,Gabbay等人论证了时态逻辑的公理化系统和证明论方法是不适合于时态数据库查询语言建模的,但是仍需要通过对时间轴的公理化建模,利用公理化系统的可靠和完全等性质对时间轴作“细精度”的语义刻画.只有这样才能准确地在数据库中反映时间和时间属性的本质特点,并应用于与时间轴模型直接相关的时态查询语言.因此,从分析时间轴的性质出发,对时间轴的序关系和谓词逻辑性质进行了研究和阐述.随后分别用经典的时态逻辑Tense Logic和动态逻辑对时态数据库的时间轴进行了公理化建模,这样刻画的目的是为了“细精度”地体现时间轴的特点,并借助逻辑的方法对其分析.在TDB(temporal database)时间轴的动态逻辑建模部分,相对于原时态逻辑系统较为静态,着重处理了时间的动态性,并参照了Tense Logic中的Lin.Z系统,将其转化为动态Lin.Z系统,在其中添加了参数化处理.该参数化的处理是基于动作执行的,主要工作在动作指数的数值化和函数化两个方面,其结果体现了时态数据库中规则生存周期和“Now”节点的一些特点以及知识表达和解决方法,研究结果将对后续时态知识表达和时态数据库查询语言的研究起到积极的作用.
摘要:现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.
摘要:序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).
摘要:综述了多跳无线网络MIMO(multiple-input multiple-output)技术的研究进展,分析了MIMO技术的引入对多跳无线网络各层及整体设计的影响.以跨层协议设计为重点,详细介绍了当前典型的基于MIMO的多跳无线网络协议算法的核心机制,并比较分析了这些算法的特点和性能差异与存在的缺陷.最后,结合本领域内的研究现状,指出了基于MIMO的多跳无线网络走向实际工程应用环境所亟待解决的关键问题,指出了基于MIMO技术设计自适应调整、高性能多跳无线网络跨层模型及协议的重要性.
摘要:随着无线网络应用的不断发展,为了适应网络中不同类型业务的区分服务需要,IEEE 802.11工作组在IEEE 802.11 DCF(distributed coordination function)的基础上推出了支持QoS的IEEE 802.11 EDCA协议.针对EDCA(enhanced distributed channel access)协议的优先级区分信道接入特性,提出了一种基于Markov链的协议性能模型分析方法.与已有文献不同,该模型分析同时包含了EDCA主要的3个关键区分信道接入机制:Wmin/Wmax,AIFS(arbitration inter-frame space),TXOP(transmission opportunity).通过模型分析,获得了EDCA协议各优先级接入的传输吞吐量、信道接入延迟、数据丢失率等性能分析.不仅分析了饱和情形下的EDCA性能,而且还对非饱和情形下的EDCA性能进行了分析.仿真验证结果表明,模型分析结果和仿真结果取得了很好的一致性.利用给出的模型分析方法,提出了一种基于TXOP动态调整的D-TXOP(dynamic TXOP)接纳控制算法.算法根据网络中业务流的QoS要求,在动态调整各优先级的TXOP参数设置的基础上,对网络中新到业务流进行接纳控制,达到提高网络的业务承载能力的目的.
摘要:在隐私保护的数据发布研究中,目前的方法通常都是先删除身份标识属性,然后对准标识属性进行匿名处理.分析了单一个体对应多个记录的情况,提出了一种保持身份标识属性的匿名方法,它在保持隐私的同时进一步提高了信息有效性.采用概化和有损连接两种实现方式.实验结果表明,该方法提高了信息有效性,具有很好的实用性.
摘要:在可控网络中,利用多agent系统是网络控制的一种重要方法.在可控网络中,多agent系统中所有agent持有的信念必须在决策前达到与网络实际状态一致,即多agent系统的信念应具有可达性,是实现网络合理控制的基础.传统的基于agent行为的信念更新模型建模过程复杂,不适合在网络控制中直接分析多agent系统信念的可达性和收敛速度.基于传统的信念更新模型,提出了信念距离的概念,并在该概念的基础上提出了新的多agent系统信念距离更新模型,并证明了该模型的合理性.该模型对多agent系统信念距离更新过程加以描述,利用线性系统对多agent系统信念收敛过程进行描述,简化了对多agent系统信念可达性和收敛速度分析的复杂性.在该模型基础上,对网络控制中多agent系统信念可达性和收敛速度进行了分析,给出了判断多agent系统信念可达性的充要条件和收敛速度的上限.另外,针对全耦合网络和无标度网络两种复杂网络的特点,分别对两种网络下多agent系统信念可达性和收敛速度进行了讨论.提出的信念距离更新模型具有良好的适应性,为判断多agent系统的信念可达性提供了有力的工具.
摘要:在无线传感器网络的数据查询中,蚁群优化方法可以找到从源节点到目的节点的最优路径.但当所有的查询消息和查询结果都在这条路径上进行时,路径上的能量消耗会很大.因此,提出一种基于蚁群优化的能量均衡数据查询协议EBDQ(energy balance data query protocol based on ant colony optimization),根据路径上的能量消耗情况,通过信息素对其进行奖惩,使网络的能量消耗分散在不同的路径上,让整个网络的能量平稳降级.理论分析和仿真结果都说明,EBDQ协议能够提高传感器网络的生命周期,降低网络时延.
摘要:在大规模网络蠕虫爆发时获取蠕虫的传播路径,可以提高网络的抗打击能力.现有的推测蠕虫传播路径方法只能运行于离线方式且准确率较低.提出了使用滑动检测窗口推测网络蠕虫传播路径的在线聚积算法,可快速获取网络蠕虫的传播源和初期传播路径.解决了传播路径选择冲突和相邻推测阶段传播路径合并等问题.分析了算法的准确率和运行性能.实验结果表明,在线聚积算法在蠕虫爆发初期即可检测出感染边,聚积算法具有90%以上的准确率,所需路径推测时间只有同类工作的1%.
摘要:蠕虫通过发送网络服务请求搜寻感染目标,主机的异常网络服务请求可以作为蠕虫检测的依据.提出了一种蠕虫检测系统,基于阳性选择算法构造自体字符串集合描述主机的正常网络行为.自体字符串集合采用Bloom filter过滤器的形式表示,用于监视主机的网络行为以发现网络中可疑的网络服务请求.依据蠕虫的传播特征,采用二叉树的形式对所发现的可疑网络服务请求进行关联分析,通过无参CUSUM(cumulative sum)算法监视二叉树异常值的变化,从而及时、准确地发现蠕虫传播.GTNetS(Georgia Tech Network Simulation)平台的测试实验结果表明,所提出的蠕虫检测系统能够有效检测蠕虫,同时对于主机正常网络通信的影响较小.
摘要:为支持新兴网络应用,IP组播(multicast)和MPLS(multi-protocol label switching)技术分别从不同方向扩展了当前的IP路由和交换模式.MPLS和IP组播的结合是当前研究的一个热点,MPLS网络中的服务质量组播面临着标签资源匮乏、组播路由状态的可扩展性以及具体实现上的困难.针对这些问题,提出了基于汇聚方法的新型MPLS服务质量组播体系结构,提出在现有的路由控制平面上叠加一层面向IP组播服务的控制平面,取代组播路由协议并支持组播聚集,形成2层控制平面结构.定义了两平面之间的协作和交互方式,并通过扩展RSVP-TE(resource reservation protocol-traffic engineering) P2MP(point to multi-point)协议,在新的体系结构中融合了服务质量控制能力.另外,还探讨了汇聚组播中基于距离约束选择汇聚路由器的算法,实现了基于Linux的MPLS组播路由器和IP组播服务控制系统,并组建了实验平台.实验和模拟结果表明,基于汇聚组播的双平面网络控制结构能够适应组播用户和网络拓扑的动态变化,能够有效节省MPLS标签资源,平衡网络中组播流量的分布.
摘要:攻击图是一种基于模型的网络脆弱性分析技术,可以自动分析目标网络内脆弱性之间的关系和由此产生的潜在威胁.攻击图主要有状态攻击图和属性攻击图两类.前者由于存在状态爆炸问题不适应于大规模网络,目前主要的研究大多是基于后者.基于属性攻击图研究了含圈攻击路径问题和最优弥补集问题.针对含圈攻击路径问题,定义了反映真实攻击想定的n-有效攻击路径,提出了一种计算关键属性集所有n-有效攻击路径的迭代算法;针对最优弥补集问题,在定义了所有的风险源为属性攻击图的初始属性的基础上,将该问题转化为带权重的集合覆盖问题,从而归结为NP完全性问题,提出了可应用于大规模攻击图的具有多项式时间复杂度的近似算法.
摘要:于磁盘系统的机械运动本质,磁盘系统I/O往往会成为计算机系统的性能瓶颈.为了有效地提高系统性能,收集和分析应用系统的磁盘I/O特征信息将成为性能优化工作的重要基础.与以往I/O特征分析方法不同,给出了一种基于Xen 3.0虚拟机系统的磁盘I/O特征在线分析方法.在虚拟机环境下,该磁盘I/O特征采集方法可以透明地应用于任意无须修改的操作系统.该方法可以高效地在线采集多种基本I/O特征数据,其中包括:磁盘I/O块大小、I/O延迟、I/O时间间隔、I/O空间局部性、时间局部性以及磁盘I/O操作热点分布.通过测试和分析,该在线I/O分析方法有着较小的系统开销,并且对应用系统I/O性能的影响很小.此外,还给出了在大文件拷贝、基于Filebench的filemirco和varmail等工作负载下的I/O特征分析结果.
摘要:存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具, LCHECK发现了一些存储系统的设计错误.