2012, 23(12):3059-3073. DOI: 10.3724/SP.J.1001.2012.04209 CSTR:
摘要:通过ISE 准则逼近真实密度差的L2-核分类器没有显式地考虑到分类间隔,在一定程度上不利于提高分类器精度;同时,权向量的求解最终转化为一个二次规划问题,导致L2-核分类器训练速度较慢,特别是对于较大样本.基于这两个问题,利用样本间的密度差构造了分类间隔并最大化此间隔,而此问题最终转化为一个对数优化问题,故称其为最大间隔对数向量机(maximum margin logistic vector machine,简称MMLVM),进而利用梯度下降法求解最优权.同时,分别从权的全局最优性、一般化误差界及算法复杂度这3 方面进行了理论分析.最后,人工和UCI,PIE 及USPS 数据集的实验结果表明,算法理论正确,解决了上述两个问题并获得了较好的效果.
2012, 23(12):3074-3087. DOI: 10.3724/SP.J.1001.2012.04212 CSTR:
摘要:在多值模态逻辑中构建了n-值模态模型及相应的语义理论,并指出这种语义是经典模态逻辑语义的推广.定义了〈W,R〉n-型框架的概念,并在该框架下用归纳的方法构建了由模态公式诱导的局部化映射,给出公式的局部化真度的概念,并指出任意模态公式的局部化真度都可以转化为另一个不含模态词的公式在同一可能世界处的局部化真度.定义了模态公式的全局真度,并证明了当某模态公式不含模态词时,其全局真度与其在一般命题逻辑中的真度一致.
2012, 23(12):3088-3100. DOI: 10.3724/SP.J.1001.2012.04207 CSTR:
摘要:翻译推导的切分歧义是统计机器翻译面临的一个很重要的问题,而在层次短语机器翻译中,其尤为突出.提出了一个层次切分模型来处理推导的切分歧义性.采用Markov 随机场构建模型,然后将其融入层次短语翻译模型,以便自动选择更合理的切分.在NIST 中英翻译的任务中,该模型的训练效率高,通过NIST05,NIST06 和NIST08这3 个测试集上的翻译效果表明,该模型提高了层次短语翻译的性能.
2012, 23(12):3101-3114. DOI: 10.3724/SP.J.1001.2012.04208 CSTR:
摘要:分析了统计机器翻译中的特征权重的领域自适应问题,并针对该问题提出了协同的权重训练方法.该方法使用来自不同解码器的译文作为准参考译文,并将其加入到开发集中,使得特征权重的训练过程向测试集所在的领域倾斜.此外,提出了使用最小贝叶斯风险的系统融合方法来选择准参考译文,进一步提高了协同权重训练的性能.实验结果表明,使用最小贝叶斯风险系统融合的协同训练方法,可以在一定程度上解决特征权重的领域自适应问题,并显著地提高了在目标领域内机器翻译结果的质量.
麦热哈巴·艾力 , 姜文斌 , 王志洋 , 吐尔根·依布拉音 , 刘群
2012, 23(12):3115-3129. DOI: 10.3724/SP.J.1001.2012.04205 CSTR:
摘要:维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F 值达到92.6% 的好成绩.
2012, 23(12):3130-3148. DOI: 10.3724/SP.J.1001.2012.04204 CSTR:
摘要:建立基于连续过程的推荐信任模型,描述间接信任这种最复杂的信任关系,在保障开放环境的安全和开放系统的可靠运行方面有着重要意义.通过量化间接信任影响因素,运用分级剪枝方法过滤推荐信息,将结果作为正态过程的采样样本,计算获取后验分布期望的Bayesian 估计值.在此基础上,详细阐述信任动态演化的过程,深入探讨信任度和可信度之间的关系,给出了命题及其数学证明.实验数据表明,模型提高了抵御恶意攻击的能力,得出了更加有效和精确的结果,与相关命题的数学推导相一致.
2012, 23(12):3149-3160. DOI: 10.3724/SP.J.1001.2012.04221 CSTR:
摘要:针对可执行程序恶意性难以判定的情况,提出一种基于证据推理的程序恶意性判定方法.首先,建立程序恶意性判定模型;然后,通过对程序进行反编译,抽取影响程序安全性的特征,建立程序行为集合;使用BP神经网络对模型进行训练得到各个行为的概率分配函数BPAF(basic probability assignment functions),并使用加权和形式的合成法则对程序行为进行合成;最后,实现对程序恶意性的判定.实验结果表明了该方法的有效性.
2012, 23(12):3161-3174. DOI: 10.3724/SP.J.1001.2012.04186 CSTR:
摘要:依赖结构化对等网传播的P2P 僵尸是未来互联网面临的重要威胁.详细分析了两种典型的结构化P2P 协议Chord 和Kademlia 的工作原理,在此基础上,使用数学建模的方法建立了结构化P2P 僵尸网络的传播模型.该模型将Kademlia,Chord 协议与双因子免疫机制、主机在线率等因素相结合,较为全面地研究了两种典型的结构化P2P网络中僵尸的传播机理,并使用软件仿真的方法模拟了节点超过百万时,结构化P2P 网络中僵尸的传播行为,通过软件仿真得出的数据与理论数据进行对比,验证了模型的正确性.从实验结果可以看出:对于Kademlia 和Chord 两种结构化P2P 网络,僵尸传播无论是双因子免疫模型还是结合双因子与主机在线率的模型,理论模型与仿真结果都非常吻合,体现了模型的准确性,为僵尸的检测与防御提供了理论依据.
2012, 23(12):3175-3186. DOI: 10.3724/SP.J.1001.2012.04206 CSTR:
摘要:为使链路预测应用于大型复杂网络,设计并实现了一种基于MapReduce 计算模型的并行链路预测算法,包含了9 种基于局部信息的相似性指标,在稀疏网络上的时间复杂度为O(N).首先,在公共数据集上验证了并行算法的有效性,随着抽取因子的增加,召回率升高而准确率下降.在不同类型的10 个大规模复杂网络数据集上的实验结果表明,基于MapReduce 计算模型的并行链路预测算法比传统算法具有更高的效率,算法的运行时间随着并行程度的增加而下降.提出并证明了AUC(area under a receiver operating characteristic curve)评价指标的上下界,实验表明,上下界的中值和实际AUC 值很接近,并且AUC 评价指标侧重于预测分数值是否为0 而不是分数值的大小.在网络拓扑性质中,平均聚集系数对AUC 值的影响最大,并且AUC 值随着网络平均聚集系数的增加而提高.
2012, 23(12):3187-3197. DOI: 10.3724/SP.J.1001.2012.04180 CSTR:
摘要:针对实体恶意推荐问题,提出了一种角色分离的信任评估模型(RSTrust).模型将实体在信任评估中承担的角色分为交易角色和推荐角色两类,分别用交易信任度和推荐信任度来描述其可信性,区分不同角色对实体不同信任度的影响;在计算实体全局信任度时,RSTrust 将推荐者的全局推荐信任度作为其推荐证据的可信权重,消除恶意推荐对全局信任度计算的干扰.分析和仿真结果表明,模型具有良好的抗恶意推荐能力和收敛性.
2012, 23(12):3198-3208. DOI: 10.3724/SP.J.1001.2012.04286 CSTR:
摘要:近年来,隐私保护数据发布得到了研究者的广泛关注,聚类与隐藏原理上的差异使得面向聚类的隐藏成为难点.针对现有保距和保分布隐藏难以有效兼顾数据聚类可用性和隐私安全的不足,提出基于保邻域隐藏的扰动算法VecREP(vector equivalent replacing based perturbing method),通过分析数据点邻域组成结构,引入能够保持数据邻域组成稳定的安全邻域定义.进一步基于向量偏移与合成思想,提出有效保持邻域数据分布特征的等价置换弧.对任意数据点,采用随机选取位于其安全邻域内等价置换弧上点替换的策略实现隐藏.将算法与已有的RBT,TDR,Camp-crest 和NeNDS 算法进行实验比较,结果表明:VecREP 算法具有与保距隐藏算法RBT 相近的聚类可用性,优于其余算法,能够较好地维持数据聚类的可用性.同时,具有好于其余算法的数据隐私保护安全性.
2012, 23(12):3209-3220. DOI: 10.3724/SP.J.1001.2012.04199 CSTR:
摘要:提出一种基于特征采样和特征融合的子图像人脸识别方法(RS-SpCCA).首先,对子图像进行特征采样;然后,将全局特征和采样后的特征使用CCA 进行信息融合,以获取包含全局特征和局部特征的相关特征;最后,在相关特征上构建分量分类器.在该方法中,特征采样是为了构建更多且多样的分量分类器;而引入特征融合思想是为了充分利用图像的全局特征.AR,Yale 和ORL 这3 个数据库上的实验结果表明,基于特征采样和特征融合的子图像方法(RS-SpCCA)优于单纯的信息融合方法(SpCCA)和特征采样方法(Semi-RS).
2012, 23(12):3221-3232. DOI: 10.3724/SP.J.1001.2012.04236 CSTR:
摘要:借助于二值图像的可重叠矩形区域编码的思想,通过使用可重叠矩形非对称逆布局的模式表示模型(RNAM)和扩展的Gouraud 阴影法,给出了可重叠同类块逆布局的4 个准则,提出了一种基于可重叠RNAM 的灰度图像表示算法,简称为ORNAMC 表示算法.在ORNAMC 表示算法中,通过使用3 个用于标识顶点类型的水平矩阵H、垂直矩阵V 和单点矩阵I 代替混合矩阵R,解决了灰度图像的可重叠RNAM 表示中矩阵R 的不可解码性问题;同时,通过将顶点类型及码字进行重新定义,提出了一种对矩阵H,V 和I 中所有非零元素坐标进行编码的坐标数据压缩算法.以图像处理领域里惯用的标准灰度图像等作为典型测试对象,实验结果表明,与已提出的非重叠RNAMC和流行的STC,SDCT 等灰度图像表示方法相比,在保持图像质量的前提下,ORNAMC 表示方法具有更高的压缩比和更少的块数,因而是灰度图像表示的一种更好的方法.