2024, 35(8):3626-3646.DOI: 10.13328/j.cnki.jos.007119
摘要:面向域名生成算法(domain generation algorithm, DGA)的域名检测方法普遍具有特征提取能力弱、特征信息压缩比高等特点, 这导致特征信息丢失、特征结构破坏以及域名检测效果较差等诸多不足. 针对上述问题, 提出一种基于双分支特征提取和自适应胶囊网络的DGA域名检测方法. 首先, 通过样本清洗和字典构建重构原始样本并生成重构样本集; 其次, 通过双分支特征提取网络处理重构样本, 在其中, 利用切片金字塔网络提取域名局部特征, 利用Transformer提取域名全局特征, 并利用轻量级注意力融合不同层次的域名特征; 然后, 利用自适应胶囊网络计算域名特征图的重要度系数, 将域名文本特征转换为向量域名特征, 并通过特征转移计算基于文本特征的域名分类概率; 同时, 利用多层感知机处理域名统计特征, 以此计算基于统计特征的域名分类概率; 最后, 通过合并得到的两种不同视角的域名分类概率进行域名检测. 大量的实验表明, 所提方法在DGA域名检测以及DGA域名家族检测分类方面均取得了当前领先的检测效果. 在DGA域名检测中, F1分数提升了0.76%-5.57%; 在DGA域名家族检测分类中, F1分数(宏平均)提升了1.79%-3.68%.
2022, 33(11):4192-4216.DOI: 10.13328/j.cnki.jos.006385
摘要:口语理解是自然语言处理领域的研究热点之一,应用在个人助理、智能客服、人机对话、医疗等多个领域.口语理解技术指的是将机器接收到的用户输入的自然语言转换为语义表示,主要包含意图识别、槽位填充这两个子任务.现阶段,使用深度学习对口语理解中意图识别和槽位填充任务的联合建模方法已成为主流,并且获得了很好的效果.因此,对基于深度学习的口语理解联合建模算法进行总结分析具有十分重要的意义.首先介绍了深度学习技术应用到口语理解的相关工作,然后从意图识别和槽位填充的关联关系对现有的研究工作进行剖析,并对不同模型的实验结果进行了对比分析和总结,最后给出了未来的研究方向及展望.
2019, 30(11):3313-3325.DOI: 10.13328/j.cnki.jos.005862
摘要:随着人机对话的不断发展,让计算机能够准确地理解用户查询意图,对整个人机对话领域都有着重要意义.意图分类的主要目标是在人机对话的过程中判断用户的意图,提升人机对话系统的准确度与自然度.首先分析多个分类模型在意图分类任务上的优缺点.在此基础上,提出一种混合神经网络模型,综合利用多个深度网络模型的多样性输出.在输入特征预处理上,采用语言模型词向量,将语言模型拥有的语义挖掘能力应用到混合网络中,可以进一步提升模型的表达能力.所提出的混合神经网络模型相对于最好的基准模型在两份数据集上分别取得了2.95%和3.85%的性能提升.新模型在该数据上取得了最优的性能.