rjxb
软件学报
Journal of Software
1000-9825
软件学报编辑部
中国北京
6408
b0c043ea1aa279da99dcf3a8f92000b80b846b04e6d6a686c81406e45d005ad5
10.13328/j.cnki.jos.006408
利用双主题表征的涉案微博评价对象识别方法
Identification Method of Microblog Opinion Targets Involved in Cases Based on Dual Topic Representation
相
艳
XIANG
Yan
相艳(1979-), 女, 博士, 副教授, 主要研究领域为自然语言处理, 情感计算
sharonxiang@126.com 1 2
余
正涛
YU
Zheng-Tao
余正涛(1970-), 男, 博士, 教授 , CCF高级会员, 主要研究领域为自然语言处理, 神经机器翻译, 信息检索
ztyu@hotmail.com 1 2 *
郭
军军
GUO
Jun-Jun
郭军军(1987-), 男, 博士, 副教授, CCF专业会员, 主要研究领域为自然语言处理, 神经机器翻译, 多模态情感分析
guojjgb@163.com 1 2
黄
于欣
HUANG
Yu-Xin
黄于欣(1983-), 男, 博士, 副教授, 主要研究领域为自然语言处理, 文本摘要
huangyuxin2004@163.com 1 2
线
岩团
XIAN
Yan-Tuan
线岩团(1981-), 男, 博士, 副教授, 主要研究领域为自然语言处理, 信息检索
xianyt@kust.edu.cn 1 2
1
昆明理工大学 信息工程与自动化学院, 云南 昆明 650504
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China
2
云南省人工智能重点实验室 (昆明理工大学), 云南 昆明 650504
Yunnan Key Laboratory of Artificial Intelligence (Kunming University of Science and Technology), Kunming 650504, China
余正涛, E-mail:
ztyu@hotmail.com
16
2
2023
7
7
2022
34
4
1811
1823
16
8
2020
28
6
2021
4
2
2021
版权所有©《软件学报》编辑部 2023
Copyright ©2023 Journal of Software. All rights reserved.
2023
相艳, 余正涛, 郭军军, 黄于欣, 线岩团. 利用双主题表征的涉案微博评价对象识别方法. 软件学报, 2023, 34(4): 1811–1823
Xiang Y, Yu ZT, Guo JJ, Huang YX, Xian YT. Identification Method of Microblog Opinion Targets Involved in Cases Based on Dual Topic Representation. Ruan Jian Xue Bao/Journal of Software, 2023, 34(4): 1811–1823 (in Chinese)
微博评价对象识别是涉案网络舆情分析的基础. 目前基于主题表征的评价对象识别方法需要预设固定的主题数目, 且最终评价对象识别依赖人工推断. 针对此问题, 提出一种弱监督涉案微博评价对象识别方法, 仅采用少量标签评论即可实现对评价对象的自动识别. 具体实现思路为: 首先基于变分双主题表征网络对评论进行两次编码和重构, 获得丰富的主题特征; 然后, 利用少量标签评论, 引导主题表征网络自动判别评价对象类别; 最后采用联合训练策略, 对双主题表征的重构损失与评价对象分类损失进行联合调优, 最终实现对评价对象的自动分类和评价对象词项的挖掘. 在涉案舆情的两个数据集上进行了实验, 结果表明, 所提出的模型在评价对象分类、评价对象词项的主题连贯性和多样性等方面均优于几个基线模型.
The identification of opinion targets in microblog is the basis of analyzing network public opinion involved in cases. At present, the identification method of opinion targets based on topic representation needs to preset a fixed number of topics, and the final results rely on artificial inference. In order to solve these problems, this study proposes a weak supervision method, which only uses a small number of labelled comments to automatically identify the opinion targets in microblog. The specific implementation is as follows. Firstly, the comments are encoded and reconstructed twice based on the variational dual topic representation network to obtain rich topic features. Secondly, a small number of labelled comments are used to guide the topic representation network to automatically identify the opinion targets. Finally, the reconstruction loss of double topic representation and the classification loss of opinion targets identification are optimized together by the joint training strategy, to classify comments of opinion targets automatically and mine target terms. Experiments are carried out on two data sets of microblogs involved in cases. The results show that the proposed model outperforms several baseline models in the classification of opinion targets, topic coherence, and diversity of target terms.
评价对象识别
变分编码
主题模型
弱监督学习
涉案舆情
opinion targets identification
variational encoder
topic model
weak supervision learning
public opinion involved in cases
国家重点研发计划(2018YFC0830105, 2018YFC0830101, 2018YFC0830100); 云南省重大科技专项计划(202002AD080001); 云南省基础研究专项面上项目(202001AT070047, 202001AT070046)
案件相关的负面突发事件通常会引发网友在互联网微博热议, 并在短时间内形成传播快、范围广的热点话题, 进而产生涉案网络舆情. 从大量评论语料中识别出涉案舆情所关心的评价对象, 如法律机构、当事人、媒体等, 是舆情分析和态势评估等任务的基础. 涉案微博评价对象识别的具体任务为: (1) 从评论语料中挖掘评价对象词项, 并将含义相近的评价对象词项聚集到相应的类别中; (2) 将评论句判别为某个评价对象类别. 如图1 为“奔驰女车主维权案”的评价对象识别框架. 对于该案件的微博评论, 首先从语料中挖掘“监管部门”“弱势群体”“奔驰”等评价对象词项, 并将“监管部门”“工商”和“税务局”等词项聚集为一个评价对象类别“法律机构”. 基于此, 可以将评论“市场的监管部门就是一个摆设”一句分类至“法律机构”类别.
1
An example of identifying opinion targets of microblogs involved in the case
涉案微博评价对象识别示例
在涉案微博评论中, 同一案件的评价对象词项较为多样和复杂, 例如图1中, “消费者”这一评价对象类别有“弱势群体”“普通百姓”“公民”等差异较大的词项; 同时, 不同案件的评价对象类别也有区别. 针对微博评价对象的识别, 目前大都基于主题表征的方法. 传统的主题模型是将每类评价对象建模为一个主题, 而评论被建模为这些主题的混合, 如潜在Dirichlet分布模型(latent Dirichlet allocation, LDA)[1 ] . 文献[2 -4 ]则改进和扩展了LDA, 并将其用于评价对象识别. 但这类主题模型仅限于应用到正式和句法良好的长文档中, 比如新闻报道和科技文本. 当处理涉案微博评论时, 由于文本较短和表述复杂导致的数据稀疏问题, 会影响这类模型的评价对象识别性能.
近年来, 基于深度学习框架的神经主题模型[5 -7 ] 得到了较好地发展, 其中He等人[7 ] 提出了基于注意力的自编码模型(attention-based aspect extraction, ABAE), 该模型利用数据集上预训练的词向量来获取词共现的分布, 并基于自编码的框架来预测句子的评价对象概率分布, 从而识别评价对象. 与传统的基于多项式词分布的主题模型相比, 基于连续空间构建的神经主题模型可以更好地处理低频词, 从而在短文本评价对象识别任务中, 取得比LDA等传统主题模型更好的识别效果. 但是, 这类神经主题模型用于涉案微博评价对象识别仍然存在以下不足: (1) 模型只对文本进行一次重构, 并固定了主题数目, 这限制了模型对主题表征的学习. (2) 模型可以获取若干组词项来表示不同评价对象类别, 但某组词项究竟表示哪类评价对象则需要人工推断. 如果某组词项难以推断, 则会直接影响句子分类结果.
针对以上两个问题, 本文提出一种基于变分双主题表征的弱监督评价对象识别模型, 以更好地实现评价对象词项挖掘和句子自动分类. 本文的主要贡献如下.
(1) 提出一种变分双主题表征网络, 通过对微博评论语料进行辅助主题和核心主题的变分编码与重构, 使模型能学习到更全面的主题表征, 从而更好地进行评价对象词项挖掘和句子分类.
(2) 提出一种弱监督评价对象识别框架, 联合优化少量标签评论的分类损失和大量无标签样本的重构损失, 从而使主题表征网络学习自动判别评价对象类别. 该弱监督学习框架避免了用评价对象词项来推断类别的人工过程, 因此可以实现评论句的自动分类.
(3) 在案件舆情领域的两个不同的数据集上验证了本文模型. 与多个无监督或弱监督的评价对象识别模型相比, 本文模型在评价对象分类方面具有更优异的性能, 同时能发现更多样和更有价值的评价对象词项.
1
相关工作
目前主流的评价对象识别方法可以分为有监督方法、无监督方法和弱监督方法.
有监督方法借鉴了评论文本实体属性抽取的思路, 目标是找出评价对象在文本中的位置, 主要有基于规则或特征的方法[8 -10 ] 和基于序列标注的方法[11 -14 ] . 序列标注的方法中, 基于条件随机场的模型[12 ,13 ] 因有效利用了相邻词标签的依赖关系而取得了不错的结果. Xu等人[14 ] 则以卷积神经网络(convolutional neural networks, CNN)为基本框架, 融合了通用领域和特定领域的嵌入信息, 取得了比之前模型更好的抽取结果. 在前人工作基础上, 文献[15 , 16 ]进一步利用了观点词的信息, 对评价对象和观点词进行联合建模, 从而改善了评价对象抽取性能. 上述有监督模型依赖于大量手动标注的数据, 但对于微博评论而言, 不同案件的评价对象表述通常较为复杂和多变, 数据标注成本较高, 同时监督模型对新案件数据的泛化能力也较差. 以上问题限制了有监督模型在涉案微博评价对象抽取中的使用.
事实上, 微博评价对象识别更适合采用无监督的方法. 无监督方法通过对评论文本进行特征聚类, 获取表征评价对象的词项, 进而实现评价对象的识别. 其中一类方法主要基于文本统计特征的方法. 例如文献[17 ]采用TF-IDF特征获取候选特征词集, 并基于期望最大化算法挖掘特征词项, 进而识别出评论文本中的评论对象. 另一类则是以主题表征为基础的方法[17 , 18 ] . 传统的主题模型大都基于吉布斯采样或变分期望值最大化算法[1 , 17 ] , 较适合处理长文本, 但在微博评论这样的短文本上难以取得较好的效果. 为了解决这一问题, 一些研究工作将单词嵌入[19 -22 ] 和预训练知识[23 ] 等外部表征融入主题建模过程中, 实现评价对象抽取. 另一些工作则考虑了丰富短文本的上下文, 如Biterm主题模型(Biterm topic model, BTM)[24 , 25 ] , 该模型将一个文本扩展到一个Biterm集合, 集合中包含文本中出现的任意两个不同单词的所有组合. BTM的建模方式可以缓解短文本主题建模的问题, 但在稀疏数据设置中仍然存在不足.
随着深度学习技术的不断发展, 基于深度神经网络框架的无监督主题模型在评价对象抽取任务上取得较好效果. 其中变分推断自编码模型(auto-encoding variational Bayes, VAEs)[5 ] 使用一个推断网络直接将文档映射到它的后验分布, 该方法不仅可以提升模型的鲁棒性, 还有效地降低了计算成本. 更进一步地, 文献[26 ]将VAEs和BTM进行结合, 提出了一种GraphBTM方法, 通过图卷积网络嵌入聚合的Biterm图, 进一步缓解数据稀疏的问题. 文献[27 ]同时对文本进行序列编码和VAEs主题建模, 综合利用了文本的全局表示和局部表示, 因此能更好地抽取到低频的评价对象词项. 文献[28 ]也利用类似思想, 用神经网络来编码文本语义特征, 提升主题模型的语义连贯性. Dieng等人[29 ] 则提出一种嵌入主题模型(embedded topic model, ETM), 将传统主题模型与词嵌入结合在一起, 使用分类分布对每个词进行建模, 该方法可以学习到更连贯的语言模式和准确的单词分布. 此外, He等人[7 ] 提出的ABAE模型通过最小化句子重构错误来训练参数, 在两个产品评论数据集上取得了较好的评价对象分类结果, 并挖掘出具有较好主题连贯性的词项.
不同于无监督的方法, 弱监督方法可以融合领域知识来进行建模, 因此可以在一定程度上缓解无监督方法对于特定评价对象抽取的不足. 通常而言, 领域知识可以是一组指定的评价对象种子词, 例如Lu等人[30 ] 在概率主题模型中使用种子词作为领域先验知识, Angelidis等人[31 ] 则提出一种多种子评价对象抽取模型(multiseed aspect extractor, MATE), 为每个特定的评价对象选取若干种子词. 这类弱监督模型虽然可以获取特定词项, 但在将评论句区分为不同评价对象类别方面同样存在人工判别困难的问题.
综上所述, 有监督模型需要对每个案件数据进行大量标注, 人工成本较高; 现有的无监督和弱监督模型虽然可以快速获取评价对象词项, 但在评价对象分类中仍然需要人工判断每个主题所对应的类别. 为此, 本文提出一种弱监督的评价对象识别方法, 通过对评论句进行两次不同的编码和重构, 同时利用少量分类标签数据引导, 使模型能自动分类评价对象, 挖掘评价对象词项.
2
基于变分双主题表征的评价对象识别模型
本文模型的整体思路包括如下3个部分: 首先基于无监督变分双主题表征网络对微博评论进行编码和重构, 在相同的向量空间中建立词向量、句向量和主题表征向量之间的关系; 然后基于少量标签样本的类别信息对评价对象识别过程进行微调; 最后联合训练无监督变分双主题重构损失和有监督标签分类损失, 实现对评论句的自动分类. 模型整体结构如图2 所示.
2
The structure of the proposed model
本文模型结构图
2.1
基于变分双主题表征网络的句向量编码和重构
变分双主题表征网络可以实现对微博评论的无监督编码和重构, 包括: 句向量始表征和句向量变分编码与重构两个主要模块.
2.1.1
初始句向量表征
首先预训练数据集的词向量, 得到每个词的词向量. 用
\begin{document}${{{e}}_{{x_i}}} \in {\mathbb{R}^D}$\end{document}
表示输入句子
\begin{document}$x$\end{document}
中第
\begin{document}$i$\end{document}
个单词的词向量, 则句子嵌入为
\begin{document}${\mathbf{E}} = {{{e}}_{{x_1}}} \oplus {{{e}}_{{x_2}}} \oplus \ldots \oplus {{{e}}_{{x_n}}}$\end{document}
,
\begin{document}$ \oplus $\end{document}
是拼接操作,
\begin{document}${\mathbf{E}} \in {\mathbb{R}^{n \times D}}$\end{document}
,
\begin{document}$n$\end{document}
是句子长度, D 是词向量维度. 利用注意力来计算句子的原始评价对象向量, 具体操作如下所示.
1
\begin{document}$ A = \left( {{\mathbf{EM}} + b{u^{\text{T}}}} \right){{\mathbf{E}}^{\text{T}}} $ \end{document}
2
\begin{document}$ {\theta _i} = \frac{1}{n}\mathop \sum \limits_{j = 1}^n {A_{ij}} $ \end{document}
3
\begin{document}$ {\alpha _i} = \frac{{{{\exp}}\left( {{\theta _i}} \right)}}{{\displaystyle\mathop \sum \nolimits_{i = 1}^n {{\exp}}\left( {{\theta _i}} \right)}} $ \end{document}
4
\begin{document}$ r = \mathop \sum \limits_{i = 1}^n {\alpha _i}{e_{{x_i}}} $ \end{document}
其中,
\begin{document}${\mathbf{M}} \in {\mathbb{R}^{{{D}} \times {{D}}}}$\end{document}
,
\begin{document}$b \in {\mathbb{R}^n}$\end{document}
为待优化的参数,
\begin{document}$u \in {\mathbb{R}^D}$\end{document}
是值全为1的向量,
\begin{document}$A \in {\mathbb{R}^{{{n}} \times {{n}}}}$\end{document}
是自注意力矩阵,
\begin{document}${\theta_i}$\end{document}
是句子中第i 个词的权重, 而
\begin{document}${\alpha _i}$\end{document}
是第i 个词的归一化权重. 通过注意力操作, 输入句子被表示为初始的句向量
\begin{document}$r \in {\mathbb{R}^{{D}}}$\end{document}
, 它更多地关注与评价对象相关的单词.
2.1.2
句向量变分编码和重构
将初始句向量进行两次变分编码和重构, 包括基于辅助主题表征的编码和重构, 以及基于核心主题表征的编码和重构, 进而得到句子的辅助主题分布和核心主题分布. 辅助主题表征的主题数目设置为较核心主题表征更大的值, 因此辅助主题向量代表向量空间中较小的主题聚类簇; 核心主题表征则对应于较大的主题聚类簇. 基于不同大小聚类簇的编码与重构能使句子学到更多的主题特征.
(1) 基于辅助主题表征的编码与重构
将初始句向量r 用变分网络编码为隐向量
\begin{document}${\textit{z}} \in {\mathbb{R}^K}$\end{document}
,
\begin{document}${\textit{z}}$\end{document}
为K 维的辅助主题分布, 其中的某个值
\begin{document}${{\textit{z}}_l}$\end{document}
表示输入句子x 属于第l 个评价对象的概率. 变分编码结构如图3 所示. 假设
\begin{document}${\textit{z}}$\end{document}
服从正态分布
\begin{document}$\mathcal{N}\left( {\mu , \sigma } \right)$\end{document}
, 则:
3
The structure of variational encoder
变分编码结构图
5
\begin{document}$ {\textit{z}} = \mu + \sigma \odot \varepsilon $ \end{document}
其中,
\begin{document}$\;\mu = {d_1}\left( r \right)$\end{document}
,
\begin{document}${\text{log}}\sigma = {d_2}\left( r \right)$\end{document}
,
\begin{document}${d_1}$\end{document}
和
\begin{document}${d_2}$\end{document}
为两个线性变换层,
\begin{document}$\varepsilon $\end{document}
为服从正态分布的随机值.
用
\begin{document}${t_l} \in {\mathbb{R}^D}$\end{document}
表示数据集中第l 个评价对象的D 维向量, 则辅助主题表征为
\begin{document}${\mathbf{T}} = {t_1} \oplus {t_2} \oplus \ldots \oplus {t_K}$\end{document}
,
\begin{document}${\mathbf{T}} \in {\mathbb{R}^{K\times D}}$\end{document}
, 辅助句向量可以由
\begin{document}${p_{\textit{z}}}$\end{document}
和T 进行重构, 过程如下所示:
6
\begin{document}$ {p_{\textit{z}}} = {\mathit{softmax}}\left( {\textit{z}} \right) $ \end{document}
7
\begin{document}$ r' = {{\mathbf{T}}^{\text{T}}}{p_{\textit{z}}} $ \end{document}
其中,
\begin{document}$r'$\end{document}
为重构的辅助句向量.
(2) 基于核心主题表征的编码与重构
将辅助句向量
\begin{document}$r'$\end{document}
用如图3 所示的变分编码为隐向量
\begin{document}${\textit{z}}' \in {\mathbb{R}^{K'}}$\end{document}
,
\begin{document}${\textit{z}}'$\end{document}
代表
\begin{document}$K'$\end{document}
维的核心概率分布, 则分布中的某个值
\begin{document}${{\textit{z}'}_l}$\end{document}
表示输入句子x 属于第l 个核心评价对象的概率. 同样假设
\begin{document}${\textit{z}}'$\end{document}
服从正态分布
\begin{document}$\mathcal{N}\left( {\mu ', \sigma '} \right)$\end{document}
, 则
8
\begin{document}$ {\textit{z}}' = \mu ' + \sigma ' \odot \varepsilon $ \end{document}
其中,
\begin{document}$\;\mu {'} = {d'_1}\left( {r{'}} \right)$\end{document}
,
\begin{document}$\log\sigma {'} = {d'_2}\left( {r{'}} \right)$\end{document}
,
\begin{document}${d'_1}$\end{document}
和
\begin{document}${d'_2}$\end{document}
为两个线性变换层,
\begin{document}$\varepsilon $\end{document}
为服从正态分布的随机值.
用
\begin{document}${t'_l} \in {\mathbb{R}^D}$\end{document}
表示数据集中第
\begin{document}$l$\end{document}
个核心主题的
\begin{document}$D$\end{document}
维向量, 则核心主题表征为
\begin{document}${\mathbf{T{'}}} = {t'_1} \oplus {t'_2} \oplus \cdots \oplus {t'_{K{'}}}$\end{document}
,
\begin{document}${\mathbf{T{'}}} \in {\mathbb{R}^{K' \times D}}$\end{document}
, 句子的核心句向量可以由
\begin{document}${p_{{\textit{z}}'}}$\end{document}
和T ' 进行重构.
9
\begin{document}$ {p_{{\textit{z}}'}} = {\mathit{softmax}}\left( {{\textit{z}}'} \right) $ \end{document}
10
\begin{document}$ r'' = {{\mathbf{T'}}^{\text{T}}}{p_{{\textit{z}}'}} $ \end{document}
其中,
\begin{document}$r''$\end{document}
为第2次重构的核心句向量.
2.1.3
无监督编码重构的损失
根据以上步骤, 得到输入句子的3个表征, 即初始句向量r , 重构的句向量r' 和r'' . 对于输入句子, 从数据集中随机采样num 个句子作为负样本, 将每个负样本向量用其平均词向量
\begin{document}${n_i}$\end{document}
来表征. 如果模型两次重构的句向量较为合理, 则它们与初始句向量应该较为相似, 而和负样本向量尽量不同. 因此, 第j 个句子的损失可使用铰链损失
\begin{document}${J_j}\left( \theta \right)$\end{document}
, 即最大化r' 、r'' 和r 之间的内积, 同时最小化r' 、r'' 和负样本之间的内积, 计算公式如下:
11
\begin{document}$ {J_j}\left( \theta \right) = \mathop \sum \limits_{i = 1}^{num} {\rm{max}}(0, 1 - \lambda rr' - rr'' + \lambda r'{n_i} + r''{n_i}) $ \end{document}
其中,
\begin{document}$\lambda $\end{document}
是一个超参数, 用于控制辅助主题重构的权重.
将数据集中所有句子的重构损失
\begin{document}${J_j}\left( \theta \right)$\end{document}
加和, 得到模型的无监督重构损失
\begin{document}$J\left( \theta \right)$\end{document}
.
2.2
基于少量标签数据的评价对象类别预测
对于少量的标签数据, 同样用第2.1节的方法进行句子编码和重构. 其中的注意力层、句子两次重构所用到的辅助主题表征T 和核心主题表征T ' 是与无标签数据共享参数的, 而两次变分编码所用到的线性变换层
\begin{document}${d_{1c}}$\end{document}
、
\begin{document}${d}'_{1{c}}$\end{document}
、
\begin{document}${d_{2c}}$\end{document}
、
\begin{document}${d'_{2c}}$\end{document}
则与无标签数据不同. 将标签数据的辅助主题分布
\begin{document}${{\textit{z}}_{{c}}}$\end{document}
和核心主题分布
\begin{document}${\textit{z}}'_{c}$\end{document}
进行拼接,
\begin{document}${{\textit{z}}_{{{c}}\_{\text{all}}}} = {{\textit{z}}_{{c}}} \oplus {\textit{z}}'_{{c}}$\end{document}
,
\begin{document}${{\textit{z}}_{{{c}}\_{\text{all}}}} \in {\mathbb{R}^{{{K}} + {{K'}}}}$\end{document}
, 之后将拼接的特征用于分类, 计算出标签数据属于评价对象类别的概率r . 计算公式为:
12
\begin{document}$ r = {{\textit{z}}_{c\_{\text{all}}}}{W_c} + {b_c} $ \end{document}
用softmax 对r 进行归一化, 得到模型所预测的评价对象类别y :
13
\begin{document}$ y = {\mathit{softmax}}\left( r \right) $ \end{document}
最后分类损失采用交叉熵代价函数计算:
14
\begin{document}$ {J_c}\left( \theta \right) = \mathop \sum \limits_{{{i}} = 1}^{{C}} {g_i}{\text{log}}\left( {{y_i}} \right) $ \end{document}
其中,
\begin{document}${g_i}$\end{document}
表示真实的评价对象类别标签.
2.3
损失函数的联合优化
通过最小化无监督重构损失
\begin{document}$J\left( \theta \right)$\end{document}
, 可以优化主题表征网络参数; 通过最小化分类损失
\begin{document}${J_c}\left( \theta \right)$\end{document}
, 则可以优化模型的分类网络参数. 考虑到两个优化目标互有影响, 因此, 本文采用联合训练策略, 同时优化重构损失
\begin{document}$J\left( \theta \right)$\end{document}
和分类损失
\begin{document}${J_c}\left( \theta \right)$\end{document}
. 此外, 评价对象类型可能遭遇冗余问题, 因此参考文献[7 ]的做法, 在损失函数中加入两个正则项, 确保评价对象的多样性.
15
\begin{document}$ {V}^{\prime }\left(\theta \right)=\Vert \mathbf{{T}}'_{n}\cdot \mathbf{{T}}'_{n}{}^{\text{T}}-\mathbf{I}\Vert $ \end{document}
16
\begin{document}$ {V}^{″}\left(\theta \right)=\Vert \mathbf{{T}}^{''}_{n}\cdot{\mathbf{{T}}_n^{''}}^{\text{T}}-\mathbf{I}\Vert $ \end{document}
其中, I 是单位矩阵,
\begin{document}${{\mathbf{T}}'_n}$\end{document}
是T ' 的行归一化,
\begin{document}${{\mathbf{T}}^{''}_n}$\end{document}
和T '' 也是如此. 当任意两个不同行向量的内积为零时,
\begin{document}$V'$\end{document}
和
\begin{document}$V''$\end{document}
达到它们的最小值. 因此, 正则化项鼓励主题表征的各行向量之间的正交性, 并惩罚不同行向量之间的冗余. 最终的目标函数
\begin{document}$L\left( \theta \right)$\end{document}
为:
17
\begin{document}$ L\left( \theta \right) = J\left( \theta \right) + \alpha {J_c}\left( \theta \right) + \beta V'\left( \theta \right) + \beta {V^{''}}\left( \theta \right) $ \end{document}
其中,
\begin{document}$\alpha $\end{document}
是控制分类损失权重的超参数,
\begin{document}$\;\beta $\end{document}
是控制评价对象多样性权重的超参数.
模型学习目标是通过优化参数来最小化目标函数
\begin{document}$L\left( \theta \right)$\end{document}
. 模型训练完成后, 可以通过公式(13)中的分类概率将测试句子分类到对应的评价对象类别, 并选择词向量最接近于核心主题表征中某个行向量的前n 个词作为对应评价对象类别的词项.
3
实验与分析
3.1
数据集
本文采集了2个案件的新浪微博评论数据集, 进行模型训练和评估. 3名经过培训的专业人员同时给评论打标签, 将评论标记为涉案舆情较重要的评价对象类别, 最终选择标签一致的评论. 数据集基本信息如表1 所示. 案件1为奔驰女车主维权案, 数据集包含44907条无标签样本, 有4种标注的评价对象类别, 分别为法律机构、商家(当事人)、消费者(当事人)、其他, 标签样本共1925条. 案件2为重庆公交车坠江案, 数据集包含23705条无标签样本, 有4种手动标注的评价对象类别, 分别为政府机构、公交司机(当事人)、媒体、其他, 标签样本共1660条. 两个数据集均划分80%的标签样本作为最终分类性能评估的测试集.
1
Experimental datasets
实验数据集
数据集
无标签样本
标签样本
词表大小
案件1: 奔驰女车主维权案
44907
法律机构: 865
商家(当事人): 640
消费者(当事人): 290
其他: 130
45023
案件2: 重庆公交车坠江案
23705
政府机构: 286
公交司机(当事人): 564
媒体: 662
其他: 146
17017
3.2
实验参数设置
采用Skipgram模型[32 ] 初始化数据集的词向量, 将向量维度设置为200, 窗口大小设置为5, 负样本大小设置为5. 使用k均值聚类将词向量聚类为不同的簇, 并取簇的质心向量初始化主题表征中的主题向量, 其他模型参数随机初始化. 模型训练过程中词向量固定不动, 使用Adam优化器, 学习率为0.001, 为避免过拟合, 采用了dropout策略. 通过实验比较, 将核心主题数目设置为10个, 辅助主题数目设置为20个, 公式(11)中的负样本数目为20. 超参数
\begin{document}$\alpha $\end{document}
设置为1,
\begin{document}$\;\beta $\end{document}
设置为0.1,
\begin{document}$\lambda $\end{document}
设置为0.5.
3.3
基线模型
为了验证本文模型的性能, 将其与一些基线进行了比较. 第1类是无监督模型, 包括LDA、BTM、ETM、ABAE和Ours_unlabelled, 需要通过人工推断评价对象的类别标签来对句子进行分类. 第2类是弱监督主题模型, 包括MATE和ABAE_lablled. 为了公平比较不同模型在评价对象词项挖掘方面的性能, 所有基线模型的主题数目设为与本文模型的核心主题数目相同, 即设为10.
● LDA[1 ] : 采用LDA的标准实现, 参数推理采用的是Gibbs采样, 每句评论都作为一个单独的文档处理. 设置
\begin{document}$\alpha $\end{document}
=0.05和
\begin{document}$\;\beta $\end{document}
=0.1, 并运行100次Gibbs采样迭代.
● BTM[24 ] : 专门为短文本设计的Biterm主题模型, 通过生成无序的词对共现来缓解短文本中的数据稀疏问题. 对于BTM, 设置
\begin{document}$\alpha = 50/{{K}}$\end{document}
和
\begin{document}$\;\beta = 0.005$\end{document}
.
● ETM[29 ] : 是一种将传统主题模型与词嵌入结合在一起的主题模型, 其主题词分布是词嵌入及其嵌入的指定主题之间的内积. ETM的词嵌入维度设为200, 使用Adam优化器, 学习率为0.005.
● ABAE[7 ] : 一种无监督的神经主题模型. ABAE的词向量维度为200, 使用Adam优化器, 学习率为0.001.
● Ours_unlabelled: 将本文模型中标签数据的分类损失去除, 只用重构损失进行参数优化. 最终评论的评价对象类别用其核心主题分布中的最大概率值进行判断. 其余模型参数设置与本文模型一致.
● MATE[32 ] : 是在ABAE模型基础上改进的一种弱监督学习模型, 为每个感兴趣的评价对象选取若干种子词, 使用相应种子词嵌入的平均值初始化评价对象嵌入, 并在整个训练过程中固定. 该模型也需要通过人工推断评价对象类别标签来对句子进行分类. 本文实验中, 为每类评价对象选取10个种子词. 其余模型参数设置与ABAE一致.
● ABAE_lablled: 以ABAE为基本框架, 对有标签和无标签样本进行编码和重构, 并以标签样本的主题分布为分类特征. 采用与本文相同的模式, 联合训练重构损失和分类损失. 模型训练完成后可直接进行评价对象分类. 其模型参数设置与ABAE一致.
3.4
实验结果
3.4.1
评价对象类别推断
首先比较了传统主题模型BTM、基于词嵌入的主题模型ETM和本文模型挖掘到的案件1中表征主题的前10个(top10)评价对象词项, 如表2 所示. 每个模型有10个主题, 表2 中列举了6个主题.
2
Opinion target terms of case 1
案件1的评价对象词项
推断的评价对象类别
模型
top10的评价对象词项
法律机构
本文模型
主题1: 纪委 市长 工商部门 热线 没人接 组建 公安局 消协 物价局 陕西省
主题2: 处罚 法规 违反 违法行为 经营 给予 三倍 甩锅 重罚涉嫌
BTM
主题1 : 消费者 维权 部门 回复 中国 国家 法律 奔驰 政府 社会
主题2: 西安 回复 陕西 违法 成立 年 政府 维权 中国 地方
ETM
主题1: 维权 消费者 部门 国家 法律 政府 老百姓 相关 监管部门 商家
主题2: 西安 央视 盗抢 高太多 探访 连夜 全国 陕西 工商局 成立
商家
本文模型
主题3: 手续费 服务费 按揭 贷款 交 费用 利息 一万 买房子 全款
主题4 : 转向 方向盘 功能 车体 失控 偷换 灯亮 开着 公里 附送
BTM
主题3: 服务费 金融 回复 贷款 说 奔驰 买 收 买车 销售
主题4: 奔驰 万 车 漏油 买 回复 版 换 发动机 说
ETM
主题3: 服务费 金融 4s店 销售 买车 贷款 收取 汽车 费用 手续费
主题4: 奔驰 漏油 事件 奔驰车 品牌 发动机 宝马 66 探访 德国
消费者
本文模型
主题5: 弱势群体 公民 太难 艰难 底层 普通百姓 践踏 薄弱 精神 内需
主题6: 句句 有理有据 条理清晰 在理 思路清晰 赞 姐姐 清晰 哑口无言 音频
BTM
主题5: 奔驰 车主 回复 女 说 维权 真的 消费者 小姐姐 中国
主题6 : 回复 奔驰 说 哭 坐在 女子 维权 问 禅师 110
ETM
主题5 : 真的 感觉 说话 哈哈哈 逻辑 女高管 清晰 有理有据 高管 本来
主题6: 车主 希望 事情 小姐姐 解决 这件 支持 关注 道歉 声援
评价对象类别推断针对的是建模的10个主题, 根据每个主题的若干个词项人工判别其所对应的评价对象类别, 不同主题可能被判别为同一个评价对象类别. 从表2 可以看出, 几种主题模型都存在难以根据评价对象词项推断出评价对象类别的情况, 如BTM对应于“法律机构”类别的主题1, ETM对应于“消费者”类别的主题6, 以及本文模型对应于“商家”类别的主题4, 代表词项的指示性都不强, 极有可能推断错误. 这3种模型还有其他主题的代表词项未在表2 中列出, 也难以推断评价对象类别. 这是所有的无监督主题模型用于评价对象判别时的主要问题. 此外, 相比其他模型, 本文模型所挖掘到的同类评价对象代表词项更为相似, 更容易推断出评价对象类别. 这是因为本文模型利用了主题向量和词向量在向量空间中的关系, 相近的词更容易聚集为一类主题. 在案件2数据集上有类似的实验结果. 这些获得的评价对象词项的主题连贯性和多样性在第3.4.3节中说明.
3.4.2
评价对象分类
对于句子的评价对象分类, 基线模型先根据句子主题分布的最高概率值得到其对应的主题, 再根据主题与评价对象类别之间的映射关系将评价对象类别分配给句子. 例如, 对于“工商执法等部门介入只是退款退车”一句, 如果主题分布最大值是表2 中主题2, 而主题2被人工推断为“法律机构”类别, 那么该句即被标记为“法律机构”类别. 对于本文模型和ABAE_labelled, 则通过句子的最大分类概率得到其评价对象类别. 本文评估了句子的评价对象分类在两个案件数据集上的性能. 评估指标是精度(precision, P )、召回率(recall, R )和F 1值, 结果见表3 和表4 . 对于本文模型和ABAE_labelled, 表中列出的结果是使用数据集有标签样本的约12%用于分类训练得到.
3
Classification results of opinion targets in case 1 based on different models
不同模型对于案件1的评价对象分类结果
评价对象类别
法律机构
商家
消费者
Weighted-average
模型
P
R
F 1
P
R
F 1
P
R
F 1
P
R
F 1
LDA
0.737
0.576
0.647
0.513
0.606
0.556
0.512
0.441
0.474
0.621
0.565
0.586
BTM
0.798
0.85
0.823
0.546
0.331
0.412
0.464
0.855
0.602
0.654
0.666
0.641
ETM
0.762
0.653
0.703
0.664
0.666
0.665
0.627
0.476
0.541
0.705
0.629
0.663
ABAE
0.731
0.665
0.661
0.732
0.638
0.682
0.498
0.731
0.592
0.694
0.666
0.657
Ours_unlabelled
0.781
0.734
0.757
0.859
0.475
0.612
0.498
0.731
0.592
0.763
0.641
0.678
MATE
0.781
0.734
0.757
0.668
0.591
0.627
0.392
0.738
0.512
0.678
0.684
0.671
ABAE-labeled
0.853
0.702
0.77
0.716
0.703
0.709
0.441
0.763
0.559
0.751
0.71
0.721
本文模型
0.854
0.81
0.831
0.782
0.753
0.768
0.645
0.814
0.72
0.795
0.79
0.791
观察表3 和表4 的结果, 可以有以下分析: (1)从3个评价对象类别的weighted-average评估指标结果来看, 无监督的LDA、BTM、ETM和ABAE、Ours_unlabeled等未使用标签数据的主题模型需要通过代表词项来推断评价对象类别, 影响了分类性能, 表现都不太理想. 需要说明的是, 表中列出的结果是从人工推断的结果中选取了每种模型多组测试的最优结果. LDA的分类结果在两个数据集上都最差, ETM稍好. Ours_unlabeled相比ABAE有0.02和0.03的F 1值提升, 说明本文模型通过两次变分编码和解码能得到更好的核心主题分布, 有利于评价对象分类. (2)对于案件1数据集, MATE的性能有所提升, 但在案件2数据集上则反而性能下降, 原因可能与种子词的选择质量有关. 本文提出的弱监督方式也是一种先验领域知识的指导, 但只需要人工标注少量句子标签. 根据评论判别评价对象类别相比根据整个语料挑选评价对象种子词来说更加直观和便利, 且分类结果提升较明显. 相比MATE, 本文模型的加权平均F 1值在两个数据集上分别提升了0.13和0.176. ABAE_labelled在ABAE基础上加入标签样本训练分类器, 相比原来的ABAE模型也有较大的提升, 两个数据集的加权宏平均F 1值相比ABAE分别提升了0.064和0.088, 再次证明了本文提出的利用少量有标签样本进行评价对象类别指导的有效性. (3)对于3种不同的评价对象类别, 本文模型和ABAE-labelled通常会在标签样本多的类别上具有更高的分类性能, 而LDA、BTM、ETM、ABAE和Ours_unlabelled等未使用标签数据的主题模型则没有这个规律, 分类性能主要取决于人工推断的标签和评论主题分布的合理性.
4
Classification results of opinion targets in case 2 based on different models
不同模型对于案件2的评价对象分类结果
评价对象类别
政府机构
公交司机
媒体
weighted-average
模型
P
R
F 1
P
R
F 1
P
R
F 1
P
R
F 1
LDA
0.771
0.525
0.625
0.508
0.264
0.347
0.825
0.685
0.748
0.745
0.545
0.626
BTM
0.513
0.549
0.531
0.869
0.507
0.64
0.657
0.849
0.74
0.643
0.672
0.643
ETM
0.763
0.306
0.437
0.683
0.868
0.765
0.747
0.822
0.783
0.741
0.638
0.65
ABAE
0.513
0.556
0.534
0.49
0.528
0.508
0.759
0.846
0.8
0.616
0.677
0.645
Ours_unlabelled
0.513
0.549
0.531
0.869
0.507
0.64
0.757
0.837
0.795
0.687
0.667
0.667
MATE
0.513
0.549
0.531
0.624
0.668
0.645
0.654
0.84
0.735
0.596
0.698
0.642
ABAE-labelled
0.628
0.848
0.721
0.776
0.759
0.768
0.714
0.753
0.728
0.694
0.79
0.733
本文模型
0.754
0.799
0.776
0.853
0.806
0.829
0.832
0.867
0.849
0.807
0.83
0.818
3.4.3
主题连贯性和多样性
采用主题连贯性来评估模型挖掘评价对象词项的性能, 这是一种基于单词共现的度量评价对象质量的方法[33 ] , 定义为:
18
\begin{document}$ {{coh}}\left( {t, {V^{\left( t \right)}}} \right) = \frac{2}{{M\left( {M + 1} \right)}}\mathop \sum \limits_{m = 2}^M \mathop \sum \limits_{l = 1}^{m - 1} {\text{log}}\frac{{D\left( {v_m^{\left( t \right)}, v_l^{\left( t \right)}} \right) + 1}}{{D\left( {v_l^{\left( t \right)}} \right)}} $ \end{document}
其中,
\begin{document}${V^{\left( t \right)}}$\end{document}
表示在主题t 中包含有M 个概率最大的代表性词项.
\begin{document}$v_m^{\left( t \right)}$\end{document}
和
\begin{document}$v_l^{\left( t \right)}$\end{document}
是
\begin{document}${V^{\left( t \right)}}$\end{document}
中的第m 个和第l 个词,
\begin{document}$D\left( {v_l^{\left( t \right)}} \right)$\end{document}
是数据集中包含
\begin{document}$v_l^{\left( t \right)}$\end{document}
的句子数,
\begin{document}$D\left( {v_m^{\left( t \right)}, v_l^{\left( t \right)}} \right)$\end{document}
是同时包含
\begin{document}$v_m^{\left( t \right)}$\end{document}
和
\begin{document}$v_l^{\left( t \right)}$\end{document}
的句子数. 通常, 主题连贯性得分越高, 主题的语义相关性越强. 用以下公式计算平均主题连贯性得分:
19
\begin{document}$ {{COH}} = \mathop \sum \limits_{t = 1}^K {{coh}}\left( {t, {V^{\left( t \right)}}} \right) $ \end{document}
所有模型的主题数K 设为10, 分别计算前10个(top 10)至前50个(top 50)词项的平均主题连贯性得分, 如图4 所示.
4
The average topic coherence score of different opinion target terms
不同评价对象词项的平均主题连贯性得分
可以看出案件1的主题连贯性不如案件2, 但两个数据集的总体差距不大. 此外, 所有模型在前10个至40个词项上的主题连贯性表现没有较大差异, 而在前50个词项的主题连贯性上差距明显, 其中BTM最好, ETM次之, 包括本文模型在内的其余模型差距不大.
此外, 结合主题多样性来评估模型. 主题多样性定义为在评价对象词项中不重复的词项占所有词项的百分比[33 ] . 多样性接近0表示词项冗余, 多样性接近1表示词项更加多样. 两个数据集的多样性结果如表5 和表6 所示.
5
Topic diversity of case 1 based on different models
不同模型的案件1主题多样性
词项
LDA
BTM
ETM
ABAE
MATE
本文模型
top 10
0.95
0.64
0.95
0.99
0.99
0.99
top 20
0.945
0.685
0.93
0.99
0.98
0.995
top 30
0.937
0.673
0.91
0.993
0.99
0.997
top 40
0.932
0.6825
0.8825
0.997
0.997
0.997
top 50
0.938
0.606
0.846
0.998
0.99
0.998
6
Topic diversity of case 1 based on different models
不同模型的案件2主题多样性
词项
LDA
BTM
ETM
ABAE
MATE
本文模型
top 10
0.94
0.71
0.97
1
1
1
top 20
0.935
0.655
0.95
1
1
1
top 30
0.913
0.656
0.903
1
0.99
0.997
top 40
0.916
0.64
0.885
0.99
0.99
0.997
top 50
0.918
0.498
0.858
0.994
0.994
0.994
可以看出BTM虽然具有最好的主题连贯性, 但多样性是最差的, 即BTM抽取到的重复词项较多. 这个特性也在表2 中有所体现, 例如BTM在几个主题中重复抽取到“中国”“奔驰”等词项. LDA、ABAE、MATE和本文模型的主题多样性较好, 说明这几种模型挖掘到的评价对象词项最为丰富. 尤其是ABAE、MATE和本文模型的主题多样性基本在0.99以上, 说明这类以词嵌入为基础的模型能挖掘出更具多样性和独特性的词项.
3.4.4
不同训练样本数量的结果比较
对于两个数据集的标签样本, 分别随机选取占标签样本总数的6%、9%、12%、15%进行训练, 用划分好的测试集测试. 所得分类结果如图5 所示.
5
The classification results using different numbers of labelled samples
不同训练样本数量的分类结果
可以看出, 随着标签样本的增加, 精确率P 、召回率R 和F 1值都明显增加, 其中R 的提升最为显著, 说明随着标签样本分类信息的加入, 模型能从数据集中找出更多特定评价对象的评论. 当使用了6%左右的有标签样本(约100个样本)时, 模型在两个数据集上即可达到0.612和0.676的F 1值, 这已经在案件2数据集上稍优于表2 中大多数无监督模型. 随着标签样本的增加, 模型分类性能不断提升. 当使用了12%左右的有标签样本(约200个样本)时, 模型的F 1值已经达到0.79和0.818, 相比表2 中的所有其他模型具有明显的优势. 继续增加至15%的有标签样本, 模型F 1值提升至0.813和0.849. 总体来说, 本文模型只需要较少量的标签样本即可达到较高的分类性能.
3.4.5
双主题表征有效性实验
对本文所提出的双主题表征网络进行了消融实验. 将本文模型的辅助主题重构去除, 即模型只对句向量进行一次重构, 学习一个主题表征, 标签样本也只使用一种主题分布作为分类特征. 对于一次重构学习的主题表征, 分别设置主题数K 为10, 20和30, 而本文完整模型的核心主题数为10, 辅助主题数为20. 比较结果如图6 所示, 其中案件1使用了12%的标签样本, 案件2使用了15%的标签样本.
6
The comparison of classification results between one-time reconstruction model and the complete model
一次重构模型与完整模型的分类结果比较
从图6 可以看出, 对于只进行一次重构的模型, 在案件1数据集上, 随着主题数增加, 分类结果的F 1值略有提升; 而在案件2数据集上, 主题数为20时精确率P 值较低, 使得F 1值也低于主题数10的结果. 本文完整模型相比只进行一次重构的模型, 在3个评价指标上都有明显提升, 其中在案件1数据集上F 1值提升了0.04左右, 在案件2数据集上F 1值提升了0.02左右. 以上结果说明通过辅助主题重构学习到的主题分布对于评价对象分类有较好的作用. 本文模型中, 辅助主题数目设置为核心主题数目的倍数, 因此, 核心主题向量对应于向量空间中相对较大的聚类簇(主题数目少), 而辅助主题向量对应为小的聚类簇(主题数目大). 这样, 同时利用辅助主题和核心主题可以缓解ABAE等主题模型中主题数目固定带来的不同大小聚类簇特性学习不充分的问题.
3.4.6
辅助主题挖掘的评价对象词项
上述实验表明, 通过辅助主题表征矩阵, 提高了模型的分类性能. 实际上, 通过辅助主题矩阵, 还可以获得额外的评价对象词项. 表7 列出了案件2的辅助主题向量推断的2组评价对象词项, 分别为公交车坠江案中的案件刑罚和当事人. 这两组评价对象词项是其他主题模型都没挖掘到的词项, 对于全面掌握案件的评价对象而言很有价值.
7
Opinion target terms extracted by auxiliary topic vector
使用辅助主题向量抽取的评价对象词项
top 10的评价对象词项
评价对象
刑法 判 重罚 有期徒刑 触犯 十年 刑事责任 行政拘留 无期徒刑 严重后果
案件刑罚
乘客 几秒钟 肢体 还击 争吵 劝阻 动手 争执 肢体冲突 上前
乘客 (案件当事人)
4
结 论
针对目前主流的基于深度主题表征的评价对象识别方法需要预设固定的主题数目, 且最终评价对象识别依赖人工推断问题, 本文提出了一种基于变分双主题表征的弱监督评价对象识别模型, 结合了两个不同的主题表征来重构句子表示, 同时基于少量标签样本的类别信息, 能较好地将评论句自动分类为评价对象类别, 挖掘评价对象词项. 相比其他无监督主题模型, 本文模型通过有效利用少量有标签样本的类别信息, 能使模型准确预测评价对象类别; 相比需要挑选种子词的弱监督主题模型, 本文模型标注句子评价对象类别的方式更容易实现, 分类性能更好. 同时, 所提出的两次变分编码和重构, 能使模型学习到更合理的主题表征, 从而提高分类性能; 通过核心主题表征得到兼具较好主题连贯性和多样性的评价对象代表词项, 并通过辅助主题表征得到额外的评价对象词项. 未来, 计划在更多的数据集中实践所提出的模型.
References
[
]1
Blei DM, Ng AY, Jordan MI
Latent dirichlet allocation
Journal of Machine Learning Research
2003
3
993
1022
10.5555/944919.944937
Blei DM, Ng AY, Jordan MI. Latent dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993–1022. [DOI: 10.5555/944919.944937]
[
]2
[
]3
[
]4
[
]5
[
]6
[
]7
[
]8
[
]9
[
]10
[
]11
[
]12
[
]13
[
]14
[
]15
[
]16
Qiu G, Liu B, Bu JJ, Chen C
Opinion word expansion and target extraction through double propagation
Computational Linguistics
2011
37
1
9
27
10.1162/coli_a_00034
Qiu G, Liu B, Bu JJ, Chen C. Opinion word expansion and target extraction through double propagation. Computational Linguistics, 2011, 37(1): 9–27. [DOI: 10.1162/coli_a_00034]
[
]17
[
]18
[
]19
Nguyen DQ, Billingsley R, Du L, Johnson M
Improving topic models with latent feature word representations
Trans. of the Association for Computational Linguistics
2015
3
299
313
10.1162/tacl_a_00140
Nguyen DQ, Billingsley R, Du L, Johnson M. Improving topic models with latent feature word representations. Transactions of the Association for Computational Linguistics, 2015, 3: 299–313. [DOI: 10.1162/tacl_a_00140]
[
]20
Li CL, Duan Y, Wang HR, Zhang ZQ, Sun AX, Ma ZY
Enhancing topic modeling for short texts with auxiliary word embeddings
ACM Trans. on Information Systems
2018
36
2
11
10.1145/3091108
Li CL, Duan Y, Wang HR, Zhang ZQ, Sun AX, Ma ZY. Enhancing topic modeling for short texts with auxiliary word embeddings. ACM Transactions on Information Systems, 2018, 36(2): 11. [DOI: 10.1145/3091108]
[
]21
[
]22
[
]23
[
]24
[
]25
Cheng XQ, Yan XH, Lan YY, Guo JF
BTM: Topic modeling over short texts
IEEE Trans. on Knowledge and Data Engineering
2014
26
12
2928
2941
10.1109/TKDE.2014.2313872
Cheng XQ, Yan XH, Lan YY, Guo JF. BTM: Topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(12): 2928–2941. [DOI: 10.1109/TKDE.2014.2313872]
[
]26
[
]27
[
]28
彭敏, 杨绍雄, 朱佳晖
基于双向LSTM语义强化的主题建模
中文信息学报
2018
32
4
40
49
10.3969/j.issn.1003-0077.2018.04.005
彭敏, 杨绍雄, 朱佳晖. 基于双向LSTM语义强化的主题建模. 中文信息学报, 2018, 32(4): 40-49. [DOI: 10.3969/j.issn.1003-0077.2018.04.005]
Peng M, Yang SX, Zhu JH
Semantic enhanced topic modeling by bi-directional LSTM
Journal of Chinese Information Processing
2018
32
4
40
49
10.3969/j.issn.1003-0077.2018.04.005
Peng M, Yang SX, Zhu JH. Semantic enhanced topic modeling by bi-directional LSTM. Journal of Chinese Information Processing, 2018, 32(4): 40–49 (in Chinese with English abstract). [DOI: 10.3969/j.issn.1003-0077.2018.04.005]
[
]29
Dieng AB, Ruiz FJR, Blei DM
Topic modeling in embedding spaces
Trans. of the Association for Computational Linguistics
2020
8
439
453
10.1162/tacl_a_00325
Dieng AB, Ruiz FJR, Blei DM. Topic modeling in embedding spaces. Transactions of the Association for Computational Linguistics, 2020, 8: 439–453. [DOI: 10.1162/tacl_a_00325]
[
]30
[
]31
[
]32
[
]33