陈可佳(1980-), 女, 博士, 副教授, CCF专业会员, 主要研究领域为机器学习, 图数据挖掘
费子阳(1996-), 男, 硕士生, 主要研究领域为文本风格迁移, 自然语言处理
陈景强(1983-), 男, 博士, 副教授, 主要研究领域为自动摘要, 自然语言处理
杨子农(1997-), 男, 硕士生, 主要研究领域为机器翻译, 自然语言处理
文本风格迁移是近年来自然语言处理领域的热点问题之一, 旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等). 旨在梳理已有的技术, 以推进该方向的研究. 首先, 给出文本风格迁移问题的定义及其面临的挑战; 然后, 对已有方法进行分类综述, 重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法, 对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较; 同时, 还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能; 最后, 对文本风格迁移研究进行总结和展望.
Text style transfer is one of the hot issues in the field of natural language processing in recent years. It aims to transfer the specific style or attributes of the text (such as emotion, tense, gender, etc.) through editing or generating while retaining the text content. The purpose of this study is to sort out the existing methods in order to advance this research field. First, the problem of text style transfer is defined and the challenges are given. Then, the existing methods are classified and reviewed, focusing on the TST methods based on unsupervised learning and further dividing them into the implicit methods and the explicit methods. The implementation mechanisms, advantages, limitations, and performance of each method are also analyzed. Subsequently, the performance of several representative methods on automatic evaluation indicators such as transfer accuracy, text content retention, and perplexity are compared through experiments. Finally, the research of text style transfer is concluded and prospected.
“风格迁移”的概念于2015年最先由Gatys等人[
Examples of text style transfer.[
文本风格迁移示例[
negative -> positive
|
varying the code of tense
|
|
Success cases (成功案例) | Failure cases (失败案例) | |
the film is strictly routine!
|
the plot is not so original
|
i thought the movie was too bland and too much
|
由于缺乏大量的平行语料(parallel corpus), 文本风格迁移任务难以直接使用机器翻译中常用的序列到序列(sequence to sequence, seq2seq)[
本文对文本风格迁移领域的研究进行系统性地综述. 第1节给出该问题的定义并探讨这一领域目前面临的挑战和尚未解决的问题; 第2节对现有的方法、模型进行分类介绍; 第3节介绍已有的数据集和评价指标, 以及通过实验对其中的代表性方法进行验证并在自动化指标上进行比较; 最后给出未来可能的研究方向.
文本风格迁移是指在保留文本内容的基础上通过编辑或生成的方式更改文本的特定属性(注: 在已发表论文中, 常用“属性”一词来表示风格). 这里的属性可以指情感(sentiment)、时态(tense)、性别(gender)、政治倾向(political slant)等.
该任务可形式化为: 给定数据集
后文
Notations
符号表
符号 | 描述 | 符号 | 描述 | |
|
源属性 |
|
模型判别器 | |
|
目标属性 |
|
奖励函数 | |
|
带属性标注的句子集合 |
|
编码器参数 | |
|
含有源属性
|
|
生成器参数 | |
|
含有目标属性
|
|
判别器参数 | |
|
模型编码器 |
|
注意力权重 | |
|
模型生成器 |
|
文本的潜在表示 |
目前, 文本风格迁移任务主要存在以下难点.
(1) 缺少平行语料
针对不同的文本风格迁移任务需要构建不同的数据集, 而每构建一种平行语料数据集都需要大量的语言学知识和极大的人工开销, 因此目前仅有少量的平行语料数据集, 例如“现代英语-莎士比亚英语”风格的数据集Shakespeare[
(2) 难以分离内容和属性
文本风格迁移不仅要转换文本的属性还需要保留文本的内容, 然而在自然语言中文本的内容和属性往往纠缠在一起, 难以显式地分离. 例如: 句子“i’ve noticed the food service sliding down hill quickly this year.”, 如何让模型在隐空间中更好地分离出属性词(如这里的“sliding down hill”)的潜在表示, 是该任务的主要难点之一.
(3) 缺乏公认且统一的评价指标
文本风格迁移研究是在近几年才得到广泛的关注, 不同的工作采用的评价指标也不尽相同(本文在第3节介绍了各指标的具体含义). 评价指标的设计与选取对于模型性能的比较有至关重要的作用, 缺少公认且普适性的评价指标是该任务的另一个问题.
近年来涌现了越来越多的文本风格迁移方法, 从不同的研究角度应对以上的挑战. 根据训练数据是否为平行语料, TST方法可初步分为(如
Classification of text style transfer methods
文本风格迁移方法的分类
本文对每类方法均展开详细的介绍, 并对各方法的主要机制、优缺点和性能进行比较.
与许多自然语言生成任务(如文本摘要抽取、机器翻译等)相同, 在文本风格迁移(TST)任务上也可以使用基于监督学习的序列到序列(seq2seq)模型. 通常, seq2seq模型由编码器和解码器两个部分构成, 并使用平行语料库进行训练. 在训练过程中, 编码器端的输入是需要转换风格的文本, 解码器端的输出是转换目标风格后的文本. 在基于监督学习的TST方法中, Jhamtani等人[
文本风格迁移此前基本上是一个手动过程, 几乎没有自动化的TST方法. Jhamtani等人[
Wang等人[
Sancheti等人[
然而如上文所言, 不同风格之间的平行语料往往是缺乏的, 难以直接训练基于seq2seq的TST模型. 半监督学习旨在研究如何同时利用少量的有类标签的样本和大量的无类标签的样本改进学习性能[
Shang等人[
Zhang等人[
与机器翻译任务相比, 文本风格迁移任务的平行语料更难获取, 因此目前大部分工作均为基于无监督学习的方法, 旨在有效分离文本的属性和内容. 本节首先根据分离数据的形式(表示级还是文本级)将这类方法大致分为隐式方法和显式方法, 然后再从学习框架和策略的角度对每类方法作进一步细分.
(1) 隐式方法
该类方法是指模型自动学习句子内容和属性的潜在表示并进行风格的分离与转换. 目前, 主要采用了解缠、强化学习、回译、伪平行语料等策略, 并基于自编码器(auto-encoder, AE)[
● 解缠策略
解缠策略主要是通过编码器将文本映射到隐空间得到潜在表示, 从而分离内容和属性并进行属性迁移.
Framework of disentanglement strategy in TST
基于解缠策略的TST框架
第1种解缠策略最为常见(
由于VAE 和 GAN生成的文本在很大程度上是不可控的, 因此很少会被用来研究通用文本的生成. Hu等人[
其中,
当句子中存在多类属性时, 该方法可以控制某类属性的迁移. 例如, 在IMDB数据集[
Shen等人[
其中,
随后, Yang等人[
为了进一步提升深度隐变量模型在文本序列这类离散结构上的表现, Zhao等人[
Fu等人[
为了能在保持文本内容的情况下同时提高风格转换的准确率, Yi等人[
第2种解缠策略(
Wang等人[
Liu等人[
第3种解缠策略(
John等人[
● 强化学习策略
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题, 其目标是最大化长期累积的奖励[
Framework of reinforcement learning in TST
基于强化学习的TST框架
Luo等人[
这里,
其中,
随后, Gong等人[
● 回译策略
回译(back translation)[
Prabhumoye等人[
其中,
● 伪平行语料策略
与上述回译策略的目标不同, 另一类方法构建伪平行语料, 通过迭代的方法优化翻译模型, 实现风格迁移. 主要包括两个过程: 先通过构建伪平行语料, 再在相应的数据集上进一步训练这风格迁移模型.
Liao等人[
Zhang等人[
Jin等人[
● 其他特殊策略
此外, 还有一些采用特殊策略(如域自适应、概率模型等)的TST方法. 这些方法较为独立, 且存在特定的假设或前提.
Li等人[
He等人[
Li等人[
(2) 显式方法
该类方法认为, 句子的属性通常体现在独特的短语中, 如在句子“we sit down and we got some really slow and lazy service”中, “slow”和“lazy”是句子中的形容词, 能够体现该句子的消极属性. 因此一种简单有效的方法是只替换属性词, 而不是从头生成一个新句子, 即只需要改变风格相关的词或短语而保留风格无关的部分就可以达到风格迁移的目的.
该类方法一般分成3步: 1)删除(delete), 即找到并删除句子中的属性词; 2)检索(retrieve), 即检索与文本内容最相似的目标句子; 3)生成(generate), 即结合目标属性生成目标句子. 本文将这类方法统称为DRG方法, 框架如
Framework of DRG in TST
基于DRG的TST框架
DRG方法的关键在于第1)步, 即如何更好地定位属性词. 本文根据不同的属性词删除策略将DRG方法进一步细分为以下3类.
● 基于词频的删除策略
Li等人[
其中,
其中,
● 基于注意力机制的删除策略
注意力机制最早应用于RNN模型中进行图像分类任务[
Xu等人[
其中,
其中, BLEU[
Zhang等人[
其中,
由于文本预训练模型具有强大的特征提取能力[
Malmi等人[
● 基于词频和注意力机制结合的删除策略
Wu等人[
其中,
Comparison of various unsupervised TST methods
无监督的文本风格迁移方法对比
方法 | 动机 | 关键性技术 | 优点 | 局限性 | 性能 | ||
ACC | BLEU | PPL | |||||
Ctrl-Gen[ |
生成属性可控的高质量文本句子 | 基于属性编码控制的解缠、可控生成 | 高质量可控 | 可能生成语法错误的句子 | 很好 | 较好 | 一般 |
CAAE[ |
跨不同文本语料库共享潜在文本内容分布 | 基于属性编码控制的解缠、交叉对齐编码 | 基本符合目标属性且流畅度较好 | 文本内容可能会发生改变 | 较好 | 较差 | 较好 |
ARAE[ |
训练离散结构的深度潜变量模型 | 基于属性编码控制的解缠、对抗正则化
|
基本符合目标属性且流畅度较好 | 文本内容可能会发生改变 | 较好 | 一般 | 较好 |
MD[ |
学习单独的内容表示和属性表示 | 基于属性编码控制的解缠、多解码器 | 句子流畅性较好 | 可能生成不符合目标属性的句子 | 较差 | 一般 | 较好 |
SE[ |
基于属性编码控制的解缠、风格编码 | 句子流畅性较好 | 极可能生成不符合目标属性句子 | 较差 | 一般 | 较好 | |
Ctrl-LRE[ |
基于属性分类器以最少的潜在表示编辑取代对属性建模的过程 | 潜在表示迭代优化的解缠 | 综合性较好 | 可能会产生失败的案例 | 很好 | 很好 | 较好 |
DAE[ |
学习语言模型中属性和内容的潜在表示解缠 | 源属性和文本内容潜在表示分离的解缠 | 句子流畅性较好 | 文本内容很可能会发生改变 | 一般 | 较差 | 很好 |
DualRL[ |
一步映射直接迁移文本的风格, 而不需要任何内容和风格的分离 | 对偶强化学习 | 文本内容保留度高 | 可能生成不符合目标属性的句子 | 一般 | 很好 | 较好 |
RLS[ |
在强化学习过程中解缠文本内容和属性 | 强化学习 | 基本符合目标属性且流畅度较好 | 文本内容可能会发生改变 | 较好 | 较差 | 较好 |
BST[ |
弱化句子属性更好保留文本内容 | 回译 | 基本符合目标属性且流畅度较好 | 在各个数据集上的表现有差异 | 较好 | 较差 | 较好 |
IBT[ |
将TST看作无监督机器翻译任务 | 迭代回译 | 生成的句子符合目标属性 | 没有衡量句子的流畅度 | 很好 | 较好 | - |
IMAT[ |
更好的保留文本内容 | 迭代匹配和翻译 | 生成的句子符合目标属性 | 没有衡量句子的流畅度 | 很好 | 较好 | - |
DAST[ |
利用来自其他域的大量可用数据 | 领域自适应文本转换 | 综合性较好 | 句子流畅性不是
|
很好 | 较好 | 较好 |
DAST-C[ |
句子流畅性不好 | 很好 | 较好 | 较差 | |||
Template[ |
文本属性常由特定的词
|
基于词频的属性次
|
构建了多种方法, 满足不同的需求 | 缺乏普适性较好的方法 | 一般 | 较好 | 较差 |
RO[ |
很好 | 较差 | - | ||||
DO[ |
较好 | 一般 | 很好 | ||||
DAR[ |
很好 | 一般 | 很好 | ||||
Cycle-RL[ |
分为中和模块和情感模块解决无平行语料问题 | 基于注意力机制的属性词删除 | 文本内容保留度较好 | 可能生成不符合目标属性的句子 | 较差 | 较好 | — |
SMAE[ |
使用非情感的上下文为情感词的出现提供了指引 | 基于注意力机制的属性词删除 | 基本符合目标属性且流畅度较好 | 文本内容可能会发生改变 | 较好 | 较差 | 较好 |
B-GST[ |
引入预训练模型Transformer更好的删除属性词 | 基于注意力机制的属性词删除 | 综合性较好 | 可能会产生失败的案例 | 很好 | 较好 | 较好 |
G-GST[ |
文本内容保留度较好 | 可能生成不符合目标属性的句子 | 较差 | 较好 | 一般 | ||
AC-MLM-SS[ |
将TST任务看作完型填空任务进行遮蔽和填充 | 词频和注意力结合的属性词删除 | 符合目标属性且流畅度较好 | 没有衡量句子的流畅度 | 很好 | 较好 | - |
MASKER[ |
根据源域和目标域的文本跨度不同查找属性词 | 基于注意力机制的属性词删除 | 符合目标属性且流畅度较好 | 没有衡量句子的流畅度 | 一般 | 较好 | — |
StyIns[ |
从多个目标句子中实例提取潜在的属性 | 基于多目标句子属性编码 | 符合目标属性且流畅度较好 | 可能生成语法错误的句子 | 很好 | 较好 | 一般 |
本文将各方法的性能从高到低分为4个层次: 很好、较好、一般、较差. 该划分参考了各方法的原文以及Hu等人[
Datasets in TST
TST数据集
Methods | Dataset | Attributes | Application examples |
Supervised learning | Shakespeare | Modern
|
Give me one kiss and I’ll |
GYAFC | Informal
|
||
Unsupervised learning | YELP | Positive
|
I would |
Amazon | Positive
|
the food is |
|
Tense | Past
|
I |
|
Topic | Music
|
what is your |
|
Paper-News | Paper
|
||
Gender | Male
|
my wife ordered |
|
Caption | Factual
|
a young man dances by a fountain.
|
|
Political | Republican
|
I absolutely agree with |
平行语料数据集包括:
● Shakespeare: 该数据集包括现代风格英语和莎士比亚风格英语之间的平行语料.
● GYAFC: 该数据集包括娱乐音乐(E&M)和家庭关系(F&R)两个领域的数据, 含有正式语句和非正式语句之间的平行语料.
非平行语料数据集包括:
● YELP: 该数据集来源于美国最大的点评网站YELP, 语句具有正负情感标签.
● Amazon: 该数据集来源于亚马逊购物网站的商品评论, 语句具有正负情感标签.
● Tense: 该数据集来源于 TimeBank网站(timeml.org), 包含过去、现在、未来3个时态的语句.
● Topic: 该数据集来源于Yahoo QA, 包含科学、音乐、政治3个类别的语句.
● Paper-News Title: 该数据集包含论文风格的语句和新闻风格的语句, 前者是从学术网站抓取的论文标题, 后者是UCL数据集中选取的新闻标题.
● Gender: 该数据集包含YELP网站上对食品企业的评论, 每条评论都具有性别标签.
● Caption: 该数据集为图片的文字说明或标题, 分别标记为真实、浪漫或幽默3种标签.
● Political: 该数据集为美国参众两院的政客在Facebook上发表的评论, 每条评论都被贴上了共和党或民主党的标签.
本文的验证性实验选取了目前广泛使用的YELP、Amazon和GYAFC数据集. 其中, YELP和Amazon来源于Li等人[
Statistical information of three datasets
各数据集统计信息
Dataset | Attributes | Train (k) | Dev | Test |
YELP | Positive
|
270
|
2000
|
500
|
AMAZON | Positive
|
277
|
985
|
500
|
GYAFC | Formal
|
50
|
1019
|
500
|
一个好的文本风格迁移模型应该满足生成的句子符合目标属性、文本内容保留度高、语言流畅性好等不同方面的性能. 不同的工作采用或定义的评价指标也不尽相同. 本文对已有工作使用的评价指标以及Mir等人[
Evaluation metrics
评价指标
Automatic Evaluation | Human Evaluation |
Style Accuracy | Transfer Strength |
BLEU | Content Preservation |
PPL | Fluency |
本文将文本风格迁移任务的评价指标分为两大类: 自动化评价(automatic evaluation)和人工评价(human evaluation), 并且这两大类都分别从3个方面去评价, 分别是: 转换后的句子是否满足目标属性、文本内容是否得到保留、转换后的句子是否流畅或语法是否有错误.
自动化评价一般包含准确率(accuracy, ACC)、BLEU以及困惑度(perplexity, PPL)等. 其中, 准确率是通过预训练好的分类器(如TextCNN[
其中, BP (brevity penalty)为长度惩罚因子,
其中,
人工评价具有一定的主观性且耗时耗力, 一般作为自动化评价的补充. 常用方法是随机挑选一些转换后的句子, 将其和源句子一起交给语言学家评判, 但不透露句子的风格信息. 和自动化评价一样, 人工评价也是从迁移准确率、文本内容保留度、语法正确性3个方面进行打分, 打分范围在0~5, 最后计算平均得分.
本文在3个数据集上对基于无监督学习的文本风格迁移代表性方法进行了实验, 并列出各方法在自动化评价指标上的结果(如
Automatic evaluation of experimental results
自动化评价实验结果
模型 | YELP | AMAZON | GYAFC | ||||||||
ACC (%) | BLEU | PPL | ACC (%) | BLEU | PPL | ACC (%) | BLEU | PPL | |||
CAAE[ |
76.2 | 15.2 | 62.9 | 75.1 | 8.9 | 70.2 | 66.8 | 3.6 | 35.2 | ||
SE[ |
8.6 | 24.5 | 163.6 | 38.2 | 15.0 | 60.1 | 23.5 | 8.2 | 86.3 | ||
MD[ |
52.3 | 20.5 | 90.3 | 55.3 | 15.3 | 76.1 | 24.9 | 11.5 | 97.3 | ||
Template[ |
81.1 | 28.9 | 185.6 | 67.8 | 30.6 | 80.3 | 50.6 | 34.3 | 100.5 | ||
RO[ |
95.2 | 4.7 | 25.7 | 70.3 | 10.4 | 60.2 | 13.4 | 15.6 | 96.8 | ||
DO[ |
87.5 | 24.9 | 81.4 | 46.1 | 28.3 | 94.5 | 20.2 | 28.2 | 103.4 | ||
DAR[ |
89.5 | 24.7 | 80.4 | 88.6 | 15.9 | 55.4 | 61.1 | 20.2 | 110.3 | ||
BST[ |
90.8 | 6.8 | 32.8 | 76.7 | 7.5 | 48.3 | 70.5 | 1.3 | 50.2 | ||
Cycle-RL[ |
80.1 | 12.5 | 145.3 | 68.7 | 14.2 | 183.2 | 70.2 | 22.5 | 66.1 | ||
B-GST[ |
86.7 | 57.2 | 102.0 | 61.1 | 70.1 | 60.1 | 78.2 | 39.5 | 99.5 | ||
G-GST[ |
77.2 | 43.9 | 134.4 | 58.6 | 72.5 | 165.8 | 76.3 | 36.7 | 90.5 |
实验结果表明, 数据集的分布对模型的表现有一定的影响, 以迁移准确率(ACC)为例, 没有一种方法在3个数据集上均取得最优的表现. 此外, 也没有一种方法在3个指标上均表现最优. 大多数模型更趋近于在某些指标上表现好, 而在另外指标上表现较差. 例如: RO[
除此之外, 本文借鉴了Mir等人[
Metrics trade-off analysis for sentiment transfer on Yelp dataset
YELP 数据集上情感迁移的度量权衡分析
Metrics trade-off analysis for sentiment transfer on Amazon dataset
Amazon数据集上情感迁移的度量权衡分析
Metrics trade-off analysis for formality transfer on GYAFC dataset
GYAFC数据集上的正式语句迁移度量权衡分析
总体来说, 当风格迁移准确率增加时, 内容保留度会有所下降, 可能的原因是隐式方法解缠时丢失了部分的内容信息, 而显式TST方法在保证较高迁移准确率的同时, 具有较好的文本内容保留度. 这从其做法上容易理解, 即仅替换了源属性相关的关键字, 可以更好地保留源句子的文本内容. 另外, 数据集的不同也会对结果产生一定的影响, 可能的原因是和数据集中的句子质量有所关联.
文本风格迁移是一个具有挑战性的新兴课题, 受到了学术界和工业界的广泛关注, 具有重要的研究意义和广阔的应用前景. 本文对文本风格迁移任务及其挑战进行了详细的介绍, 分类梳理并总结了各方法的基本原理、优缺点和性能. 并对目前的主流模型进行了对比实验, 分析了它们在3个自动化评价指标上的表现.
尽管目前该领域已经出现了一些有效的方法, 但任务类型比较固定, 以情感属性转换、语言正式性转换等为主, 从实验结果来看离实际的应用还有较大距离. 除了Jin等人[
(1)更好地分离内容与属性
如何在隐空间中更好地分离内容和属性依然是需要重点研究的问题. 除了改进基于GAN的解缠方法之外, 采用如对比学习[
(2)将预训练模型应用在TST上
使用预训练模型处理NLP任务是目前非常热门的研究方向, 其体现了迁移学习的概念, 本质是在一个数据集上训练模型, 然后使该模型能够适应不同的数据集以执行不同的NLP操作. 在TST任务中, 最近出现了少量采用预训练方的法, 如Sudhakar等人[
(3)超越两种风格之间的转换
大多TST方法专注于文本在两种风格之间的转换. 未来TST研究应该探索二元风格迁移之外更丰富的任务. 例如, Lai等人[
(4)其他语种的风格迁移任务
现有的TST模型大多应用于英语语料库. 然而, 不同的语种可能有其独特的文本样式属性. Mizukami等人[
(5)设计新的自动评价指标
现有的评估方法有一定的局限性. 例如迁移准确率的评估通常受限于属性分类器的性能. 此外, 实验结果表明风格转换强度与内容保留度往往成反比, 难以得到方法优劣与否的综合评价. 因此, 需要进一步探索新的综合性的自动评估指标.
致 谢 Fu等人收集并持续性更新了近年来文本风格迁移领域相关的工作, 为本文的撰写提供很大帮助, 论文列表地址为:
陈佛计, 朱枫, 吴清潇, 郝颖明, 王恩德, 崔芸阁. 生成对抗网络及其在图像生成中的应用研究综述. 计算机学报, 2021, 44(2): 347–369. [doi: 10.11897/SP.J.1016.2021.00347]
Chen FJ, Zhu F, Wu QX, Hao YM, Wang ED, Cui YG. A survey about image generation with generative adversarial nets. Chinese Journal of Computers, 2021, 44(2): 347–369 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2021.00347]
Marcus MP, Marcinkiewicz MA, Santorini B. Building a large annotated corpus of English: The Penn treebank. Computational Linguistics, 1993, 19(2): 313–330.
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf]]>
刘建伟, 刘媛, 罗雄麟. 半监督学习方法. 计算机学报, 2015, 38(8): 1592–1617. [doi: 10.11897/SP.J.1016.2015.01592]
Liu JW, Liu Y, Luo XL. Semi-Supervised learning methods. Journal of Computers, 2015, 38(8): 1592–1617 (in Chinese with English abstract). [doi: 10.11897/SP.J.1016.2015.01592]
Hinton GE, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504–507.