摘要:文本到图像生成取得了视觉上的优异效果, 但存在细节表达不足的问题. 于是提出基于条件语义增强的生成对抗模型(conditional semantic augmentation generative adversarial network, CSA-GAN). 所提模型首先将文本进行编码, 使用条件语义增强对其进行处理. 之后, 提取生成器的中间特征进行上采样, 再通过两层CNN生成图像的掩码. 最后将文本编码送入两个感知器处理后和掩码进行融合, 充分融合图像空间特征和文本语义, 以提高细节表达. 为了验证所提模型的生成图像的质量, 在不同的数据集上进行定量分析、定性分析. 使用IS (inception score)、FID (Frechet inception distance)指标对图像清晰度, 多样性和图像的自然真实程度进行定量评估. 定性分析包括可视化生成的图像, 消融实验分析具体模块等. 结果表明: 所提模型均优于近年来同类最优工作. 这充分验证所提出的方法具有更优性能, 同时能够优化图像生成过程中一些主体特征细节的表达.