上海大学学报(自然科学版) ›› 2024, Vol. 30 ›› Issue (3): 476-490.doi: 10.12066/j.issn.1007-2861.2449
冯天宇, 朱永华
FENG Tianyu, ZHU Yonghua
摘要: 语音识别的研究始终存在数据集具有局限性的问题. 通过数据增强可以提升训练数据的规模以及多样性, 从而提升识别的准确率. 提出了一种基于生成对抗网络 (generative adversarial network, GAN) 的语音数据生成方法, 以改善噪声条件下的语音识别. 首先, 使用基础的 GAN 结构, 逐帧生成基于光谱特征水平的语音样本; 之后, 针对缺乏真实标签用于训练的问题, 又提出了一种利用非转录数据进行声学建模的无监督学习框架, 并利用条件 GAN结构探讨 2 种条件: 每个语音帧的声学状态和与数据集中语音对应的原始干净语音. 整合了条件信息的条件 GAN 可以直接提供真实标签用于声学建模. 该方法在 2 个噪声任务 (Aurora-4和 AMI 会议转录任务) 上进行了评估. 研究结果表明, 在各种噪声条件 (加性噪声、信道失真和混响) 下, 该方法都能显著提升性能. GAN 生成的增强数据在先进的非常深度卷积神经网络(very deep convolutional network, VDCNN) 声学模型上, 可以降低6%∼14% 的字错误率(word error rate, WER).
中图分类号: