TTS技术瓶颈:停顿与感情的真实性难题
近期,作者在使用讯飞和豆包的TTS技术合成表演串词时,发现合成效果平淡,即使调整停顿也难以达到真实感,情感表达更是不足。与专业录音对比后,差距明显。随后,尝试用AI将专业录音转换为所需音色,虽保留了人声情感,但音色变得不自然。这一经历暴露了...
近期,作者在使用讯飞和豆包的TTS技术合成表演串词时,发现合成效果平淡,即使调整停顿也难以达到真实感,情感表达更是不足。与专业录音对比后,差距明显。随后,尝试用AI将专业录音转换为所需音色,虽保留了人声情感,但音色变得不自然。这一经历暴露了...