Meta Spirit LM——混合文本和语音的开源多模态语言模型Meta Spirit LM 是 Meta AI 发布的开源多模态语言模型，能够在语音和文本之间无缝转换，有 Base 版本和 Expressive 版本

Meta Spirit LM——混合文本和语音的开源多模态语言模型

Meta Spirit LM 是 Meta AI 发布的开源多模态语言模型，能够在语音和文本之间无缝转换，有 Base 版本和 Expressive 版本。

仓库地址：https://github.com/facebookresearch/spiritlm
论文地址：https://arxiv.org/abs/2402.05755
DEMO 演示：https://speechbot.github.io/spiritlm/

核心功能：
1. 基本语音转换：Base 版本可以处理语音的基本转换，适合一般的语音识别和生成任务。
2. 情感捕捉与生成：Expressive 版本能够捕捉语音中的情感，生成带有这种情感的语音，使机器说话更加自然。
3. 自动语音识别（ASR）：将语音输入转换为文本输出。
4. 文本转语音（TTS）：将文本输入转换为语音输出。
5. 语音与文本的混合生成：根据输入的模式自由生成文本或语音，并能够在生成过程中切换模态。
6. 情感理解与表现力生成：SPIRIT-LM-EXPRESSIVE 版本不仅能够理解情感，还能够通过不同的音调和风格生成具有表现力的语音，如生成带有“愤怒”“悲伤”“兴奋”等情感色彩的内容。