Meta發布 Meta Spirit LM

Meta發布 Meta Spirit LM 一個可以在語音和文字之間進行無縫轉換的多模態語音模型

Meta Spirit LM 是Meta推出的一個開源的多模態語言模型，其設計目的是能夠在語音和文字之間進行無縫轉換。它透過結合語音和文字數據，支援跨模態的生成任務。

也就是它能夠聽懂語音，把它變成文字；也可以根據文字生成語音，並且能保持語音中的情感和語氣，使生成的語音更加自然生動。可以在文字和語音之間來回轉換。

語音和文字互相轉換：
它可以同時處理語音和文字資料。例如，它能夠把說話的內容轉成文字（就像字幕一樣），也可以把文字變成帶有情感的語音（像機器人說話一樣）。
兩種模式：
Base版本：可以處理語音的基本轉換，適合一般的語音辨識和生成任務。
Expressive版本：使用音調和風格標記（pitch and style tokens）來捕捉語音中的情感，如興奮、憤怒、驚訝等，並產生帶有這種情感的語音，使得生成的語音更加自然、真實。可以根據語音中的情緒（如開心、憤怒、驚訝等）產生帶有情緒的語音，讓機器說話更自然。

主要功能

語音與文字產生： SPIRIT-LM 能夠產生文字或語音序列，輸入可以是文字、語音或二者的組合。模型能夠根據輸入模式切換生成模式。例如，它能夠從文字產生語音，也能夠根據語音輸入產生相應的文字。

跨模態任務：模型可以執行多種跨模態任務，包括：

自動語音辨識（ASR）：將語音輸入轉換為文字輸出。

文字轉語音（TTS）：將文字輸入轉換為語音輸出。

語音與文字的混合產生：根據輸入的模式自由產生文字或語音，並且能夠在生成過程中切換模態。

少樣本學習： SPIRIT-LM 支援透過少量訓練樣本進行任務學習，特別是在跨模態任務中，它無需大量資料就可以執行諸如文字生成、語音生成、分類等複雜任務。

情緒保持： SPIRIT-LM 能夠在文字或語音輸入中保留情緒特徵，並在生成的文字或語音中保留這種情緒表達。這使得模型在情緒豐富的對話、情感辨識等任務中表現優異。

跨模態情感生成： SPIRIT-LM-EXPRESSIVE 版本特別關注語音中的情感表達，透過使用音調和風格單元，產生的語音不僅能傳遞語義，還能傳遞情感。這種功能使得它非常適合用於需要豐富語音表達的場景，如虛擬助理、語音生成等。

模型的工作機制：

SPIRIT-LM 的輸入可以是純文字、純語音或文字和語音的混合序列。模型透過交替訓練語音和文字數據，使其能夠在生成時無縫切換兩種模態。

模型採用了一種詞層次的交替方法來處理語音和文字。在訓練過程中，模型會隨機在對齊的語音-文字序列中的單字邊界處切換模態，使得語音和文字混合成為一個連續的標記序列。

透過這種跨模態的訓練，模型不僅能夠產生純文字或純語音，還能在跨模態轉換任務中表現出色，如語音轉文字（ASR）、文字轉語音（TTS）、情緒語音生成等。

核心優勢：

跨模態生成能力：SPIRIT-LM可以在文字和語音之間流暢地進行轉換，生成內容能夠在這兩種模態中自由切換。

少樣本學習：模型具有強大的少樣本學習能力，能夠透過少量範例學習新任務，並在語音辨識、文字生成等任務中表現出色。

情感與表現力：特別是SPIRIT-LM-EXPRESSIVE版本，透過增加音調和風格單元，能夠產生更富有情感和表現力的語音，保持文字和語音之間的情感一致性。