Meta發布 Meta Spirit LM

Home » 學習資源 » Meta發布 Meta Spirit LM

Meta發布 Meta Spirit LM 一個可以在語音和文字之間進行無縫轉換的多模態語音模型

Meta Spirit LM 是Meta推出的一個開源的多模態語言模型,其設計目的是能夠在語音和文字之間進行無縫轉換。它透過結合語音和文字數據,支援跨模態的生成任務。

也就是它能夠聽懂語音,把它變成文字;也可以根據文字生成語音,並且能保持語音中的情感和語氣,使生成的語音更加自然生動。可以在文字和語音之間來回轉換。

語音和文字互相轉換:
它可以同時處理語音和文字資料。例如,它能夠把說話的內容轉成文字(就像字幕一樣),也可以把文字變成帶有情感的語音(像機器人說話一樣)。
兩種模式:
Base版本:可以處理語音的基本轉換,適合一般的語音辨識和生成任務。
Expressive版本:使用音調和風格標記(pitch and style tokens)來捕捉語音中的情感,如興奮、憤怒、驚訝等,並產生帶有這種情感的語音,使得生成的語音更加自然、真實。可以根據語音中的情緒(如開心、憤怒、驚訝等)產生帶有情緒的語音,讓機器說話更自然。

主要功能

語音與文字產生: SPIRIT-LM 能夠產生文字或語音序列,輸入可以是文字、語音或二者的組合。模型能夠根據輸入模式切換生成模式。例如,它能夠從文字產生語音,也能夠根據語音輸入產生相應的文字。

跨模態任務: 模型可以執行多種跨模態任務,包括:

自動語音辨識(ASR):將語音輸入轉換為文字輸出。

文字轉語音(TTS):將文字輸入轉換為語音輸出。

語音與文字的混合產生:根據輸入的模式自由產生文字或語音,並且能夠在生成過程中切換模態。

少樣本學習: SPIRIT-LM 支援透過少量訓練樣本進行任務學習,特別是在跨模態任務中,它無需大量資料就可以執行諸如文字生成、語音生成、分類等複雜任務。

情緒保持: SPIRIT-LM 能夠在文字或語音輸入中保留情緒特徵,並在生成的文字或語音中保留這種情緒表達。這使得模型在情緒豐富的對話、情感辨識等任務中表現優異。

跨模態情感生成: SPIRIT-LM-EXPRESSIVE 版本特別關注語音中的情感表達,透過使用音調和風格單元,產生的語音不僅能傳遞語義,還能傳遞情感。這種功能使得它非常適合用於需要豐富語音表達的場景,如虛擬助理、語音生成等。

模型的工作機制:

SPIRIT-LM 的輸入可以是純文字、純語音或文字和語音的混合序列。模型透過交替訓練語音和文字數據,使其能夠在生成時無縫切換兩種模態。

模型採用了一種詞層次的交替方法來處理語音和文字。在訓練過程中,模型會隨機在對齊的語音-文字序列中的單字邊界處切換模態,使得語音和文字混合成為一個連續的標記序列。

透過這種跨模態的訓練,模型不僅能夠產生純文字或純語音,還能在跨模態轉換任務中表現出色,如語音轉文字(ASR)、文字轉語音(TTS)、情緒語音生成等。

核心優勢:

跨模態生成能力:SPIRIT-LM可以在文字和語音之間流暢地進行轉換,生成內容能夠在這兩種模態中自由切換。

少樣本學習:模型具有強大的少樣本學習能力,能夠透過少量範例學習新任務,並在語音辨識、文字生成等任務中表現出色。

情感與表現力:特別是SPIRIT-LM-EXPRESSIVE版本,透過增加音調和風格單元,能夠產生更富有情感和表現力的語音,保持文字和語音之間的情感一致性。

返回頂端