Hume AI 推出了 OCTAVE(Omni-capable text and voice engine),這是一款基於 大語言模型(LLM) 訓練的 新一代文本轉語音(TTS)系統,不同於傳統 TTS 只是機械地“朗讀”文本,OCTAVE 能夠理解文本內容的含義,並根據語境生成更加自然、情感和情感表達的語音表達。 也就是:Octave 不僅能“說”,還能“理解”它在說什麼。它透過分析文本中的情緒線索、情節轉折和角色特徵,產生自然且富有表現力的語音。 OCTAVE 是 AI 語音合成技術的重大突破,讓 AI 不再只是「朗讀」文本,而是真正 「理解」文本並表達情感。它不僅能產生更自然、更具表現力的語音,還能讓用戶 個人化客製化 AI 語音角色。 OCTAVE 在多項評測中 超越了 ElevenLabs,在 音質(71.6%)、自然度(51.7%)以及與語音描述匹配度(57.7%) 三個關鍵指標上均獲得更高評分。 相較於傳統 TTS,OCTAVE 具備下列核心優勢: > 理解上下文,依照情境調整語調、重音、節奏> 支援語音個人化,可創造任意風格的 AI 語音角色> 提供語音風格自訂,可調式情緒、語調、表達方式> 領先的音質和自然度,在行業盲測中超越 ElevenLabs> API 和 SDK 適用於開發者,可輕鬆整合到應用中> 未來支援語音克隆,僅需 5 秒即可複製聲音 OCTAVE 的主要特點 基於 LLM 訓練的語音生成 OCTAVE 不只是一個語音合成引擎,而是一個結合了 大語言模型(LLM)和語音技術的 AI 語音生成系統,具備 以下核心能力: 能夠理解文本的 情境,推測 情緒、語調、重音、節奏。 自動產生符合 情緒語境 的語音,而不僅僅是按照字面意思機械朗讀。 語音的自然度遠超傳統 TTS,能夠根據上下文調整 語速、停頓、重音、音調。 > 例 :情緒性朗讀 文字輸入:「哦,當然,我們再來開一次關於 logo 顏色的會議吧!畢竟誰在乎功能呢,顏色才是關鍵!」OCTAVE 語音輸出(諷刺語調):諷刺且帶有誇張的重音 文字輸入:「不!不要靠近我!這太可怕了!」OCTAVE 語音輸出(有驚恐):帶有顫抖的聲音,語速快,音調高 傳統的 TTS 只是「朗讀」這些文本,而 OCTAVE 會理解語境,調整語氣,使其更貼近人類表達。