Hume AI 推出了 OCTAVE(Omni-capable text and voice engine),這是一款基於 大語言模型(LLM) 訓練的 新一代文本轉語音(TTS)系統,不同於傳統 TTS 只是機械地“朗讀”文本,OCTAVE 能夠理解文本內容的含義,並根據語境生成更加自然、情感和情感表達的語音表達。
也就是:Octave 不僅能“說”,還能“理解”它在說什麼。它透過分析文本中的情緒線索、情節轉折和角色特徵,產生自然且富有表現力的語音。
OCTAVE 是 AI 語音合成技術的重大突破,讓 AI 不再只是「朗讀」文本,而是真正 「理解」文本並表達情感。它不僅能產生更自然、更具表現力的語音,還能讓用戶 個人化客製化 AI 語音角色。
OCTAVE 在多項評測中 超越了 ElevenLabs,在 音質(71.6%)、自然度(51.7%)以及與語音描述匹配度(57.7%) 三個關鍵指標上均獲得更高評分。
相較於傳統 TTS,OCTAVE 具備下列核心優勢:
> 理解上下文,依照情境調整語調、重音、節奏
> 支援語音個人化,可創造任意風格的 AI 語音角色
> 提供語音風格自訂,可調式情緒、語調、表達方式
> 領先的音質和自然度,在行業盲測中超越 ElevenLabs
> API 和 SDK 適用於開發者,可輕鬆整合到應用中
> 未來支援語音克隆,僅需 5 秒即可複製聲音
OCTAVE 的主要特點
基於 LLM 訓練的語音生成
OCTAVE 不只是一個語音合成引擎,而是一個結合了 大語言模型(LLM)和語音技術的 AI 語音生成系統,具備 以下核心能力:
能夠理解文本的 情境,推測 情緒、語調、重音、節奏。
自動產生符合 情緒語境 的語音,而不僅僅是按照字面意思機械朗讀。
語音的自然度遠超傳統 TTS,能夠根據上下文調整 語速、停頓、重音、音調。
> 例 :情緒性朗讀
文字輸入:「哦,當然,我們再來開一次關於 logo 顏色的會議吧!畢竟誰在乎功能呢,顏色才是關鍵!」
OCTAVE 語音輸出(諷刺語調):諷刺且帶有誇張的重音
文字輸入:「不!不要靠近我!這太可怕了!」
OCTAVE 語音輸出(有驚恐):帶有顫抖的聲音,語速快,音調高
傳統的 TTS 只是「朗讀」這些文本,而 OCTAVE 會理解語境,調整語氣,使其更貼近人類表達。
上下文感知表達
訓練資料量比傳統TTS多 1000倍,Octave 能像人類演員一樣理解劇本
它能傳達情感、諷刺、語速、重音,並理解情節變化、角色特徵
例如,它會溫柔地朗讀情書,激情四溢地播報體育新聞
AI 語音設計(Voice Design)
OCTAVE 讓使用者可以建立自訂 AI 語音角色,適用於 Podcast、電影、遊戲 NPC、虛擬助理 等場景。
只要輸入提示,OCTAVE 就能產生對應的語音風格。
使用者可以用文字 建立自訂 AI 語音角色,例如:
“一個 富有耐心和共感能力的心理諮商師。”
“一個 中世紀騎士,語調莊重,富有戲劇感。”
“一個 好萊塢電影預告片配音演員。”
只要提供描述,OCTAVE 就能自動 產生符合特定音色、口音、語速、情緒特徵 的語音。
靈活的情感控制
Octave 讓使用者透過指示調整語音的情緒風格,例如「平靜」「憤怒」「低語」等,使其適應不同的創作需求。
OCTAVE 允許使用者為語音添加風格描述,調整其表達方式,例如:
憤怒
驚訝
溫柔
諷刺
莊重
恐懼
>例 :同一句話,不同情緒演繹
文字輸入:「你在開玩笑嗎?」
描述 1:“憤怒”
語音輸出:憤怒、語調提升、語速加快
描述 2:「失望」
語音輸出:語調低沉,語速放緩,帶有嘆息感
描述 3:「嘲諷」
語音輸出:拉長音調,帶有戲謔感
這種語音生成方式,使 OCTAVE 更像一位專業配音員,而不僅僅是一個「讀稿機」。
>表演指示
Octave 是第一個能夠接受自然語言指令來調整情緒表達和語音風格的 TTS 系統
你可以指示它 “帶有諷刺意味” 或 “恐懼地低語”,讓創作者完全掌控聲音表現
語音克隆(即將推出)
只需 5 秒音頻,OCTAVE 即可 克隆並再現某個人的聲音。
Hume AI 計劃在未來幾週內 安全地推出該功能,以確保克隆技術不會被濫用。
適用於開發者與內容創作者
OCTAVE 提供 API 介面(支援 Python 和 TypeScript SDK),可整合到:
智能客服、語音助手
有聲書、Podcast製作
遊戲 NPC 語音
電影配音
另提供 語音庫(40+ 預設聲音),支援 長篇內容自動朗讀(如新聞、部落格、小說等)。
OCTAVE vs. ElevenLabs:比較測試
在 180 位人類評測員的盲測 中,OCTAVE 在以下指標上 全面超越 ElevenLabs:
盲測結果
71.6% 受訪者喜歡 Octave 的音質
51.7% 認為 Octave 更自然
57.7% 認為 Octave 比較符合語音描述
OCTAVE 在所有三個核心指標上都優於 ElevenLabs,證明其在自然度、音質和情境理解方面的優勢。
在一項盲評配對偏好研究中,Hume 樣本與 ElevenLabs 樣本的偏好比例。根據三個標準,Hume 樣本的平均偏好程度更高:語音自然度、與提供的描述或提示的一致性以及整體音訊品質。
Hume AI 也推出了 Expressive TTS Arena(類似 Hugging Face TTS 評測平台),讓使用者 可以測試不同 TTS 模式的表現,尤其是在長文字和複雜情境下的能力。
未來發展
目前 OCTAVE 支援英語和西班牙語,未來計劃拓展到 更多語言。 Hume AI 也在探索:
更豐富的語音風格(如不同文化、職業、年齡層的聲音)
多角色互動對話(支援 AI 角色之間自然對話)
更自然的情緒語音演繹
Hume AI 的 長期願景 是 讓 AI 更人性化,透過 OCTAVE 優化 AI 在語音互動中的表現,讓人工智慧更具「情感智慧」。