OCTAVE:全球首個真正「理解」語音內容的語音合成模型 能理解文字內容情緒並產生自然且富有表現力的語音

Home » AI日報 » OCTAVE:全球首個真正「理解」語音內容的語音合成模型 能理解文字內容情緒並產生自然且富有表現力的語音

Hume AI 推出了 OCTAVE(Omni-capable text and voice engine),這是一款基於 大語言模型(LLM) 訓練的 新一代文本轉語音(TTS)系統,不同於傳統 TTS 只是機械地“朗讀”文本,OCTAVE 能夠理解文本內容的含義,並根據語境生成更加自然、情感和情感表達的語音表達。

也就是:Octave 不僅能“說”,還能“理解”它在說什麼。它透過分析文本中的情緒線索、情節轉折和角色特徵,產生自然且富有表現力的語音。

OCTAVE 是 AI 語音合成技術的重大突破,讓 AI 不再只是「朗讀」文本,而是真正 「理解」文本並表達情感。它不僅能產生更自然、更具表現力的語音,還能讓用戶 個人化客製化 AI 語音角色。

OCTAVE 在多項評測中 超越了 ElevenLabs,在 音質(71.6%)、自然度(51.7%)以及與語音描述匹配度(57.7%) 三個關鍵指標上均獲得更高評分。

相較於傳統 TTS,OCTAVE 具備下列核心優勢:

> 理解上下文,依照情境調整語調、重音、節奏
> 支援語音個人化,可創造任意風格的 AI 語音角色
> 提供語音風格自訂,可調式情緒、語調、表達方式
> 領先的音質和自然度,在行業盲測中超越 ElevenLabs
> API 和 SDK 適用於開發者,可輕鬆整合到應用中
> 未來支援語音克隆,僅需 5 秒即可複製聲音

OCTAVE 的主要特點

基於 LLM 訓練的語音生成

OCTAVE 不只是一個語音合成引擎,而是一個結合了 大語言模型(LLM)和語音技術的 AI 語音生成系統,具備 以下核心能力:

能夠理解文本的 情境,推測 情緒、語調、重音、節奏。

自動產生符合 情緒語境 的語音,而不僅僅是按照字面意思機械朗讀。

語音的自然度遠超傳統 TTS,能夠根據上下文調整 語速、停頓、重音、音調。

> 例 :情緒性朗讀

文字輸入:「哦,當然,我們再來開一次關於 logo 顏色的會議吧!畢竟誰在乎功能呢,顏色才是關鍵!」
OCTAVE 語音輸出(諷刺語調):諷刺且帶有誇張的重音

文字輸入:「不!不要靠近我!這太可怕了!」
OCTAVE 語音輸出(有驚恐):帶有顫抖的聲音,語速快,音調高

傳統的 TTS 只是「朗讀」這些文本,而 OCTAVE 會理解語境,調整語氣,使其更貼近人類表達。

上下文感知表達

訓練資料量比傳統TTS多 1000倍,Octave 能像人類演員一樣理解劇本

它能傳達情感、諷刺、語速、重音,並理解情節變化、角色特徵

例如,它會溫柔地朗讀情書,激情四溢地播報體育新聞

AI 語音設計(Voice Design)
OCTAVE 讓使用者可以建立自訂 AI 語音角色,適用於 Podcast、電影、遊戲 NPC、虛擬助理 等場景。
只要輸入提示,OCTAVE 就能產生對應的語音風格。

使用者可以用文字 建立自訂 AI 語音角色,例如:

“一個 富有耐心和共感能力的心理諮商師。”

“一個 中世紀騎士,語調莊重,富有戲劇感。”

“一個 好萊塢電影預告片配音演員。”

只要提供描述,OCTAVE 就能自動 產生符合特定音色、口音、語速、情緒特徵 的語音。

靈活的情感控制

Octave 讓使用者透過指示調整語音的情緒風格,例如「平靜」「憤怒」「低語」等,使其適應不同的創作需求。

OCTAVE 允許使用者為語音添加風格描述,調整其表達方式,例如:

憤怒

驚訝

溫柔

諷刺

莊重

恐懼

>例 :同一句話,不同情緒演繹

文字輸入:「你在開玩笑嗎?」

描述 1:“憤怒”

語音輸出:憤怒、語調提升、語速加快

描述 2:「失望」

語音輸出:語調低沉,語速放緩,帶有嘆息感

描述 3:「嘲諷」

語音輸出:拉長音調,帶有戲謔感

這種語音生成方式,使 OCTAVE 更像一位專業配音員,而不僅僅是一個「讀稿機」。

>表演指示

Octave 是第一個能夠接受自然語言指令來調整情緒表達和語音風格的 TTS 系統

你可以指示它 “帶有諷刺意味” 或 “恐懼地低語”,讓創作者完全掌控聲音表現

語音克隆(即將推出)

只需 5 秒音頻,OCTAVE 即可 克隆並再現某個人的聲音。

Hume AI 計劃在未來幾週內 安全地推出該功能,以確保克隆技術不會被濫用。

適用於開發者與內容創作者

OCTAVE 提供 API 介面(支援 Python 和 TypeScript SDK),可整合到:

智能客服、語音助手

有聲書、Podcast製作

遊戲 NPC 語音

電影配音

另提供 語音庫(40+ 預設聲音),支援 長篇內容自動朗讀(如新聞、部落格、小說等)。

OCTAVE vs. ElevenLabs:比較測試

在 180 位人類評測員的盲測 中,OCTAVE 在以下指標上 全面超越 ElevenLabs:

盲測結果

71.6% 受訪者喜歡 Octave 的音質

51.7% 認為 Octave 更自然

57.7% 認為 Octave 比較符合語音描述

OCTAVE 在所有三個核心指標上都優於 ElevenLabs,證明其在自然度、音質和情境理解方面的優勢。

在一項盲評配對偏好研究中,Hume 樣本與 ElevenLabs 樣本的偏好比例。根據三個標準,Hume 樣本的平均偏好程度更高:語音自然度、與提供的描述或提示的一致性以及整體音訊品質。

Hume AI 也推出了 Expressive TTS Arena(類似 Hugging Face TTS 評測平台),讓使用者 可以測試不同 TTS 模式的表現,尤其是在長文字和複雜情境下的能力。

未來發展

目前 OCTAVE 支援英語和西班牙語,未來計劃拓展到 更多語言。 Hume AI 也在探索:

更豐富的語音風格(如不同文化、職業、年齡層的聲音)

多角色互動對話(支援 AI 角色之間自然對話)

更自然的情緒語音演繹

Hume AI 的 長期願景 是 讓 AI 更人性化,透過 OCTAVE 優化 AI 在語音互動中的表現,讓人工智慧更具「情感智慧」。

返回頂端