OCTAVE：全球首個真正「理解」語音內容的語音合成模型能理解文字內容情緒並產生自然且富有表現力的語音

Hume AI 推出了 OCTAVE（Omni-capable text and voice engine），這是一款基於大語言模型（LLM）訓練的新一代文本轉語音（TTS）系統，不同於傳統 TTS 只是機械地“朗讀”文本，OCTAVE 能夠理解文本內容的含義，並根據語境生成更加自然、情感和情感表達的語音表達。

也就是：Octave 不僅能“說”，還能“理解”它在說什麼。它透過分析文本中的情緒線索、情節轉折和角色特徵，產生自然且富有表現力的語音。

OCTAVE 是 AI 語音合成技術的重大突破，讓 AI 不再只是「朗讀」文本，而是真正「理解」文本並表達情感。它不僅能產生更自然、更具表現力的語音，還能讓用戶個人化客製化 AI 語音角色。

OCTAVE 在多項評測中超越了 ElevenLabs，在音質（71.6%）、自然度（51.7%）以及與語音描述匹配度（57.7%）三個關鍵指標上均獲得更高評分。

相較於傳統 TTS，OCTAVE 具備下列核心優勢：

> 理解上下文，依照情境調整語調、重音、節奏
> 支援語音個人化，可創造任意風格的 AI 語音角色
> 提供語音風格自訂，可調式情緒、語調、表達方式
> 領先的音質和自然度，在行業盲測中超越 ElevenLabs
> API 和 SDK 適用於開發者，可輕鬆整合到應用中
> 未來支援語音克隆，僅需 5 秒即可複製聲音

OCTAVE 的主要特點

基於 LLM 訓練的語音生成

OCTAVE 不只是一個語音合成引擎，而是一個結合了大語言模型（LLM）和語音技術的 AI 語音生成系統，具備以下核心能力：

能夠理解文本的情境，推測情緒、語調、重音、節奏。

自動產生符合情緒語境的語音，而不僅僅是按照字面意思機械朗讀。

語音的自然度遠超傳統 TTS，能夠根據上下文調整語速、停頓、重音、音調。

> 例：情緒性朗讀

文字輸入：「哦，當然，我們再來開一次關於 logo 顏色的會議吧！畢竟誰在乎功能呢，顏色才是關鍵！」
OCTAVE 語音輸出（諷刺語調）：諷刺且帶有誇張的重音

文字輸入：「不！不要靠近我！這太可怕了！」
OCTAVE 語音輸出（有驚恐）：帶有顫抖的聲音，語速快，音調高

傳統的 TTS 只是「朗讀」這些文本，而 OCTAVE 會理解語境，調整語氣，使其更貼近人類表達。

上下文感知表達

訓練資料量比傳統TTS多 1000倍，Octave 能像人類演員一樣理解劇本

它能傳達情感、諷刺、語速、重音，並理解情節變化、角色特徵

例如，它會溫柔地朗讀情書，激情四溢地播報體育新聞

AI 語音設計（Voice Design）
OCTAVE 讓使用者可以建立自訂 AI 語音角色，適用於 Podcast、電影、遊戲 NPC、虛擬助理等場景。
只要輸入提示，OCTAVE 就能產生對應的語音風格。

使用者可以用文字建立自訂 AI 語音角色，例如：

“一個富有耐心和共感能力的心理諮商師。”

“一個中世紀騎士，語調莊重，富有戲劇感。”

“一個好萊塢電影預告片配音演員。”

只要提供描述，OCTAVE 就能自動產生符合特定音色、口音、語速、情緒特徵的語音。

靈活的情感控制

Octave 讓使用者透過指示調整語音的情緒風格，例如「平靜」「憤怒」「低語」等，使其適應不同的創作需求。

OCTAVE 允許使用者為語音添加風格描述，調整其表達方式，例如：

憤怒

驚訝

溫柔

諷刺

莊重

恐懼

>例：同一句話，不同情緒演繹

文字輸入：「你在開玩笑嗎？」

描述 1：“憤怒”

語音輸出：憤怒、語調提升、語速加快

描述 2：「失望」

語音輸出：語調低沉，語速放緩，帶有嘆息感

描述 3：「嘲諷」

語音輸出：拉長音調，帶有戲謔感

這種語音生成方式，使 OCTAVE 更像一位專業配音員，而不僅僅是一個「讀稿機」。

>表演指示

Octave 是第一個能夠接受自然語言指令來調整情緒表達和語音風格的 TTS 系統

你可以指示它 “帶有諷刺意味” 或 “恐懼地低語”，讓創作者完全掌控聲音表現

語音克隆（即將推出）

只需 5 秒音頻，OCTAVE 即可克隆並再現某個人的聲音。

Hume AI 計劃在未來幾週內安全地推出該功能，以確保克隆技術不會被濫用。

適用於開發者與內容創作者

OCTAVE 提供 API 介面（支援 Python 和 TypeScript SDK），可整合到：

智能客服、語音助手

有聲書、Podcast製作

遊戲 NPC 語音

電影配音

另提供語音庫（40+ 預設聲音），支援長篇內容自動朗讀（如新聞、部落格、小說等）。

OCTAVE vs. ElevenLabs：比較測試

在 180 位人類評測員的盲測中，OCTAVE 在以下指標上全面超越 ElevenLabs：

盲測結果

71.6% 受訪者喜歡 Octave 的音質

51.7% 認為 Octave 更自然

57.7% 認為 Octave 比較符合語音描述

OCTAVE 在所有三個核心指標上都優於 ElevenLabs，證明其在自然度、音質和情境理解方面的優勢。

在一項盲評配對偏好研究中，Hume 樣本與 ElevenLabs 樣本的偏好比例。根據三個標準，Hume 樣本的平均偏好程度更高：語音自然度、與提供的描述或提示的一致性以及整體音訊品質。

Hume AI 也推出了 Expressive TTS Arena（類似 Hugging Face TTS 評測平台），讓使用者可以測試不同 TTS 模式的表現，尤其是在長文字和複雜情境下的能力。

未來發展

目前 OCTAVE 支援英語和西班牙語，未來計劃拓展到更多語言。 Hume AI 也在探索：

更豐富的語音風格（如不同文化、職業、年齡層的聲音）

多角色互動對話（支援 AI 角色之間自然對話）

更自然的情緒語音演繹

Hume AI 的長期願景是讓 AI 更人性化，透過 OCTAVE 優化 AI 在語音互動中的表現，讓人工智慧更具「情感智慧」。