Hume AI推出全能文字與語音引擎 OCTAVE 根據文字即時產生特定人格特質的聲音

Hume AI推出了一款名為OCTAVE（全能文字與語音引擎），這是一款具有開創性的生成模型具備即時生成語音和人格特質的能力。

OCTAVE結合了EVI 2模型以及 OpenAI 的語音引擎、Elevenlab 的 TTS 語音設計和 Google Deepmind 的 NotebookLM 等系統的能力。可以從簡單的文字描述或5秒語音錄音產生豐富的語音和人格特質，包括性別、年齡、口音、情緒語調及職業特定說話風格等。

它支援多角色互動、即時對話、以及從短錄音中提取並複製聲線與個性。

核心能力
從文字轉語音的豐富生成能力：
多維屬性控制：
OCTAVE能夠根據簡單的文字描述產生高度個人化的語音輸出，包括情緒語調、性別、年齡、口音等屬性。
支持產生帶有特定屬性的語音，如性別（男性、女性）、年齡（兒童、青年、老年）、口音（美式英語、英式英語等）。
調整語調和節奏來表現不同的情緒和個性。
場景適應性：
模擬特定職業的語言風格（如老師的耐心語調、醫師的專業語調）。
對應情境調整語音風格，增強自然對話感。

使用「學術巫師導師」這樣的提示，OCTAVE 不僅產生高品質的聲音，還創造了新的個性、口音、表情和伴隨的語言——不到 300 毫秒

語音克隆：
快速學習：
OCTAVE可以從僅5秒的語音錄音中提取發音特徵，克隆聲線和說話風格。
可保留原聲線的個人化特點，同時根據需要添加新的情感特質。
動態調整：
複製的語音不僅能搭配原有聲線，還能根據情境動態調整語音的語調、語速和情感，使其更符合對話需求。
地域化口音：
可產生地域特色的語音，如印度英語、澳洲英語等，提昇在地化體驗。

從一個非常簡短的音訊片段（約 5 秒），OCTAVE 不僅模仿了說話者的聲音，還在很大程度上克隆了他們的個性

即時互動支援：
即時回應：
能在毫秒等級完成語音生成，實現真正的即時對話。
支援即時對話生成，允許動態調整生成內容。
能夠結合使用者輸入的內容即時改變語音和語調。
即時調控：
使用者或開發者可以動態調整生成語音的屬性（如切換角色、調整語調），實現靈活的互動體驗。
多角色對話生成：
角色獨立性：
支援多個虛擬角色的語音生成，角色之間的語音風格、情緒和口音可以完全不同。
在一個會話中同時產生多個角色的語音，模擬真實的多方對話。
場景自動化：
適合複雜對話場景，例如遊戲劇情對話或多人語音教育內容。
在即時對話中輕鬆切換不同角色的語音風格。

OCTAVE 可以在即時對話中產生多個一致的 AI 角色

情緒和人格建模：
情緒細膩表達：
透過EVI 2（Hume AI的情緒建模技術），OCTAVE能夠產生豐富多樣的情緒語音，包括憤怒、興奮、悲傷、平靜等。
能捕捉微妙的語音變化，並透過不同情緒語調增強自然互動感，表現出複雜的情緒。
在理解文本語意的基礎上產生語音，與目前主流語言模型（如GPT系列）的語言理解能力相當。
人格化建模：
除了語音外，還能模仿特定性格的語言表達方式，例如樂觀、嚴謹或幽默。

技術特點
與語言模型整合： OCTAVE不僅擁有與目前同規模語言模型（如GPT-3等）相當的語言理解能力，還透過語音合成技術進一步增強了人機互動的表現力。
語音特性多樣性：能支援多種語言和口音，包括區域性和全球通用的語音模型。
靈活性與高效性：產生的語音可以即時回應，適合用於即時對話場景，例如虛擬助理、教育應用、客服機器人等。
應用場景
虛擬助理和客服：
透過高度自然的語音互動增強使用者體驗。
為不同客戶群提供個人化服務。
遊戲與娛樂：
在遊戲中為不同角色產生符合情節的語音。
提供生動的多角色對話，增強沉浸式體驗。
教育與培訓：
為語言學習者提供個人化的發音示範。
模擬真實場景中的多角色對話，提升學習效率。
健康與心理服務：
以更情緒化的語音為心理支持或健康服務提供互動工具。
內容創作與媒體：
用於產生播客、音訊書籍或廣告的高品質語音內容。
目前，OCTAVE正在進行限量測試。 Hume AI計畫逐步向開發者社群開放，提供用於研究與商業的API介面。開發者可透過此工具建構更具表現力和情感化的語音應用。

未來願景：OCTAVE旨在透過創新的語音合成技術，拉近人機互動的情感距離，讓虛擬助理更像真實的人，最終改變我們與AI互動的方式。

如果您有興趣體驗OCTAVE，建議您造訪Hume AI的官方部落格以取得更多技術細節或申請測試資格。