Hume AI推出全能文字與語音引擎 OCTAVE 根據文字即時產生特定人格特質的聲音
Hume AI推出了一款名為OCTAVE(全能文字與語音引擎),這是一款具有開創性的生成模型具備即時生成語音和人格特質的能力。 OCTAVE結合了EVI 2模型以及 OpenAI 的語音引擎、Elevenlab 的 TTS 語音設計和 Google Deepmind 的 NotebookLM 等系統的能力。可以從簡單的文字描述或5秒語音錄音產生豐富的語音和人格特質,包括性別、年齡、口音、情緒語調及職業特定說話風格等。 它支援多角色互動、即時對話、以及從短錄音中提取並複製聲線與個性。 核心能力從文字轉語音的豐富生成能力:多維屬性控制:OCTAVE能夠根據簡單的文字描述產生高度個人化的語音輸出,包括情緒語調、性別、年齡、口音等屬性。支持產生帶有特定屬性的語音,如性別(男性、女性)、年齡(兒童、青年、老年)、口音(美式英語、英式英語等)。調整語調和節奏來表現不同的情緒和個性。場景適應性:模擬特定職業的語言風格(如老師的耐心語調、醫師的專業語調)。對應情境調整語音風格,增強自然對話感。 使用「學術巫師導師」這樣的提示,OCTAVE 不僅產生高品質的聲音,還創造了新的個性、口音、表情和伴隨的語言——不到 300 毫秒 語音克隆:快速學習:OCTAVE可以從僅5秒的語音錄音中提取發音特徵,克隆聲線和說話風格。可保留原聲線的個人化特點,同時根據需要添加新的情感特質。動態調整:複製的語音不僅能搭配原有聲線,還能根據情境動態調整語音的語調、語速和情感,使其更符合對話需求。地域化口音:可產生地域特色的語音,如印度英語、澳洲英語等,提昇在地化體驗。 從一個非常簡短的音訊片段(約 5 秒),OCTAVE 不僅模仿了說話者的聲音,還在很大程度上克隆了他們的個性 即時互動支援:即時回應:能在毫秒等級完成語音生成,實現真正的即時對話。支援即時對話生成,允許動態調整生成內容。能夠結合使用者輸入的內容即時改變語音和語調。即時調控:使用者或開發者可以動態調整生成語音的屬性(如切換角色、調整語調),實現靈活的互動體驗。多角色對話生成:角色獨立性:支援多個虛擬角色的語音生成,角色之間的語音風格、情緒和口音可以完全不同。在一個會話中同時產生多個角色的語音,模擬真實的多方對話。場景自動化:適合複雜對話場景,例如遊戲劇情對話或多人語音教育內容。在即時對話中輕鬆切換不同角色的語音風格。 OCTAVE 可以在即時
Hume AI推出全能文字與語音引擎 OCTAVE 根據文字即時產生特定人格特質的聲音 閱讀全文 »