Play AI推出了PlayDialog beta,专门用于创建更加自然、富有表现力和情感的对话式语音输出。
它的目标是使与人工智能的对话更加流畅和人性化,特别是在复杂、富有情感的互动场景中。
PlayDialog 的技术突破不仅在于它的 庞大训练数据和模型体积,还包括其 上下文理解、情感表达 和 语音生成质量 等方面的提升。通过自适应语音上下文化处理器(ASC),PlayDialog 能够生成更加自然、流畅、富有情感的语音,显著优于市场上现有的竞争模型。
在多個對比測試中,PlayDialog 在 表現力(expressiveness)方面超越了市場上的領先競爭模型,且其語音生成的 自然度 和 情感表達 都有明顯優勢。尤其是在進行盲測時,PlayDialog 的表現力評分是競品的 2倍,它能提供更細膩、情緒豐富和人性化的語音輸出。
基於PlayDialog,他們開發了一個新的工具:PlayNote ,允許用戶從文字、PDF、視訊和其他媒體類型創建語音內容,如播客、簡報,甚至兒童故事。
PlayDialog beta的主要功能:
類人語音: PlayDialog beta能夠產生非常自然的語音,接近真實人類的語調和語速。它透過對數億對話的訓練,使得生成的語音在表達力和自然度上接近人類對話。在盲測中,PlayDialog beta在市場上領先的語音模型中脫穎而出,得分比率達到2:1。
情境感知: PlayDialog beta的獨特之處在於,它不僅僅是產生每句話的語音,而是能夠理解整個對話的脈絡。它利用一種名為「自適應語音上下文化器」(ASC)的架構,將整個對話歷史作為上下文來調整語音的節奏、語氣和情感。這使得每個答案都能更好地融入整個對話中,反映出對話的流動性和情緒變化。
情緒和語氣控制: 能夠在對話過程中靈活調整語音的情緒和語氣。它可以根據對話的內容和場景(如熱烈討論或敏感話題)自動調節語音的表現,使其更加貼近真實的情感交流。
流暢的語音輸出: 透過精細控制的語音生成技術,能夠產生非常流暢且富有表現力的語音,適用於各種應用場景,例如合成播客、敘事、語音配音等。
支援大規模應用: PlayDialog beta可與大語言模型(LLMs)結合使用,透過WebSocket進行快速回應,使其可應用於需要即時回饋的業務場景中,例如客服互動、語音助理等。
技術特點
PlayDialog 採用了創新的自適應語音上下文化處理器(ASC),這是一種新的架構,它能夠理解整個對話的上下文,而不僅僅是單一的句子或發言者,進而動態地理解和生成基於整個對話歷史的語音。這樣,模型能夠動態地調整每個反應的語調、語速、情緒和語音節奏,從而產生更自然和富有情感的語音。這使得它能夠適應整個對話的流暢性和情感起伏,使每個句子更符合對話的脈絡。
這使得 PlayDialog 在以下方面有了顯著提升:
情緒與語氣的精確控制:透過 ASC,PlayDialog 可以根據對話情境精確地控制語音的情緒和語氣。例如,在處理帶有強烈情緒色彩的對話時(如憤怒或興奮),它可以在語音的高低起伏、語速等方面進行調整,以準確反映對話的情緒狀態。
多輪對話理解:與先前的語音模型不同,PlayDialog 能夠處理 多輪對話,理解不同回合之間的聯繫,並基於整個對話的上下文產生更貼合實際的語音內容。每個回合的語音輸出不僅基於當前一句話,而是綜合考慮了先前的對話和情感脈絡。
影片播放器
真實世界的對話訓練
PlayDialog beta 是在 數億個對話 的基礎上訓練的,涵蓋了大量現實世界的對話範例。這些對話包括不同語調、情緒以及溝通環境,確保產生的語音在多個情境下都能表現得自然且流暢。
情感和語氣的精確控制
由於模型在大量真實世界對話資料上進行訓練,它能夠更精確地模仿人類的語音特徵,包括 語調(intonation)、語速(pacing)和 情緒(emotion)。這種能力使得 PlayDialog 在多個方面超越了傳統語音模型:
語音流暢性與情緒表達:PlayDialog 不僅是產生語音,還能捕捉對話中的情緒和語調變化。例如,在激烈討論時,語音會更加富有激情,而在談論敏感話題時,語氣則會更加溫和和同情。這使得 PlayDialog 產生的語音更加像真人對話。
對話歷史的理解:PlayDialog 利用 自適應語音上下文化處理器(Adaptive Speech Contextualizer,ASC)技術,能夠理解並利用對話的整個上下文,而不僅僅是當前的一句話或當前的發言者。這意味著每個回應不僅是單獨的輸出,而是結合對話的背景,能夠自然地過渡和銜接前後語句,體現出更自然的對話流。
PlayDialog 對 語調(intonation)、語速(pacing)、情緒(emotion)和 語音節奏(prosody)等要素進行了精確控制。這使得 PlayDialog 能夠產生類似於真實人物的語音,表達出細膩的情感和語氣,例如在充滿激情的討論中或在處理敏感話題時展現同理心。
語音串流媒體支持
PlayDialog 支援 WebSocket 串流媒體,可從大規模語言模型(LLMs)進行即時串流處理。這使得它在應用中能夠提供快速回應,尤其是在需要快速產生語音的應用程式場景中(例如即時對話系統、虛擬助理等)。
API 存取與集成
PlayDialog 以及 PlayNote(一個用於產生語音內容的工具)都可以透過 API 存取。開發者可以利用這些 API 實現大規模的自動化語音內容生成,而無需手動幹預。這使得 PlayDialog 成為建立語音驅動應用程式的理想選擇,支援從文件、文字、視訊等多種媒體自動產生語音內容。
多語種支持
儘管 PlayDialog 主要為英語優化,但它也相容於多種語言,支援超過 30 種語言,確保能夠服務全球範圍的用戶和應用程式場景。
PlayDialog beta的應用場景:
語音配音與播客:可以產生自然流暢的播客、敘事內容,或為各種媒體內容(如影片、書籍)進行配音。
影片播放器
客戶服務與語音助理:提供企業更個人化、更有情感的客戶服務體驗,可用於客戶支援、語音互動等場景。
影片播放器
虛擬助理與AI互動:使得AI助理在與使用者對話時更加自然、個人化,能夠根據對話情境和情感變化做出回應。
影片播放器