對標NotebookLM Play AI推出了PlayDialog：可產生自然對話播客、旁白以及自然交互

Play AI推出了PlayDialog beta，专门用于创建更加自然、富有表现力和情感的对话式语音输出。

它的目标是使与人工智能的对话更加流畅和人性化，特别是在复杂、富有情感的互动场景中。

PlayDialog 的技术突破不仅在于它的庞大训练数据和模型体积，还包括其上下文理解、情感表达和语音生成质量等方面的提升。通过自适应语音上下文化处理器（ASC），PlayDialog 能够生成更加自然、流畅、富有情感的语音，显著优于市场上现有的竞争模型。

在多個對比測試中，PlayDialog 在表現力（expressiveness）方面超越了市場上的領先競爭模型，且其語音生成的自然度和情感表達都有明顯優勢。尤其是在進行盲測時，PlayDialog 的表現力評分是競品的 2倍，它能提供更細膩、情緒豐富和人性化的語音輸出。

基於PlayDialog，他們開發了一個新的工具：PlayNote ，允許用戶從文字、PDF、視訊和其他媒體類型創建語音內容，如播客、簡報，甚至兒童故事。

PlayDialog beta的主要功能：

類人語音： PlayDialog beta能夠產生非常自然的語音，接近真實人類的語調和語速。它透過對數億對話的訓練，使得生成的語音在表達力和自然度上接近人類對話。在盲測中，PlayDialog beta在市場上領先的語音模型中脫穎而出，得分比率達到2:1。

情境感知： PlayDialog beta的獨特之處在於，它不僅僅是產生每句話的語音，而是能夠理解整個對話的脈絡。它利用一種名為「自適應語音上下文化器」（ASC）的架構，將整個對話歷史作為上下文來調整語音的節奏、語氣和情感。這使得每個答案都能更好地融入整個對話中，反映出對話的流動性和情緒變化。

情緒和語氣控制：能夠在對話過程中靈活調整語音的情緒和語氣。它可以根據對話的內容和場景（如熱烈討論或敏感話題）自動調節語音的表現，使其更加貼近真實的情感交流。

流暢的語音輸出：透過精細控制的語音生成技術，能夠產生非常流暢且富有表現力的語音，適用於各種應用場景，例如合成播客、敘事、語音配音等。

支援大規模應用： PlayDialog beta可與大語言模型（LLMs）結合使用，透過WebSocket進行快速回應，使其可應用於需要即時回饋的業務場景中，例如客服互動、語音助理等。

技術特點

PlayDialog 採用了創新的自適應語音上下文化處理器（ASC），這是一種新的架構，它能夠理解整個對話的上下文，而不僅僅是單一的句子或發言者，進而動態地理解和生成基於整個對話歷史的語音。這樣，模型能夠動態地調整每個反應的語調、語速、情緒和語音節奏，從而產生更自然和富有情感的語音。這使得它能夠適應整個對話的流暢性和情感起伏，使每個句子更符合對話的脈絡。

這使得 PlayDialog 在以下方面有了顯著提升：

情緒與語氣的精確控制：透過 ASC，PlayDialog 可以根據對話情境精確地控制語音的情緒和語氣。例如，在處理帶有強烈情緒色彩的對話時（如憤怒或興奮），它可以在語音的高低起伏、語速等方面進行調整，以準確反映對話的情緒狀態。

多輪對話理解：與先前的語音模型不同，PlayDialog 能夠處理多輪對話，理解不同回合之間的聯繫，並基於整個對話的上下文產生更貼合實際的語音內容。每個回合的語音輸出不僅基於當前一句話，而是綜合考慮了先前的對話和情感脈絡。

影片播放器

真實世界的對話訓練

PlayDialog beta 是在數億個對話的基礎上訓練的，涵蓋了大量現實世界的對話範例。這些對話包括不同語調、情緒以及溝通環境，確保產生的語音在多個情境下都能表現得自然且流暢。

情感和語氣的精確控制

由於模型在大量真實世界對話資料上進行訓練，它能夠更精確地模仿人類的語音特徵，包括語調（intonation）、語速（pacing）和情緒（emotion）。這種能力使得 PlayDialog 在多個方面超越了傳統語音模型：

語音流暢性與情緒表達：PlayDialog 不僅是產生語音，還能捕捉對話中的情緒和語調變化。例如，在激烈討論時，語音會更加富有激情，而在談論敏感話題時，語氣則會更加溫和和同情。這使得 PlayDialog 產生的語音更加像真人對話。

對話歷史的理解：PlayDialog 利用自適應語音上下文化處理器（Adaptive Speech Contextualizer，ASC）技術，能夠理解並利用對話的整個上下文，而不僅僅是當前的一句話或當前的發言者。這意味著每個回應不僅是單獨的輸出，而是結合對話的背景，能夠自然地過渡和銜接前後語句，體現出更自然的對話流。

PlayDialog 對語調（intonation）、語速（pacing）、情緒（emotion）和語音節奏（prosody）等要素進行了精確控制。這使得 PlayDialog 能夠產生類似於真實人物的語音，表達出細膩的情感和語氣，例如在充滿激情的討論中或在處理敏感話題時展現同理心。

語音串流媒體支持

PlayDialog 支援 WebSocket 串流媒體，可從大規模語言模型（LLMs）進行即時串流處理。這使得它在應用中能夠提供快速回應，尤其是在需要快速產生語音的應用程式場景中（例如即時對話系統、虛擬助理等）。

API 存取與集成

PlayDialog 以及 PlayNote（一個用於產生語音內容的工具）都可以透過 API 存取。開發者可以利用這些 API 實現大規模的自動化語音內容生成，而無需手動幹預。這使得 PlayDialog 成為建立語音驅動應用程式的理想選擇，支援從文件、文字、視訊等多種媒體自動產生語音內容。

多語種支持

儘管 PlayDialog 主要為英語優化，但它也相容於多種語言，支援超過 30 種語言，確保能夠服務全球範圍的用戶和應用程式場景。

PlayDialog beta的應用場景：

語音配音與播客：可以產生自然流暢的播客、敘事內容，或為各種媒體內容（如影片、書籍）進行配音。

影片播放器

客戶服務與語音助理：提供企業更個人化、更有情感的客戶服務體驗，可用於客戶支援、語音互動等場景。

影片播放器

虛擬助理與AI互動：使得AI助理在與使用者對話時更加自然、個人化，能夠根據對話情境和情感變化做出回應。

影片播放器