3 月 2025 - Ai Pier

Ideogram發布最新的圖像生成模型Ideogram 2a 速度更快成本更低專為平面設計和攝影優化

Ideogram發布其最新的圖像生成模型Ideogram 2a，Ideogram稱這是其最快、最經濟實惠的文本生成圖像模型，專為平面設計和攝影優化。 Ideogram 2a 可在 10 秒內產生高品質設計和照片級真實感影像 2a Turbo 版本甚至只需 5 秒！生成圖像的費用降低 50%

OCTAVE：全球首個真正「理解」語音內容的語音合成模型能理解文字內容情緒並產生自然且富有表現力的語音

AI日報

Hume AI 推出了 OCTAVE（Omni-capable text and voice engine），這是一款基於大語言模型（LLM）訓練的新一代文本轉語音（TTS）系統，不同於傳統 TTS 只是機械地“朗讀”文本，OCTAVE 能夠理解文本內容的含義，並根據語境生成更加自然、情感和情感表達的語音表達。也就是：Octave 不僅能“說”，還能“理解”它在說什麼。它透過分析文本中的情緒線索、情節轉折和角色特徵，產生自然且富有表現力的語音。 OCTAVE 是 AI 語音合成技術的重大突破，讓 AI 不再只是「朗讀」文本，而是真正「理解」文本並表達情感。它不僅能產生更自然、更具表現力的語音，還能讓用戶個人化客製化 AI 語音角色。 OCTAVE 在多項評測中超越了 ElevenLabs，在音質（71.6%）、自然度（51.7%）以及與語音描述匹配度（57.7%）三個關鍵指標上均獲得更高評分。相較於傳統 TTS，OCTAVE 具備下列核心優勢： > 理解上下文，依照情境調整語調、重音、節奏> 支援語音個人化，可創造任意風格的 AI 語音角色> 提供語音風格自訂，可調式情緒、語調、表達方式> 領先的音質和自然度，在行業盲測中超越 ElevenLabs> API 和 SDK 適用於開發者，可輕鬆整合到應用中> 未來支援語音克隆，僅需 5 秒即可複製聲音 OCTAVE 的主要特點基於 LLM 訓練的語音生成 OCTAVE 不只是一個語音合成引擎，而是一個結合了大語言模型（LLM）和語音技術的 AI 語音生成系統，具備以下核心能力：能夠理解文本的情境，推測情緒、語調、重音、節奏。自動產生符合情緒語境的語音，而不僅僅是按照字面意思機械朗讀。語音的自然度遠超傳統 TTS，能夠根據上下文調整語速、停頓、重音、音調。 > 例：情緒性朗讀文字輸入：「哦，當然，我們再來開一次關於 logo 顏色的會議吧！畢竟誰在乎功能呢，顏色才是關鍵！」OCTAVE 語音輸出（諷刺語調）：諷刺且帶有誇張的重音文字輸入：「不！不要靠近我！這太可怕了！」OCTAVE 語音輸出（有驚恐）：帶有顫抖的聲音，語速快，音調高傳統的 TTS 只是「朗讀」這些文本，而 OCTAVE 會理解語境，調整語氣，使其更貼近人類表達。

OCTAVE：全球首個真正「理解」語音內容的語音合成模型能理解文字內容情緒並產生自然且富有表現力的語音閱讀全文 »

Mercury：全球首個商用級擴散大語言模型（dLLM）速度快10倍更準確、更聰明、更省錢

AI日報

nception Labs 推出了一款全新的大語言模式 Mercury，與目前主流的Transformer模式不同，這是全球首個商用級擴散大語言模式（Diffusion Large Language Model，dLLM）。比現在常見的 ChatGPT（GPT-4o）、Claude 3.5、Gemini 1.5 快 10 倍，同時更準確、更聰明、更省錢。 Mercury 採用擴散模型（Diffusion Model）進行文本生成，相較於目前主流的自回歸（autoregressive）LLM（如 GPT-4、Claude 3.5、Gemini 1.5），它具備：更快的推理速度（提升 5-10 倍）更低的計算成本更強的邏輯推理能力更好的可控制性（可局部修改文字、糾錯、填充）應用場景：包括編碼、問答、代理任務（agentic applications）等，未來可能擴展至更多通用語言任務。 > 什麼是擴散大語言模型（dLLM）？現有 LLM（如 GPT-4、Claude 3.5）的問題目前主流的大語言模型（LLM）都是基於自回歸（autoregressive）方式進行文字產生：逐步依序一個 token 一個 token 產生文本，每個 token 依賴前面的輸出。這種方式在長文本推理、複雜任務方面有明顯缺陷：推理速度慢（尤其是長文時，計算成本極高）推理錯誤難以修正（一個錯誤可能影響後續所有生成）難以局部修改（必須重新產生整個文本）易產生幻覺（hallucination），無法全域最佳化文字質量擴散大語言模型（dLLM）：全新解決方案 Mercury 採用擴散模型（Diffusion Model）進行文字生成，和影像擴散（Stable Diffusion、Midjourney）類似：並行修改多個 token，而不是逐一生成粗到細（coarse-to-fine）逐步最佳化輸出，而非簡單預測下一個 token 能夠全域最佳化文字結構，減少幻覺、提高一致性 > 擴散 LLM 的核心優勢： > 速度提升 5-10 倍（並行優化多個 token，提高吞吐量）> 減少幻覺（Hallucination）（可全域調整文本，不受前後 token 誤差影響）> 更好的可控性（支援局部修改、插入文字、填

Mercury：全球首個商用級擴散大語言模型（dLLM）速度快10倍更準確、更聰明、更省錢閱讀全文 »

Ideogram發布最新的圖像生成模型Ideogram 2a 速度更快 成本更低 專為平面設計和攝影優化

OCTAVE：全球首個真正「理解」語音內容的語音合成模型 能理解文字內容情緒並產生自然且富有表現力的語音

Mercury：全球首個商用級擴散大語言模型（dLLM）速度快10倍 更準確、更聰明、更省錢

Ideogram發布最新的圖像生成模型Ideogram 2a 速度更快成本更低專為平面設計和攝影優化

OCTAVE：全球首個真正「理解」語音內容的語音合成模型能理解文字內容情緒並產生自然且富有表現力的語音

Mercury：全球首個商用級擴散大語言模型（dLLM）速度快10倍更準確、更聰明、更省錢