Ideogram發布最新的圖像生成模型Ideogram 2a 速度更快 成本更低 專為平面設計和攝影優化

Ideogram發布其最新的圖像生成模型Ideogram 2a,Ideogram稱這是其最快、最經濟實惠的文本生成圖像模型,專為平面設計和攝影優化。 Ideogram 2a 可在 10 秒 內產生高品質設計和照片級真實感影像 2a Turbo 版本 甚至只需 5 秒! 生成圖像的費用 降低 50%

Ideogram發布最新的圖像生成模型Ideogram 2a 速度更快 成本更低 專為平面設計和攝影優化 閱讀全文 »

OCTAVE:全球首個真正「理解」語音內容的語音合成模型 能理解文字內容情緒並產生自然且富有表現力的語音

Hume AI 推出了 OCTAVE(Omni-capable text and voice engine),這是一款基於 大語言模型(LLM) 訓練的 新一代文本轉語音(TTS)系統,不同於傳統 TTS 只是機械地“朗讀”文本,OCTAVE 能夠理解文本內容的含義,並根據語境生成更加自然、情感和情感表達的語音表達。 也就是:Octave 不僅能“說”,還能“理解”它在說什麼。它透過分析文本中的情緒線索、情節轉折和角色特徵,產生自然且富有表現力的語音。 OCTAVE 是 AI 語音合成技術的重大突破,讓 AI 不再只是「朗讀」文本,而是真正 「理解」文本並表達情感。它不僅能產生更自然、更具表現力的語音,還能讓用戶 個人化客製化 AI 語音角色。 OCTAVE 在多項評測中 超越了 ElevenLabs,在 音質(71.6%)、自然度(51.7%)以及與語音描述匹配度(57.7%) 三個關鍵指標上均獲得更高評分。 相較於傳統 TTS,OCTAVE 具備下列核心優勢: > 理解上下文,依照情境調整語調、重音、節奏> 支援語音個人化,可創造任意風格的 AI 語音角色> 提供語音風格自訂,可調式情緒、語調、表達方式> 領先的音質和自然度,在行業盲測中超越 ElevenLabs> API 和 SDK 適用於開發者,可輕鬆整合到應用中> 未來支援語音克隆,僅需 5 秒即可複製聲音 OCTAVE 的主要特點 基於 LLM 訓練的語音生成 OCTAVE 不只是一個語音合成引擎,而是一個結合了 大語言模型(LLM)和語音技術的 AI 語音生成系統,具備 以下核心能力: 能夠理解文本的 情境,推測 情緒、語調、重音、節奏。 自動產生符合 情緒語境 的語音,而不僅僅是按照字面意思機械朗讀。 語音的自然度遠超傳統 TTS,能夠根據上下文調整 語速、停頓、重音、音調。 > 例 :情緒性朗讀 文字輸入:「哦,當然,我們再來開一次關於 logo 顏色的會議吧!畢竟誰在乎功能呢,顏色才是關鍵!」OCTAVE 語音輸出(諷刺語調):諷刺且帶有誇張的重音 文字輸入:「不!不要靠近我!這太可怕了!」OCTAVE 語音輸出(有驚恐):帶有顫抖的聲音,語速快,音調高 傳統的 TTS 只是「朗讀」這些文本,而 OCTAVE 會理解語境,調整語氣,使其更貼近人類表達。

OCTAVE:全球首個真正「理解」語音內容的語音合成模型 能理解文字內容情緒並產生自然且富有表現力的語音 閱讀全文 »

Mercury:全球首個商用級擴散大語言模型(dLLM)速度快10倍 更準確、更聰明、更省錢

nception Labs 推出了一款全新的大語言模式 Mercury,與目前主流的Transformer模式不同,這是全球首個商用級擴散大語言模式(Diffusion Large Language Model,dLLM)。比現在常見的 ChatGPT(GPT-4o)、Claude 3.5、Gemini 1.5 快 10 倍,同時更準確、更聰明、更省錢。 Mercury 採用 擴散模型(Diffusion Model) 進行文本生成,相較於目前主流的自回歸(autoregressive)LLM(如 GPT-4、Claude 3.5、Gemini 1.5),它具備: 更快的推理速度(提升 5-10 倍) 更低的計算成本 更強的邏輯推理能力 更好的可控制性(可局部修改文字、糾錯、填充) 應用場景:包括編碼、問答、代理任務(agentic applications)等,未來可能擴展至更多通用語言任務。 > 什麼是擴散大語言模型(dLLM)? 現有 LLM(如 GPT-4、Claude 3.5)的問題 目前主流的 大語言模型(LLM) 都是基於 自回歸(autoregressive) 方式進行文字產生: 逐步依序 一個 token 一個 token 產生文本,每個 token 依賴前面的輸出。 這種方式在 長文本推理、複雜任務 方面有明顯缺陷: 推理速度慢(尤其是長文時,計算成本極高) 推理錯誤難以修正(一個錯誤可能影響後續所有生成) 難以局部修改(必須重新產生整個文本) 易產生幻覺(hallucination),無法全域最佳化文字質量 擴散大語言模型(dLLM):全新解決方案 Mercury 採用 擴散模型(Diffusion Model) 進行文字生成,和 影像擴散(Stable Diffusion、Midjourney) 類似: 並行修改多個 token,而不是逐一生成 粗到細(coarse-to-fine) 逐步最佳化輸出,而非簡單預​​測下一個 token 能夠全域最佳化文字結構,減少幻覺、提高一致性 > 擴散 LLM 的核心優勢: > 速度提升 5-10 倍(並行優化多個 token,提高吞吐量)> 減少幻覺(Hallucination)(可全域調整文本,不受前後 token 誤差影響)> 更好的可控性(支援局部修改、插入文字、填

Mercury:全球首個商用級擴散大語言模型(dLLM)速度快10倍 更準確、更聰明、更省錢 閱讀全文 »

返回頂端