12 月 2024 - Ai Pier

Hume AI推出全能文字與語音引擎 OCTAVE 根據文字即時產生特定人格特質的聲音

Hume AI推出了一款名為OCTAVE（全能文字與語音引擎），這是一款具有開創性的生成模型具備即時生成語音和人格特質的能力。 OCTAVE結合了EVI 2模型以及 OpenAI 的語音引擎、Elevenlab 的 TTS 語音設計和 Google Deepmind 的 NotebookLM 等系統的能力。可以從簡單的文字描述或5秒語音錄音產生豐富的語音和人格特質，包括性別、年齡、口音、情緒語調及職業特定說話風格等。它支援多角色互動、即時對話、以及從短錄音中提取並複製聲線與個性。核心能力從文字轉語音的豐富生成能力：多維屬性控制：OCTAVE能夠根據簡單的文字描述產生高度個人化的語音輸出，包括情緒語調、性別、年齡、口音等屬性。支持產生帶有特定屬性的語音，如性別（男性、女性）、年齡（兒童、青年、老年）、口音（美式英語、英式英語等）。調整語調和節奏來表現不同的情緒和個性。場景適應性：模擬特定職業的語言風格（如老師的耐心語調、醫師的專業語調）。對應情境調整語音風格，增強自然對話感。使用「學術巫師導師」這樣的提示，OCTAVE 不僅產生高品質的聲音，還創造了新的個性、口音、表情和伴隨的語言——不到 300 毫秒語音克隆：快速學習：OCTAVE可以從僅5秒的語音錄音中提取發音特徵，克隆聲線和說話風格。可保留原聲線的個人化特點，同時根據需要添加新的情感特質。動態調整：複製的語音不僅能搭配原有聲線，還能根據情境動態調整語音的語調、語速和情感，使其更符合對話需求。地域化口音：可產生地域特色的語音，如印度英語、澳洲英語等，提昇在地化體驗。從一個非常簡短的音訊片段（約 5 秒），OCTAVE 不僅模仿了說話者的聲音，還在很大程度上克隆了他們的個性即時互動支援：即時回應：能在毫秒等級完成語音生成，實現真正的即時對話。支援即時對話生成，允許動態調整生成內容。能夠結合使用者輸入的內容即時改變語音和語調。即時調控：使用者或開發者可以動態調整生成語音的屬性（如切換角色、調整語調），實現靈活的互動體驗。多角色對話生成：角色獨立性：支援多個虛擬角色的語音生成，角色之間的語音風格、情緒和口音可以完全不同。在一個會話中同時產生多個角色的語音，模擬真實的多方對話。場景自動化：適合複雜對話場景，例如遊戲劇情對話或多人語音教育內容。在即時對話中輕鬆切換不同角色的語音風格。 OCTAVE 可以在即時

Hume AI推出全能文字與語音引擎 OCTAVE 根據文字即時產生特定人格特質的聲音閱讀全文 »

Meta AI提出了一個新的語言模型架構「Large Concept Model (LCM) 讓模型更像人類思考

AI日報

目前的大型語言模型（LLMs）雖然在多任務處理上表現優異，但其主要依賴於基於單字或子詞的逐步生成，與人類多層次抽象推理能力存在差距。傳統LLMs的局限性缺乏多層次推理能力：傳統LLMs（如GPT、Claude）在文本生成時逐字預測，雖然效果流暢，但缺乏明確的層次化規劃能力。語言中心化問題：多數LLMs以英語為中心，對低資源語言的支援較弱。長文本產生一致性問題：在產生長文本時，傳統LLMs難以保持邏輯一致性。人類在處理複雜任務時，通常從高層次概念規劃入手，再逐步細化，而現有LLMs缺乏顯性的層次化結構。 Meta AI提出了一種新的大語言模型架構“Large Concept Model (LCM)”，旨在以更高層次的語義表示（概念 concept）進行推理和生成，跨越語言和模態的限制。與傳統語言模型（如GPT）逐字生成不同，LCM的核心概念是基於「概念」（concept）進行語言處理，把每個句子看作一個「概念」concept），在句子層次進行推理和生成，而不是傳統模型的“詞元”（token）級別操作。它的目標是讓模型更像人類思考，先從大框架著手，再填充細節。具體來說：概念（Concept）：在LCM中，一個概念通常對應一個完整的句子，它是語言和模態無關的高階語義表示。設計目標：從更高的抽象層次進行推理和生成，超越現有模型限制，處理更複雜的任務。LCM透過SONAR嵌入空間對句子進行編碼，將文字或語音輸入轉換為高維語義嵌入，並在這些嵌入上進行推理和產生。這使得模型能夠直接在句子層級處理訊息，而不是逐字生成。思考方式像人類，從「概念」出發，邏輯更清晰。能處理多語言、多模態任務，直接支援文字、語音甚至手語。適合長文本處理，速度快，生成內容更連貫。具備強大的零樣本泛化能力，不用額外訓練也能完成新任務。對照項傳統模型 (GPT) LCM生成單位單字或詞元逐字生成句子或段落層級生成多語言支援英語為主，部分支援支援200種語言產生連貫性長文本邏輯容易混亂邏輯更清晰，一致性強上下文處理長上下文效能下降更好處理長上下文擴展能力需重新訓練或微調可直接泛化到新任務LCM 解決了什麼問題傳統LLMs的局限性缺乏多層次推理能力：傳統LLMs（如GPT、Claude）在文本生成時逐字預測，雖然效果流暢，但缺乏明確的層次化規劃能力。語言中心化問題：多數LLMs以

Meta AI提出了一個新的語言模型架構「Large Concept Model (LCM) 讓模型更像人類思考閱讀全文 »

阿里巴巴推出QVQ-72B 一個基於Qwen2-VL-72B的新型多模態推理模型

AI日報

阿里巴巴推出QVQ-72B，一个基于Qwen2-VL-72B的新型多模态推理模型，专注于增强视觉理解与复杂问题解决能力。其名称中“QVQ”代表了模型关注的视觉理解（Visual understanding）和复杂推理（Reasoning）。 QVQ-72B结合了语言和视觉能力，旨在提供类似于人类专家的推理能力。它在视觉推理、数学和科学问题上表现出显著提升，特别是在多步推理任务中。在MMMU等测试集上获得70.3分，大幅超越Qwen2-VL-72B-Instruct。在数学与科学基准测试（如MathVista、OlympiadBench）中展示出优异成绩，接近当前最先进模型。QVQ-72B 的主要功能视觉理解图片内容分析：能够从图片中提取多层次的信息，包括对象识别、场景理解、颜色、空间关系等。细粒度视觉任务：支持解读复杂的图片内容，如图表、图像中的文字和手写体识别。多模态上下文融合：可以结合图片和文本的语境完成更高层次的分析和理解。语言理解与生成多语言支持：对多种语言（包括中文、英语等）具有深度理解能力，适用于跨语言任务。逐步推理：在文本任务中，采用逻辑分步推理方式，更准确地处理复杂问题，例如长链问题解答。强大的生成能力：能够生成连贯、逻辑清晰的文本答案。跨模态推理多模态训练优化高质量数据训练：使用大规模多模态数据集进行训练，包括图片-文本对齐、图文描述、问答数据等。鲁棒性强：适应各种复杂场景，如图表、自然图片、科学文本等。视觉与文本信息结合：擅长将图片信息与文本信息结合，进行复杂问题的推理和分析。示例：理解图片中的数学公式并结合问题给出答案。问题求解能力：对跨模态问题（如基于图片的推理问题）进行智能解答。科学与数学计算：在科学、工程、数学等专业领域中具备深度推理能力。专业推理能力专注于多步推理，能够以分步方式解决复杂问题：在语言任务中，逐步细化解答，避免逻辑错误。在视觉任务中，通过递归推理层层深入，确保准确性。学术与科研：在数学、物理、化学等领域中的复杂问题求解表现出色。逻辑推理：支持递归推理和分步推导，例如推导物理定律、解决数学奥赛题等。性能表现在 4 个数据集上评估 QVQ-72B-Preview，包括： MMMU：一个大学级别的多学科多模态评测集，旨在考察模型视觉相关的综合理解和推理能力。MathVista：一个数学相关的视觉推理测试集，评估拼图测试图形的

阿里巴巴推出QVQ-72B 一個基於Qwen2-VL-72B的新型多模態推理模型閱讀全文 »

DeepMind 發表新一代天氣預測 AI 模型：GenCast 可精準預測15天內的天氣狀況

未分類

GenCast 是 DeepMind 推出的高分辨率 AI 天气预测模型，使用生成式 AI 技术对天气进行概率性预测。传统模型如 ECMWF 的 ENS 系统，基于物理学原理运行，需要强大的计算资源才能生成概率性预测。然而，这些模型计算时间较长，对于极端天气事件的预测能力仍有限。此外，面对气候变化引发的极端天气增多，现有模型在精度和效率上难以满足决策者的需求。 GenCast 在预测精度上全面超越传统系统。在测试中，它在 97.2% 的预测目标上表现优于 ECMWF 的 ENS 模型，尤其在超过 36 小时的预测范围内，其准确率达到 99.8%。对于极端天气事件，如热浪、寒潮和台风路径，GenCast 的预测更为可靠，为防灾减灾提供了宝贵数据。它可以生成一组 50+ 个预测，模拟未来天气的可能变化轨迹。与传统天气模型相比，GenCast 在精度和计算效率上均显著提升，可预测未来 15 天的天气情况和极端天气风险。使用 Google Cloud TPU v5，每次生成完整的 15 天预测只需 8 分钟。与传统基于物理的天气模型相比，GenCast 更快且计算成本更低。1. 高精度天气预测准确性超过传统模型：与目前全球顶级天气预测系统 ECMWF 的 ENS 模型相比，GenCast 在 97.2% 的预测目标上表现更优。在超过 36 小时的预测范围内，其准确率达到了 99.8%。极端天气预测：能更好地预测热带气旋、极端温度（热浪或寒潮）以及高风速等极端天气事件。在预测热带气旋（如台风、飓风）、极端温度和强风时表现优异。提供的路径预测范围更准确，有助于提高防灾减灾的决策效率。全面的概率性预测：GenCast 不仅提供单一预测结果，还生成多种可能的天气发展路径，通过模拟不确定性为决策者提供更全面的信息。这种能力在极端天气事件中尤为重要，帮助制定精准的应对策略。 2. 预测范围与分辨率GenCast 的技术核心是生成式 AI 模型，它在地球的球面几何基础上进行了特殊优化，能够生成复杂的天气概率分布。模型以 ECMWF 的 ERA5 数据为训练基础，涵盖 40 年的历史天气数据，包括温度、风速和气压等多维变量。这种深度学习和大数据结合的方法，使 GenCast 能够直接学习全球天气模式，并在高分辨率（0.25°）上进行精准预测。覆盖全球，分辨率高：使用 0.25° 高

DeepMind 發表新一代天氣預測 AI 模型：GenCast 可精準預測15天內的天氣狀況閱讀全文 »

IC-Light 升級為IC-Light V2-Vary 可更靈活地調整光源位置和強度

未分類

IC-Light V2更新升级，升级为IC-Light V2-Vary 主要改进光照变化能力增强模型在光影处理方面有显著提升，可以更灵活地调整光源位置和强度，生成不同光照效果的图像。针对需要复杂光影变化的用户，提供了更丰富的操作空间。细节保留能力提高相较于之前版本，V2-Vary 对输入图像细节的保留能力更强，减少了调整光影时图像内容的丢失或扭曲。适合对细节要求较高的图像处理任务，例如人像摄影后期处理。多样性输出优化输出图像的多样性得到加强，可以生成不同风格和特征的光影效果。特别适用于艺术创作和专业光影效果模拟。这些改进使得 IC-Light V2-Vary 更加适合需要强光影效果和细节处理的用户，如摄影师、设计师及3D建模专业人士，同时为艺术创作者提供了更多可能性。 IC-Light的主要功能特点IC-Light 是一种用于扩展基于扩散模型的光照编辑训练的方法，旨在解决复杂光照场景中的图像生成和编辑问题。其主要功能包括： 1. 光照一致性约束核心原理：基于物理光传输理论，确保物体在不同光照条件下的表现可以线性组合。保证混合光照下的表现与单独光照条件下的线性叠加一致。功能：通过光照一致性约束，模型能够在编辑光照时保持图像本质属性（如反射率、纹理等）不变。减少不必要的图像伪影，确保输出结果与实际物理光照条件一致。2. 大规模数据支持支持超过 1000 万样本的训练数据，包括：真实光照数据：例如光照舞台的单光源实验数据。3D 渲染数据：通过渲染技术生成的多光照条件图像。自然场景增强数据：通过增强真实图像光照效果，生成丰富的训练数据。功能：适配多种数据来源，增强模型处理多样化光照场景的能力。扩展模型泛化能力，支持从自然光照到复杂艺术光照的多场景应用。3. 精确光照编辑支持各种复杂光照条件的编辑，包括：自然光效：如阳光穿过百叶窗、树荫投影等。艺术光效：如魔法金光、霓虹灯等特殊效果。背景协调：根据背景调整光照，使得前景与背景协调一致。功能：提供精确的光照调整能力，适用于各种场景需求。确保生成结果中光照效果与图像整体风格和谐。4. 图像本质属性保持修改光照的同时保持图像内在特性，如：反射率（Albedo）：维持原始图像的颜色和反射特性。细节保真度：保留原图中的纹理细节和形状特性。功能：避免因光照调整导致的图像失真。提高生成图像的质量和真实性。5. 支持高性能模型骨干支持多种扩

IC-Light 升級為IC-Light V2-Vary 可更靈活地調整光源位置和強度閱讀全文 »

OOTDiffusion：支援半身、全身的開源的高解析度虛擬試穿模型

未分類

OOTDiffusion 是基於擴散模式（Latent Diffusion）的虛擬試穿系統。它使用先進的服飾融合技術，將衣物影像與人物影像無縫結合，為虛擬試穿提供高度可控的解決方案。它可以將一件衣服「穿」到任何人物身上，讓你看到穿上去後的樣子。例如，想看看某件T卹穿在自己身上的效果，它可以自動幫你產生逼真的試穿圖片。該系統適用於各種場景，包括時尚設計、電商平台以及個人化虛擬試穿需求。影片播放器它解決了什麼問題？更真實的試穿效果：以前很多虛擬試穿技術產生的圖片不夠自然，例如衣服的褶皺、光影效果不對，看起來很假。OOTDiffusion 能產生更真實的效果，衣服紋理、圖案和細節都能保留得很好。省去了複雜的操作：傳統方法要先把衣服變形、調整才能搭配人物，操作複雜，效果還容易失真。它不需要這個步驟，直接讓衣服「貼合」到目標人物上，既快又準。使用者能控制試穿效果：使用者可以調整參數，例如讓衣服的細節更清晰，或讓它自然地融入圖片。最近更新內容ONNX 支援：新增了對 ONNX 模型的支持，用於人像分割（Human Parsing）。這項改進優化了模型的兼容性和運行效率，解決了許多環境問題。模型權重發布：發布了基於以下資料集訓練的模型權重：VITON-HD：半身虛擬試穿模型。Dress Code：全身虛擬試穿模型。影片播放器主要功能1. 虛擬試穿半身試穿：模型專為 VITON-HD 資料集設計，支援半身衣物（如上衣）的試穿效果。全身試穿：針對 Dress Code 資料集，支援全身服裝（包括上身、下身及洋裝）的虛擬試穿。服裝類別可訂製：0 表示上衣、1 表示下裝、2 表示洋裝。生成效果真實：細節保留：衣服上的圖案、文字、褶皺和顏色都會完整展現。自然融合：衣服和人體形狀貼合，光影效果自然，看起來像真人穿著。高解析度生成支援 1024×768 的高品質圖片，適合電商展示和設計需求。2. 高精度服飾融合自動服裝與人體對齊根據人物姿勢和體型，智慧調整服裝形狀和位置，無需手動變形。基於擴散模型的潛在空間生成：透過潛在擴散技術，將服飾與人物影像進行高精度融合。確保試穿效果自然，保留人物原始結構與姿態。利用 OpenPose 和人像分割技術（Human Parsing），實現人體與服裝的精準對齊。3. 模型與工具支持提供預訓練模型，支援以下功能：人像分割：精準分割人物與背景。服裝試穿

OOTDiffusion：支援半身、全身的開源的高解析度虛擬試穿模型閱讀全文 »

對標NotebookLM Play AI推出了PlayDialog：可產生自然對話播客、旁白以及自然交互

未分類

Play AI推出了PlayDialog beta，专门用于创建更加自然、富有表现力和情感的对话式语音输出。它的目标是使与人工智能的对话更加流畅和人性化，特别是在复杂、富有情感的互动场景中。 PlayDialog 的技术突破不仅在于它的庞大训练数据和模型体积，还包括其上下文理解、情感表达和语音生成质量等方面的提升。通过自适应语音上下文化处理器（ASC），PlayDialog 能够生成更加自然、流畅、富有情感的语音，显著优于市场上现有的竞争模型。在多個對比測試中，PlayDialog 在表現力（expressiveness）方面超越了市場上的領先競爭模型，且其語音生成的自然度和情感表達都有明顯優勢。尤其是在進行盲測時，PlayDialog 的表現力評分是競品的 2倍，它能提供更細膩、情緒豐富和人性化的語音輸出。基於PlayDialog，他們開發了一個新的工具：PlayNote ，允許用戶從文字、PDF、視訊和其他媒體類型創建語音內容，如播客、簡報，甚至兒童故事。 PlayDialog beta的主要功能：類人語音： PlayDialog beta能夠產生非常自然的語音，接近真實人類的語調和語速。它透過對數億對話的訓練，使得生成的語音在表達力和自然度上接近人類對話。在盲測中，PlayDialog beta在市場上領先的語音模型中脫穎而出，得分比率達到2:1。情境感知： PlayDialog beta的獨特之處在於，它不僅僅是產生每句話的語音，而是能夠理解整個對話的脈絡。它利用一種名為「自適應語音上下文化器」（ASC）的架構，將整個對話歷史作為上下文來調整語音的節奏、語氣和情感。這使得每個答案都能更好地融入整個對話中，反映出對話的流動性和情緒變化。情緒和語氣控制：能夠在對話過程中靈活調整語音的情緒和語氣。它可以根據對話的內容和場景（如熱烈討論或敏感話題）自動調節語音的表現，使其更加貼近真實的情感交流。流暢的語音輸出：透過精細控制的語音生成技術，能夠產生非常流暢且富有表現力的語音，適用於各種應用場景，例如合成播客、敘事、語音配音等。支援大規模應用： PlayDialog beta可與大語言模型（LLMs）結合使用，透過WebSocket進行快速回應，使其可應用於需要即時回饋的業務場景中，例如客服互動、語音助理等。技術特點 Play

對標NotebookLM Play AI推出了PlayDialog：可產生自然對話播客、旁白以及自然交互閱讀全文 »

MidJourney 發布了一個線上創作工具：Patchwork 一句話創造一個完整的故事世界圖像

未分類

MidJourney 發布了一個線上創作工具：Patchwork ，專注於虛擬故事世界的建構與探索。使用者可以透過「入口網站」創建新世界，設定世界的主題和風格參考，還可以透過隨機化選項或自行定義個人化設定。你可以透過它創造角色、派系、地點等虛擬實體，並產生相關的文字或影像，形成一個具有深度的虛擬世界。它不僅適合個人使用，也支援多人協作。它像是個創作幫手，能幫你把「腦中的想法」變成「看得見的世界」和「可閱讀的故事」。它能做什麼？無限畫布：你可以在一個無限大的畫布上添加和調整文字和圖片。畫布上的每個內容片段都可以自由拖曳、放大、縮小或刪除。生成新世界：系統會幫你自動產生一個“世界”，包括它的樣子、風格和背景故事。如果你有自己的風格想法，可以加入影響生成結果。創造角色和故事：你可以快速產生角色，例如名字、背景故事和頭像。同樣可以增加地點、事件，像寫小說一樣發展故事。生成圖像：根據描述文字，系統會畫出符合設定的圖片，例如角色的畫像、地點的風景等。也可以修改圖片，讓它更符合你的想法。分享與保存：你可以把自己的世界分享給別人看，也可以完全保密。系統允許你把所有內容保存下來，以免遺失。它適合誰用？小說作者：用來設計故事的背景和角色。遊戲開發者：為遊戲建立完整的世界觀。藝術家：尋找靈感，創作獨特的視覺風格。學生或研究者：用它進行互動式學習或專案展示。簡單來說，Patchwork 是一個把想法變成圖片和文字的小助手，幫助你用更直覺的方法來講述故事或建構世界。舉例說明假設你想寫一個關於「鬼魂小鎮」的故事，Patchwork 可以幫你：第一步：創建世界描述設定：你想要一個「鬼魂居住的小鎮，空無一人，卻充滿奇怪的全像影像」。在 Patchwork 中輸入這句話，它會幫你自動產生這個世界的基本風格，例如：顏色和氣氛：粉紅色和橙色的朦朧光線。故事背景：這個小鎮曾經有居民，但他們變成了全像鬼魂。畫布展示：系統會生成一個大畫布，顯示小鎮的樣貌，例如廢棄的建築、飄動的光影。第二步：新增角色創建主角：輸入描述：“一位堅韌的歷史學家，想揭開這個小鎮的秘密。”系統生成角色：Amara Vihan，並提供一個故事背景：她尋找關於這個小鎮消失的真相。生成畫像：Patchwork 用 AI 畫出這個角色的肖像，例如：一個穿著舊夾克的女人，拿著筆記本，目光堅定。加入反派角色：假設你想再增加一個角色

MidJourney 發布了一個線上創作工具：Patchwork 一句話創造一個完整的故事世界圖像閱讀全文 »

MidJourney 推出個人化檔案和情緒版新功能記住你的風格喜好

AI日報

MidJourney 推出個人化檔案和情緒版新功能，目的是讓使用者更容易個性化他們的影像生成流程。主要功能多個個性化檔案使用者可以建立和管理多個個人化檔案。這樣，你可以為不同的項目或風格設定不同的檔案，每個檔案都保存著不同的個人化參數和設定。更快速的個人化設置設定個人化檔案的過程比之前快了最多 5 倍。使用者可以更迅速地開始調整模型的輸出，節省了時間。透過情緒板（Moodboards）個人化模型用戶可以上傳圖像，創建一個「情緒板」。這些圖像將作為模型的靈感來源，幫助模型根據這些圖像產生更符合你需求的個人化圖像。。透過這種方式，使用者可以創建自己喜歡的風格或主題，模型會根據這些圖像的特徵來產生新的圖像，從而確保生成的作品符合用戶的需求和創意方向。例如，你可以上傳不同風格的圖像，模型會基於這些圖像創造出符合你風格的作品。 Moodboards 的關鍵作用：風格參考：你可以將自己喜歡的藝術風格、設計元素、色彩組合等添加到心情板中，讓模型從中獲取靈感，產生符合你美感的圖像。創意方向：心情板能夠幫助你明確創作的方向。例如，如果你想創作一組符合「未來科技感」的圖像，可以上傳相關的科幻、現代建築、機械細節等圖像，模型就會根據這些元素來創作。混合創意：透過上傳多種風格、主題或感覺的圖像，模型會將這些圖像混合、重新組合，產生更具創意和多樣化的作品。這對於需要產生獨特視覺效果的用戶非常有用。在 MidJourney 中如何使用 Moodboards：上傳圖像：使用者可以上傳自己喜歡的圖像，這些圖像會成為心情板的元素。上傳的圖像可以是各種風格和內容，如藝術作品、攝影、插圖、自然景觀等。產生客製化影像：上傳圖像後，MidJourney 會分析這些圖像，並將它們作為參考生成新的圖像。隨著你上傳更多圖像，模型將更準確地理解你的風格需求，生成的作品會更符合你的創作意圖。靈感與創意的視覺表達：透過使用 Moodboards，使用者能夠在不直接給出詳細文字描述的情況下，向模型提供視覺指導，使生成的圖像更加接近用戶的美學和創意目標。更多細節個人化檔案「收斂」更快以前，建立一個個人化檔案需要大量的評分（通常需要10,000 個評分），但現在你只需要大約200 個評分就能使檔案達到穩定狀態，甚至2,000 個評分就能讓效果非常好，速度更快。情緒板的作用情緒板不僅僅是用來上傳圖片的地方，當你上傳更多樣

MidJourney 推出個人化檔案和情緒版新功能記住你的風格喜好閱讀全文 »

Google影片和影像產生模型更新包括Veo 2、Imagen 3和一個新工具Whisk

AI日報

Google發布了其影片和圖像生成模型的更新，包括Veo 2、Imagen 3和一個新實驗工具Whisk。 Veo 2 是oogle最新的影片產生模型，對標OpenAI的Sora，能夠創造具有電影效果的影片。 Veo 2提升了生成影片的現實感和細節，透過引入現實物理和人類動作的元素，產生更自然流暢的動態場景。例如，Veo 2 可以模擬光影變化、物體碰撞、運動軌跡等物理現象，使得產生的影片看起來更具現實感和沈浸感。 Veo 21. 更高品質的影片生成自然逼真的視頻效果：Veo 2能夠產生極其真實的高品質視頻，尤其擅長處理複雜的動作和細節表現。與其前代產品相比，Veo 2提供了更高的影像清晰度和更流暢的動態表現，使得生成的影片與真實世界的影片在視覺上非常接近。多樣化的風格支援：該模型支援多種風格的視訊生成，可以根據使用者的需求生成從現實主義到藝術化、抽象化的視訊風格，為創作提供了更大的自由度。 2. 現實感與物理引擎實體模擬：Veo 2 引入了先進的實體引擎，使得影片中呈現的動態場景更加真實。例如，物體在場景中的運動、碰撞和相互作用都基於現實世界的物理規律進行模擬。自然的光影和環境效果：影片中的光線變化、反射、陰影等自然環境效果得到了優化，使得最終生成的影片更加自然和生動。 3. 人物動作捕捉動態人物建模：Veo 2 可以產生自然流暢的人物動作，特別是在影片中涉及人物時，模型能夠準確捕捉和模擬人類的動作，確保人物在影片中的表現更加逼真。與先前的版本相比，Veo 2產生的動作更為流暢和自然，避免了運動不連貫或不符合物理規律的情況。高幀率支援：Veo 2在處理高幀率的影片時表現特別出色，能夠更好地捕捉快速移動的物體或人物，確保動態表現不會出現拖影或卡頓現象。人類姿態與運動：此模型能夠細緻地捕捉人類的姿勢、運動軌跡，並以高精度呈現，適合用於需要高度還原人類行為和情感的場景。 4. 電影級視覺效果電影化的場景呈現：Veo 2 強調電影級的視覺效果，能夠產生具有深度感和層次感的場景，適用於廣告製作、電影特效、虛擬環境等高品質創意項目。創作空間：Veo 2 為創作者提供了極大的創作空間，可以產生包括動作場景、靜態場景、幻想世界等多種類型的場景，滿足創意產業的多種需求。 5.靈活的鏡頭控制與場景調整鏡頭角度控制：Veo 2提供了靈活的鏡頭控制選項，讓使用者可以調整影片中的鏡頭角度、

Google影片和影像產生模型更新包括Veo 2、Imagen 3和一個新工具Whisk 閱讀全文 »