AI日報 Archives - 第 2 頁，總計 3 頁

Xai 發布 Grok-2 模型新版本速度提升3倍多語言指令遵循能力更強

新的 Grok-2 模型版本，速度是之前的三倍，並提供了更高的準確性、指令遵循能力和多語言能力。提供無過濾的答案，並具備高階推理、編碼和視覺處理能力。所有𝕏上的用戶都可免費 Grok-2 的新版本。功能亮點1. 網頁搜尋與引用新功能：Grok 可以直接進行網頁搜索，提供使用者更全面的資訊。引用支持：產生的答案會附帶來源訊息，增加答案的可信度。這解決了許多 AI 工具中普遍存在的「無依據回答」問題。應用場景：非常適合用於尋找最新的新聞事件、專業知識或驗證複雜問題的答案。2. Aurora 圖像生成器新功能：內建的高級影像產生器 Aurora，可產生高度逼真的影像，接近照片級效果。Create your own version with Grok3. 即時事件支援與開放答案即時處理：Grok 支援處理最新發生的事件，及時為用戶產生準確的即時資訊。未過濾答案：新版本允許產生更直截了當的答案，不進行過多限制，適合需要全面資訊的場景。優點：特別適合動態變化的任務，例如新聞報導、股票市場更新、即時技術支援等。API 新增了兩個新模型： grok-2-1212 和 grok-2-vision-1212 。在準確性、指令遵循和多語言能力方面有所提升。模型API價格降低到每百萬輸入token 2 美元和每百萬輸出token 10 美元。現在註冊並使用 API，獲得 25 美元的免費積分官方介紹：https://x.ai/blog/grok-1212

Xai 發布 Grok-2 模型新版本速度提升3倍多語言指令遵循能力更強閱讀全文 »

Cognition 的 AI工程師 Devin 正式推出 500美金一個月

AI日報

今年3月的時候 Cognition AI實驗室發布了世界上第一位完全自主的 AI 軟體工程師：Devi。官方表示 Devin 是一位不知疲倦、技術嫻熟的隊友，可以與工程師並肩作戰或獨立完成任務供工程師審查，使工程師可以專注於更有趣的問題，工程團隊可以實現更遠大的目標。具備自學新語言、開發迭代 App 的能力，並在 SWE-bench 編碼基準測試中取得了突破性成功，甚至超越了頂尖的人類工程師。大半年過去了，今天，Cognition AI終於正式發表Devi。它不僅能夠快速處理日常程式碼任務，還可以透過與團隊工具的無縫集成，提高整個開發流程的效率。無論是修復 bug、優化程式碼，還是編寫測試案例，Devin 都能勝任。 Devin 能無縫整合到開發者的現有工作流程中。可以透過三種方式使用 Devin：在 Slack 中透過聊天指令分配任務。在 VSCode 等 IDE 中直接管理 Devin 產生的程式碼。透過 API 將 Devin 整合到客製化的工作流程中。Devin 的主要功能詳解1. Slack 集成Devin 能直接透過 Slack 接收任務並處理簡單的工程問題。如何使用？在 Slack 中給 Devin 分配任務（例如：「修復這個 API 呼叫的 Bug」或「幫助寫個簡單的測試案例」）。Devin 會在背景執行任務，並將結果透過 Slack 回覆你。適合的任務：修復小型程式碼錯誤，例如前端樣式問題或後端 API 參數校驗。快速查看問題並提供初步解決方案。2. IDE 插件（支援 VSCode）Devin 提供了 VSCode 的插件，直接嵌入開發者的程式碼編輯器，方便開發者與 Devin 即時協作。功能亮點：程式碼產生：你可以標記程式碼段，讓 Devin 幫你完成重構或產生新程式碼。提交程式碼變更（PR）：Devin 可以直接產生一個 Pull Request，提交到 GitHub 或程式碼庫供你審查。非同步協作：你可以讓 Devin 先完成初稿程式碼，然後稍後在 IDE 中查看並修改。3. 自動程式碼優化與生成Devin 非常擅長完成一些特定的小型開發任務：小型 Bug 修復：處理邊界用例、邏輯錯誤等。程式碼最佳化與重構：例如，將舊程式碼遷移到新框架中或調整程式碼結構以提升效率。PR 初稿產生：對任務清單中的程式碼變更任務（如新增功能），

Cognition 的 AI工程師 Devin 正式推出 500美金一個月閱讀全文 »

微軟推出炸裂的Copilot Vision 功能可即時監控你的上網行為隨時提供AI協助by 小互 2024年12月6日 in XiaoHu.AI日報

AI日報

微軟推出全新的Copilot Vision 功能，它透過嵌入 Edge 瀏覽器中，提供即時網頁內容分析和互動。它可以透過與使用者的網頁瀏覽同步，即時監控你的網頁瀏覽行為，隨時提供個人化建議和簡化資訊處理的能力，為使用者創造更聰明、更支援的瀏覽體驗。核心功能與特點1. 即時網頁內容分析Copilot Vision 能夠理解使用者目前瀏覽的網頁內容，並提供基於上下文的輔助功能：資訊簡化與擷取：Vision 會掃描網頁內容，擷取使用者所需的訊息，例如頁面上的關鍵點或隱藏的細節。任務支援：針對特定任務（如活動規劃、商品篩選、學習新技能等），Vision 能夠主動提供建議，協助使用者更快完成任務。應用範例：活動計畫：瀏覽博物館網頁時，Vision 會自動擷取開放時間、門票價格和展覽訊息，幫助使用者制定行程。影片播放器線上購物：當使用者瀏覽商品頁面時，Vision 會根據使用者偏好推薦符合需求的產品。影片播放器學習支援：透過解析教學內容（如學習地理遊戲 GeoGuessr 的規則），Vision 能將複雜資訊簡化為易於理解的步驟。影片播放器 2. 嵌入式 AI 助手Vision 作為 Edge 瀏覽器的一部分，旨在無縫融入使用者的日常瀏覽體驗：使用者友善設計：Vision 嵌入瀏覽器底部，使用者可以隨時透過簡單的互動啟用和關閉此功能。提供即時協助，避免繁瑣的標籤切換和無效資訊篩選。動態互動：Vision 可作為使用者的“第二雙眼睛”，即時掃描和分析頁面內容，同時與使用者展開互動，解答問題或完成任務。3. 個人化與多場景適配上下文理解：Vision 能夠根據使用者的網頁瀏覽歷史和目前任務，動態調整建議內容。多場景適配：不論是學習新知識、規劃複雜活動，或是進行購物決策，Vision 都能根據具體場景提供精準的協助。隱私與資料保護微軟將隱私和安全置於 Vision 的設計核心，確保使用者對資料的控制權和信任：完全使用者控制：Vision 僅在使用者明確啟用的情況下運作（opt-in 模式）。資料清除：會話結束後，使用者共享的所有上下文資料將被刪除。Copilot 的回應會被記錄，但僅用於改進安全系統，不會儲存使用者的私人資訊。版權與隱私保護：Vision 不使用任何網頁資料進行模型訓練，確保出版商內容的版權和使用者隱私不受侵害。Vision 目前在 Copilot

微軟推出炸裂的Copilot Vision 功能可即時監控你的上網行為隨時提供AI協助by 小互 2024年12月6日 in XiaoHu.AI日報閱讀全文 »

Humane 發布CosmOS 由人工智慧驅動作業系統專為智慧型裝置和複雜任務設計

AI日報

Humane 發布CosmOS ，由人工智慧驅動作業系統，專為智慧型裝置和複雜任務設計。它透過理解用戶的需求和偏好，提供個人化、上下文相關的幫助，簡化日常交互，並在多種設備間無縫運行。 CosmOS 由多個智慧代理商組成，每個代理商專注於特定任務，如天氣、音樂、任務規劃等。這些代理程式能夠自主協作，動態適應用戶需求，不需要用戶手動管理。CosmOS 的核心是一套強大的 AI 協調系統，能夠整合 AI 模型、資料集、服務和裝置功能。透過動態分配資源和協調任務，提供流暢的使用者體驗。CosmOS 透過學習使用者的互動記錄和歷史行為，不斷優化使用者體驗。即時從網路取得數據，確保任務與目前情境相關。支援多種輸入方式（語音、觸控、文字、手勢和視覺），並支援使用者在不同輸入模式之間自由切換。CosmOS 的核心功能與特點1. 智能代理系統任務專用代理：CosmOS 由多個智慧代理商組成，每個代理商專注於特定任務，如天氣、音樂、任務規劃等。這些代理程式能夠自主協作，動態適應用戶需求，不需要用戶手動管理。多步驟推理與平行處理：系統能將複雜請求分解為多個步驟並同時處理多個任務，確保任務完成的準確性與高效性。2. Ai Bus：智慧協調核心任務動態分配：CosmOS 的核心是一個名為 Ai Bus 的 AI 協調器，它整合了多種 AI 模型、資料集、服務和設備功能。動態反應能力：Ai Bus 協調任務分配和資料共享，在任務分配時，Ai Bus 確保各代理能有效率地合作。錯誤處理：當某個代理人遇到問題時，Ai Bus 會自動尋找替代方案，以最大化任務完成率。3. 個人化與上下文感知即時學習與優化：CosmOS 透過分析使用者歷史資料和互動記錄，不斷優化個人化服務。上下文相關性：系統保持即時更新，結合網路數據和使用者輸入，提供與當前情境高度相關的解決方案。4. 多模態交互多種輸入方式：支援語音、文字、觸控、手勢和視覺輸入，使用者可在這些方式中自由切換。動態適應：CosmOS 根據使用者習慣和當前情境在不同輸入方式之間自由切換，實現更直覺和自然的互動體驗。5. 跨裝置適配多設備支援：CosmOS 可運作在多種裝置上，從穿戴式裝置到專業工作站，皆可無縫適配。動態使用者介面：根據使用者的認知負擔和環境變化調整介面，確保始終提供最佳體驗。6. 高效率與可擴充性快速計算：CosmOS 能快速處理

Humane 發布CosmOS 由人工智慧驅動作業系統專為智慧型裝置和複雜任務設計閱讀全文 »

ElevenLabs 推出對話式AI工具可在幾分鐘內為網站、應用程式或電話中心建立語音代理

AI日報

ElevenLabs推出對話式人工智慧工具，幫助用戶在幾分鐘內為網站、行動應用程式或電話中心建立語音代理。平台特點包括超低延遲、高品質語音產生、靈活配置及無縫擴展，適用於多個場景，如客戶支援、教育、遊戲等。、一分鐘了解亮點ElevenLabs 提供了一整套對話式AI工具，包括：語音辨識（Speech to Text）：把使用者的語音快速轉成文字。語音合成（Text to Speech）：產生自然流暢的高品質語音。智慧邏輯處理：支援自然的輪流對話，甚至能在用戶打斷時靈活應對。不只如此，它還支援多種語言（目前有31種），並且可以整合到你的現有業務中，例如透過電話與客戶交流、與第三方應用程式協作，甚至實現即時互動。平台提供了大量的語音庫，你甚至可以複製自己的聲音，讓助理更有個性。支援整合多個語言模型（如GPT系列），也可以使用你自己的AI模型。它可以輕鬆嵌入網站、行動應用程式或電話中心，讓你的業務涵蓋更多場景。與Twilio整合後，還能實現電話服務功能。核心功能1. 完整的對話式AI工具包ElevenLabs 提供了開發、測試和部署語音代理程式所需的完整技術堆疊，包括：語音轉文字（Speech to Text）：透過高精度轉錄技術將語音即時轉換為文字。支援複雜對話的處理，適用於嘈雜環境。文字轉語音（Text to Speech）：利用 Turbo TTS 模型產生高品質語音，延遲極低。提供自然流暢的語音體驗，滿足多場景需求。邏輯處理：自訂的中斷偵測和輪流發言機制，確保對話流暢自然。功能呼叫：可與第三方應用程式集成，透過 API 即時取得資訊或執行操作。監控與評估：提供通話記錄、轉錄和自動化評估功能，方便使用者優化 AI 代理表現。2. 開發者友好SDK支援：提供 React、JavaScript、Python 和 Swift SDK，適合不同開發環境。多模型相容性：支援 Gemini、Claude、GPT 等大語言模型（LLM），使用者也可存取自訂模型。多語種支援：涵蓋 31 種語言，支援跨地域和跨語言使用者互動。3. 語音定制與擴展語音庫與客製化：擁有龐大的語音庫，支援用戶為特定角色或品牌個人化創建語音。語音克隆：透過複製技術為企業提供一致的品牌聲音。4. 電話集成無縫對接 Twilio 平台，支援電話交互，採用 μ-law 8000 Hz 音訊編碼。應用場

ElevenLabs 推出對話式AI工具可在幾分鐘內為網站、應用程式或電話中心建立語音代理閱讀全文 »

Luma 推出 Luma Photon 和 Photon Flash 基於全新架構的圖像生成模型

AI日報

Luma Labs 推出的 Luma Photon 和 Photon Flash 是基於全新架構的圖像生成模型，旨在以更高品質、更高效率和更低成本為用戶提供前所未有的視覺生成體驗。超高效率生成成本低：Luma Photon每張（1080p）圖片的產生成本僅1.5美分，Photon Flash更低至0.2美分。速度提升：生成速度較市場其他模型快數倍。卓越品質在多種雙盲測試中，Luma Photon的生成品質被用戶廣泛偏愛。擅長處理複雜、創意性的視覺指令，涵蓋電影風格、藝術畫風、產品設計等多領域需求。自然語言迭代支援自然語言迭代設計：使用者可以透過多輪語言指令，逐步完善生成內容。一致性與個人化提供從單張圖像生成一致角色的能力（測試中），支援故事創作和行銷活動。支援多圖片提示，將靈感或現有設計快速融入新作品。 1. 模型核心特點高品質影像生成精準度與細節：Luma Photon 能夠產生具有超高細節、複雜紋理和逼真效果的影像，包括電影級視覺效果、藝術風格畫作、產品設計模型等。多風格支援：藝術風格：抽象畫、立體派、自然風格等多種藝術表現。寫實：高真實感的場景與物件生成，適用於廣告、影視等產業。產品設計：支援多種設計語言，可產生如家具、時尚產品等的概念設計圖。 2. 使用體驗多功能交互即時操作：透過 Luma API 或 Dream Machine 服務，使用者可以在幾秒鐘內產生高清圖片。靈活生成：支援多種解析度（如1080p、720p），適應不同專案需求。豐富模板：系統自備大量模板，可直接調用，也支援個人化調整。多行業適配影視創作：支援電影級特效場景生成。建築與產品設計：產生逼真的建築外觀與內部裝飾。品牌與廣告：為品牌活動產生創意視覺內容。時尚與藝術：適用於服飾設計、藝術創作等領域。 3. 技術亮點創新架構告別「AI風格」：Luma Photon 針對「AI生成內容容易有明顯風格限制」的問題進行了優化，生成結果更接近自然藝術，適合多樣化創作。多輪生成與記憶：透過大情境視窗與自然語言處理能力，讓使用者實現複雜的創意編輯流程。視覺智慧與優化語意理解：模型可以準確理解複雜的自然語言指令，產生符合語意的高品質結果。效能穩定：即使在長提示或複雜場景下，也能確保產生效果的品質和一致性。經濟性提供低成本高品質影像生成，支援頻繁試驗與優化。例如，用戶可

Luma 推出 Luma Photon 和 Photon Flash 基於全新架構的圖像生成模型閱讀全文 »

Hume AI 推出 Voice Control 功能透過滑桿操作即可實現個人化的語音定制

AI日報

Hume AI 推出了名為 Voice Control 的新技術，這是基於可解釋性的AI語音客製化方法，無需語言描述，僅透過滑桿操作即可實現個人化的語音客製化。幫助開發者精準調整AI語音的個人化特徵，同時避免語音克隆的潛在風險。它可以讓你像混音器一樣調整AI生成的聲音，讓它更符合你的需求。你可以改變聲音的性別感、自信度、熱情、柔和度等等，共10個不同的維度。例如，你想讓聲音聽起來更有自信、更放鬆，或是更熱情，都可以用簡單的滑桿調整。技術特點語音屬性控制Voice Control 提供了10個可調語音維度，包括：性別感（Masculine/Feminine）：聲音的性別傾向，從較陽剛到更柔和。自信度（Confidence）：聲音的篤定程度，從害羞到自信。熱情（Enthusiasm）：聲音的情緒活躍度，從平靜到熱情。放鬆度（Relaxedness）：聲音的緊張感，從緊繃到放鬆。平滑度（Smoothness）：聲音的質感，從斷斷續續到流暢。其他維度還包括聲音的鼻音度、活力、緊緻度等。精確可控提供從-100到100的連續調整範圍，使用者可以根據需要細緻調整聲音特性。調整後的語音屬性在不同會話中一致可重現。避免語音克隆風險不直接複製真人語音，而是透過語音模型產生獨特語音，降低隱私和安全風險。操作簡便無程式碼介面：使用者可以直接透過滑桿即時預覽和調整語音效果。即時產生：快速產生符合需求的語音，適用於即時應用。應用場景品牌化語音設計：為品牌或產品打造獨特的語音形象。情感化語音互動：用於醫療、客戶服務、虛擬助理等需要情感表達的場景。創意表達：為影片、遊戲或虛擬角色客製化專屬聲音。技術實現與整合創建過程：選擇基礎語音模型。使用滑桿調整10個語音屬性。即時預覽修改效果。部署到Empathic Voice Interface (EVI)平台。技術優勢：語音調整獨立性強，各特性之間互不干擾。修改後的語音在不同設備和場景中表現穩定。未來展望增加更多可調節語音維度。提升極端參數調整下的語音品質穩定性。開發更先進的語音分析與視覺化工具。

Hume AI 推出 Voice Control 功能透過滑桿操作即可實現個人化的語音定制閱讀全文 »

Perplexity 推出全新 AI 驅動購物助理： Shop Like a Pro 支援搜尋結果一鍵下單

AI日報

Perplexity 推出全新 AI 驅動購物助理： Shop Like a Pro 支援搜尋結果一鍵下單 Perplexity 推出了一個全新的AI 驅動購物助理：Shop Like a Pro，將線上購買決策和購買流程整合到一個平台中，從提供答案的工具過渡到支援原生商業交易的平台，讓購物變得更加快捷和高效。主要功能和亮點一鍵結帳（Buy with Pro）：使用者可以直接在平台上完成從產品搜尋到下單的全流程，無需切換標籤頁。透過「Buy with Pro」功能，直接在平台上完成商品的研究和結帳。提供免費送貨服務，並透過安全入口網站保存用戶的運輸和付款資訊。適用範圍廣：支援家居用品、電子產品、時尚配件等多種商品類別。如果商品不支援 Buy with Pro，將自動引導至商家網站完成購買。 Snap to Shop 功能：視覺搜尋工具：使用者只需拍攝商品照片，系統即可顯示相關商品，即使沒有商品名稱或說明也能找到所需物品。個人化建議：根據使用者需求，提供專屬的商品推薦，例如適合送禮的商品、最佳咖啡機等。個性化推薦：提供工具驗證熱門產品是否可靠。基於使用者搜尋問題，提供精準、客觀的答案和商品卡。整合全網的產品評論，快速總結關鍵訊息，幫助使用者做出明智的購買決策。商品卡片包含關鍵細節，採用簡單、直覺的視覺格式。無廣告推薦：所有推薦完全由 AI 提供，未受贊助影響。強大的平台整合：整合 Shopify 等平台，確保獲取最新、最相關的商品資訊。提供清晰的產品比較和總結，幫助使用者快速自信地做出決策。商家計畫：提供工具幫助商家展示產品訊息，確保其準確且具吸引力。參與優勢：商家可以加入平台，透過優化的產品展示吸引更多用戶。

Perplexity 推出全新 AI 驅動購物助理： Shop Like a Pro 支援搜尋結果一鍵下單閱讀全文 »

OpenAI 推出全新 Canvas 工具幫助用戶更好地寫作和編程 “Canvas” 的系統提示詞洩露

AI日報

OpenAI 推出全新 Canvas 工具幫助用戶更好地寫作和編程 “Canvas” 的系統提示詞洩露 OpenAI 推出了一款稱為 Canvas 的新工具，用來幫助使用者更好地與 ChatGPT 協作寫作和程式設計。 Canvas 讓使用者和 ChatGPT 在一個獨立的視窗中協作，即時修改內容。這個工具可以幫助改進文字、調整語言、審查和修復程式碼，甚至轉換成不同程式語言。你可以在 Canvas 裡直接寫東西，ChatGPT 會給你建議，例如如何改善文章、調整文字長度、修改閱讀難度等等。當 ChatGPT 辨識到可能有幫助的場景時，畫布會自動開啟。您也可以在提示中新增「使用畫布」來開啟畫布。寫作的捷徑包括：建議修改：ChatGPT 提供即時建議和回饋。調整文件長度：可以將文件的長度縮短或延長。調整閱讀程度：可以將閱讀程度從幼兒園提升到研究所。加入表情符號：為增強強調和色彩效果而添加相關的表情符號。編程的快捷鍵包括：程式碼審查：ChatGPT 提供即時建議，幫助您優化程式碼。新增日誌：插入列印語句以便於偵錯和理解程式碼。新增註釋：在程式碼中加入註釋，使其更易於理解。修復錯誤：識別並重寫有問題的程式碼以解決錯誤。程式碼轉換：將您的程式碼轉換為 JavaScript、TypeScript、Python、Java、C++或 PHP。模型功能模型知道何時打開畫布、進行針對性的編輯和全面重寫。它還能夠理解更廣泛的背景，從而提供精準的回饋和建議。使用畫布的 GPT-4o 比基線提示的 GPT-4o 提高了 18%的效能。 Plus 和 Team 用戶已經可以使用，未來還會增加更多功能！

OpenAI 推出全新 Canvas 工具幫助用戶更好地寫作和編程 “Canvas” 的系統提示詞洩露閱讀全文 »

阿里雲推出Qwen-2.5-Turbo：刷新100萬Token上下文新高度

AI日報

阿里雲推出Qwen-2.5-Turbo：刷新100萬Token上下文新高度阿里雲推出 Qwen2.5-Turbo 專為處理長文字場景設計支援 100 萬 Token 的上下文長度，相當於 10 部完整小說、150 小時的語音轉錄或 30,000 行程式碼。在 Passkey Retrieval 任務中實現 100% 的準確率。處理 100 萬 Token 的時間從原來的 4.9 分鐘減少到 68 秒，提升 4.3 倍。處理 100 萬 Token 的費用為 ¥0.3，與 GPT-4o-mini 相比，在相同成本下處理 3.6 倍的內容。細節捕捉與複雜理解在超長上下文中，能準確捕捉隱藏訊息，回答複雜問題，並找到大量上下文中的關鍵資訊。優良的長文本理解能力：在複雜的長文任務（如 LV-Eval、LongBench-Chat）中表現優於 GPT-4o-mini。可處理超過 128K Token 的任務場景。 Qwen2.5-Turbo 支援的上下文長度是 GPT-4o-mini 的 8 倍，但短文字任務表現幾乎無損。推理速度時間優化：在 100 萬 Token 輸入下，首次產生 Token 的時間縮短至 68 秒，提升 4.3 倍（原為 4.9 分鐘）。稀疏注意力機制：顯著壓縮計算量，效率提升 12.5 倍。硬體相容性：在多種硬體配置下都能提供穩定的推理速度。性價比高效率計算：在相同成本下，Qwen2.5-Turbo 處理的 Token 數是 GPT-4o-mini 的 3.6 倍。每處理 100 萬 Token 的費用僅為 ¥0.3。 5. 綜合評價優於同類競品：在長文本任務中超越 GPT-4 和其他同類模型。任務適應性強：兼具長文本理解的深度與短文本處理的精準性。推理效率高：無論在超長文本或複雜任務中，都能以更快的速度完成。

阿里雲推出Qwen-2.5-Turbo：刷新100萬Token上下文新高度閱讀全文 »