Xai 發布 Grok-2 模型新版本 速度提升3倍 多語言指令遵循能力更強

新的 Grok-2 模型版本,速度是之前的三倍,並提供了更高的準確性、指令遵循能力和多語言能力。提供無過濾的答案,並具備高階推理、編碼和視覺處理能力。 所有𝕏上的用戶都可免費 Grok-2 的新版本。 功能亮點1. 網頁搜尋與引用新功能:Grok 可以直接進行網頁搜索,提供使用者更全面的資訊。引用支持:產​​生的答案會附帶來源訊息,增加答案的可信度。這解決了許多 AI 工具中普遍存在的「無依據回答」問題。應用場景:非常適合用於尋找最新的新聞事件、專業知識或驗證複雜問題的答案。2. Aurora 圖像生成器新功能:內建的高級影像產生器 Aurora,可產生高度逼真的影像,接近照片級效果。Create your own version with Grok3. 即時事件支援與開放答案即時處理:Grok 支援處理最新發生的事件,及時為用戶產生準確的即時資訊。未過濾答案:新版本允許產生更直截了當的答案,不進行過多限制,適合需要全面資訊的場景。優點:特別適合動態變化的任務,例如新聞報導、股票市場更新、即時技術支援等。API 新增了兩個新模型: grok-2-1212 和 grok-2-vision-1212 。在準確性、指令遵循和多語言能力方面有所提升。模型API價格降低到每百萬輸入token 2 美元和每百萬輸出token 10 美元。 現在註冊並使用 API,獲得 25 美元的免費積分 官方介紹:https://x.ai/blog/grok-1212

Xai 發布 Grok-2 模型新版本 速度提升3倍 多語言指令遵循能力更強 閱讀全文 »

Cognition 的 AI工程師 Devin 正式推出 500美金一個月

今年3月的時候 Cognition AI實驗室發布了世界上第一位完全自主的 AI 軟體工程師:Devi。官方表示 Devin 是一位不知疲倦、技術嫻熟的隊友,可以與工程師並肩作戰或獨立完成任務供工程師審查,使工程師可以專注於更有趣的問題,工程團隊可以實現更遠大的目標。 具備自學新語言、開發迭代 App 的能力,並在 SWE-bench 編碼基準測試中取得了突破性成功,甚至超越了頂尖的人類工程師。 大半年過去了,今天,Cognition AI終於正式發表Devi。 它不僅能夠快速處理日常程式碼任務,還可以透過與團隊工具的無縫集成,提高整個開發流程的效率。無論是修復 bug、優化程式碼,還是編寫測試案例,Devin 都能勝任。 Devin 能無縫整合到開發者的現有工作流程中。可以透過三種方式使用 Devin: 在 Slack 中透過聊天指令分配任務。在 VSCode 等 IDE 中直接管理 Devin 產生的程式碼。透過 API 將 Devin 整合到客製化的工作流程中。Devin 的主要功能詳解1. Slack 集成Devin 能直接透過 Slack 接收任務並處理簡單的工程問題。 如何使用?在 Slack 中給 Devin 分配任務(例如:「修復這個 API 呼叫的 Bug」或「幫助寫個簡單的測試案例」)。Devin 會在背景執行任務,並將結果透過 Slack 回覆你。適合的任務:修復小型程式碼錯誤,例如前端樣式問題或後端 API 參數校驗。快速查看問題並提供初步解決方案。2. IDE 插件(支援 VSCode)Devin 提供了 VSCode 的插件,直接嵌入開發者的程式碼編輯器,方便開發者與 Devin 即時協作。 功能亮點:程式碼產生:你可以標記程式碼段,讓 Devin 幫你完成重構或產生新程式碼。提交程式碼變更(PR):Devin 可以直接產生一個 Pull Request,提交到 GitHub 或程式碼庫供你審查。非同步協作:你可以讓 Devin 先完成初稿程式碼,然後稍後在 IDE 中查看並修改。3. 自動程式碼優化與生成Devin 非常擅長完成一些特定的小型開發任務: 小型 Bug 修復:處理邊界用例、邏輯錯誤等。程式碼最佳化與重構:例如,將舊程式碼遷移到新框架中或調整程式碼結構以提升效率。PR 初稿產生:對任務清單中的程式碼變更任務(如新增功能),

Cognition 的 AI工程師 Devin 正式推出 500美金一個月 閱讀全文 »

微軟推出炸裂的Copilot Vision 功能 可即時監控你的上網行為 隨時提供AI協助by 小互 2024年12月6日 in XiaoHu.AI日報

微軟推出全新的Copilot Vision 功能,它透過嵌入 Edge 瀏覽器中,提供即時網頁內容分析和互動。 它可以透過與使用者的網頁瀏覽同步,即時監控你的網頁瀏覽行為,隨時提供個人化建議和簡化資訊處理的能力,為使用者創造更聰明、更支援的瀏覽體驗。 核心功能與特點1. 即時網頁內容分析Copilot Vision 能夠理解使用者目前瀏覽的網頁內容,並提供基於上下文的輔助功能: 資訊簡化與擷取:Vision 會掃描網頁內容,擷取使用者所需的訊息,例如頁面上的關鍵點或隱藏的細節。任務支援:針對特定任務(如活動規劃、商品篩選、學習新技能等),Vision 能夠主動提供建議,協助使用者更快完成任務。應用範例: 活動計畫:瀏覽博物館網頁時,Vision 會自動擷取開放時間、門票價格和展覽訊息,幫助使用者制定行程。影片播放器 線上購物:當使用者瀏覽商品頁面時,Vision 會根據使用者偏好推薦符合需求的產品。影片播放器 學習支援:透過解析教學內容(如學習地理遊戲 GeoGuessr 的規則),Vision 能將複雜資訊簡化為易於理解的步驟。影片播放器 2. 嵌入式 AI 助手Vision 作為 Edge 瀏覽器的一部分,旨在無縫融入使用者的日常瀏覽體驗: 使用者友善設計:Vision 嵌入瀏覽器底部,使用者可以隨時透過簡單的互動啟用和關閉此功能。提供即時協助,避免繁瑣的標籤切換和無效資訊篩選。動態互動:Vision 可作為使用者的“第二雙眼睛”,即時掃描和分析頁面內容,同時與使用者展開互動,解答問題或完成任務。3. 個人化與多場景適配上下文理解:Vision 能夠根據使用者的網頁瀏覽歷史和目前任務,動態調整建議內容。多場景適配:不論是學習新知識、規劃複雜活動,或是進行購物決策,Vision 都能根據具體場景提供精準的協助。隱私與資料保護微軟將隱私和安全置於 Vision 的設計核心,確保使用者對資料的控制權和信任: 完全使用者控制:Vision 僅在使用者明確啟用的情況下運作(opt-in 模式)。資料清除:會話結束後,使用者共享的所有上下文資料將被刪除。Copilot 的回應會被記錄,但僅用於改進安全系統,不會儲存使用者的私人資訊。版權與隱私保護:Vision 不使用任何網頁資料進行模型訓練,確保出版商內容的版權和使用者隱私不受侵害。Vision 目前在 Copilot

微軟推出炸裂的Copilot Vision 功能 可即時監控你的上網行為 隨時提供AI協助by 小互 2024年12月6日 in XiaoHu.AI日報 閱讀全文 »

Humane 發布CosmOS 由人工智慧驅動作業系統 專為智慧型裝置和複雜任務設計

Humane 發布CosmOS ,由人工智慧驅動作業系統,專為智慧型裝置和複雜任務設計。 它透過理解用戶的需求和偏好,提供個人化、上下文相關的幫助,簡化日常交互,並在多種設備間無縫運行。 CosmOS 由多個智慧代理商組成,每個代理商專注於特定任務,如天氣、音樂、任務規劃等。這些代理程式能夠自主協作,動態適應用戶需求,不需要用戶手動管理。CosmOS 的核心是一套強大的 AI 協調系統,能夠整合 AI 模型、資料集、服務和裝置功能。透過動態分配資源和協調任務,提供流暢的使用者體驗。CosmOS 透過學習使用者的互動記錄和歷史行為,不斷優化使用者體驗。即時從網路取得數據,確保任務與目前情境相關。支援多種輸入方式(語音、觸控、文字、手勢和視覺),並支援使用者在不同輸入模式之間自由切換。CosmOS 的核心功能與特點1. 智能代理系統任務專用代理:CosmOS 由多個智慧代理商組成,每個代理商專注於特定任務,如天氣、音樂、任務規劃等。這些代理程式能夠自主協作,動態適應用戶需求,不需要用戶手動管理。多步驟推理與平行處理:系統能將複雜請求分解為多個步驟並同時處理多個任務,確保任務完成的準確性與高效性。2. Ai Bus:智慧協調核心任務動態分配:CosmOS 的核心是一個名為 Ai Bus 的 AI 協調器,它整合了多種 AI 模型、資料集、服務和設備功能。動態反應能力:Ai Bus 協調任務分配和資料共享,在任務分配時,Ai Bus 確保各代理能有效率地合作。錯誤處理:當某個代理人遇到問題時,Ai Bus 會自動尋找替代方案,以最大化任務完成率。3. 個人化與上下文感知即時學習與優化:CosmOS 透過分析使用者歷史資料和互動記錄,不斷優化個人化服務。上下文相關性:系統保持即時更新,結合網路數據和使用者輸入,提供與當前情境高度相關的解決方案。4. 多模態交互多種輸入方式:支援語音、文字、觸控、手勢和視覺輸入,使用者可在這些方式中自由切換。動態適應:CosmOS 根據使用者習慣和當前情境在不同輸入方式之間自由切換,實現更直覺和自然的互動體驗。5. 跨裝置適配多設備支援:CosmOS 可運作在多種裝置上,從穿戴式裝置到專業工作站,皆可無縫適配。動態使用者介面:根據使用者的認知負擔和環境變化調整介面,確保始終提供最佳體驗。6. 高效率與可擴充性快速計算:CosmOS 能快速處理

Humane 發布CosmOS 由人工智慧驅動作業系統 專為智慧型裝置和複雜任務設計 閱讀全文 »

ElevenLabs 推出對話式AI工具 可在幾分鐘內為網站、應用程式或電話中心建立語音代理

ElevenLabs推出對話式人工智慧工具,幫助用戶在幾分鐘內為網站、行動應用程式或電話中心建立語音代理。平台特點包括超低延遲、高品質語音產生、靈活配置及無縫擴展,適用於多個場景,如客戶支援、教育、遊戲等。 、 一分鐘了解亮點ElevenLabs 提供了一整套對話式AI工具,包括: 語音辨識(Speech to Text):把使用者的語音快速轉成文字。語音合成(Text to Speech):產生自然流暢的高品質語音。智慧邏輯處理:支援自然的輪流對話,甚至能在用戶打斷時靈活應對。不只如此,它還支援多種語言(目前有31種),並且可以整合到你的現有業務中,例如透過電話與客戶交流、與第三方應用程式協作,甚至實現即時互動。 平台提供了大量的語音庫,你甚至可以複製自己的聲音,讓助理更有個性。支援整合多個語言模型(如GPT系列),也可以使用你自己的AI模型。它可以輕鬆嵌入網站、行動應用程式或電話中心,讓你的業務涵蓋更多場景。與Twilio整合後,還能實現電話服務功能。核心功能1. 完整的對話式AI工具包ElevenLabs 提供了開發、測試和部署語音代理程式所需的完整技術堆疊,包括: 語音轉文字(Speech to Text):透過高精度轉錄技術將語音即時轉換為文字。支援複雜對話的處理,適用於嘈雜環境。文字轉語音(Text to Speech):利用 Turbo TTS 模型產生高品質語音,延遲極低。提供自然流暢的語音體驗,滿足多場景需求。邏輯處理:自訂的中斷偵測和輪流發言機制,確保對話流暢自然。功能呼叫:可與第三方應用程式集成,透過 API 即時取得資訊或執行操作。監控與評估:提供通話記錄、轉錄和自動化評估功能,方便使用者優化 AI 代理表現。2. 開發者友好SDK支援:提供 React、JavaScript、Python 和 Swift SDK,適合不同開發環境。多模型相容性:支援 Gemini、Claude、GPT 等大語言模型(LLM),使用者也可存取自訂模型。多語種支援:涵蓋 31 種語言,支援跨地域和跨語言使用者互動。3. 語音定制與擴展語音庫與客製化:擁有龐大的語音庫,支援用戶為特定角色或品牌個人化創建語音。語音克隆:透過複製技術為企業提供一致的品牌聲音。4. 電話集成無縫對接 Twilio 平台,支援電話交互,採用 μ-law 8000 Hz 音訊編碼。應用場

ElevenLabs 推出對話式AI工具 可在幾分鐘內為網站、應用程式或電話中心建立語音代理 閱讀全文 »

Luma 推出 Luma Photon 和 Photon Flash 基於全新架構的圖像生成模型

Luma Labs 推出的 Luma Photon 和 Photon Flash 是基於全新架構的圖像生成模型,旨在以更高品質、更高效率和更低成本為用戶提供前所未有的視覺生成體驗。 超高效率生成成本低:Luma Photon每張(1080p)圖片的產生成本僅1.5美分,Photon Flash更低至0.2美分。速度提升:生成速度較市場其他模型快數倍。卓越品質在多種雙盲測試中,Luma Photon的生成品質被用戶廣泛偏愛。擅長處理複雜、創意性的視覺指令,涵蓋電影風格、藝術畫風、產品設計等多領域需求。自然語言迭代支援自然語言迭代設計:使用者可以透過多輪語言指令,逐步完善生成內容。一致性與個人化提供從單張圖像生成一致角色的能力(測試中),支援故事創作和行銷活動。支援多圖片提示,將靈感或現有設計快速融入新作品。 1. 模型核心特點高品質影像生成精準度與細節:Luma Photon 能夠產生具有超高細節、複雜紋理和逼真效果的影像,包括電影級視覺效果、藝術風格畫作、產品設計模型等。多風格支援:藝術風格:抽象畫、立體派、自然風格等多種藝術表現。寫實:高真實感的場景與物件生成,適用於廣告、影視等產業。產品設計:支援多種設計語言,可產生如家具、時尚產品等的概念設計圖。 2. 使用體驗 多功能交互 即時操作:透過 Luma API 或 Dream Machine 服務,使用者可以在幾秒鐘內產生高清圖片。 靈活生成:支援多種解析度(如1080p、720p),適應不同專案需求。 豐富模板:系統自備大量模板,可直接調用,也支援個人化調整。 多行業適配 影視創作:支援電影級特效場景生成。 建築與產品設計:產生逼真的建築外觀與內部裝飾。 品牌與廣告:為品牌活動產生創意視覺內容。 時尚與藝術:適用於服飾設計、藝術創作等領域。 3. 技術亮點 創新架構 告別「AI風格」:Luma Photon 針對「AI生成內容容易有明顯風格限制」的問題進行了優化,生成結果更接近自然藝術,適合多樣化創作。 多輪生成與記憶:透過大情境視窗與自然語言處理能力,讓使用者實現複雜的創意編輯流程。 視覺智慧與優化 語意理解:模型可以準確理解複雜的自然語言指令,產生符合語意的高品質結果。 效能穩定:即使在長提示或複雜場景下,也能確保產生效果的品質和一致性。 經濟性 提供低成本高品質影像生成,支援頻繁試驗與優化。例如,用戶可

Luma 推出 Luma Photon 和 Photon Flash 基於全新架構的圖像生成模型 閱讀全文 »

Hume AI 推出 Voice Control 功能 透過滑桿操作即可實現個人化的語音定制

Hume AI 推出了名為 Voice Control 的新技術,這是基於可解釋性的AI語音客製化方法,無需語言描述,僅透過滑桿操作即可實現個人化的語音客製化。幫助開發者精準調整AI語音的個人化特徵,同時避免語音克隆的潛在風險。 它可以讓你像混音器一樣調整AI生成的聲音,讓它更符合你的需求。你可以改變聲音的性別感、自信度、熱情、柔和度等等,共10個不同的維度。例如,你想讓聲音聽起來更有自信、更放鬆,或是更熱情,都可以用簡單的滑桿調整。 技術特點語音屬性控制Voice Control 提供了10個可調語音維度,包括:性別感(Masculine/Feminine):聲音的性別傾向,從較陽剛到更柔和。自信度(Confidence):聲音的篤定程度,從害羞到自信。熱情(Enthusiasm):聲音的情緒活躍度,從平靜到熱情。放鬆度(Relaxedness):聲音的緊張感,從緊繃到放鬆。平滑度(Smoothness):聲音的質感,從斷斷續續到流暢。 其他維度還包括聲音的鼻音度、活力、緊緻度等。精確可控提供從-100到100的連續調整範圍,使用者可以根據需要細緻調整聲音特性。調整後的語音屬性在不同會話中一致可重現。避免語音克隆風險不直接複製真人語音,而是透過語音模型產生獨特語音,降低隱私和安全風險。操作簡便無程式碼介面:使用者可以直接透過滑桿即時預覽和調整語音效果。即時產生:快速產生符合需求的語音,適用於即時應用。應用場景品牌化語音設計:為品牌或產品打造獨特的語音形象。情感化語音互動:用於醫療、客戶服務、虛擬助理等需要情感表達的場景。創意表達:為影片、遊戲或虛擬角色客製化專屬聲音。技術實現與整合創建過程:選擇基礎語音模型。使用滑桿調整10個語音屬性。即時預覽修改效果。部署到Empathic Voice Interface (EVI)平台。技術優勢:語音調整獨立性強,各特性之間互不干擾。修改後的語音在不同設備和場景中表現穩定。未來展望增加更多可調節語音維度。提升極端參數調整下的語音品質穩定性。開發更先進的語音分析與視覺化工具。

Hume AI 推出 Voice Control 功能 透過滑桿操作即可實現個人化的語音定制 閱讀全文 »

Perplexity 推出全新 AI 驅動購物助理: Shop Like a Pro 支援搜尋結果一鍵下單

Perplexity 推出全新 AI 驅動購物助理: Shop Like a Pro 支援搜尋結果一鍵下單 Perplexity 推出了一個全新的AI 驅動購物助理:Shop Like a Pro,將線上購買決策和購買流程整合到一個平台中,從提供答案的工具過渡到支援原生商業交易的平台,讓購物變得更加快捷和高效。 主要功能和亮點一鍵結帳(Buy with Pro):使用者可以直接在平台上完成從產品搜尋到下單的全流程,無需切換標籤頁。透過「Buy with Pro」功能,直接在平台上完成商品的研究和結帳。提供免費送貨服務,並透過安全入口網站保存用戶的運輸和付款資訊。適用範圍廣:支援家居用品、電子產品、時尚配件等多種商品類別。如果商品不支援 Buy with Pro,將自動引導至商家網站完成購買。 Snap to Shop 功能:視覺搜尋工具:使用者只需拍攝商品照片,系統即可顯示相關商品,即使沒有商品名稱或說明也能找到所需物品。個人化建議:根據使用者需求,提供專屬的商品推薦,例如適合送禮的商品、最佳咖啡機等。 個性化推薦: 提供工具驗證熱門產品是否可靠。 基於使用者搜尋問題,提供精準、客觀的答案和商品卡。 整合全網的產品評論,快速總結關鍵訊息,幫助使用者做出明智的購買決策。 商品卡片包含關鍵細節,採用簡單、直覺的視覺格式。 無廣告推薦:所有推薦完全由 AI 提供,未受贊助影響。 強大的平台整合: 整合 Shopify 等平台,確保獲取最新、最相關的商品資訊。 提供清晰的產品比較和總結,幫助使用者快速自信地做出決策。 商家計畫:提供工具幫助商家展示產品訊息,確保其準確且具吸引力。 參與優勢:商家可以加入平台,透過優化的產品展示吸引更多用戶。

Perplexity 推出全新 AI 驅動購物助理: Shop Like a Pro 支援搜尋結果一鍵下單 閱讀全文 »

OpenAI 推出全新 Canvas 工具 幫助用戶更好地寫作和編程 “Canvas” 的系統提示詞洩露

OpenAI 推出全新 Canvas 工具 幫助用戶更好地寫作和編程 “Canvas” 的系統提示詞洩露 OpenAI 推出了一款稱為 Canvas 的新工具,用來幫助使用者更好地與 ChatGPT 協作寫作和程式設計。 Canvas 讓使用者和 ChatGPT 在一個獨立的視窗中協作,即時修改內容。這個工具可以幫助改進文字、調整語言、審查和修復程式碼,甚至轉換成不同程式語言。你可以在 Canvas 裡直接寫東西,ChatGPT 會給你建議,例如如何改善文章、調整文字長度、修改閱讀難度等等。當 ChatGPT 辨識到可能有幫助的場景時,畫布會自動開啟。您也可以在提示中新增「使用畫布」來開啟畫布。 寫作的捷徑包括: 建議修改:ChatGPT 提供即時建議和回饋。 調整文件長度:可以將文件的長度縮短或延長。 調整閱讀程度:可以將閱讀程度從幼兒園提升到研究所。 加入表情符號:為增強強調和色彩效果而添加相關的表情符號。   編程的快捷鍵包括: 程式碼審查:ChatGPT 提供即時建議,幫助您優化程式碼。 新增日誌:插入列印語句以便於偵錯和理解程式碼。 新增註釋:在程式碼中加入註釋,使其更易於理解。 修復錯誤:識別並重寫有問題的程式碼以解決錯誤。 程式碼轉換:將您的程式碼轉換為 JavaScript、TypeScript、Python、Java、C++或 PHP。 模型功能 模型知道何時打開畫布、進行針對性的編輯和全面重寫。 它還能夠理解更廣泛的背景,從而提供精準的回饋和建議。 使用畫布的 GPT-4o 比基線提示的 GPT-4o 提高了 18%的效能。 Plus 和 Team 用戶已經可以使用,未來還會增加更多功能!

OpenAI 推出全新 Canvas 工具 幫助用戶更好地寫作和編程 “Canvas” 的系統提示詞洩露 閱讀全文 »

阿里雲推出Qwen-2.5-Turbo:刷新100萬Token上下文新高度

阿里雲推出Qwen-2.5-Turbo:刷新100萬Token上下文新高度 阿里雲推出 Qwen2.5-Turbo 專為處理長文字場景設計支援 100 萬 Token 的上下文長度,相當於 10 部完整小說、150 小時的語音轉錄或 30,000 行程式碼。在 Passkey Retrieval 任務中實現 100% 的準確率。處理 100 萬 Token 的時間從原來的 4.9 分鐘減少到 68 秒,提升 4.3 倍。處理 100 萬 Token 的費用為 ¥0.3,與 GPT-4o-mini 相比,在相同成本下處理 3.6 倍的內容。 細節捕捉與複雜理解 在超長上下文中,能準確捕捉隱藏訊息,回答複雜問題,並找到大量上下文中的關鍵資訊。 優良的長文本理解能力: 在複雜的長文任務(如 LV-Eval、LongBench-Chat)中表現優於 GPT-4o-mini。 可處理超過 128K Token 的任務場景。 Qwen2.5-Turbo 支援的上下文長度是 GPT-4o-mini 的 8 倍,但短文字任務表現幾乎無損。 推理速度 時間優化: 在 100 萬 Token 輸入下,首次產生 Token 的時間縮短至 68 秒,提升 4.3 倍(原為 4.9 分鐘)。 稀疏注意力機制:顯著壓縮計算量,效率提升 12.5 倍。 硬體相容性: 在多種硬體配置下都能提供穩定的推理速度。 性價比 高效率計算: 在相同成本下,Qwen2.5-Turbo 處理的 Token 數是 GPT-4o-mini 的 3.6 倍。 每處理 100 萬 Token 的費用僅為 ¥0.3。 5. 綜合評價 優於同類競品:在長文本任務中超越 GPT-4 和其他同類模型。 任務適應性強:兼具長文本理解的深度與短文本處理的精準性。 推理效率高:無論在超長文本或複雜任務中,都能以更快的速度完成。

阿里雲推出Qwen-2.5-Turbo:刷新100萬Token上下文新高度 閱讀全文 »

返回頂端