Exa AI:真正的AI搜尋引擎 要做AI領域的Google

Home » 產業動態 » Exa AI:真正的AI搜尋引擎 要做AI領域的Google

又一個AI搜尋引擎誕生:Exa AI。該公司最近宣布獲得了1700萬美元的A輪融資,由Lightspeed領投,Nvidia的NVentures和Y Combinator參投。

與其他旨在取代Google的AI驅動搜尋引擎不同,Exa的目標是創建一個專門為AI設計的搜尋工具。

Exa的使命:

網路包含人類的集體知識,但目前的搜尋體驗更像在垃圾場中導航,而非在知識圖書館中漫遊。核心問題是網路知識被大量資訊掩埋。
Exa的使命是組織世界的知識,透過更好的搜尋演算法,過濾訊息,提取真正的知識。

Exa的技術優勢:

Exa是首個網路級神經搜尋引擎,使用端對端的Transformer技術(與ChatGPT相同的技術)進行過濾,按意義而非關鍵字進行篩選。

例如,搜尋「startups working on climate change」在Exa上能返回真正從事氣候變遷工作的新創公司,而不是優化關鍵字的無關頁面。

模型訓練:

Exa 的模型訓練資料集包括網頁上的共享鏈接,而非單純的文字和句子。這使得其搜尋引擎更能理解和預測網頁連結的相關性。

Exa的搜尋引擎不只是預測下一個詞,而是預測下一個相關連結。這意味著它的模型訓練不是基於自然語言的連續詞序列,而是基於網頁連結的關係和結構。

換句話說,它的模型學習如何從一個連結導航到下一個相關鏈接,而不是產生連貫的文字。

Exa 的訓練方法專注於預測最相關的鏈接,避免了傳統搜尋引擎中的SEO垃圾和AI生成的低品質內容。

主要功能和特點:

語意搜尋:Exa的搜尋引擎能夠理解語意意義,而不僅僅是關鍵字匹配,從而提供更相關的搜尋結果。

內容抓取:可以從任何網頁抓取完整、清理後的內容,為AI提供高品質的資料。

相似性搜尋:透過URL或長文本找到相似的結果,使得搜尋更精準。

大規模資料處理:能夠處理多達100萬個搜尋結果,滿足AI大規模資料處理的需求。

即時更新:每分鐘爬取新的URL,確保AI始終取得最新的數據。

強大的過濾功能:可按網域名稱、日期範圍或資料類別進行搜索,提供高度客製化的搜尋體驗。

簡單的API整合:Exa 提供簡單易用的API,開發者只需幾行程式碼即可整合和使用Exa的搜尋功能。

Exa AI的技術原理

1. 嵌入模型:

定義: 嵌入模型(embedding models)是將文字轉換為高維度數值向量(embedding)的模型。這些向量在數學上表示文字內容,使得相似內容在向量空間中更靠近。

實作: Exa使用與ChatGPT相同的技術,訓練嵌入模型,將網頁內容轉換為向量表示,從而使搜尋過程更加聰明和精確。

2. 端對端Transformer模型:

定義: Transformer是一種神經網路架構,廣泛用於自然語言處理任務。它透過自註意機制(self-attention mechanism)捕捉文本中各個部分之間的關係。

應用: Exa使用端到端的Transformer模型來過濾互聯網信息,根據查詢的實際意義而非關鍵字進行篩選。這種方法使得Exa能更能理解複雜查詢,提供更精確的搜尋結果。

3. 高效率資訊過濾:

問題: 傳統搜尋引擎(如Google)依賴關鍵字匹配,容易受到SEO優化內容的干擾,回傳大量無關資訊。

解決方案: Exa透過嵌入模型和Transformer技術,根據查詢的實際意義過濾訊息,避免無關和低品質的內容,返回真正相關的知識。

4. 即時內容擷取:

定義: Exa的「highlights」功能可以即時提取搜尋結果中的網頁內容,並根據使用者需求自訂內容長度和數量。

實作: Exa在後台對完整網頁進行分塊和嵌入,使用段落預測模型(paragraph prediction model)來提取內容。這使得Exa能夠在用戶查詢時即時提供高品質的搜尋結果。

5. 長查詢處理:

能力: Exa能夠處理長查詢,包括句子、段落甚至整篇網頁。這意味著使用者可以提出更複雜和具體的問題,Exa依然能夠回傳精確的結果。

應用: 這對需要詳細資訊的研究工作、寫作助理、學習工具等應用場景非常有用。

6. 高品質檢索:

需求: 大語言模型(LLMs)需要高品質的檢索結果,以確保輸出內容的品質。

實現: Exa為LLMs提供高品質的網路檢索,過濾掉低品質和無關訊息,確保LLMs的輸出內容是高品質的。這使得Exa在AI應用上具有重要的地位。

返回頂端