Exa AI：真正的AI搜尋引擎要做AI領域的Google

又一個AI搜尋引擎誕生：Exa AI。該公司最近宣布獲得了1700萬美元的A輪融資，由Lightspeed領投，Nvidia的NVentures和Y Combinator參投。

與其他旨在取代Google的AI驅動搜尋引擎不同，Exa的目標是創建一個專門為AI設計的搜尋工具。

Exa的使命:

網路包含人類的集體知識，但目前的搜尋體驗更像在垃圾場中導航，而非在知識圖書館中漫遊。核心問題是網路知識被大量資訊掩埋。
Exa的使命是組織世界的知識，透過更好的搜尋演算法，過濾訊息，提取真正的知識。

Exa的技術優勢:

Exa是首個網路級神經搜尋引擎，使用端對端的Transformer技術（與ChatGPT相同的技術）進行過濾，按意義而非關鍵字進行篩選。

例如，搜尋「startups working on climate change」在Exa上能返回真正從事氣候變遷工作的新創公司，而不是優化關鍵字的無關頁面。

模型訓練：

Exa 的模型訓練資料集包括網頁上的共享鏈接，而非單純的文字和句子。這使得其搜尋引擎更能理解和預測網頁連結的相關性。

Exa的搜尋引擎不只是預測下一個詞，而是預測下一個相關連結。這意味著它的模型訓練不是基於自然語言的連續詞序列，而是基於網頁連結的關係和結構。

換句話說，它的模型學習如何從一個連結導航到下一個相關鏈接，而不是產生連貫的文字。

Exa 的訓練方法專注於預測最相關的鏈接，避免了傳統搜尋引擎中的SEO垃圾和AI生成的低品質內容。

主要功能和特點：

語意搜尋：Exa的搜尋引擎能夠理解語意意義，而不僅僅是關鍵字匹配，從而提供更相關的搜尋結果。

內容抓取：可以從任何網頁抓取完整、清理後的內容，為AI提供高品質的資料。

相似性搜尋：透過URL或長文本找到相似的結果，使得搜尋更精準。

大規模資料處理：能夠處理多達100萬個搜尋結果，滿足AI大規模資料處理的需求。

即時更新：每分鐘爬取新的URL，確保AI始終取得最新的數據。

強大的過濾功能：可按網域名稱、日期範圍或資料類別進行搜索，提供高度客製化的搜尋體驗。

簡單的API整合：Exa 提供簡單易用的API，開發者只需幾行程式碼即可整合和使用Exa的搜尋功能。

Exa AI的技術原理

1. 嵌入模型:

定義: 嵌入模型（embedding models）是將文字轉換為高維度數值向量（embedding）的模型。這些向量在數學上表示文字內容，使得相似內容在向量空間中更靠近。

實作: Exa使用與ChatGPT相同的技術，訓練嵌入模型，將網頁內容轉換為向量表示，從而使搜尋過程更加聰明和精確。

2. 端對端Transformer模型:

定義: Transformer是一種神經網路架構，廣泛用於自然語言處理任務。它透過自註意機制（self-attention mechanism）捕捉文本中各個部分之間的關係。

應用: Exa使用端到端的Transformer模型來過濾互聯網信息，根據查詢的實際意義而非關鍵字進行篩選。這種方法使得Exa能更能理解複雜查詢，提供更精確的搜尋結果。

3. 高效率資訊過濾:

問題: 傳統搜尋引擎（如Google）依賴關鍵字匹配，容易受到SEO優化內容的干擾，回傳大量無關資訊。

解決方案: Exa透過嵌入模型和Transformer技術，根據查詢的實際意義過濾訊息，避免無關和低品質的內容，返回真正相關的知識。

4. 即時內容擷取:

定義: Exa的「highlights」功能可以即時提取搜尋結果中的網頁內容，並根據使用者需求自訂內容長度和數量。

實作: Exa在後台對完整網頁進行分塊和嵌入，使用段落預測模型（paragraph prediction model）來提取內容。這使得Exa能夠在用戶查詢時即時提供高品質的搜尋結果。

5. 長查詢處理:

能力: Exa能夠處理長查詢，包括句子、段落甚至整篇網頁。這意味著使用者可以提出更複雜和具體的問題，Exa依然能夠回傳精確的結果。

應用: 這對需要詳細資訊的研究工作、寫作助理、學習工具等應用場景非常有用。

6. 高品質檢索:

需求: 大語言模型（LLMs）需要高品質的檢索結果，以確保輸出內容的品質。

實現: Exa為LLMs提供高品質的網路檢索，過濾掉低品質和無關訊息，確保LLMs的輸出內容是高品質的。這使得Exa在AI應用上具有重要的地位。