Google 推出 DataGemma:利用真實世界資料 使用 RAG 和 RIG 技術解決 AI 幻覺提高事實性和推理能力!

Home » Google 推出 DataGemma:利用真實世界資料 使用 RAG 和 RIG 技術解決 AI 幻覺提高事實性和推理能力!

Google 推出 DataGemma 是Google 推出的一種新的開源語言模型(LLM),其主要目標是解決當前生成性AI中常見的「幻覺」現象。

DataGemma的核心能力是透過將Google的 Data Commons(龐大的公共資料資源庫)與LLM連結,從而增強模型的事實性和推理能力,減少幻覺現象。

Data Commons 是一個包含來自多個可信任組織(如聯合國、世界衛生組織、CDC等)的大規模公共資料的知識圖譜。包含超過 2,400 億個豐富的數據點,涵蓋數十萬個統計變量,涵蓋了經濟、氣候變遷、健康、人口等多個領域。透過利用這些可信任數據,DataGemma模型可以提供基於數據的事實訊息,從而提高生成內容的準確性。

DataGemma使用兩種主要方法來增強LLM的準確性:

RIG(檢索與生成融合):此方法透過主動查詢Data Commons中的數據,來增強語言模型的能力,確保產生的內容與事實相符。

RAG(檢索增強生成):此方法讓語言模型吸收更多背景訊息,增強生成內容的全面性,並減少「幻覺」現象。

DataGemma的主要能力:

減少AI幻覺:

DataGemma透過整合真實世界的統計數據來提高AI模型的準確性,確保產生的內容更加真實可靠。

利用Data Commons中的可靠資料(例如聯合國、世界衛生組織、美國疾病管制與預防中心等提供的資料),DataGemma能夠在產生內容時與實際資料進行核對,減少虛假資訊的產生。

與Data Commons連接:

Data Commons是一個包含2400多億數據點的公共數據平台,涵蓋了從健康、經濟到環境等多個領域的數據。

DataGemma透過自然語言介面與這些資料進行交互,能夠從中獲取精確的統計資料來支援生成的內容。

RIG(檢索與生成融合):

這種方法允許DataGemma在產生內容時主動查詢Data Commons中的資料來源,確保輸出的資訊與事實一致。

RIG方法幫助模型在回答時核對數據,特別適用於需要統計數據或事實核實的任務。

RAG(檢索增強生成):

RAG方法使得語言模型能夠吸收更多上下文訊息,在產生答案之前先從Data Commons中檢索相關的背景資料。

這種方法幫助模型在產生更全面和有背景資訊的答案時,避免產生不準確的內容。

研究結果

Google團隊對 DataGemma 的初步研究結果顯示,該模型在減少「幻覺」現象和提高AI生成內容的準確性方面表現出了顯著的改進。以下是研究中的一些關鍵發現:

1. 減少幻覺現象:

透過將 Data Commons 中的真實世界資料整合到 DataGemma 中,AI模型能夠在生成內容時進行更嚴格的事實查核。研究表明,當使用RIG(檢索與生成融合) 和RAG(檢索增強生成) 方法時,模型生成的內容更加符合實際數據,減少了那些常見的、看似可信但實際上是錯誤的信息(即幻覺現象)。

這表明,在處理涉及統計數字或事實數據的任務時,DataGemma能夠大幅減少虛假內容的生成,尤其在領域如健康、經濟、社會等,精確的數字至關重要。

2. 提升語言模型的準確性:

在處理需要數值事實的任務時,DataGemma的表現特別突出。研究表明,DataGemma在回答涉及數字、統計數據、趨勢和關係等問題時,準確性得到了顯著提升。

例如,當使用者詢問涉及能源使用、國家之間的經濟差距、疾病與收入的關聯等問題時,DataGemma能夠提供更精確的、基於真實數據的答案。

3.提高推理和背景理解能力:

DataGemma結合了 Gemini 1.5 Pro 的長上下文視窗能力,使得模型能夠在生成答案之前,首先從 Data Commons 中提取與問題相關的更多背景資訊。這個過程增強了模型的推理能力,並使其能夠產生更有深度和多維度的答案。

4 未來改善方向:

儘管初步結果表明 DataGemma 在減少幻覺和提高事實性方面非常有前景,但研究仍在進行中。谷歌團隊計劃在未來進一步完善這些方法,並進行更大規模的測試,力求將 RIG 和 RAG 的應用效果進一步提升,最終實現更廣泛的實際應用。

DataGemma 的開放式特性也鼓勵更多開發者和研究人員參與進來,利用這個平台開發新的應用和方法。

返回頂端