Google 推出 DataGemma：利用真實世界資料使用 RAG 和 RIG 技術解決 AI 幻覺提高事實性和推理能力！

Google 推出 DataGemma 是Google 推出的一種新的開源語言模型（LLM），其主要目標是解決當前生成性AI中常見的「幻覺」現象。

DataGemma的核心能力是透過將Google的 Data Commons（龐大的公共資料資源庫）與LLM連結，從而增強模型的事實性和推理能力，減少幻覺現象。

Data Commons 是一個包含來自多個可信任組織（如聯合國、世界衛生組織、CDC等）的大規模公共資料的知識圖譜。包含超過 2,400 億個豐富的數據點，涵蓋數十萬個統計變量，涵蓋了經濟、氣候變遷、健康、人口等多個領域。透過利用這些可信任數據，DataGemma模型可以提供基於數據的事實訊息，從而提高生成內容的準確性。

DataGemma使用兩種主要方法來增強LLM的準確性：

RIG（檢索與生成融合）：此方法透過主動查詢Data Commons中的數據，來增強語言模型的能力，確保產生的內容與事實相符。

RAG（檢索增強生成）：此方法讓語言模型吸收更多背景訊息，增強生成內容的全面性，並減少「幻覺」現象。

DataGemma的主要能力：

減少AI幻覺：

DataGemma透過整合真實世界的統計數據來提高AI模型的準確性，確保產生的內容更加真實可靠。

利用Data Commons中的可靠資料（例如聯合國、世界衛生組織、美國疾病管制與預防中心等提供的資料），DataGemma能夠在產生內容時與實際資料進行核對，減少虛假資訊的產生。

與Data Commons連接：

Data Commons是一個包含2400多億數據點的公共數據平台，涵蓋了從健康、經濟到環境等多個領域的數據。

DataGemma透過自然語言介面與這些資料進行交互，能夠從中獲取精確的統計資料來支援生成的內容。

RIG（檢索與生成融合）：

這種方法允許DataGemma在產生內容時主動查詢Data Commons中的資料來源，確保輸出的資訊與事實一致。

RIG方法幫助模型在回答時核對數據，特別適用於需要統計數據或事實核實的任務。

RAG（檢索增強生成）：

RAG方法使得語言模型能夠吸收更多上下文訊息，在產生答案之前先從Data Commons中檢索相關的背景資料。

這種方法幫助模型在產生更全面和有背景資訊的答案時，避免產生不準確的內容。

研究結果

Google團隊對 DataGemma 的初步研究結果顯示，該模型在減少「幻覺」現象和提高AI生成內容的準確性方面表現出了顯著的改進。以下是研究中的一些關鍵發現：

1. 減少幻覺現象：

透過將 Data Commons 中的真實世界資料整合到 DataGemma 中，AI模型能夠在生成內容時進行更嚴格的事實查核。研究表明，當使用RIG（檢索與生成融合）和RAG（檢索增強生成）方法時，模型生成的內容更加符合實際數據，減少了那些常見的、看似可信但實際上是錯誤的信息（即幻覺現象）。

這表明，在處理涉及統計數字或事實數據的任務時，DataGemma能夠大幅減少虛假內容的生成，尤其在領域如健康、經濟、社會等，精確的數字至關重要。

2. 提升語言模型的準確性：

在處理需要數值事實的任務時，DataGemma的表現特別突出。研究表明，DataGemma在回答涉及數字、統計數據、趨勢和關係等問題時，準確性得到了顯著提升。

例如，當使用者詢問涉及能源使用、國家之間的經濟差距、疾病與收入的關聯等問題時，DataGemma能夠提供更精確的、基於真實數據的答案。

3.提高推理和背景理解能力：

DataGemma結合了 Gemini 1.5 Pro 的長上下文視窗能力，使得模型能夠在生成答案之前，首先從 Data Commons 中提取與問題相關的更多背景資訊。這個過程增強了模型的推理能力，並使其能夠產生更有深度和多維度的答案。

4 未來改善方向：

儘管初步結果表明 DataGemma 在減少幻覺和提高事實性方面非常有前景，但研究仍在進行中。谷歌團隊計劃在未來進一步完善這些方法，並進行更大規模的測試，力求將 RIG 和 RAG 的應用效果進一步提升，最終實現更廣泛的實際應用。

DataGemma 的開放式特性也鼓勵更多開發者和研究人員參與進來，利用這個平台開發新的應用和方法。