Fireworks AI新功能 能夠將圖像或PDF等非文字內容轉換為LLM可理解的結構化文字

世界上大多數數據,如醫療記錄、播客和財務報表,存在於影像、PDF、音訊檔案或專用知識庫中,這些格式LLMs處理不佳或不被接受。存取和處理這些數據對於人工智慧應用解決現實世界的用例至關重要。 目前的語言模型(LLM)對於這些非結構化資料的直接理解能力有限,而人工解析或傳統方法效率較低,品質不佳。 Fireworks AI推出了一種叫做「Document Inlining」功能,這是一個複合AI系統,透過解析影像或PDF,將非文本內容轉換為LLM可理解的結構化文本,以提升多模態任務的品質。 Document Inlining能夠將非結構化的文件(如PDF、截圖、圖像等)轉化為LLM(大語言模型)可理解的結構化文本,變成能直接用於聊天機器人或AI模型的文字內容。它的核心目標是彌合多模態(圖像和文字)之間的鴻溝,使複雜的文件解析和理解變得更加高效和準確。 準確性:從 PDF 和圖片中提取數據,準確率極高。靈活性:適用多種複雜格式,不論是掃描件、圖片或表格都能輕鬆解析。易用性:開發者只需一行程式碼即可啟用,無需額外複雜操作。主要功能解析複雜文件結構自動識別和解析文件中的多種內容,包括文字、表格、圖表以及巢狀佈局。支援光學字元辨識(OCR),能準確擷取影像中的文字內容。保留原始文件的層級和語意結構,以便後續處理。支援多種文件格式PDF檔案:擷取內文、標題、頁碼、表格及內嵌圖表。螢幕截圖:從靜態圖像中提取有用的文字資訊。圖表和表格:解析嵌套的行列結構,並將其轉換為語言模型可處理的格式。簡單的開發體驗開發者可以透過API介面呼叫功能,無需複雜的設置,相容OpenAI API 僅需一行程式碼修改。在 Fireworks 中,啟用Document Inlining功能僅需在現有的 API 中新增一行程式碼例如:from fireworks import inline_documentresult = inline_document(“example.pdf”)解析後的文字直接適配語言模型輸入。模型彈性:適配任何 LLM,包括微調和專用模型。高品質生成利用優化的特定領域模型,確保提取內容的準確性和一致性。能處理包含多種模態的複雜文件內容,提升語言模型在生成任務中的表現。多模態融合將視覺資訊(如影像或PDF)與文字內容融合,透過跨模態橋樑,實現統一的資料表示。支援

Fireworks AI新功能 能夠將圖像或PDF等非文字內容轉換為LLM可理解的結構化文字 閱讀全文 »