閱讀長文本PDF檔的AI助手:比較Gemini 1.5 Pro與其他大語言模型的中文解讀效能

在當今資訊爆炸的時代,大量的書籍和PDF文件成為了知識傳播的重要載體。隨著 AI 大語言模型的發展,這些模型不僅能夠理解和生成人類語言,還具有文本解析能力,而得從龐大的文本資料中提煉出資訊,增進學習知識的效率。然而,現有的先進大語言模型是否具備足夠的能力,以準確分析與解讀有幾十萬字的長篇中文文本呢?

Google 在 2024年3月22日在 Google AI Studio 開放一般有 Google 帳號的大眾使用 Gemini 1.5 Pro 大語言模型,而且可以處理高達100萬token的超長文本。因此,我就將最近掃描且OCR的中文書籍PDF檔,拿來以 Gemini 1.5 Pro、GPT-4 Turbo 及 Claude 3 Opus 等三個先進大語言模型實測。

一、書籍的數位化

由於當今的電子書,大都是 epub 或 PDF 檔案的形式。即使是 epub 或 PDF 檔,電子書的出版者也大都有加密,以防他人複製與散佈。要讓大語言模型可以解讀書籍內容,可以將買來的 epub 電子書去除 DRM,再轉成 PDF 檔;也可以購買紙本書,再將其掃描與OCR而數位化。以前述方法所獲得的電子書,只能供自己閱讀之用,不能散佈,以免觸法。

在此,我以2023年11 月出版的 《法學思維小學堂:法學方法論密集班(二版)》來測試大語言模型的實力。測試前,要先將紙本書裁切,再以高速饋紙式掃描器掃描,最後以 Abbyy FineReader 軟體 OCR 成 PDF 檔(俗稱 “炊書” 、“自炊”)。這本書有410頁,文字的掃描正確率雖然沒有達到100%,但辨識錯誤的文字極少。

二、與大語言模型就 PDF 檔對話

(一)與 AI 大語言模型的對話

要與大語言模型就 PDF 檔對話,必須將原生 PDF 檔(以軟體例如 Word 轉出可以擷取出文字的 PDF 檔),或是經過 OCR 的 PDF 檔上傳給大語言模型。大語言模型可以接受的檔案有容量限制。Perplexity AI 可以接受不超過25MB的檔案。Google AI Studio 可以接受高達100萬tokens的超長文本,這差不多有 40多萬的中文字;檔案大約不能超過64MB,否則大語言模型解析會失敗。所以,當發現 Google AI Studio 解析檔案失敗時,就要先將PDF檔壓縮後再上傳。

Gemini 1.5 Pro

將已經經過 OCR 的法學思維小學堂 PDF 檔,上傳到 Google AI Studio,依據畫面顯示,總共用掉208,663 tokens(詞符、詞元)。確定選擇的模型是 Gemini 1.5 Pro,就可以開始發問。

其餘由Gemini 1.5 Pro 所呈現的目錄內容,就不列出來了。反正是全部正確。

對於 Gemini 1.5 Pro 的回答,我是非常滿意的。

GPT-4 Turbo

點擊連結查看和 GPT-4 Turbo(透過 Perplexity AI 調用)的對話

Claude 3 Opus

點擊連結查看和 Claude 3 Opus(透過 Perplexity AI 調用)的對話

(二)實測結果

Gemini 1.5 PROGPT-4 TurboClaude 3 Opus
書籍數據完全正確只有書名正確不夠完整,無法查到出版者
全書摘要涵蓋到每一課的內容只有摘要本書第一課的 “法律中的概念”,其他沒有。只有摘要本書第一課的 “法律中的概念”,其他沒有。
目錄完全正確正確(按了好幾次的 “Rewrite”才得出 )正確
總結第二課第五章的正確性正確大致正確,回答有些發散。例如:這一章沒有提到罪刑法定原則,但回答有提到。沒有提到文義解釋具有相對優先性的意思。其他要點大致都有提到。
對詢問 “歸謬論證” 的定義及其有效性要件,回答是否正確?正確回答不是依據本書的內容所作出。回答不是依據本書的內容所作出。
Gemini 1.5 Pro及其他大語言模型解讀書籍比較表

三、結論

由以上大語言模型的回答及其比較表的數據,可以得出:Gemini 1.5 Pro 解讀繁體中文的長文本PDF檔的能力,明顯優於必須付費訂閱的 GPT-4 Turbo 及 Claude 3 Opus。而 Gemini 1.5 Pro 只要是有註冊 Google 帳號,就能夠使用。

GPT-4 與 Claude 等大語言模型表現不好的原因,會是因為他們所能處理的 tokens 沒有 Gemini 1.5 Pro 那麼多嗎?GPT-4 Turbo 可以處理到 128k tokens,Claude 3 Opus 可以處理到 200k tokens,Gemini 1.5 Pro 則可以處理到 1000k tokens。而我用來測試的這本書有 208,663 tokens,大約等於的 203.7k tokens。在全書摘要時,本書第二課:「法律解釋的古典方法」,是在前127,558 tokens 的範圍以內(將本書 PDF 檔裁減至前二課後,上傳 Google AI Studio 測試其 tokens 數),都還在 GPT-4 Turbo 與 Claude 3 Opus 能處理的範圍,但這兩個大語言模型都無法摘要到。還有,幾乎能涵蓋這本書全書 tokens 數的 Claude 3 Opus 對於「歸謬論證」定義與有效性要件,也無法基於本書的內容正確解讀出來。所以,這未必與 tokens 有關。因此,我猜測,GPT-4 Turbo 與 Claude 3 Opus 很可能是因為在預訓練階段,沒有使用足夠多的中文語料,以致解讀中文長文本的能力有欠缺。

Gemini 1.5 Pro 擁有優越的中文解讀能力,及其與 Google 生態系統的整合性和便利性,為那些喜歡自行將紙本資料數位化的使用者,以及擁有眾多數位化資源的擁有者(例如作者、出版商、資料庫擁有者)提供了巨大的價值。使用者可以先將檔案儲存在 Google 雲端硬碟,只要在大語言模型所能處理的 tokens 範圍內,就能以 Google AI Studio 調用一個或多個PDF檔、甚至是一個資料夾下的所有PDF檔來使用,不僅可以查詢文檔的內容,還擴展到了對文檔的深入理解和分析。隨著大語言模型能夠處理的 tokens 數量的增加,當大語言模型擁有優越的文本解讀能力時,我們可以預見到一個新的可能性:使用者將能夠建立自己的個人化知識資料庫,並利用這些大語言模型來進行更複雜的數據挖掘和知識提取。這意味著,不僅學術研究人員可以快速從大量文獻中提取關鍵信息,機構組織、普通用戶也將能夠從他們日積月累所建立的數位圖書館中獲得洞見。而這是紙本書及紙本筆記永遠也做不到的。

在〈“閱讀長文本PDF檔的AI助手:比較Gemini 1.5 Pro與其他大語言模型的中文解讀效能”〉中有 2 則留言

  1. 作為正在就讀法研所的學生,最近這幾天也在嘗試用AI(主要是claude3)閱讀文章的可信賴性。很驚喜能偶然看到律師的這篇心得,稍後就去嘗試使用看看gemini 1.5 pro(同時也很驚喜看到蔡聖偉老師翻譯的這本思維小學堂)。

    目前使用起來,就算一次丟了上百頁的文獻給claude3,也能迅速地幫我分章節排列出各段落的重點,而且也確實有一定程度的正確度。
    不過當我要求他「重點整理時,引用文獻原文並附上引用頁碼」,卻發現許多錯誤。最明顯的還是他會一直憑空杜撰出不存在的頁碼,明明某個章節是從94到132頁,他卻能在整理那個章節時,憑空生出第162頁、第174頁的引用。(重點是整篇文章也只到152頁而已…)
    其次,claude3還可能生出文獻內不存在的名詞,然後給你很理所當然地「」起來強調這個名詞。

    所以雖然claude3能一口氣讀完上百頁的論文,幫我迅速做出大綱跟摘要,但我還是對他的準確性很不放心…
    看完律師的這篇心得,等等就去嘗試使用Gemini 1.5 pro了,希望能有更好的體驗!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料