閱讀長文本PDF檔的AI助手：比較Gemini 1.5 Pro與其他大語言模型的中文解讀效能

在當今資訊爆炸的時代，大量的書籍和PDF文件成為了知識傳播的重要載體。隨著 AI 大語言模型的發展，這些模型不僅能夠理解和生成人類語言，還具有文本解析能力，而得從龐大的文本資料中提煉出資訊，增進學習知識的效率。然而，現有的先進大語言模型是否具備足夠的能力，以準確分析與解讀有幾十萬字的長篇中文文本呢？

Google 在 2024年3月22日在 Google AI Studio 開放一般有 Google 帳號的大眾使用 Gemini 1.5 Pro 大語言模型，而且可以處理高達100萬token的超長文本。因此，我就將最近掃描且OCR的中文書籍PDF檔，拿來以 Gemini 1.5 Pro、GPT-4 Turbo 及 Claude 3 Opus 等三個先進大語言模型實測。

一、書籍的數位化

由於當今的電子書，大都是 epub 或 PDF 檔案的形式。即使是 epub 或 PDF 檔，電子書的出版者也大都有加密，以防他人複製與散佈。要讓大語言模型可以解讀書籍內容，可以將買來的 epub 電子書去除 DRM，再轉成 PDF 檔；也可以購買紙本書，再將其掃描與OCR而數位化。以前述方法所獲得的電子書，只能供自己閱讀之用，不能散佈，以免觸法。

在此，我以2023年11 月出版的《法學思維小學堂：法學方法論密集班（二版）》來測試大語言模型的實力。測試前，要先將紙本書裁切，再以高速饋紙式掃描器掃描，最後以 Abbyy FineReader 軟體 OCR 成 PDF 檔（俗稱 “炊書” 、“自炊”）。這本書有410頁，文字的掃描正確率雖然沒有達到100%，但辨識錯誤的文字極少。

二、與大語言模型就 PDF 檔對話

（一）與 AI 大語言模型的對話

要與大語言模型就 PDF 檔對話，必須將原生 PDF 檔（以軟體例如 Word 轉出可以擷取出文字的 PDF 檔），或是經過 OCR 的 PDF 檔上傳給大語言模型。大語言模型可以接受的檔案有容量限制。Perplexity AI 可以接受不超過25MB的檔案。Google AI Studio 可以接受高達100萬tokens的超長文本，這差不多有 40多萬的中文字；檔案大約不能超過64MB，否則大語言模型解析會失敗。所以，當發現 Google AI Studio 解析檔案失敗時，就要先將PDF檔壓縮後再上傳。

Gemini 1.5 Pro

將已經經過 OCR 的法學思維小學堂 PDF 檔，上傳到 Google AI Studio，依據畫面顯示，總共用掉208,663 tokens（詞符、詞元）。確定選擇的模型是 Gemini 1.5 Pro，就可以開始發問。

其餘由Gemini 1.5 Pro 所呈現的目錄內容，就不列出來了。反正是全部正確。

對於 Gemini 1.5 Pro 的回答，我是非常滿意的。

GPT-4 Turbo

點擊連結查看和 GPT-4 Turbo（透過 Perplexity AI 調用）的對話

Claude 3 Opus

點擊連結查看和 Claude 3 Opus（透過 Perplexity AI 調用）的對話

（二）實測結果

	Gemini 1.5 PRO	GPT-4 Turbo	Claude 3 Opus
書籍數據	完全正確	只有書名正確	不夠完整，無法查到出版者
全書摘要	涵蓋到每一課的內容	只有摘要本書第一課的 “法律中的概念”，其他沒有。	只有摘要本書第一課的 “法律中的概念”，其他沒有。
目錄	完全正確	正確（按了好幾次的 “Rewrite”才得出）	正確
總結第二課第五章的正確性	正確	大致正確，回答有些發散。例如：這一章沒有提到罪刑法定原則，但回答有提到。	沒有提到文義解釋具有相對優先性的意思。其他要點大致都有提到。
對詢問 “歸謬論證” 的定義及其有效性要件，回答是否正確？	正確	回答不是依據本書的內容所作出。	回答不是依據本書的內容所作出。

Gemini 1.5 Pro及其他大語言模型解讀書籍比較表

三、結論

由以上大語言模型的回答及其比較表的數據，可以得出：Gemini 1.5 Pro 解讀繁體中文的長文本PDF檔的能力，明顯優於必須付費訂閱的 GPT-4 Turbo 及 Claude 3 Opus。而 Gemini 1.5 Pro 只要是有註冊 Google 帳號，就能夠使用。

GPT-4 與 Claude 等大語言模型表現不好的原因，會是因為他們所能處理的 tokens 沒有 Gemini 1.5 Pro 那麼多嗎？GPT-4 Turbo 可以處理到 128k tokens，Claude 3 Opus 可以處理到 200k tokens，Gemini 1.5 Pro 則可以處理到 1000k tokens。而我用來測試的這本書有 208,663 tokens，大約等於的 203.7k tokens。在全書摘要時，本書第二課：「法律解釋的古典方法」，是在前127,558 tokens 的範圍以內（將本書 PDF 檔裁減至前二課後，上傳 Google AI Studio 測試其 tokens 數），都還在 GPT-4 Turbo 與 Claude 3 Opus 能處理的範圍，但這兩個大語言模型都無法摘要到。還有，幾乎能涵蓋這本書全書 tokens 數的 Claude 3 Opus 對於「歸謬論證」定義與有效性要件，也無法基於本書的內容正確解讀出來。所以，這未必與 tokens 有關。因此，我猜測，GPT-4 Turbo 與 Claude 3 Opus 很可能是因為在預訓練階段，沒有使用足夠多的中文語料，以致解讀中文長文本的能力有欠缺。

Gemini 1.5 Pro 擁有優越的中文解讀能力，及其與 Google 生態系統的整合性和便利性，為那些喜歡自行將紙本資料數位化的使用者，以及擁有眾多數位化資源的擁有者（例如作者、出版商、資料庫擁有者）提供了巨大的價值。使用者可以先將檔案儲存在 Google 雲端硬碟，只要在大語言模型所能處理的 tokens 範圍內，就能以 Google AI Studio 調用一個或多個PDF檔、甚至是一個資料夾下的所有PDF檔來使用，不僅可以查詢文檔的內容，還擴展到了對文檔的深入理解和分析。隨著大語言模型能夠處理的 tokens 數量的增加，當大語言模型擁有優越的文本解讀能力時，我們可以預見到一個新的可能性：使用者將能夠建立自己的個人化知識資料庫，並利用這些大語言模型來進行更複雜的數據挖掘和知識提取。這意味著，不僅學術研究人員可以快速從大量文獻中提取關鍵信息，機構組織、普通用戶也將能夠從他們日積月累所建立的數位圖書館中獲得洞見。而這是紙本書及紙本筆記永遠也做不到的。

在〈“閱讀長文本PDF檔的AI助手：比較Gemini 1.5 Pro與其他大語言模型的中文解讀效能”〉中有 6 則留言

Jeff表示:

2024 年 04 月 13 日00:42

請問 Gemini 1.5 Pro 可以上傳不只一個 pdf 檔，然後要它一起搜尋其中的某個概念資訊並做摘要嗎？

1. 張清浩表示:
  
  2024 年 05 月 10 日11:36
  
  是可以上傳多個檔案及摘要，只要在 Gemini 1.5 Pro 所能解析的 1,048,576 tokens 以內就行。
  
Jeff表示:

2024 年 04 月 12 日20:33

看來 Google AI Studio 十分強大！
不知道有沒有介紹如何使用的資訊？

1. 張清浩表示:
  
  2024 年 05 月 10 日11:29
  
  直接登入就能以與一般生成式AI的使用方式來操作。
  更深入的使用技巧，請參考：Google AI Studio 快速入門導覽課程
  
毛球表示:

2024 年 03 月 28 日00:35

作為正在就讀法研所的學生，最近這幾天也在嘗試用AI（主要是claude3）閱讀文章的可信賴性。很驚喜能偶然看到律師的這篇心得，稍後就去嘗試使用看看gemini 1.5 pro（同時也很驚喜看到蔡聖偉老師翻譯的這本思維小學堂）。

目前使用起來，就算一次丟了上百頁的文獻給claude3，也能迅速地幫我分章節排列出各段落的重點，而且也確實有一定程度的正確度。
不過當我要求他「重點整理時，引用文獻原文並附上引用頁碼」，卻發現許多錯誤。最明顯的還是他會一直憑空杜撰出不存在的頁碼，明明某個章節是從94到132頁，他卻能在整理那個章節時，憑空生出第162頁、第174頁的引用。（重點是整篇文章也只到152頁而已…）
其次，claude3還可能生出文獻內不存在的名詞，然後給你很理所當然地「」起來強調這個名詞。

所以雖然claude3能一口氣讀完上百頁的論文，幫我迅速做出大綱跟摘要，但我還是對他的準確性很不放心…
看完律師的這篇心得，等等就去嘗試使用Gemini 1.5 pro了，希望能有更好的體驗！

1. 張清浩表示:
  
  2024 年 03 月 28 日23:11
  
  感謝您分享寶貴經驗。

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。