大型語言模型(LLM)已成為處理和分析大量文本資料的強大工具。然而,模型的輸出品質不僅取決於其自身的性能,也高度依賴我們提供資料的「格式」。多數使用者習慣直接上傳 PDF 文件,這看似最直觀的操作,卻可能在無形中犧牲了資訊的完整性與分析的精準度。
本文的目的是要實測三種常見的檔案格式—— PDF 、純文字檔(TXT)與 Markdown(MD)——在上傳至 Google AI Studio 後,對 Gemini 2.5 Pro 模型解析長篇複雜文件能力的影響。本研究將以兩篇結構各異的法律學術論文為測試材料,客觀呈現不同格式在資訊提取與深度解讀任務上的表現差異。又由於在 Google AI Studio 平台上,無法上傳 docx、 doc 格式的 word 檔,所以,無法就這類 word 檔案的解讀效果做分析與比較。
一、基礎知識: Markdown 語言簡介
Markdown 是一種輕量級標記語言,它允許使用者透過簡單的純文字符號來定義文件的結構與格式。其核心優勢在於語法直觀、易於閱讀與編寫,且能輕易轉換為多種其他格式。對於需要提交給AI進行分析的文件而言,Markdown能以機器可輕易識別的方式,明確標示出標題層級、列表、引用等結構性資訊。
核心語法範例:
# 第一級標題## 第二級標題- 無序列表1. 有序列表
如果想要進一步瞭解 Markdown語法,請參考:Markdown語法說明
二、實驗設計與材料
為確保測試的有效性,我們選取了兩篇來自全國律師月刊2025年8月號 的公開論文 PDF 檔作為原始材料,它們在結構上具有顯著差異:
- 低結構化文件:〈工作時間的擬制真實制裁、推定與反證〉
此文件結構相對扁平,以題目為一級標題,在其下只有「壹、貳、參、肆、伍」等第二級標題。內文包含20個案例及法院裁判;每一個案例都是將「事實」與判決「見解」寫在一起。 - 高結構化文件:〈公衛事件之情事變更與不可抗力原則之探討〉
此文件具有清晰的五層標題結構。以題目為一級標題,在其下還有「壹、貳..」「一、二…」「(一)、(二)…」「1. 2. …」「(1)(2)…」等四個層級的標題,就法院裁判的分析,更進一步區分出「案例事實」、「雙方主張」(以下再區分出原告、被告)、「法院判決要旨」,結構嚴謹。
三、檔案準備流程
我們將上述兩份 PDF 文件,依下列方式處理成三種格式:
- PDF 檔:使用原始下載文件。 PDF 的特性是,一個完整段落會因為每一行末尾「強制換行」到下一行,使行寬固定,複製到其他環境時也會在同樣位置斷行。
- TXT 純文字檔:使用 PDF-XChange Editor 的「另存為…」,然後選取「每個段落後插入換行符號」(註:原文是 “Insert breaks after each paragraph”;在繁體中文介面上,被翻譯為 “每個段落後插入換頁符號”,應該有誤)。此操作會形成段落內不換行、但段落跨頁會中斷的文字檔,頁尾的註釋在原始頁面的正文之後。如下圖。
- Markdown 檔(MD):在純文字檔的基礎上手動編輯,使用
#``-``1.等符號標示各級標題及適當使用有序列表或無序列表,並使每一個的段落都能連續,不會因為跨頁而中斷。再將每一頁的註釋統一整理至文末,確保正文的連續性與結構的清晰度。
四、實測
Token 數量的顯著差異
我們將這6個檔案(2篇論文 x 3種格式)分別上傳至Google AI Studio,每一篇論文的一種檔案格式,都獨立上傳到一個對話框。模型選擇 Gemini 2.5 Pro,溫度(Temperature)設定為 1。
在上傳階段,我觀察到一個橫跨兩篇論文的共通現象:對於同一篇論文,TXT 檔和 Markdown 檔所計算出的 Token 數量,顯著高於 PDF 檔,差距可達三倍之多。
| 論文名稱 | PDF Tokens | TXT Tokens | MD Tokens | TXT/MD 約為 PDF 的倍數 |
|---|---|---|---|---|
| 〈工作時間的擬制真實制裁、推定與反證〉 | 3,097 | 11,530 | 11,149 | ~3.7 倍 |
| 〈公衛事件之情事變更與不可抗力原則之探討〉 | 5,419 | 20,377 | 19,514 | ~3.7 倍 |
名詞解釋:Token
Token 是大型語言模型處理文本的基本單位。它可以是一個單詞、一個字元或一個詞組。Token 的數量直接反映了模型實際「讀入」的資訊量。
PDF 檔的 Token 數偏低,引出一個關鍵推測:模型在解析PDF這種為視覺呈現而設計的複雜格式時,可能進行了某種程度的資訊壓縮或簡化處理,這潛在地導致了內容細節與結構的遺失。
模型回答的精準度比較
為了客觀評估不同格式對模型回答精準度的影響,我們對兩篇論文的三種格式檔案下了涵蓋不同分析層次的提示詞,任務包含摘要總結、歸納分類與細節挖掘。
1. 摘要與歸納能力:PDF 格式初現不穩定性
在第一階段,我們要求 Gemini 2.5 Pro 執行摘要、歸納與比較等任務。
提示詞範例(摘要任務):
- 總結本篇論文內容並形成摘要。
提示詞範例(歸納分類任務):
- 請歸類該篇論文中所分析的所有高院判決類型,並加以說明
- 說明:針對未將裁判類型分類的〈工作時間的擬制真實制裁〉論文為之。
- 請為這篇論文製作一份深度的解讀,必須包含並窮盡各章節的主要論點、引用的裁判的案例事實及裁判要旨。`
- 說明:針對分類與結構清晰的〈公衛事件之情事變更〉論文為之。
實測結果顯示,對於摘要這類高度概括性的任務,三種格式的表現都非常出色。Gemini 2.5 Pro 都能準確抓取兩篇論文的核心論點。
然而,在要求進行更複雜的歸納與分類任務時,PDF 格式的處理能力開始出現不穩定。在處理〈工作時間的擬制真實制裁〉這篇論文時,TXT 與 Markdown 格式都能一次性地將所有案例正確歸納,但PDF 格式的版本卻在多次回答中遺漏了少數【案例】,即使重複執行(Rerun)後,還是會有遺漏或分類不良的情形出現;而且分類的表現也不好,只會在原有二級標題下,列出各個案例。這不如其他兩種格式,大模型還會在原有二級標題下,再做分類。這顯示大模型在解析 PDF 的複雜結構時,對內文的掌握已出現「盲點」。
相對地,在處理結構更清晰的〈公衛事件之情事變更〉論文時,三種格式在下指令做深入解讀時,表現則不相上下。這也側面說明,原始文件的結構清晰度,也會影響 AI 解析 PDF 的成功率。
2. 細節挖掘能力:TXT 與 Markdown 格式的絕對優勢
另一項差異出現在最考驗模型精準度的深度細節挖掘任務。我們要求模型根據內文的說明,找出僅在註釋中才能找到的法院裁判案號資訊。
提示詞範例(細節挖掘任務):
- 就您上述的歸納,查詢每一段案例的判決案號,並以”(臺灣高等法院113年勞上字第1520號民事判決)”、不要粗體的格式,標註在該段落最後方。
- 說明:針對〈工作時間的擬制真實制裁〉論文為之,判決案號都在註釋中)
- 請說明「情事變更」的判斷基準,這是由哪些法院裁判所發展出來的?“請說明現行實務的「不可抗力」之判定基準,這是由哪些法院裁判所發展出來的?
- 說明:針對〈公衛事件之情事變更〉論文為之,這些判斷基準的判決案號及內容,都在註釋中)
- PDF 格式的表現:
在〈工作時間的擬制真實制裁〉論文中,這次都能成功找出在註釋中的20則判決案號,並標示在原先歸納分類的判決類型後。但在〈公衛事件之情事變更〉這篇論文中,卻無法找出僅在註釋中出現的判決,即使多次重複執行提示詞(Rerun),仍然找不到。 - TXT 與 Markdown 格式的表現:
與 PDF 的情況形成鮮明對比,模型在處理 TXT 與 Markdown 檔案時,表現得游刃有餘、穩定可靠。無論是為數十個案例精準標註判決案號,還是從數千字的註釋區中大海撈針般地找出特定判決,TXT 與 Markdown 格式都能一次到位、準確無誤地完成,過程中沒有出現任何遺漏。 這證明了乾淨、連續、完整的文本流,是 AI 進行高精度細節分析的基石。
五、分析與結論:為何 Markdown 是餵養 AI 的最佳格式?
綜合 Token 數量與模型回答的精準度比較,我們可以得出以下結論:
- PDF 的「低 Token 數」劣勢:PDF 檔案的 Token 數遠低於 TXT 與 MD 檔,這並非優勢,而是一個警訊。它反映了模型在解析這種為「視覺呈現」而設計的格式時,可能為了處理斷行、頁碼、頁首頁尾等複雜元素,而對原始文本進行了過度的簡化甚至是有損壓縮。這正是造成其在歸納任務中出現遺漏、在深度分析中存在可靠性風險的根本原因。
- TXT 的可靠性:純文字檔(TXT)雖然犧牲了所有排版格式,但它提供了一個乾淨、連續的文本流。這使得 AI 可以不受干擾地讀取全部內容,確保了資訊的完整性。因此,即便沒有結構標示,其在深度解讀任務上的表現也遠勝於 PDF。
- Markdown 的王者地位:Markdown 格式無疑是本次實測的最大贏家。它不僅繼承了 TXT 檔資訊完整的優點,更透過輕量級的標記語法(如
#、-)為文件提供了清晰的語義結構。這等於是直接告訴 AI:「這是一級標題」、「這是一個列表」。這種機器可讀的結構化資訊,極大地幫助模型理解上下文的層次與關聯,從而實現最精準、最可靠的分析結果。
延伸:基於 Gemini 2.5 Pro 解析 TXT 與 Markdown 格式檔案的可靠性,甚至可以推論,所有的法律文件(包括訴訟書狀、契約、法院裁判),都應儘可能轉成 Markdown 格式,至少也要轉成 純文字(TXT)格式。但在轉成純文字(TXT)格式時,也得留意:如果原有文件有表格,因TXT檔難以表示出表格的形式,而可能對大模型解析產生不利的影響(其他還有複雜的數學公式難以呈現在純文字檔的問題,不過這種問題原則上不會出現在法律文件中)。
以上的結論,是就據稱參數達175B、具有【類】思考推理能力的 Gemini 2.5 Pro 大語言模型所做。如果是參數少、不具有【類】思考推理能力的大語言模型,解讀 PDF 檔的效果,應該就會很差。
最終建議
在這個 AI 已成為重要生產力工具的時代,我們提供給模型的「資料品質」將直接決定其輸出品質。這遵循著最古老的電腦科學原則:「垃圾進,垃圾出」(Garbage In, Garbage Out)。
- 日常應用:若您只是需要對文件進行快速摘要或一般性問答,直接上傳 PDF 檔案或許是最便捷的選擇。
- 專業分析:但如果您需要的是嚴謹、精確的深度分析、細節比對與資料提取,那麼強烈建議您多花幾分鐘,將文件轉換為 Markdown 格式。這個簡單的步驟,將能最大化地發揮 Gemini 2.5 Pro 這類先進模型的潛力,為您帶來更可靠、更有價值的分析結果,避免因格式問題而在關鍵細節上失之交臂。如果不熟悉 Markdown 格式的轉換,至少也要轉換成 TXT 格式的純文字檔。