餵養AI的最佳格式：實測揭示PDF、TXT與Markdown在Gemini 2.5 Pro中的表現差異

大型語言模型（LLM）已成為處理和分析大量文本資料的強大工具。然而，模型的輸出品質不僅取決於其自身的性能，也高度依賴我們提供資料的「格式」。多數使用者習慣直接上傳 PDF 文件，這看似最直觀的操作，卻可能在無形中犧牲了資訊的完整性與分析的精準度。

本文的目的是要實測三種常見的檔案格式—— PDF 、純文字檔（TXT）與 Markdown（MD）——在上傳至 Google AI Studio 後，對 Gemini 2.5 Pro 模型解析長篇複雜文件能力的影響。本研究將以兩篇結構各異的法律學術論文為測試材料，客觀呈現不同格式在資訊提取與深度解讀任務上的表現差異。又由於在 Google AI Studio 平台上，無法上傳 docx、 doc 格式的 word 檔，所以，無法就這類 word 檔案的解讀效果做分析與比較。

一、基礎知識： Markdown 語言簡介

Markdown 是一種輕量級標記語言，它允許使用者透過簡單的純文字符號來定義文件的結構與格式。其核心優勢在於語法直觀、易於閱讀與編寫，且能輕易轉換為多種其他格式。對於需要提交給AI進行分析的文件而言，Markdown能以機器可輕易識別的方式，明確標示出標題層級、列表、引用等結構性資訊。

核心語法範例：

# 第一級標題
## 第二級標題
- 無序列表
1. 有序列表

如果想要進一步瞭解 Markdown語法，請參考:Markdown語法說明

二、實驗設計與材料

為確保測試的有效性，我們選取了兩篇來自全國律師月刊2025年8月號的公開論文 PDF 檔作為原始材料，它們在結構上具有顯著差異：

低結構化文件：〈工作時間的擬制真實制裁、推定與反證〉
此文件結構相對扁平，以題目為一級標題，在其下只有「壹、貳、參、肆、伍」等第二級標題。內文包含20個案例及法院裁判；每一個案例都是將「事實」與判決「見解」寫在一起。
高結構化文件：〈公衛事件之情事變更與不可抗力原則之探討〉
此文件具有清晰的五層標題結構。以題目為一級標題，在其下還有「壹、貳..」「一、二…」「（一）、（二）…」「1. 2. …」「(1)(2)…」等四個層級的標題，就法院裁判的分析，更進一步區分出「案例事實」、「雙方主張」（以下再區分出原告、被告）、「法院判決要旨」，結構嚴謹。

三、檔案準備流程

我們將上述兩份 PDF 文件，依下列方式處理成三種格式：

PDF 檔：使用原始下載文件。 PDF 的特性是，一個完整段落會因為每一行末尾「強制換行」到下一行，使行寬固定，複製到其他環境時也會在同樣位置斷行。
TXT 純文字檔：使用 PDF-XChange Editor 的「另存為…」，然後選取「每個段落後插入換行符號」（註：原文是 “Insert breaks after each paragraph”；在繁體中文介面上，被翻譯為 “每個段落後插入換頁符號”，應該有誤）。此操作會形成段落內不換行、但段落跨頁會中斷的文字檔，頁尾的註釋在原始頁面的正文之後。如下圖。
Markdown 檔（MD）：在純文字檔的基礎上手動編輯，使用#``-``1.等符號標示各級標題及適當使用有序列表或無序列表，並使每一個的段落都能連續，不會因為跨頁而中斷。再將每一頁的註釋統一整理至文末，確保正文的連續性與結構的清晰度。

四、實測

Token 數量的顯著差異

我們將這6個檔案（2篇論文 x 3種格式）分別上傳至Google AI Studio，每一篇論文的一種檔案格式，都獨立上傳到一個對話框。模型選擇 Gemini 2.5 Pro，溫度（Temperature）設定為 1。

在上傳階段，我觀察到一個橫跨兩篇論文的共通現象：對於同一篇論文，TXT 檔和 Markdown 檔所計算出的 Token 數量，顯著高於 PDF 檔，差距可達三倍之多。

論文名稱	PDF Tokens	TXT Tokens	MD Tokens	TXT/MD 約為 PDF 的倍數
〈工作時間的擬制真實制裁、推定與反證〉	3,097	11,530	11,149	~3.7 倍
〈公衛事件之情事變更與不可抗力原則之探討〉	5,419	20,377	19,514	~3.7 倍

名詞解釋：Token
Token 是大型語言模型處理文本的基本單位。它可以是一個單詞、一個字元或一個詞組。Token 的數量直接反映了模型實際「讀入」的資訊量。

PDF 檔的 Token 數偏低，引出一個關鍵推測：模型在解析PDF這種為視覺呈現而設計的複雜格式時，可能進行了某種程度的資訊壓縮或簡化處理，這潛在地導致了內容細節與結構的遺失。

模型回答的精準度比較

為了客觀評估不同格式對模型回答精準度的影響，我們對兩篇論文的三種格式檔案下了涵蓋不同分析層次的提示詞，任務包含摘要總結、歸納分類與細節挖掘。

1. 摘要與歸納能力：PDF 格式初現不穩定性

在第一階段，我們要求 Gemini 2.5 Pro 執行摘要、歸納與比較等任務。

提示詞範例（摘要任務）：

總結本篇論文內容並形成摘要。

提示詞範例（歸納分類任務）：

請歸類該篇論文中所分析的所有高院判決類型，並加以說明
- 說明：針對未將裁判類型分類的〈工作時間的擬制真實制裁〉論文為之。
請為這篇論文製作一份深度的解讀，必須包含並窮盡各章節的主要論點、引用的裁判的案例事實及裁判要旨。`
- 說明：針對分類與結構清晰的〈公衛事件之情事變更〉論文為之。

實測結果顯示，對於摘要這類高度概括性的任務，三種格式的表現都非常出色。Gemini 2.5 Pro 都能準確抓取兩篇論文的核心論點。

然而，在要求進行更複雜的歸納與分類任務時，PDF 格式的處理能力開始出現不穩定。在處理〈工作時間的擬制真實制裁〉這篇論文時，TXT 與 Markdown 格式都能一次性地將所有案例正確歸納，但PDF 格式的版本卻在多次回答中遺漏了少數【案例】，即使重複執行(Rerun)後，還是會有遺漏或分類不良的情形出現；而且分類的表現也不好，只會在原有二級標題下，列出各個案例。這不如其他兩種格式，大模型還會在原有二級標題下，再做分類。這顯示大模型在解析 PDF 的複雜結構時，對內文的掌握已出現「盲點」。

相對地，在處理結構更清晰的〈公衛事件之情事變更〉論文時，三種格式在下指令做深入解讀時，表現則不相上下。這也側面說明，原始文件的結構清晰度，也會影響 AI 解析 PDF 的成功率。

2. 細節挖掘能力：TXT 與 Markdown 格式的絕對優勢

另一項差異出現在最考驗模型精準度的深度細節挖掘任務。我們要求模型根據內文的說明，找出僅在註釋中才能找到的法院裁判案號資訊。

提示詞範例（細節挖掘任務）：

就您上述的歸納，查詢每一段案例的判決案號，並以”（臺灣高等法院113年勞上字第1520號民事判決）”、不要粗體的格式，標註在該段落最後方。
- 說明：針對〈工作時間的擬制真實制裁〉論文為之，判決案號都在註釋中）
請說明「情事變更」的判斷基準，這是由哪些法院裁判所發展出來的？“請說明現行實務的「不可抗力」之判定基準，這是由哪些法院裁判所發展出來的？
- 說明：針對〈公衛事件之情事變更〉論文為之，這些判斷基準的判決案號及內容，都在註釋中）
PDF 格式的表現：
在〈工作時間的擬制真實制裁〉論文中，這次都能成功找出在註釋中的20則判決案號，並標示在原先歸納分類的判決類型後。但在〈公衛事件之情事變更〉這篇論文中，卻無法找出僅在註釋中出現的判決，即使多次重複執行提示詞(Rerun)，仍然找不到。
TXT 與 Markdown 格式的表現：
與 PDF 的情況形成鮮明對比，模型在處理 TXT 與 Markdown 檔案時，表現得游刃有餘、穩定可靠。無論是為數十個案例精準標註判決案號，還是從數千字的註釋區中大海撈針般地找出特定判決，TXT 與 Markdown 格式都能一次到位、準確無誤地完成，過程中沒有出現任何遺漏。這證明了乾淨、連續、完整的文本流，是 AI 進行高精度細節分析的基石。

五、分析與結論：為何 Markdown 是餵養 AI 的最佳格式？

綜合 Token 數量與模型回答的精準度比較，我們可以得出以下結論：

PDF 的「低 Token 數」劣勢：PDF 檔案的 Token 數遠低於 TXT 與 MD 檔，這並非優勢，而是一個警訊。它反映了模型在解析這種為「視覺呈現」而設計的格式時，可能為了處理斷行、頁碼、頁首頁尾等複雜元素，而對原始文本進行了過度的簡化甚至是有損壓縮。這正是造成其在歸納任務中出現遺漏、在深度分析中存在可靠性風險的根本原因。
TXT 的可靠性：純文字檔（TXT）雖然犧牲了所有排版格式，但它提供了一個乾淨、連續的文本流。這使得 AI 可以不受干擾地讀取全部內容，確保了資訊的完整性。因此，即便沒有結構標示，其在深度解讀任務上的表現也遠勝於 PDF。
Markdown 的王者地位：Markdown 格式無疑是本次實測的最大贏家。它不僅繼承了 TXT 檔資訊完整的優點，更透過輕量級的標記語法（如 #、-）為文件提供了清晰的語義結構。這等於是直接告訴 AI：「這是一級標題」、「這是一個列表」。這種機器可讀的結構化資訊，極大地幫助模型理解上下文的層次與關聯，從而實現最精準、最可靠的分析結果。

延伸：基於 Gemini 2.5 Pro 解析 TXT 與 Markdown 格式檔案的可靠性，甚至可以推論，所有的法律文件（包括訴訟書狀、契約、法院裁判），都應儘可能轉成 Markdown 格式，至少也要轉成純文字（TXT）格式。但在轉成純文字（TXT）格式時，也得留意：如果原有文件有表格，因TXT檔難以表示出表格的形式，而可能對大模型解析產生不利的影響（其他還有複雜的數學公式難以呈現在純文字檔的問題，不過這種問題原則上不會出現在法律文件中）。

以上的結論，是就據稱參數達175B、具有【類】思考推理能力的 Gemini 2.5 Pro 大語言模型所做。如果是參數少、不具有【類】思考推理能力的大語言模型，解讀 PDF 檔的效果，應該就會很差。

最終建議

在這個 AI 已成為重要生產力工具的時代，我們提供給模型的「資料品質」將直接決定其輸出品質。這遵循著最古老的電腦科學原則：「垃圾進，垃圾出」（Garbage In, Garbage Out）。

日常應用：若您只是需要對文件進行快速摘要或一般性問答，直接上傳 PDF 檔案或許是最便捷的選擇。
專業分析：但如果您需要的是嚴謹、精確的深度分析、細節比對與資料提取，那麼強烈建議您多花幾分鐘，將文件轉換為 Markdown 格式。這個簡單的步驟，將能最大化地發揮 Gemini 2.5 Pro 這類先進模型的潛力，為您帶來更可靠、更有價值的分析結果，避免因格式問題而在關鍵細節上失之交臂。如果不熟悉 Markdown 格式的轉換，至少也要轉換成 TXT 格式的純文字檔。

文章

餵養AI的最佳格式：實測揭示PDF、TXT與Markdown在Gemini 2.5 Pro中的表現差異

一、基礎知識： Markdown 語言簡介

二、實驗設計與材料

三、檔案準備流程

四、實測

Token 數量的顯著差異

模型回答的精準度比較

1. 摘要與歸納能力：PDF 格式初現不穩定性

2. 細節挖掘能力：TXT 與 Markdown 格式的絕對優勢

五、分析與結論：為何 Markdown 是餵養 AI 的最佳格式？

最終建議

發佈留言取消回覆

一、基礎知識： Markdown 語言簡介

二、實驗設計與材料

三、檔案準備流程

四、實測

Token 數量的顯著差異

模型回答的精準度比較

1. 摘要與歸納能力：PDF 格式初現不穩定性

2. 細節挖掘能力：TXT 與 Markdown 格式的絕對優勢

五、分析與結論：為何 Markdown 是餵養 AI 的最佳格式？

最終建議

相關文章：

發佈留言 取消回覆

發佈留言取消回覆