首頁 後端開發 Python教學 深入了解 Microsoft MarkItDown

深入了解 Microsoft MarkItDown

Dec 26, 2024 pm 04:14 PM

什麼是 MarkItDown?

MarkItDown 是微軟開發的 Python 套件,旨在將多種文件格式轉換為 Markdown。

自推出以來,該庫的受歡迎程度直線上升,在短短兩週內就獲得了超過 25k 的 GitHub 星! ?

Deep Dive into Microsoft MarkItDown

是什麼讓 MarkItDown 如此受歡迎?

MarkItDown 為多種文件類型提供強大的支持,例如:

  • 辦公室格式:Word、PowerPoint、Excel
  • 媒體檔案:圖像(帶有 EXIF 資料和描述)、音訊(帶有轉錄支援)
  • 網路與資料格式:HTML、JSON、XML、CSV
  • 檔案:ZIP 檔案

它不僅能夠處理 Word 等標準格式,還能夠處理多模式數據,這使其脫穎而出。例如,它使用 OCR 和語音識別從圖像和音訊檔案中提取內容。

將任何內容轉換為 Markdown 的能力使 MarkItDown 成為 LLM 培訓的強大工具。透過處理特定領域的文檔,它提供了豐富的上下文,以便在 LLM 支援的應用程式中產生更準確和相關的回應。

開始使用 MarkItDown

使用 MarkItDown 非常簡單 - 只需要 4 行程式碼:

這是 MarkItDown 的一些用例。

轉換 Word 文件會產生乾淨且精確的 Markdown:

Deep Dive into Microsoft MarkItDown

即使是多選項卡 Excel 電子表格也能輕鬆處理:

Deep Dive into Microsoft MarkItDown

ZIP 檔案?沒問題!該函式庫遞歸地解析其中的所有檔案:

Deep Dive into Microsoft MarkItDown

最初,影像擷取可能不會產生任何結果:

Deep Dive into Microsoft MarkItDown

這是因為 MarkItDown 依賴 LLM 來產生影像描述。透過整合LLM客戶端,您可以啟用此功能:

配置到位後,可以成功處理影像檔案:

Deep Dive into Microsoft MarkItDown

注意:LLM 不會處理基於影像的 PDF。 PDF 需要 OCR 預處理來提取內容。

Deep Dive into Microsoft MarkItDown

但是,PDF 在擷取時會遺失格式,因此無法區分標題和純文字:

Deep Dive into Microsoft MarkItDown

限制

MarkItDown 並非沒有限制:

  • 沒有 OCR 的 PDF 檔案無法處理。
  • 從 PDF 檔案中提取時無法進行格式化。

儘管如此,作為一個開源項目,它是高度可自訂的。由於其乾淨的程式碼庫,開發人員可以輕鬆擴展其功能。

MarkItDown 的工作原理

MarkItDown 的架構簡單且模組化。

它有一個DocumentConverter類,它定義了一個通用的convert()方法:

各個轉換器繼承自該基底類別並動態註冊:

這種模組化方法可以輕鬆新增對新檔案類型的支援。

文件轉換工作流程

辦公室文件

使用 mammoth、pandas 或 pptx 等函式庫將 Office 檔案轉換為 HTML,然後使用 BeautifulSoup 轉換為 Markdown。

Deep Dive into Microsoft MarkItDown

音訊檔案

音訊是透過使用Google API 的speech_recognition 庫轉錄的。

(微軟,為什麼這裡沒有 Azure??)

Deep Dive into Microsoft MarkItDown

圖片

影像處理涉及透過 LLM 提示產生標題:
「為這張圖片寫下詳細的描述。」

Deep Dive into Microsoft MarkItDown

PDF 文件

PDF 由 pdfminer 庫處理,但缺乏內建 OCR。您必須預處理 PDF 才能提取文字。

Deep Dive into Microsoft MarkItDown

將 MarkItDown 部署為 API

MarkItDown 可以在本地運行,但將其作為 API 託管可以釋放額外的靈活性,使其可以輕鬆整合到 Zapier 和 n8n 等工作流程中。

這是使用 FastAPI 的 MarkItDown API 的簡單範例:

呼叫API:

免費託管 API

託管 Python API 可能很棘手。 AWS EC2 或 DigitalOcean 等傳統服務需要租用整個伺服器,這總是很昂貴的。

但是現在,您可以使用Leapcell。

這是一個可以以無伺服器方式託管 Python 程式碼庫的平台 - 它僅按 API 呼叫收費,並且提供慷慨的免費使用。

只需連接您的 GitHub 儲存庫,定義建置和啟動命令,就可以了:

Deep Dive into Microsoft MarkItDown

現在您擁有了一個託管在雲端的 MarkItDown API,可以整合到您的工作流程中,最重要的是,僅在真正調用時收費。


立即開始在 Leapcell 上建立自己的 MarkItDown API! ?

Deep Dive into Microsoft MarkItDown

以上是深入了解 Microsoft MarkItDown的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1431
52
Laravel 教程
1334
25
PHP教程
1279
29
C# 教程
1257
24
Python與C:學習曲線和易用性 Python與C:學習曲線和易用性 Apr 19, 2025 am 12:20 AM

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

學習Python:2小時的每日學習是否足夠? 學習Python:2小時的每日學習是否足夠? Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python vs.C:探索性能和效率 Python vs.C:探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

Python vs. C:了解關鍵差異 Python vs. C:了解關鍵差異 Apr 21, 2025 am 12:18 AM

Python和C 各有優勢,選擇應基於項目需求。 1)Python適合快速開發和數據處理,因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程,因其靜態類型和手動內存管理。

Python標準庫的哪一部分是:列表或數組? Python標準庫的哪一部分是:列表或數組? Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary,herilearRaysarenot.listsarebuilt-In,多功能,和Rused ForStoringCollections,而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python:自動化,腳本和任務管理 Python:自動化,腳本和任務管理 Apr 16, 2025 am 12:14 AM

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化:通過標準庫如os、shutil實現文件備份。 2)腳本編寫:使用psutil庫監控系統資源。 3)任務管理:利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

科學計算的Python:詳細的外觀 科學計算的Python:詳細的外觀 Apr 19, 2025 am 12:15 AM

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能,提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

Web開發的Python:關鍵應用程序 Web開發的Python:關鍵應用程序 Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架:Django適合快速開發複雜應用,Flask適用於小型或高度自定義項目。 2.API開發:使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化:利用Python處理數據並通過Web界面展示。 4.機器學習與AI:Python用於構建智能Web應用。 5.性能優化:通過異步編程、緩存和代碼優

See all articles