解鎖嵌入字體 PDF 中的文字:pytesseract OCR 教學課程
當 PDF 為英文且沒有嵌入字體時,從 PDF 中提取文字通常很簡單。然而,一旦消除這些假設,使用 pdfminer 或 pdfplumber 等基本 Python 函式庫就變得具有挑戰性。上個月,我的任務是從古吉拉特語 PDF 中提取文本,並將姓名、地址、城市等資料欄位匯入 JSON 格式。
如果字體嵌入在 PDF 本身中,簡單的複製貼上將不起作用,並且使用 pdfplumber 將傳回不可讀的垃圾文字。因此,我必須將每個 PDF 頁面轉換為圖像,然後使用 pytesseract 庫應用 OCR 來「掃描」頁面,而不僅僅是閱讀它。本教學將向您展示如何做到這一點。
你需要的東西
- pdfplumber(Python 庫)
- pdf2image(Python 庫)
- pytesseract(Python 函式庫)
- tesseract-ocr
您可以使用 pip 指令安裝 Python 函式庫,如下所示。對於 Tesseract-OCR,請從官方網站下載並安裝軟體。 pytesseract 只是 tesseract 軟體的包裝。
將 PDF 頁面轉換為圖像
第一步是將 PDF 頁面轉換為影像。這個 extract_text_from_pdf() 函數正是這樣做的 - 您將 PDF 路徑和 page_num (零索引)傳遞為參數。請注意,為了清晰起見,我首先將頁面轉換為黑白,這是可選的。
ocr_image()函數使用pytesseract透過OCR從影像中擷取文字。 --oem 和 --psm 等技術參數控制影像的處理方式,-l guj eng 參數設定要讀取的語言。由於此 PDF 偶爾包含英文文本,因此我使用了 guj eng。
處理文字
使用 OCR 匯入文字後,您可以按照您想要的格式解析它。這與其他 PDF 庫(如 pdfplumber 或 pypdf2)類似。
每個 PDF 都有其必須考慮的細微差別。在這種情況下,當後續欄位(姓氏)變更時,第一個欄位中的新序號(如 0૧ 或 0૨)表示一個新群組。
pytesseract 是 IT 技術發展和進步的證明。大約十年前,在配置適度的 PC 或筆記型電腦上使用非英語 OCR 讀取或解析 PDF 影像幾乎是不可能的。這才是真正的進步!祝您編碼愉快,請在下面的評論中告訴我進展如何。
參考
- 在 Windows 中安裝 Tesseract
- 使用 pytesseract OCR 辨識影像中的文字
- 如何設定 pytesseract 以支援 Windows 10 中非英語語言的文字偵測?
以上是解鎖嵌入字體 PDF 中的文字:pytesseract OCR 教學課程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

要在有限的時間內最大化學習Python的效率,可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python和C 各有優勢,選擇應基於項目需求。 1)Python適合快速開發和數據處理,因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程,因其靜態類型和手動內存管理。

pythonlistsarepartofthestAndArdLibrary,herilearRaysarenot.listsarebuilt-In,多功能,和Rused ForStoringCollections,而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化:通過標準庫如os、shutil實現文件備份。 2)腳本編寫:使用psutil庫監控系統資源。 3)任務管理:利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能,提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。
