English | 繁體中文

從圖像中偵測文字

這是一個使用 pytesseract 從圖像中獲取文字的簡易腳本。

使用方法

你可以使用這個腳本從圖像中獲取文字。

在使用這個腳本之前，你需要先安裝 Tesseract OCR。

默認情況下，它只能偵測英文。如果你想要偵測更多語言，可以從這裡下載：traineddata。

然後，你可以將這些數據集放在 安裝路徑\Tesseract-OCR\tessdata\ 文件夾中。

我強烈建議將 安裝路徑\Tesseract-OCR\ 這個文件夾添加到系統的環境變量中，這樣可以更方便地使用腳本。否則，你需要在代碼中添加一行：

pytesseract.pytesseract.tesseract_cmd = r'路徑:\Tesseract-OCR\tesseract.exe'

你需要安裝以下 Python 模組：

pip install pillow
pip install pytesseract

我推薦你安裝 OpenCV 進行圖像編輯，以獲得更好的效果：

pip install opencv-python