Windows에서 tesseract OCR, pytesseract 환경설정하는 법

2024. 4. 26. 16:24머신러닝&딥러닝/OCR

728x90

Tesseract OCR이란?

Tesseract OCR은 오픈소스 광학 문자 인식(OCR) 엔진으로, 다양한 이미지 형식에서 텍스트를 추출할 수 있다. Tesseract는 한국어를 포함한 여러 언어를 지원하며, 사용자가 직접 학습 데이터를 추가하여 성능을 향상시킬 수 있는 기능을 제공한다.

 

Medical Vision Lab에서 새로 주어진 과제로, 휴대폰 카메라로 촬영한 전자의무기록(EMR)을 OCR하여 문서화하는 작업을 수행하고 있다. 본 포스팅에서는 tesseract OCR 환경설정하는 방법에 대해 다루고자 한다.

 

설치: tesseract.exe 파일, pytesseract

파이썬에서 사용 가능한 tesseract인 pytesseract는 라이브러리 형태로 제공한다. pip을 이용해 pytesseract를 설치해 준다.

pip install pytesseract

 

이 라이브러리를 이용하기 위해서는 tesseract.exe 실행파일도 필요하다. 이 파일은 tesseract 깃헙(https://github.com/UB-Mannheim/tesseract/wiki) 에서 아래를 눌러 설치 파일을 다운받고, 설치를 진행한다.

환경 변수 설정

시스템 환경 변수 편집>고급>환경 변수에 들어가서 tesseract.exe 파일이 저장된 디렉토리를 Path에  추가해 준다.

 

[환경 변수 편집] 에서 새로 만들기를 누른 후, 경로를 저장해 준다. (일반적으로 C:\Program Files\Tesseract-OCR이다)

 

이제, pip을 통해 다운로드 받아진 pytesseract 라이브러리를 찾아, 그 안에 있는 pytesseract.py 파일에 tesseract.exe의 경로를 추가해 준다. 라이브러리의 위치를 잘 모르겠다면, pip install 을 다시 실행하여 위치를 확인한다.

 

pytesseract.py 파일을 열어 tesseract_cmd에 저장된 문자열을 아래와 같이 tesseract.exe의 경로로 변경한다.

 

 

설치 확인

python에서 pytesseract가 에러 없이 잘 import 되는지 확인해 주고, 각종 메소드를 테스트해 본다.

반응형

'머신러닝&딥러닝 > OCR' 카테고리의 다른 글

병원차트 OCR 전처리 코드 공유 (OpenCV)  (0) 2024.05.03