Windows에서 tesseract OCR, pytesseract 환경설정하는 법
Tesseract OCR이란?Tesseract OCR은 오픈소스 광학 문자 인식(OCR) 엔진으로, 다양한 이미지 형식에서 텍스트를 추출할 수 있다. Tesseract는 한국어를 포함한 여러 언어를 지원하며, 사용자가 직접 학습 데이터를 추가하여 성능을 향상시킬 수 있는 기능을 제공한다. Medical Vision Lab에서 새로 주어진 과제로, 휴대폰 카메라로 촬영한 전자의무기록(EMR)을 OCR하여 문서화하는 작업을 수행하고 있다. 본 포스팅에서는 tesseract OCR 환경설정하는 방법에 대해 다루고자 한다. 설치: tesseract.exe 파일, pytesseract파이썬에서 사용 가능한 tesseract인 pytesseract는 라이브러리 형태로 제공한다. pip을 이용해 pytesseract..
2024.04.26