캐스케이드 Cascade

머신러닝&딥러닝/OCR(2)

병원차트 OCR 전처리 코드 공유 (OpenCV)
지난 번 pytesseract로 휴대폰으로 촬영한 병원차트 OCR을 시도해 본 결과, foundation model로는 인식 성능이 매우 나쁘게 나와서 fine tuning을 시도해 보았다. 그러나, 이미지 퀄리티가 너무 안 좋아서 bounding box도 못 잡길래, 병원 측에 이미지 촬영본 말고 캡처본으로 다시 데이터를 달라고 요청드렸다. 기존 데이터는 이렇게 생겼다. (개인정보는 모두 블러 처리했다.) 위아래, 양옆으로 잘린 글씨 및 불규칙한 촬영 각도로 인해 전처리도 까다로웠고 bbox 잡는 것도 어려웠다. 새로운 데이터는 위와 같이 차트 전체 모습이 캡쳐된 형태여서 훨씬 규칙적이었다. 이 이미지 332장, 총 8,567명의 환자 데이터를 OCR하는 task를 수행하기 위해 전처리를 아래와 같이..
2024.05.03
Windows에서 tesseract OCR, pytesseract 환경설정하는 법
Tesseract OCR이란?Tesseract OCR은 오픈소스 광학 문자 인식(OCR) 엔진으로, 다양한 이미지 형식에서 텍스트를 추출할 수 있다. Tesseract는 한국어를 포함한 여러 언어를 지원하며, 사용자가 직접 학습 데이터를 추가하여 성능을 향상시킬 수 있는 기능을 제공한다. Medical Vision Lab에서 새로 주어진 과제로, 휴대폰 카메라로 촬영한 전자의무기록(EMR)을 OCR하여 문서화하는 작업을 수행하고 있다. 본 포스팅에서는 tesseract OCR 환경설정하는 방법에 대해 다루고자 한다. 설치: tesseract.exe 파일, pytesseract파이썬에서 사용 가능한 tesseract인 pytesseract는 라이브러리 형태로 제공한다. pip을 이용해 pytesseract..
2024.04.26

1

티스토리툴바