상세 컨텐츠

본문 제목

[RPA] OCR 언어 추가

IT/RPA(UiPath)

by Adonis_ 2019. 11. 6. 13:36

본문

목표

OCR 한국어 패치 추가

 


1. 언어파일 로컬에 저장

하기 사이트에서 kor.traineddata파일 저장

 

https://github.com/tesseract-ocr/tessdata

 

tesseract-ocr/tessdata

Contribute to tesseract-ocr/tessdata development by creating an account on GitHub.

github.com

2. 다운받은 파일을 %userprofile%\.nuget\packages\uipath.vision\1.x.x\build\tessdata 위치에 저장 

* Google OCR일 경우 "kor" 혹은 "eng"로 Language속성에 입력

* ABBYY OCR일 경우 "Korean, English"로 Language속성에 입력 (ABBYY는 다중언어지원)

 

 

<OCR 엔진비교>

모기업에서 UiPath Korea 1주년 기념식에서 발표한 자료를 참조하자면 다음과같다.

 

  • ABBYY : 그림과 문자를 구분하기 위한 로직이 있고 이로 인해 볼드체 글씨와 저품질 이미지에서 문자를 그림으로 무시하는 경향을 보임
  • Tesseract : 그림과 문자를 구분하지 않고 가장 비슷한 글씨를 찾아내기 때문에 볼드체와 저 품질 이미지에서 많은 이득을 봄
  • 그러나, 한글과 영문이 혼용된 경우 혹은 문서의 품질이 300dpi 이상인 경우 ABBYY성능이 우수

'IT > RPA(UiPath)' 카테고리의 다른 글

관련글 더보기

댓글 영역