끄적끄적

[RPA] OCR 언어 추가

IT/RPA(UiPath)

by Adonis_ 2019. 11. 6. 13:36

목표

OCR 한국어 패치 추가

1. 언어파일 로컬에 저장

하기 사이트에서 kor.traineddata파일 저장

https://github.com/tesseract-ocr/tessdata

tesseract-ocr/tessdata

Contribute to tesseract-ocr/tessdata development by creating an account on GitHub.

github.com

2. 다운받은 파일을 %userprofile%\.nuget\packages\uipath.vision\1.x.x\build\tessdata 위치에 저장

* Google OCR일 경우 "kor" 혹은 "eng"로 Language속성에 입력

* ABBYY OCR일 경우 "Korean, English"로 Language속성에 입력 (ABBYY는 다중언어지원)

<OCR 엔진비교>

모기업에서 UiPath Korea 1주년 기념식에서 발표한 자료를 참조하자면 다음과같다.

ABBYY : 그림과 문자를 구분하기 위한 로직이 있고 이로 인해 볼드체 글씨와 저품질 이미지에서 문자를 그림으로 무시하는 경향을 보임
Tesseract : 그림과 문자를 구분하지 않고 가장 비슷한 글씨를 찾아내기 때문에 볼드체와 저 품질 이미지에서 많은 이득을 봄
그러나, 한글과 영문이 혼용된 경우 혹은 문서의 품질이 300dpi 이상인 경우 ABBYY성능이 우수

'IT > RPA(UiPath)' 카테고리의 다른 글

[RPA] Chrome Extension 설치 (0)	2019.11.11
[RPA] JAVA 코드 연동하기 (0)	2019.11.06
[RPA] 프로세스 배포 및 Bot에 할당하기 (0)	2019.11.04
[RPA] Invoke Arguments 정의 (0)	2019.11.04
[RPA] 날짜함수 (0)	2019.11.04

관련글 더보기

인기글

최신글

TISTORY

끄적끄적 © Magazine Lab

페이스북

트위터

인스타그램

유투브

티스토리툴바