요새 스마트폰들에서는 OCR 기능을 사용하고 있습니다. 명함을 찍어서 문자를 추출한 후 저장하거나, 실시간으로 카메라에 보이는 단어들을 번역해서 보여주기도 합니다. OCR 은 광학 문자 인식(Optical character recognition)을 줄여서 부르는 말이고, 이 기술은 오래 전부터 있었습니다. 다만, 문자 인식률이 저조해서 그리 인기는 없었지요. 헌데, 최근에는 발달한 알고리즘과 하드웨어 성능의 향상으로 꽤 쓸만해 진 것 같습니다. 

대표적으로 접할 수 있는 OCR 프로그램으로는 우선 Acrobat Professional Edition 이 있고, MS Office 를 사면 같이 들어 있는 MODI(Microsoft Office Document Imaging)가 있습니다. 또 기능상으로 가장 낫다고 말해지는 ABBYY FineReader 10 Professional Edition 이 있습니다. 조금 검색해 보니 네이버 랩에서 온라인으로 하는 이미지 문자 인식 ocr 도 있습니다.

1. Acrobat Pro
스캐너에서 PDF 문서 만들기를 클릭한 후에 아래와 같이 "검색 가능하게 만들기(OCR 실행)"에 체크해 주면 됩니다. 옵션에서 원하는 언어를 설정해 주면 더 잘 되지 않을까 싶습니다.

옵션들이 많은데 뭘 건드려야 하는지 몰라서 도움말 찾아봤습니다. 최적으로 인식되는 환경은 300dpi 흑백 스캔이라고 합니다. 위의 텍스트 인식 설정에서 이미지 다운샘플링은 별로 상관이 없나 봅니다. 스캔 해상도를 300dpi 로 맞춰주고, 그냥 흑백으로 스캔하면 잘 됩니다.

샘플로 하나 해 보았습니다.

텍스트로 내보내서 확인해 보니 아래와 같은 정도로 인식이 되네요.

2. MODI
다국어 지원 기능이 뛰어나다고 소문이 자자하던데, 실제로 해보니 엥~ 왠 에러?

GUI는 간단하게 잘 만들어져 있는 것 같은데, 잘 될 것 같은데 이상하게 문서안에 텍스트가 하나도 없다고 하네요. 음... 잘 소개하고 싶어도, pass 합니다~

p.s. 덤으로 컴퓨터에 MODI 가 설치되어 있으면 요런 응용을 할 수 있네요~

3. ABBYY Fine Reader 10
소개글을 보면 아주 성능이 뛰어나다고 합니다. 요 기사에 나온 그림들을 봐도 뭔가 레이아웃도 잘 맞추면서 인식하는 것으로 보입니다. 평가판을 다운 받아서 한번 확인해 봅니다.

설치도 오래 걸리고, 실행도 오래 걸리고, 변환도 오래 걸리고, 메모리도 무려 700MB 이상 차지하고(1G밖에 안되는 노트북이라 무지 swap하네요)~ 

결과물은? 

가장 많은 문자를 인식한 것 같은데, 문자가 깨질 때는 보기 심하게 깨져서 품질이 낮아 보이네요. 사용법을 숙지하면 더 나은 결과물이 나오지 않을까 기대해 봅니다~ 

4. 네이버 문자 인식 ocr
jpg 파일을 업로드 해서 웹상에서 문자로 인식을 해 줍니다. IE에서만 되네요; 5MB 제한이 있습니다.

스캔할 때 흑백 경계값을 얼마로 할지 몰라서 여러 번 스캔해서 올려 보고 ocr 적합성이 가장 높은 상태를 찾아봅니다.

몇 초 지나니 인식을 합니다. 마구 깨지는 것 같지만, 

교정이라는 기능을 하니 상당히 품질이 좋아집니다.


결론
어찌하다 보니 네 가지 프로그램들을 비교하게 되었습니다. 뭐 평소에 자주 써보던 기능이 아닌지라, 설정이나 사용법에 미숙한 채로 테스트 해 보았습니다. 그렇게 살짝 테스트 해 본 결과, Acrobat 이네요~ 원래 제 생각으로는 MODI가 가장 좋다고 생각하고 있었는데, 오늘 문서 인식 자체에 실패한 것을 보면 Acrobat이 다양한 환경에서 더 안정적인 장점이 있다고 볼 수 있겠습니다. 

   인식률  인식 속도   리소스  편의성  관리성  총점
 Acrobat  *****  ****  ***  *****  *****  22
 MODI  ?  ?  *****  ****  *****  14+α
 ABBYY Fine Reader  *****  ***  *  *****  *****  19
 naver ocr  ****  ***  ****  ***  *  15

* 리소스는 적게 차지할 수록 높은 점수, 관리성은 인식 및 스캔 결과물을 보관하기 편리할 수록 높은 점수를 줌.
Posted by 마몸

최근에 올라온 글

카테고리

모두 (497)
We BLOG (353)
테라피 (79)
재능 찾기 (62)

달력

«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

글 보관함