과태료 OCR 장표는 많은 정보를 담고 있습니다.
그 중에서도 가장 난이도 높은 것은 아래 2가지 유형입니다.
유형1. 전자납부번호 19자리 추출(*19자리가 아닌 것도 일부 있음)
유형2. 각종 은행 몇 및 그 은행의 계좌번호를 추출
과태료의 고지서의 전자납부번호는 19자리가 연속된 숫자로 이루어져 있기에 OCR엔진에서 오류를 많이 발생합니다.
OCR엔진 중 네이버에서 제작한 크로바 OCR엔진은 한글을 추출하는데, 탁월한 성능을 가지고 있습니다. 구글 비전 OCR엔진 보다도 훨씬 뛰어나며, 구글에서 후원해서 무료로 배포하고 있는 Tesseract OCR엔진과는 비교할 수 없습니다. 즉, 네이버 크로바 OCR엔진이 한글로 된 텍스트를 95% 정확도로 추출한다면, 구글 비전 OCR엔진은 약 90% 수준이며, Tesseract OCR엔진은 70% 상당이라고 생각됩니다. 또 최근에 런칭한 카카오 OCR엔진은 안타깝게도 테서렉 OCR엔진 수준입니다.
Case 1. |
네이버 크로바 OCR엔진은 한글인식에 특화된 아주 뛰어난 OCR엔진으로 타 OCR엔진에 비해서 우수한 성능을 자랑합니다. 그럼에도 불구하고, 19자리로 된 전자납부번호를 읽어오는데 많은 에러를 생성합니다. 왜냐하면 전자납부번호 숫자가 다른 글자에 비해서 좀 작게 인쇄되고, 문자 간격이 좁기 때문에, 그리고 전자납부번호 인쇄시 뭉개짐 현상이 있는 경우 5와 6을 혼동하고, 6과 8을 혼동합니다. 또한 당연히도 미리 인쇄된 서식에 중복되는 경우 서식의 세로 줄을 1자로 인식하는 등 OCR엔진에서 판독하기 어려운 영역이기도 합니다.
☞ 연속된 숫자를 네이버 OCR엔진에서 20자리로 잘못 판독한 사례(22를 222로 잘못 읽음)
고지서 원본 |
|
OCR + 추출 |
|
보정후 |
|
- 참고 OCR+의 간단한 보정 방식 - 마우스 우클릭
☞ 53-뒤에 빨간색으로 표시된 2자가 2번 OCR엔진에서 오류 처리됨
고지서 원본 |
|
OCR + 추출 |
|
보정후 |
|
à 숫자2를 이중으로 읽어 들이는 것은 네이버 OCR엔진의 특징으로 판단됨
☞ 1차 검증(전자납부번호 상호간 비교)은 빨간색으로 오류가능성을 표기하고 있으나, 2차 검증을 통해서 보정할 필요가 없음을 알려주고 있음
고지서 원본 |
|
OCR + 추출 |
|
보정후 |
없음 |
☞ 1차 검증에서 5번째 번호 0이 오류 가능성이 있음을 표시하고 있으나, 2차 검증에서 오류가 없음을 확인함
고지서 원본 |
|
OCR + 추출 |
|
보정후 |
없음 |
☞ 2-30 으로 적힌 곳은 2-23 이 일반적 임, 왜냐하면 23은 2023년도를 뜻하는 자리로 사용되기 때문임. 실제 고지서 확인결과 2-30으로 기록됨. 이건 다시 확인이 필요함
고지서 원본 |
|
OCR + 추출 |
|
보정후 |
없음 |
위에 살펴본 것은 자동차과태료 용지에서 전자납부번호를 추출하는데 어떤 문제가 있는지를 보여주는 단편적인 사례에 불과합니다.
|
만약 전자납부번호를 19자리를 OCR엔진에서 읽고 그대로 표기해 준다면, 사람의 눈으로 연속된 19개의 숫자가 맞는 숫자인지 아닌지를 알 수 있을까요? 이런 숫자만 뿌려 준다면 이것을 과태료 용지에 있는 19개 전자납부번호 숫자를 사람이 검증할 수 있을까요? |
OCR+에서는 어떤 OCR엔진에서도 시도하지 않았던 1차 검증(복수 데이터 검증)과 패턴화 작업을 통해서 실무자가 원하는 것을 실무적으로 활용할 수 있도록 구현했습니다.