Pycell(파이셀) - data for OCR/PDF/Survey - 유형1. OCR+에서만 볼 수 있는 전자납부번호 19자리 추출

과태료 OCR 장표는 많은 정보를 담고 있습니다.
그 중에서도 가장 난이도 높은 것은 아래 2가지 유형입니다.

유형1. 전자납부번호 19자리 추출(*19자리가 아닌 것도 일부 있음)

유형2. 각종 은행 몇 및 그 은행의 계좌번호를 추출

유형1.png

과태료의 고지서의 전자납부번호는 19자리가 연속된 숫자로 이루어져 있기에 OCR엔진에서 오류를 많이 발생합니다.
OCR엔진 중 네이버에서 제작한 크로바 OCR엔진은 한글을 추출하는데, 탁월한 성능을 가지고 있습니다. 구글 비전 OCR엔진 보다도 훨씬 뛰어나며, 구글에서 후원해서 무료로 배포하고 있는 Tesseract OCR엔진과는 비교할 수 없습니다. 즉, 네이버 크로바 OCR엔진이 한글로 된 텍스트를 95% 정확도로 추출한다면, 구글 비전 OCR엔진은 약 90% 수준이며, Tesseract OCR엔진은 70% 상당이라고 생각됩니다. 또 최근에 런칭한 카카오 OCR엔진은 안타깝게도 테서렉 OCR엔진 수준입니다.

Case 1.

네이버 크로바 OCR엔진은 한글인식에 특화된 아주 뛰어난 OCR엔진으로 타 OCR엔진에 비해서 우수한 성능을 자랑합니다. 그럼에도 불구하고, 19자리로 된 전자납부번호를 읽어오는데 많은 에러를 생성합니다. 왜냐하면 전자납부번호 숫자가 다른 글자에 비해서 좀 작게 인쇄되고, 문자 간격이 좁기 때문에, 그리고 전자납부번호 인쇄시 뭉개짐 현상이 있는 경우 5와 6을 혼동하고, 6과 8을 혼동합니다. 또한 당연히도 미리 인쇄된 서식에 중복되는 경우 서식의 세로 줄을 1자로 인식하는 등 OCR엔진에서 판독하기 어려운 영역이기도 합니다.

☞ 연속된 숫자를 네이버 OCR엔진에서 20자리로 잘못 판독한 사례(22를 222로 잘못 읽음)

고지서

원본

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

OCR +

추출

텍스트, 폰트, 스크린샷, 라인이(가) 표시된 사진

자동 생성된 설명

보정후

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

참고 OCR+의 간단한 보정 방식 - 마우스 우클릭

텍스트, 스크린샷, 번호, 폰트이(가) 표시된 사진

자동 생성된 설명

☞ 53-뒤에 빨간색으로 표시된 2자가 2번 OCR엔진에서 오류 처리됨

고지서

원본

텍스트, 스크린샷, 폰트, 번호이(가) 표시된 사진

자동 생성된 설명

OCR +

추출

텍스트, 폰트, 스크린샷, 라인이(가) 표시된 사진

자동 생성된 설명

보정후

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

à 숫자2를 이중으로 읽어 들이는 것은 네이버 OCR엔진의 특징으로 판단됨

☞ 1차 검증(전자납부번호 상호간 비교)은 빨간색으로 오류가능성을 표기하고 있으나, 2차 검증을 통해서 보정할 필요가 없음을 알려주고 있음

고지서

원본

텍스트, 스크린샷, 폰트, 직사각형이(가) 표시된 사진

자동 생성된 설명

OCR +

추출

텍스트, 스크린샷, 폰트, 번호이(가) 표시된 사진

자동 생성된 설명

보정후

없음

☞ 1차 검증에서 5번째 번호 0이 오류 가능성이 있음을 표시하고 있으나, 2차 검증에서 오류가 없음을 확인함

고지서

원본

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

OCR +

추출

텍스트, 폰트, 스크린샷, 라인이(가) 표시된 사진

자동 생성된 설명

보정후

없음

☞ 2-30 으로 적힌 곳은 2-23 이 일반적 임, 왜냐하면 23은 2023년도를 뜻하는 자리로 사용되기 때문임. 실제 고지서 확인결과 2-30으로 기록됨. 이건 다시 확인이 필요함

고지서

원본

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

OCR +

추출

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

보정후

없음

위에 살펴본 것은 자동차과태료 용지에서 전자납부번호를 추출하는데 어떤 문제가 있는지를 보여주는 단편적인 사례에 불과합니다.

텍스트, 폰트, 스크린샷, 번호이(가) 표시된 사진

자동 생성된 설명

만약 전자납부번호를 19자리를 OCR엔진에서 읽고 그대로 표기해 준다면, 사람의 눈으로 연속된 19개의 숫자가 맞는 숫자인지 아닌지를 알 수 있을까요?

이런 숫자만 뿌려 준다면 이것을 과태료 용지에 있는 19개 전자납부번호 숫자를 사람이 검증할 수 있을까요?

OCR+에서는 어떤 OCR엔진에서도 시도하지 않았던 1차 검증(복수 데이터 검증)과 패턴화 작업을 통해서 실무자가 원하는 것을 실무적으로 활용할 수 있도록 구현했습니다.

Atachment
첨부	유형1.png, case1.png, case2.png, case3.png, case4.png, case5.png,

List of Articles
번호	제목	글쓴이	날짜	조회 수
공지	OCR + 자동차 과태료 인식 시스템과 타사 OCR 시스템의 차이점 7	pycell3	2024.05.08	2395
공지	OCR + 도입 후 손익 분석 - case 1 일일 업무 처리량 500건	pycell3	2024.05.08	157
15	OCR + 소개용 브로셔 PDF파일	pycell1	2024.06.12	159
14	OCR+는 바로 사용자가 인정하는 프로그램이라는 증거를 보여 드립니다. 1	pycell1	2024.06.04	228
13	고지서에서 '납기내 금액' 추출하기	pycell2	2024.05.31	223
12	OCR + 추출 사례 - 자동차 과태료 고지서 1	pycell3	2024.05.07	213
11	OCR + 추출 사례 - 자동차 과태료 고지서 2	pycell3	2024.05.07	192
10	OCR + 사례 - 자동차 과태료 3	pycell3	2024.05.07	135
9	[★★★★★] OCR + 도입후 손익분석 Case 2. 일일 업무처리량이 case 1의 10배인 5천건 인 경우	pycell3	2024.05.07	125
8	자동차 과태료 스캔 사전 작업 과정 (example!)	pycell3	2024.05.07	140
7	지방세입계좌(전자납부번호) 구성내용	pycell3	2024.05.07	121
6	전자납부번호 19자리 체계 - 사실 자동차 과태료에서 사용하는 전자납부번호는 이것은 아닙니다.	pycell3	2024.05.07	121
5	전국 렌터가 회사(6천개)의 렌터가 보유댓수 등 - 기준 2022년 말	pycell3	2024.05.07	143
4	OCR+에서만 볼 수 있는 자동차번호판 인식 기술을 소개합니다.	pycell3	2024.05.07	3425
3	유형2-2. OCR+에서만 볼 수 있는 은행계좌검증	pycell3	2024.05.07	120
2	유형2-1. OCR+에서만 볼 수 있는 은행계좌검증	pycell3	2024.05.07	131
»	유형1. OCR+에서만 볼 수 있는 전자납부번호 19자리 추출	pycell3	2024.05.07	119

글쓴이

공지

OCR + 자동차 과태료 인식 시스템과 타사 OCR 시스템의 차이점 7 file

pycell3

2024.05.08

2395

공지

OCR + 도입 후 손익 분석 - case 1 일일 업무 처리량 500건 file