DEVICE AND SYSTEM FOR DEEP LEARNING-BASED OPTICAL CHARACTER RECOGNITION

The present invention relates to a deep learning-based optical character recognition (OCR) apparatus to increase accuracy and performance of OCR results, and a system thereof. According to an embodiment of the present invention, the deep learning-based OCR apparatus comprises at least one processor...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MINSEOK KANG, ROKKYU LEE, YEON GYU KIM, HYUG JAE LEE
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention relates to a deep learning-based optical character recognition (OCR) apparatus to increase accuracy and performance of OCR results, and a system thereof. According to an embodiment of the present invention, the deep learning-based OCR apparatus comprises at least one processor and at least one memory. At least one program stored in the memory and is executed by the at least one processor to perform OCR on the basis of deep learning includes: a first module extracting feature information on a text in an input image on the basis of a deep learning neural network; a second module generating initial encoding information having location information about the text on the basis of the extracted feature information; a third module performing shape transformation on the basis of the generated initial encoding information to acquire an attention map maintaining 2D information of the input image; and a fourth module detecting the text in the input image through a deep learning model on the basis of the acquired attention map. 본 발명의 실시예에 따른 딥러닝 기반 광학문자인식 장치는, 적어도 하나 이상의 프로세서; 및 적어도 하나 이상의 메모리;를 포함하고, 상기 메모리에 저장되고 상기 적어도 하나 이상의 프로세서에 의해 실행되어 딥러닝 기반으로 광학문자인식을 수행하는 적어도 하나의 프로그램으로서, 상기 적어도 하나 이상의 프로그램은, 딥러닝 뉴럴 네트워크를 기반으로 입력 이미지 내 텍스트에 대한 특징정보를 추출하는 제 1 모듈과, 상기 추출된 특징정보를 기초로 상기 텍스트에 대한 위치정보를 가지는 초기 인코딩 정보를 생성하는 제 2 모듈과, 상기 생성된 초기 인코딩 정보에 기반한 형태 변환을 수행하여 상기 입력 이미지에 대한 2차원 정보를 유지한 어텐션 맵을 획득하는 제 3 모듈과, 상기 획득된 어텐션 맵에 기초한 딥러닝 모델을 통해 상기 입력 이미지 내 텍스트를 감지하는 제 4 모듈을 포함한다.