DOCUMENT RECOGNITION DEVICE USING OPTICAL CHARACTER RECOGNITION AND DOCUMENT STRUCTURING TAGS FOR BUILDING AI LEARNING DATASET

본 발명은 OCR을 통해 텍스트를 추출하고, 문서의 서식 및 구조를 파악하여 문서 구조화 태그를 부착함으로서 문서의 서식에 따라 문서의 내용 및 표의 내용을 원본 문서대로 파악할 수 있도록 하는 인공지능 학습 데이터셋 구축을 위한 광학 문자 인식 및 문서 구조화 태그를 활용한 문서 인식 장치에 관한 것으로, 입력된 대상 문서의 타입에 따라 서식 항목을 식별하고, 상기 서식 항목에 대응하는 텍스트를 추출하는 OCR분석부; 상기 대상 문서에서 식별된 적어도 하나 이상의 서식 항목 및 상기 서식 항목의 텍스트에 대한 관계 정보를 포함하여...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HWANG SUNHEE, CHO CHANG HEE, KHO HYEONG SEOG, LEE HONG JAE
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:본 발명은 OCR을 통해 텍스트를 추출하고, 문서의 서식 및 구조를 파악하여 문서 구조화 태그를 부착함으로서 문서의 서식에 따라 문서의 내용 및 표의 내용을 원본 문서대로 파악할 수 있도록 하는 인공지능 학습 데이터셋 구축을 위한 광학 문자 인식 및 문서 구조화 태그를 활용한 문서 인식 장치에 관한 것으로, 입력된 대상 문서의 타입에 따라 서식 항목을 식별하고, 상기 서식 항목에 대응하는 텍스트를 추출하는 OCR분석부; 상기 대상 문서에서 식별된 적어도 하나 이상의 서식 항목 및 상기 서식 항목의 텍스트에 대한 관계 정보를 포함하여 문서 구조화 데이터를 생성하는 문서 구조화부; 상기 대상 문서에 포함된 표의 구조를 파악하고, 상기 표의 셀 영역에 포함된 텍스트를 추출하여 표 서식 데이터를 생성하는 표인식부; 및 상기 문서 구조화 데이터에 문서 구조를 식별하는 문서 구조화 태그를 부착하여 정해진 형식의 텍스트 데이터로 변환하는 문서 태깅부;를 포함한다.