TRAINING METHOD OF TEXT RECOGNITION MODEL TEXT RECOGNITION METHOD AND APPARATUS

Provided are a training method of a text recognition model, a text recognition method, and a device thereof. The present invention relates to an artificial intelligence technology field, and more specifically, to deep learning and computer vision technology fields capable of being applied to a scena...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: XU YANGLIU, LIU SHANSHAN, WANG JINGDONG, QIAO MEINA, HAN JUNYU, WU LIANG, LV PENGYUAN, LIU JINGTUO, DING ERRUI, ZHANG CHENGQUAN
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Provided are a training method of a text recognition model, a text recognition method, and a device thereof. The present invention relates to an artificial intelligence technology field, and more specifically, to deep learning and computer vision technology fields capable of being applied to a scenario such as optical character recognition or the like. The present invention obtains a prediction vision feature by predicting a mask for a vision feature of an obtained sample image, and obtains a prediction meaning feature by predicting a mask for a meaning feature of an obtained sample text. Herein, the sample image includes texts. By determining a first loss value of the texts of the sample image based on the prediction vision feature, determining a second loss value of sample texts based on the prediction meaning feature, and obtaining a text recognition model with training based on the first loss value and the second loss value, the text recognition model mines vision information. By mining meaning context logic, when performing text recognition based on the text recognition model, diversity and totality of text recognition are improved. 본 출원은 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치를 제공하며, 인공지능 기술분야에 관한 것으로서, 구체적으로 딥러닝, 컴퓨터 비전 기술분야에 관한 것이며, 광학 캐릭터 인식 등의 시나리오에 적용될 수 있다. 구체적인 구현 방안에 따르면, 획득된 샘플 이미지의 비전 특징에 대해 마스크 예측을 수행하여, 예측 비전 특징을 획득하고, 획득된 샘플 텍스트의 의미 특징에 대해 마스크 예측을 수행하여, 예측 의미 특징을 획득하며, 여기서, 샘플 이미지는 텍스트를 포함하고, 예측 비전 특징을 기초로 샘플 이미지의 텍스트의 제1 손실값을 결정하고, 예측 의미 특징을 기초로 샘플 텍스트의 제2 손실값을 결정하고, 제1 손실값과 제2 손실값을 기초로 트레이닝하여 텍스트 인식 모델을 획득함으로써, 텍스트 인식 모델이 비전 정보를 마이닝할 수 있을 뿐만 아니라, 의미 콘텍스트 논리도 마이닝할 수 있도록 하여, 텍스트 인식 모델을 기반으로 텍스트 인식을 수행할 때, 텍스트 인식의 다양성과 전면성을 향상시킬 수 있다.