DOCUMENT PAGE SEGMENTATION IN OPTICAL CHARACTER RECOGNITION

Page segmentation in an optical character recognition process is performed to detect textual objects and/or image objects. Textual objects in an input gray scale image are detected by selecting candidates for native lines which are sets of horizontally neighboring connected components (i.e., subsets...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GALIC, SASA, RADAKOVIC, BOGDAN, TODIC, NIKOLA
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Page segmentation in an optical character recognition process is performed to detect textual objects and/or image objects. Textual objects in an input gray scale image are detected by selecting candidates for native lines which are sets of horizontally neighboring connected components (i.e., subsets of image pixels where each pixel from the set is connected with all remaining pixels from the set) having similar vertical statistics defined by values of baseline (the line upon which most text characters "sit") and mean line (the line under which most of the characters "hang"). Binary classification is performed on the native line candidates to classify them as textual or non-textual through examination of any embedded regularity. Image objects are indirectly detected by detecting the image's background using the detected text to define the background. Once the background is detected, what remains (i.e., the non-background) is an image object. Selon l'invention, une segmentation de pages dans un processus de reconnaissance optique de caractères est réalisée en vue de détecter des objets textuels et/ou des objets d'image. Des objets textuels présents dans une image d'entrée à échelle de gris sont détectés par sélection de lignes d'origine candidates, qui sont des ensembles d'éléments voisins reliés horizontalement (c'est-à-dire des sous-ensembles de pixels d'image dont chaque pixel est relié à tous les autres pixels de l'ensemble) et présentant des statistiques verticales similaires définies par des valeurs de ligne de base (la ligne sur laquelle la plupart des caractères de texte sont "posés") et de ligne médiane (la ligne sous laquelle la plupart des caractères de texte sont "accrochés"). Une classification binaire est effectuée sur les lignes d'origine candidates en vue de les classer comme lignes textuelles ou lignes non textuelles, après examen d'une éventuelle régularité intégrée. Des objets d'image sont indirectement détectés par détection de l'arrière-plan de l'image, en utilisant le texte détecté pour définir l'arrière-plan. Une fois l'arrière-plan détecté, ce qui reste (c'est-à-dire la partie autre que l'arrière-plan) représente un objet d'image.