DOCUMENT PROCESSING DEVICE, PROGRAM, AND DOCUMENT PROCESSING METHOD

A document processing device (100) comprises a character block specifying unit (104) that specifies a plurality of character blocks that each include a group of a plurality of characters from a document indicated by document data, a character block type determination unit (105) that determines a cha...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KOJI Yusuke, KANAI Misaki, SAITO Tatsuhiko
Format: Patent
Sprache:eng ; fre ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A document processing device (100) comprises a character block specifying unit (104) that specifies a plurality of character blocks that each include a group of a plurality of characters from a document indicated by document data, a character block type determination unit (105) that determines a character block type that is the type of one character block included in the plurality of character blocks, and a metadata extraction unit (106) that, in accordance with metadata extraction condition information that indicates a character string to be extracted from each of a plurality of character block types, extracts a character string that matches the character string to be extracted for the determined character block type from the one character block as metadata. Un dispositif de traitement de document (100) comprend une unité de spécification de blocs de caractères (104) qui spécifie une pluralité de blocs de caractères qui sont chacun un groupe d'une pluralité de caractères dans un document indiqué par des données de document, une unité de détermination de type de bloc de caractères (105) qui détermine un type de bloc de caractères qui est le type d'un certain bloc de caractères inclus dans la pluralité de blocs de caractères, et une unité d'extraction de métadonnées (106) qui, conformément à des informations de condition d'extraction de métadonnées qui indiquent une chaîne de caractères à extraire de chaque type de bloc de caractères d'une pluralité de types de bloc de caractères, extrait du certain bloc de caractères, comme métadonnées, une chaîne de caractères qui correspond à la chaîne de caractères à extraire pour le type de bloc de caractères déterminé. 文書処理装置(100)は、文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定する文字ブロック特定部(104)と、その複数の文字ブロックに含まれる一つの文字ブロックの種別である文字ブロック種別を判定する文字ブロック種別判定部(105)と、複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、判定された文字ブロック種別における抽出対象文字列に一致する文字列を、その一つの文字ブロックからメタデータとして抽出するメタデータ抽出部(106)とを備える。