DETERMINING LEXICAL DIFFICULTY IN TEXTUAL CONTENT

Techniques performed by a data processing system for analyzing the lexical difficulty of words of textual content include analyzing plurality of textual content sources to determine a first frequency at which each of a plurality of first words appears, analyzing search data to determine a second fre...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: ROUNTHWAITE, Robert, KULKARNI, Priyanka
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Techniques performed by a data processing system for analyzing the lexical difficulty of words of textual content include analyzing plurality of textual content sources to determine a first frequency at which each of a plurality of first words appears, analyzing search data to determine a second frequency at which each of the plurality of first words appear in searches for a definition, generating a lexical difficulty model based on the first frequency and the second frequency, the model is configured to receive a word as an input and to output a prediction for how difficult the word is likely to be for a user, receiving a request to analyze first textual content from a client device, analyzing the first textual content using the lexical difficulty model to generate lexical difficulty information, and sending a response to the client device that includes requested information. Des techniques mises en œuvre par un système de traitement de données pour analyser la difficulté lexicale de mots de contenu textuel comprennent l'analyse d'une pluralité de sources de contenu textuel pour déterminer une première fréquence à laquelle chaque mot d'une pluralité de premiers mots apparaît, l'analyse de données de recherche pour déterminer une seconde fréquence à laquelle chacun de la pluralité de premiers mots apparaissent dans des recherches pour une définition, la génération d'un modèle de difficulté lexicale sur la base de la première fréquence et de la seconde fréquence. Le modèle est configuré pour recevoir un mot en tant qu'entrée et pour délivrer en sortie une prédiction du niveau de difficulté probable du mot pour un utilisateur, recevoir une demande d'analyse d'un premier contenu textuel en provenance d'un dispositif client, analyser le premier contenu textuel à l'aide du modèle de difficulté lexicale pour générer des informations de difficulté lexicale, et envoyer une réponse au dispositif client qui comprend des informations demandées.