Exploration interactive de collections de données guidée par l'humain
L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’explorati...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’ex |
---|