Exploration interactive de collections de données guidée par l'humain

L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’explorati...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Farokhnejad, Mehrdad
Format:	Dissertation
Sprache:	eng
Schlagworte:	Data exploration Exploration de données Exploration de données textuelles Exploration queries Human in the loop Requêtes d’exploration Textual data exploration
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

container_end_page
container_issue
container_start_page
container_title
container_volume
creator	Farokhnejad, Mehrdad
description	L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’ex
format	Dissertation
fullrecord	<record><control><sourceid>abes_RS3</sourceid><recordid>TN_cdi_abes_theses_2021GRALM039</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2021GRALM039</sourcerecordid><originalsourceid>FETCH-abes_theses_2021GRALM0393</originalsourceid><addsrcrecordid>eNrjZHB3rSjIyS9KLMnMz1PIzCtJLUpMLsksS1VISVVIzs_JSU0GyRSDuCn5eXmHV6YWK6SXZqYAGQoFiUUKOeoZpbmJmXk8DKxpiTnFqbxQmptB3s01xNlDNzEptTi-JCO1GEgZGRgZugc5-vgaGFsaE1YBADZZNA0</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>dissertation</recordtype></control><display><type>dissertation</type><title>Exploration interactive de collections de données guidée par l'humain</title><source>Theses.fr</source><creator>Farokhnejad, Mehrdad</creator><creatorcontrib>Farokhnejad, Mehrdad</creatorcontrib><description>L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’exploration des informations sur la COVID-19. Data exploration aims to guide the understanding of data collections anddefine the type of questions that can be asked on top, often in interactiveexploration processes. Data exploration deals with raw digital data collectionscoping with the uncertainty of data content and analysis where query resultscannot be necessarily correct and complete (i.e., results consisting in allthe data tuples respecting requirements expressed by a question). Dataexploration engines will be next-generation systems promoting a new queryingphilosophy that gradually converges into queries that can exploit raw datacollections that cope with data explorers (i.e., users) expectations.This thesis proposes HILDEX, a human in the loop-based data explorationsystem that enables users to explore textual data collections by graduallyrefining queries and associated results. Textual data collections are pre-processed using Machine Learning and Artificial Intelligence text processingalgorithms.HILDEX implements exploration algorithms proposed in this work (querymorphing, query by example, queries as answers) that allow refining aninitial query by considering the content of the collections to be exploredto increase the possibility to explore the data better. Therefore, HILDEXproposes a workflow to explore texts by analysing data samples obtained byqueries that can be refined through human in the loop-based tasks. Partialexploration results are assessed through metrics ( precision, similarity) andinformation that explains why some documents are contained in these results.By exploring documents in partial results, explanations and metrics, the usercan decide to continue interacting with HILDEX for rewriting queries untilshe is satisfied with both queries and results. The algorithms and HILDEXhave been experimented on data related to crises in urban computing andthe exploration of information on COVID-19.</description><language>eng</language><subject>Data exploration ; Exploration de données ; Exploration de données textuelles ; Exploration queries ; Human in the loop ; Requêtes d’exploration ; Textual data exploration</subject><creationdate>2021</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><link.rule.ids>230,311,780,885,26981</link.rule.ids><linktorsrc>$$Uhttps://www.theses.fr/2021GRALM039/document$$EView_record_in_ABES$$FView_record_in_$$GABES$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>Farokhnejad, Mehrdad</creatorcontrib><title>Exploration interactive de collections de données guidée par l'humain</title><description>L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’exploration des informations sur la COVID-19. Data exploration aims to guide the understanding of data collections anddefine the type of questions that can be asked on top, often in interactiveexploration processes. Data exploration deals with raw digital data collectionscoping with the uncertainty of data content and analysis where query resultscannot be necessarily correct and complete (i.e., results consisting in allthe data tuples respecting requirements expressed by a question). Dataexploration engines will be next-generation systems promoting a new queryingphilosophy that gradually converges into queries that can exploit raw datacollections that cope with data explorers (i.e., users) expectations.This thesis proposes HILDEX, a human in the loop-based data explorationsystem that enables users to explore textual data collections by graduallyrefining queries and associated results. Textual data collections are pre-processed using Machine Learning and Artificial Intelligence text processingalgorithms.HILDEX implements exploration algorithms proposed in this work (querymorphing, query by example, queries as answers) that allow refining aninitial query by considering the content of the collections to be exploredto increase the possibility to explore the data better. Therefore, HILDEXproposes a workflow to explore texts by analysing data samples obtained byqueries that can be refined through human in the loop-based tasks. Partialexploration results are assessed through metrics ( precision, similarity) andinformation that explains why some documents are contained in these results.By exploring documents in partial results, explanations and metrics, the usercan decide to continue interacting with HILDEX for rewriting queries untilshe is satisfied with both queries and results. The algorithms and HILDEXhave been experimented on data related to crises in urban computing andthe exploration of information on COVID-19.</description><subject>Data exploration</subject><subject>Exploration de données</subject><subject>Exploration de données textuelles</subject><subject>Exploration queries</subject><subject>Human in the loop</subject><subject>Requêtes d’exploration</subject><subject>Textual data exploration</subject><fulltext>true</fulltext><rsrctype>dissertation</rsrctype><creationdate>2021</creationdate><recordtype>dissertation</recordtype><sourceid>RS3</sourceid><recordid>eNrjZHB3rSjIyS9KLMnMz1PIzCtJLUpMLsksS1VISVVIzs_JSU0GyRSDuCn5eXmHV6YWK6SXZqYAGQoFiUUKOeoZpbmJmXk8DKxpiTnFqbxQmptB3s01xNlDNzEptTi-JCO1GEgZGRgZugc5-vgaGFsaE1YBADZZNA0</recordid><startdate>20211015</startdate><enddate>20211015</enddate><creator>Farokhnejad, Mehrdad</creator><scope>AOWWY</scope><scope>RS3</scope><scope>~IT</scope></search><sort><creationdate>20211015</creationdate><title>Exploration interactive de collections de données guidée par l'humain</title><author>Farokhnejad, Mehrdad</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-abes_theses_2021GRALM0393</frbrgroupid><rsrctype>dissertations</rsrctype><prefilter>dissertations</prefilter><language>eng</language><creationdate>2021</creationdate><topic>Data exploration</topic><topic>Exploration de données</topic><topic>Exploration de données textuelles</topic><topic>Exploration queries</topic><topic>Human in the loop</topic><topic>Requêtes d’exploration</topic><topic>Textual data exploration</topic><toplevel>online_resources</toplevel><creatorcontrib>Farokhnejad, Mehrdad</creatorcontrib><collection>Theses.fr (Open Access)</collection><collection>Theses.fr</collection><collection>Thèses.fr</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>Farokhnejad, Mehrdad</au><format>dissertation</format><genre>dissertation</genre><ristype>THES</ristype><btitle>Exploration interactive de collections de données guidée par l'humain</btitle><date>2021-10-15</date><risdate>2021</risdate><abstract>L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’exploration des informations sur la COVID-19. Data exploration aims to guide the understanding of data collections anddefine the type of questions that can be asked on top, often in interactiveexploration processes. Data exploration deals with raw digital data collectionscoping with the uncertainty of data content and analysis where query resultscannot be necessarily correct and complete (i.e., results consisting in allthe data tuples respecting requirements expressed by a question). Dataexploration engines will be next-generation systems promoting a new queryingphilosophy that gradually converges into queries that can exploit raw datacollections that cope with data explorers (i.e., users) expectations.This thesis proposes HILDEX, a human in the loop-based data explorationsystem that enables users to explore textual data collections by graduallyrefining queries and associated results. Textual data collections are pre-processed using Machine Learning and Artificial Intelligence text processingalgorithms.HILDEX implements exploration algorithms proposed in this work (querymorphing, query by example, queries as answers) that allow refining aninitial query by considering the content of the collections to be exploredto increase the possibility to explore the data better. Therefore, HILDEXproposes a workflow to explore texts by analysing data samples obtained byqueries that can be refined through human in the loop-based tasks. Partialexploration results are assessed through metrics ( precision, similarity) andinformation that explains why some documents are contained in these results.By exploring documents in partial results, explanations and metrics, the usercan decide to continue interacting with HILDEX for rewriting queries untilshe is satisfied with both queries and results. The algorithms and HILDEXhave been experimented on data related to crises in urban computing andthe exploration of information on COVID-19.</abstract><oa>free_for_read</oa></addata></record>
fulltext	fulltext_linktorsrc
identifier
ispartof
issn
language	eng
recordid	cdi_abes_theses_2021GRALM039
source	Theses.fr
subjects	Data exploration Exploration de données Exploration de données textuelles Exploration queries Human in the loop Requêtes d’exploration Textual data exploration
title	Exploration interactive de collections de données guidée par l'humain
url	https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-02T04%3A00%3A45IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-abes_RS3&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.genre=dissertation&rft.btitle=Exploration%20interactive%20de%20collections%20de%20donn%C3%A9es%20guid%C3%A9e%20par%20l'humain&rft.au=Farokhnejad,%20Mehrdad&rft.date=2021-10-15&rft_id=info:doi/&rft_dat=%3Cabes_RS3%3E2021GRALM039%3C/abes_RS3%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true