SYNTHETIC AND TRADITIONAL DATA STEWARDS FOR SELECTING, OPTIMIZING, VERIFYING AND RECOMMENDING ONE OR MORE DATASETS
Systems and methods for the verification of cohort sample sets is provided. In some embodiments, a sample dataset is received, and used to generate a sample vector set. The sample vector is computed by encoding the dataset according to a set of classes, generating a matrix of the encoded dataset (wh...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | |
---|---|
container_issue | |
container_start_page | |
container_title | |
container_volume | |
creator | ROGERS, Robert CHALK, Mary CZESZYNSKI, Alan |
description | Systems and methods for the verification of cohort sample sets is provided. In some embodiments, a sample dataset is received, and used to generate a sample vector set. The sample vector is computed by encoding the dataset according to a set of classes, generating a matrix of the encoded dataset (where the rows of the matrix correspond to patients and the columns to a class or subclass), and converting the matrix into a series of vector spaces. An example vector set is received and the difference between the sample vector set and the example vector set. Calculating the difference is by framing the distance as a p-value in a hypothesis test, compared against a threshold. When the p- value is above the threshold the sample dataset is rejected. Systems and methods for the confirmation of a selection of data in a zero-trust environment is also provided. In some embodiments, the dataset(s) are received at a data steward. This may be a traditional data steward or a synthetic data steward. Additionally, a script is received from the algorithm developer. The dataset(s) and script(s) reside within a secure computing node and are therefore inaccessible by any party. The script(s) are executed, resulting in at least one confirmation about the data within the dataset(s). The script(s) complete any of confirming a format for data in the at least one dataset, the expected class values for data within the at least one dataset, an overall characterization and completeness of the at least one dataset, and/or an expected class membership for different data attributes within the at least one dataset.
L'invention concerne des systèmes et des procédés de vérification d'ensembles d'échantillons de cohorte. Dans certains modes de réalisation, un ensemble de données d'échantillon est reçu et utilisé pour générer un ensemble de vecteurs d'échantillon. Le vecteur d'échantillon est calculé par codage de l'ensemble de données selon un ensemble de classes, par génération d'une matrice de l'ensemble de données codé (les rangées de la matrice correspondant à des patients et les colonnes à une classe ou sous-classe), et par conversion de la matrice en une série d'espaces vectoriels. Un ensemble de vecteurs d'exemple est reçu ainsi que la différence entre l'ensemble de vecteurs d'échantillon et l'ensemble de vecteurs d'exemple. Le calcul de la différence consiste à encadrer la distance en tant que valeur p dans un test d'hypothèse, par rapport à un seuil. Lorsque la valeur p est supérieur |
format | Patent |
fullrecord | <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_WO2023164519A2</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>WO2023164519A2</sourcerecordid><originalsourceid>FETCH-epo_espacenet_WO2023164519A23</originalsourceid><addsrcrecordid>eNqNjMEKwjAQRHvxIOo_LHhVsK0KHkOytQtNIsliqZdSJJ5Ei_X_sQY_wNM8hpk3TV6-MVwikwRhFLATipisERUowQI8Yy2c8lBYBx4rlEzmuAJ7YtJ0iXxGR0UzYlQ4lFZrNOpbWIMwHrV1GH0e2c-Tya27D2Hxy1myLJBluQ79sw1D313DI7zb2mabLE_32116EFn-3-oDMqM5UQ</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>SYNTHETIC AND TRADITIONAL DATA STEWARDS FOR SELECTING, OPTIMIZING, VERIFYING AND RECOMMENDING ONE OR MORE DATASETS</title><source>esp@cenet</source><creator>ROGERS, Robert ; CHALK, Mary ; CZESZYNSKI, Alan</creator><creatorcontrib>ROGERS, Robert ; CHALK, Mary ; CZESZYNSKI, Alan</creatorcontrib><description>Systems and methods for the verification of cohort sample sets is provided. In some embodiments, a sample dataset is received, and used to generate a sample vector set. The sample vector is computed by encoding the dataset according to a set of classes, generating a matrix of the encoded dataset (where the rows of the matrix correspond to patients and the columns to a class or subclass), and converting the matrix into a series of vector spaces. An example vector set is received and the difference between the sample vector set and the example vector set. Calculating the difference is by framing the distance as a p-value in a hypothesis test, compared against a threshold. When the p- value is above the threshold the sample dataset is rejected. Systems and methods for the confirmation of a selection of data in a zero-trust environment is also provided. In some embodiments, the dataset(s) are received at a data steward. This may be a traditional data steward or a synthetic data steward. Additionally, a script is received from the algorithm developer. The dataset(s) and script(s) reside within a secure computing node and are therefore inaccessible by any party. The script(s) are executed, resulting in at least one confirmation about the data within the dataset(s). The script(s) complete any of confirming a format for data in the at least one dataset, the expected class values for data within the at least one dataset, an overall characterization and completeness of the at least one dataset, and/or an expected class membership for different data attributes within the at least one dataset.
L'invention concerne des systèmes et des procédés de vérification d'ensembles d'échantillons de cohorte. Dans certains modes de réalisation, un ensemble de données d'échantillon est reçu et utilisé pour générer un ensemble de vecteurs d'échantillon. Le vecteur d'échantillon est calculé par codage de l'ensemble de données selon un ensemble de classes, par génération d'une matrice de l'ensemble de données codé (les rangées de la matrice correspondant à des patients et les colonnes à une classe ou sous-classe), et par conversion de la matrice en une série d'espaces vectoriels. Un ensemble de vecteurs d'exemple est reçu ainsi que la différence entre l'ensemble de vecteurs d'échantillon et l'ensemble de vecteurs d'exemple. Le calcul de la différence consiste à encadrer la distance en tant que valeur p dans un test d'hypothèse, par rapport à un seuil. Lorsque la valeur p est supérieure au seuil, l'ensemble de données d'échantillon est rejeté. L'invention concerne également des systèmes et des procédés pour la confirmation d'une sélection de données dans un environnement de confiance nulle. Dans certains modes de réalisation, le ou les ensembles de données sont reçus au niveau d'un responsable de données. Ceci peut être un responsable de données classique ou un responsable de données synthétique. De plus, un script est reçu en provenance du développeur d'algorithme. Le ou les ensembles de données et le ou les scripts se trouvent à l'intérieur d'un nœud informatique sécurisé et sont par conséquent inaccessibles par n'importe quelle partie. Le ou les scripts sont exécutés, ce qui permet d'obtenir au moins une confirmation concernant les données dans le ou les ensembles de données. Le ou les scripts achèvent un élément quelconque parmi la confirmation d'un format pour des données dans le ou les ensembles de données, les valeurs de classe attendues pour des données à l'intérieur du ou des ensembles de données, une caractérisation globale et l'exhaustivité du ou des ensembles de données, et/ou une appartenance à une classe attendue pour différents attributs de données dans le ou les ensembles de données.</description><language>eng ; fre</language><creationdate>2023</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230831&DB=EPODOC&CC=WO&NR=2023164519A2$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,777,882,25545,76296</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230831&DB=EPODOC&CC=WO&NR=2023164519A2$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>ROGERS, Robert</creatorcontrib><creatorcontrib>CHALK, Mary</creatorcontrib><creatorcontrib>CZESZYNSKI, Alan</creatorcontrib><title>SYNTHETIC AND TRADITIONAL DATA STEWARDS FOR SELECTING, OPTIMIZING, VERIFYING AND RECOMMENDING ONE OR MORE DATASETS</title><description>Systems and methods for the verification of cohort sample sets is provided. In some embodiments, a sample dataset is received, and used to generate a sample vector set. The sample vector is computed by encoding the dataset according to a set of classes, generating a matrix of the encoded dataset (where the rows of the matrix correspond to patients and the columns to a class or subclass), and converting the matrix into a series of vector spaces. An example vector set is received and the difference between the sample vector set and the example vector set. Calculating the difference is by framing the distance as a p-value in a hypothesis test, compared against a threshold. When the p- value is above the threshold the sample dataset is rejected. Systems and methods for the confirmation of a selection of data in a zero-trust environment is also provided. In some embodiments, the dataset(s) are received at a data steward. This may be a traditional data steward or a synthetic data steward. Additionally, a script is received from the algorithm developer. The dataset(s) and script(s) reside within a secure computing node and are therefore inaccessible by any party. The script(s) are executed, resulting in at least one confirmation about the data within the dataset(s). The script(s) complete any of confirming a format for data in the at least one dataset, the expected class values for data within the at least one dataset, an overall characterization and completeness of the at least one dataset, and/or an expected class membership for different data attributes within the at least one dataset.
L'invention concerne des systèmes et des procédés de vérification d'ensembles d'échantillons de cohorte. Dans certains modes de réalisation, un ensemble de données d'échantillon est reçu et utilisé pour générer un ensemble de vecteurs d'échantillon. Le vecteur d'échantillon est calculé par codage de l'ensemble de données selon un ensemble de classes, par génération d'une matrice de l'ensemble de données codé (les rangées de la matrice correspondant à des patients et les colonnes à une classe ou sous-classe), et par conversion de la matrice en une série d'espaces vectoriels. Un ensemble de vecteurs d'exemple est reçu ainsi que la différence entre l'ensemble de vecteurs d'échantillon et l'ensemble de vecteurs d'exemple. Le calcul de la différence consiste à encadrer la distance en tant que valeur p dans un test d'hypothèse, par rapport à un seuil. Lorsque la valeur p est supérieure au seuil, l'ensemble de données d'échantillon est rejeté. L'invention concerne également des systèmes et des procédés pour la confirmation d'une sélection de données dans un environnement de confiance nulle. Dans certains modes de réalisation, le ou les ensembles de données sont reçus au niveau d'un responsable de données. Ceci peut être un responsable de données classique ou un responsable de données synthétique. De plus, un script est reçu en provenance du développeur d'algorithme. Le ou les ensembles de données et le ou les scripts se trouvent à l'intérieur d'un nœud informatique sécurisé et sont par conséquent inaccessibles par n'importe quelle partie. Le ou les scripts sont exécutés, ce qui permet d'obtenir au moins une confirmation concernant les données dans le ou les ensembles de données. Le ou les scripts achèvent un élément quelconque parmi la confirmation d'un format pour des données dans le ou les ensembles de données, les valeurs de classe attendues pour des données à l'intérieur du ou des ensembles de données, une caractérisation globale et l'exhaustivité du ou des ensembles de données, et/ou une appartenance à une classe attendue pour différents attributs de données dans le ou les ensembles de données.</description><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2023</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNqNjMEKwjAQRHvxIOo_LHhVsK0KHkOytQtNIsliqZdSJJ5Ei_X_sQY_wNM8hpk3TV6-MVwikwRhFLATipisERUowQI8Yy2c8lBYBx4rlEzmuAJ7YtJ0iXxGR0UzYlQ4lFZrNOpbWIMwHrV1GH0e2c-Tya27D2Hxy1myLJBluQ79sw1D313DI7zb2mabLE_32116EFn-3-oDMqM5UQ</recordid><startdate>20230831</startdate><enddate>20230831</enddate><creator>ROGERS, Robert</creator><creator>CHALK, Mary</creator><creator>CZESZYNSKI, Alan</creator><scope>EVB</scope></search><sort><creationdate>20230831</creationdate><title>SYNTHETIC AND TRADITIONAL DATA STEWARDS FOR SELECTING, OPTIMIZING, VERIFYING AND RECOMMENDING ONE OR MORE DATASETS</title><author>ROGERS, Robert ; CHALK, Mary ; CZESZYNSKI, Alan</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_WO2023164519A23</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2023</creationdate><toplevel>online_resources</toplevel><creatorcontrib>ROGERS, Robert</creatorcontrib><creatorcontrib>CHALK, Mary</creatorcontrib><creatorcontrib>CZESZYNSKI, Alan</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>ROGERS, Robert</au><au>CHALK, Mary</au><au>CZESZYNSKI, Alan</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>SYNTHETIC AND TRADITIONAL DATA STEWARDS FOR SELECTING, OPTIMIZING, VERIFYING AND RECOMMENDING ONE OR MORE DATASETS</title><date>2023-08-31</date><risdate>2023</risdate><abstract>Systems and methods for the verification of cohort sample sets is provided. In some embodiments, a sample dataset is received, and used to generate a sample vector set. The sample vector is computed by encoding the dataset according to a set of classes, generating a matrix of the encoded dataset (where the rows of the matrix correspond to patients and the columns to a class or subclass), and converting the matrix into a series of vector spaces. An example vector set is received and the difference between the sample vector set and the example vector set. Calculating the difference is by framing the distance as a p-value in a hypothesis test, compared against a threshold. When the p- value is above the threshold the sample dataset is rejected. Systems and methods for the confirmation of a selection of data in a zero-trust environment is also provided. In some embodiments, the dataset(s) are received at a data steward. This may be a traditional data steward or a synthetic data steward. Additionally, a script is received from the algorithm developer. The dataset(s) and script(s) reside within a secure computing node and are therefore inaccessible by any party. The script(s) are executed, resulting in at least one confirmation about the data within the dataset(s). The script(s) complete any of confirming a format for data in the at least one dataset, the expected class values for data within the at least one dataset, an overall characterization and completeness of the at least one dataset, and/or an expected class membership for different data attributes within the at least one dataset.
L'invention concerne des systèmes et des procédés de vérification d'ensembles d'échantillons de cohorte. Dans certains modes de réalisation, un ensemble de données d'échantillon est reçu et utilisé pour générer un ensemble de vecteurs d'échantillon. Le vecteur d'échantillon est calculé par codage de l'ensemble de données selon un ensemble de classes, par génération d'une matrice de l'ensemble de données codé (les rangées de la matrice correspondant à des patients et les colonnes à une classe ou sous-classe), et par conversion de la matrice en une série d'espaces vectoriels. Un ensemble de vecteurs d'exemple est reçu ainsi que la différence entre l'ensemble de vecteurs d'échantillon et l'ensemble de vecteurs d'exemple. Le calcul de la différence consiste à encadrer la distance en tant que valeur p dans un test d'hypothèse, par rapport à un seuil. Lorsque la valeur p est supérieure au seuil, l'ensemble de données d'échantillon est rejeté. L'invention concerne également des systèmes et des procédés pour la confirmation d'une sélection de données dans un environnement de confiance nulle. Dans certains modes de réalisation, le ou les ensembles de données sont reçus au niveau d'un responsable de données. Ceci peut être un responsable de données classique ou un responsable de données synthétique. De plus, un script est reçu en provenance du développeur d'algorithme. Le ou les ensembles de données et le ou les scripts se trouvent à l'intérieur d'un nœud informatique sécurisé et sont par conséquent inaccessibles par n'importe quelle partie. Le ou les scripts sont exécutés, ce qui permet d'obtenir au moins une confirmation concernant les données dans le ou les ensembles de données. Le ou les scripts achèvent un élément quelconque parmi la confirmation d'un format pour des données dans le ou les ensembles de données, les valeurs de classe attendues pour des données à l'intérieur du ou des ensembles de données, une caractérisation globale et l'exhaustivité du ou des ensembles de données, et/ou une appartenance à une classe attendue pour différents attributs de données dans le ou les ensembles de données.</abstract><oa>free_for_read</oa></addata></record> |
fulltext | fulltext_linktorsrc |
identifier | |
ispartof | |
issn | |
language | eng ; fre |
recordid | cdi_epo_espacenet_WO2023164519A2 |
source | esp@cenet |
title | SYNTHETIC AND TRADITIONAL DATA STEWARDS FOR SELECTING, OPTIMIZING, VERIFYING AND RECOMMENDING ONE OR MORE DATASETS |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-18T13%3A46%3A07IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=ROGERS,%20Robert&rft.date=2023-08-31&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3EWO2023164519A2%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true |