Learning deep kernel networks : application to efficient and robust structured prediction
La prédiction d'objets structurés, tels que les graphes ou les séquences par exemple, est plus exigeante que les problèmes standards de régressions ou de classification supervisés, dans lesquels les sorties sont généralement des vecteurs de petite dimension. Cette tâche fait l'objet de bea...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | La prédiction d'objets structurés, tels que les graphes ou les séquences par exemple, est plus exigeante que les problèmes standards de régressions ou de classification supervisés, dans lesquels les sorties sont généralement des vecteurs de petite dimension. Cette tâche fait l'objet de beaucoup d'attention dans différents domaines, comme la biologie ou la chimie informatique. Les espaces structurés sont en général de grande dimension, discrets, et non-linéaires, ce qui complique la conceptualisation d'un modèle polyvalent, autrement dit un modèle capable de gérer différents types de sorties dans un cadre unifié, tout en bénéficiant de solides fondations théoriques.Dans cette thèse, nous nous concentrons sur les méthodes à noyaux de substitution, et en particulier à la méthode Input Output Kernel Regression (IOKR), une approche de prédiction structurée polyvalente et théoriquement fondée utilisant l'astuce du noyau sur les espaces d'entrée et de sortie. Toutefois, cette méthode présente plusieurs limites: elle souffre de lourds coûts de calcul pendant les phases d'apprentissage et de prédiction, d'une difficulté à utiliser d'autres fonctions de perte que la quadratique (qui lui permet de bénéficier d'une solution explicite), et l'incapacité des noyaux à apprendre des représentations à partir de données d'entrée complexes comme des images ou du texte. Notre objectif est donc de concevoir un modèle utilisant un noyau de sortie passant à l'échelle de grandes bases de données, avec une borne sur son excès de risque, compatible avec une plus grande variété de fonctions de perte et capable d'apprendre des représentations à partir de données d'entrée complexes.Dans un premier temps, nous travaillons sur le noyau d'entrée, et introduisons une nouvelle distribution de projections aléatoires sous-gaussienne, les p-sparsified sketches, afin de passer à l'échelle les machines à noyau matriciel décomposables utilisant des fonctions de perte lipschitziennes. Ces projections aléatoires sont linéaires et permettent de réduire la complexité calculatoire tout en maintenant de bonnes performances statistiques. De plus, nous fournissons une borne d'excès de risque de l'estimateur induit par cette approche.Dans un second temps, nous introduisons Sketched Input Sketched Output Kernel Regression (SISOKR), une méthode basée sur IOKR et tirant profit des projections aléatoires sur les noyaux d'entrée et de sortie pour obtenir un estimateur structuré de rang faible. Nous prouvons un |
---|