Efficient learning on large-scale 3D point clouds

Au cours de la dernière décennie, l'apprentissage profond a été le moteur des progrès dans l'analyse automatisée de structures de données complexes aussi diverses que le texte, l'image, l'audio et la vidéo. En particulier, les modèles de type transformer et l'apprentissage a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Robert, Damien
Format: Dissertation
Sprache:eng
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Au cours de la dernière décennie, l'apprentissage profond a été le moteur des progrès dans l'analyse automatisée de structures de données complexes aussi diverses que le texte, l'image, l'audio et la vidéo. En particulier, les modèles de type transformer et l'apprentissage auto-supervisé ont récemment déclenché une course généralisée visant à apprendre des représentations textuelles et visuelles expressives en entrainant le modèle au plus grand nombre de paramètres, sur le plus gros jeu de données possible, à l'aide des plus grandes ressources de calcul. Cette thèse emprunte un chemin différent en proposant des méthodes d'apprentissage profond économes en ressources, pour l'analyse de nuages de points 3D à grande échelle. L'efficacité des approches présentées se décline sous différentes formes : entrainement rapide, peu de paramètres, faible coût de calcul, économe en mémoire et exploitation de données disponibles de manière réaliste. Ce faisant, nous nous efforçons de concevoir des solutions pouvant être utilisées par les chercheurs et les praticiens avec des exigences matérielles minimales.Nous introduisons d'abord un modèle de segmentation sémantique 3D qui combine l'efficacité des méthodes basées superpoints avec l'expressivité des transformers. Nous construisons une représentation hiérarchique des données qui réduit considérablement la taille du problème d'analyse de nuage de points 3D, facilitant le traitement de scènes de grande échelle.Notre réseau se révèle égaler, voire surpasser, les approches de pointe sur une gamme de capteurs et d'environnements d'acquisition, tout en réduisant le nombre de paramètres et le temps d'entrainement de un à deux ordres de grandeur. Nous étendons ensuite ce cadre à la segmentation panoptique de nuages de points à grande échelle.Les méthodes existantes de segmentation d'instance et panoptique doivent résoudre un problème de correspondance complexe entre les instances prédites et réelles pour calculer leur fonction de coût. Au lieu de cela, nous formulons cette tâche comme un problème de clustering de graphe, qu'un petit réseau est entrainé pour résoudre à partir d'objectifs locaux uniquement, sans nécessiter le calcul d'instances durant l'entraînement. Notre modèle peut traiter des scènes de dix millions de points à la fois sur un seul GPU en quelques secondes, ouvrant la voie à la segmentation panoptique 3D à des échelles sans précédent. Enfin, nous proposons d'exploiter la complémentarité des modalités image et nu