Modèles de mélange pour la caractérisation topologique de données multidimensionnelles

Maxime Maillot

Résumé

This phD report describes a model enabling to learn the topology of a variety underlying in a sample. The problem was conceptualized first, then a model was proposed to solve it: the Generative Simplicial Complex. Partly geometrical and partly statistical, this model provides a statistics formalism to geometrical problem. The main interest lies in the possibility of choosing the right model through an objective statistical criterion. The main idea is to build an initial Delaunay complex from well positioned points in relation to the data. Then, we optimize the parameters (weight and variance) by maximizing likelihood through the EM algorithm and we simplify this complex, keeping only the relevant components (those whose weight is not zero). The number of peaks used is selected using the BIC criterion, which empirically gives a model that matches the Betti numbers of the varieties underlying the data.

Dans cette thèse, nous nous sommes attachés à décrire un modèle permettant d'apprendre la topologie d'une variété sous-jacente à un échantillon. Il a fallu dans un premier temps formaliser ce problème, puis proposer un modèle capable de le résoudre : le Complexe Simplicial Génératif. En partie géométrique et en partie statistique, il permet de donner un formalisme statistique à une problématique essentiellement géométrique. Le principal intérêt réside dans la possibilité de choisir le modèle adéquat grâce à un critère statistique objectif. L'idée principale consiste à construire un complexe de Delaunay initial à partir de points "bien" positionnés par rapport aux données. Ensuite, on optimise les paramètres (poids et variance) par maximisation de la vraisemblance grâce à l'algorithme EM et on élague ce complexe, en ne gardant que les composantes pertinentes (celles dont le poids est non nul). Le nombre de sommets utilisés est choisi grâce au critère BIC, qui donne, empiriquement, un modèle qui correspond aux nombres de Betti des variétés sous-jacentes aux données. Nous montrons deux applications du Complexe Simplicial Génératif : - Il permet de retrouver la topologie de variétés sous-jacentes à un jeu de données. Nous montrons sur des données simulées que le CSG donne une topologie correcte pour un critère BIC optimal. Sur des données réelles comme les images COIL, le CSG permet de comprendre le processus qui a généré les données, et de classifier les objets selon leur invariance par rotation. - Les méthodes de projection et de réduction de dimension ont deux problèmes majeurs : les recollements, et les déchirures. Les premiers peuvent créer des cycles dans les données, alors que les seconds vont au contraire les faire disparaître. Le CSG peut permettre de mesurer ces diérences de structures entre données dans l'espace initial et données projetées par une caractérisation topologique, autrement que par une mesure de distorsion géométrique plus classique. La validation du modèle du CSG est essentiellement expérimentale: - Optimum du critère BIC et topologie correcte - Parcimonie de la dimension intrinsèque du modèle - Établir un lien avec la persistance homologique

Mixture model for topological characterization of multidimensional data

Modèles de mélange pour la caractérisation topologique de données multidimensionnelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager