Learning and Geometric Approaches for Automatic Extraction of Objects from Remote Sensing Images - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2020

Learning and Geometric Approaches for Automatic Extraction of Objects from Remote Sensing Images

Approches d'Apprentissage et Géométrique pour l'Extraction Automatique d'Objets à partir d'Images de Télédétection

Résumé

Creating a digital double of the Earth in the form of maps has many applications in for example autonomous driving, automated drone delivery, urban planning, telecommunications and disaster management. Geographic Information Systems (GIS) are the frameworks used to integrate geolocalized data and represent maps. They represent shapes of objects in a vector representation so that it is as sparse as possible while representing shapes accurately, as well as making it easier to edit than raster data. With the increasing amount of satellite and aerial images being captured every day, automatic methods are being developed to transfer the information found in those remote sensing images into Geographic Information Systems. Deep learning methods for image segmentation are able to delineate the shapes of objects found in images however they do so with a raster representation, in the form of a mask. Post-processing vectorization methods then convert that raster representation into a vector representation compatible with GIS. Another challenge in remote sensing is to deal with a certain type of noise in the data, which is the misalignment between different layers of geolocalized information (for example between images and building cadaster data). This type of noise is frequent due to various errors introduced during the processing of remote sensing data. This thesis develops combined learning and geometric approaches with the purpose to improve automatic GIS mapping from remote sensing images. We first propose a method for correcting misaligned maps over images, with the first motivation for them to match, but also with the motivation to create remote sensing datasets for image segmentation with an alignment-corrected ground truth. Indeed training a model on misaligned ground truth would not lead to great performance, whereas aligned ground truth annotations will result in better models. During this work we also observed a denoising effect of our alignment model and use it to denoise a misaligned dataset in a self-supervised manner, meaning only the misaligned dataset was used for training. We then propose a simple approach to use a neural network to directly output shape information in the vector representation, in order to by-pass the post-processing vectorization step. Experimental results on a dataset of solar panels show that the proposed network succeeds in learning to regress polygon coordinates, yielding directly vectorial map outputs. Our simple method is limited to predicting polygons with a fixed number of vertices though. While more recent methods for learning directly in the vector representation do not have this limitation, they still have other limitations in terms of the type of object shapes they can predict. More complex topological cases such as objects with holes or buildings touching each other (with a common wall which is very typical of European city centers) are not handled by these fully deep learning methods. We thus propose a hybrid approach alleviating those limitations by training a neural network to output a segmentation probability map as usual and also to output a frame field aligned with the contours of detected objects (buildings in our case). That frame field constitutes additional shape information learned by the network. We then propose our highly parallelizable polygonization method for leveraging that frame field information to vectorize the segmentation probability map efficiently. Because our polygonization method has access to additional information in the form of a frame field, it can be less complex than other advanced vectorization methods and is thus faster. Lastly, requiring an image segmentation network to also output a frame field only adds two convolutional layers and virtually does not increase inference time, making the use of a frame field only beneficial.
Créer un double numérique de la Terre sous forme de cartes a de nombreuses applications comme la conduite autonome, la planification urbaine, les télécommunications, la gestion des catastrophes naturelles, etc. Les systèmes d'information géographique (SIG) sont utilisés pour intégrer des données géolocalisées sous forme de cartes. Les SIG utilisent une représentation vectorielle pour les objets, prenant peu d'espace mémoire et rendant leur modification plus facile que des données raster. Avec la quantité croissante d'images satellites et aériennes capturées chaque jour, des méthodes automatiques sont en cours de développement pour extraire les informations de ces images de télédétection. Les méthodes d'apprentissage profond pour la segmentation d'images sont capables de délimiter les formes des objets, mais elles le font avec une représentation raster, sous la forme d'une carte de probabilité. Des méthodes de vectorisation post-traitement convertissent ensuite cette représentation raster en une représentation vectorielle compatible avec les SIG. Un autre défi de la télédétection est de gérer un certain type de bruit dans les données, qui est le désalignement entre différentes couches d'informations géolocalisées (par exemple entre les images et les cadastres des bâtiments). Ce type de bruit est fréquent en raison de diverses erreurs introduites lors du traitement des données de télédétection. Cette thèse développe des approches combinées d'apprentissage et géométriques dans le but d'améliorer l'automatisation du processus de cartographie SIG à partir d'images de télédétection. Nous proposons d'abord une méthode pour corriger une carte mal alignée sur une image, pur faire correspondre ces deux données géolocalisées, et aussi pour créer des jeu de données de télédétection pour la segmentation d'images avec une vérité terrain corrigé. En effet, entraîner un modèle sur une vérité terrain mal alignée ne mènerait pas à de bonnes segmentations. Au cours de ce travail, nous avons également observé un effet de débruitage par notre modèle d'alignement et l'avons utilisé pour débruiter un jeu de données mal aligné de manière auto-supervisée, ce qui signifie que seul le jeu de données mal aligné a été utilisé pour l'apprentissage. Nous proposons ensuite une approche simple pour utiliser un réseau de neurones produisant directement une représentation vectorielle de l'objet à détecter, afin de contourner l'étape de vectorisation post-traitement. Nous démontrons qu'il est possible d'apprendre à régresser les coordonnées de polygones (avec un nombre de sommets fixes dans notre cas), produisant directement des sorties cartographiques vectorielles. Bien que les méthodes plus récentes d'apprentissage directement en représentation vectorielle sont maintenant plus évoluées, elles ont encore d'autres limitations en termes de type de formes d'objets qu'elles peuvent prédire. Des cas topologiques plus complexes tels que des objets avec des trous ou des bâtiments se touchant ayant un mur mitoyen ne sont pas gérés par ces méthodes d'apprentissage. Nous proposons ainsi une approche hybride palliant ces limitations en entraînant un réseau de neurones pour produire une carte de probabilité de segmentation comme usuellement, mais aussi pour produire un "frame field'' (4 champs vectoriels superposés) aligné avec les contours des objets détectés. Ce "frame field'' encode des informations géométriques supplémentaires apprises par le réseau. Nous proposons ensuite notre méthode de polygonisation parallélisable pour exploiter ce "frame field'' pour vectoriser efficacement la carte de probabilité de segmentation. Notre méthode de polygonisation ayant accès à des informations supplémentaires sous la forme d'un "frame field'', elle peut être moins complexe que d'autres méthodes de vectorisation avancées et donc plus rapide. De plus calculer ce "frame field'' n'augmente pratiquement pas le temps d'inférence, il n'est que bénéfique.
Fichier principal
Vignette du fichier
these_nicolas_girard.pdf (144.4 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03111628 , version 1 (15-01-2021)
tel-03111628 , version 2 (23-03-2021)

Identifiants

  • HAL Id : tel-03111628 , version 1

Citer

Nicolas Girard. Learning and Geometric Approaches for Automatic Extraction of Objects from Remote Sensing Images. Artificial Intelligence [cs.AI]. Université Côte d'Azur, Nice, France, 2020. English. ⟨NNT : ⟩. ⟨tel-03111628v1⟩
386 Consultations
54 Téléchargements

Partager

Gmail Facebook X LinkedIn More