Comment contourner le besoin de grands volumes de données de référence dans les modèles d’apprentissage automatique ?

La mise en œuvre de chaînes de cartographie automatique (occupation des sols, variables bio-physiques) reposant sur des méthodes d’apprentissage nécessite de grandes quantités de données de référence (vérités terrain, annotations par photo-interprétation) et des modèles de machine learning avec beaucoup de paramètres et donc gourmands en ressources de calcul.

Une façon de contourner ces difficultés est d’entraîner des modèles qui ne sont pas spécifiques à une tâche de cartographie particulière et qui fournissent des représentations des données qui concentrent un maximum d’information. Ce type de modèle peut être entraîné de façon non supervisée en utilisant les grandes masses de données d’archive disponibles. Avec ces représentations, des modèles légers spécifiques à une tâche particulière peuvent être entraînés à partir de petites quantités de données de référence.

Iris Dumeur, au cours de sa thèse au CESBIO, a proposé un modèle pour construire des représentations de séries temporelles d’images (Sentinel-2 ici, mais d’autres données similaires pourraient être utilisées). L’architecture proposée par Iris, appelée U-BARN, combine l’encodage spatio-spectral (Unet) et l’encodage temporel (Transformer) de façon originale. U-BARN permet de traiter des séries de longueur variable et échantillonnées de façon irrégulière. Des masques de nuages sont utilisés lors de l’entraînement, mais ils ne sont pas nécessaires lors de l’inférence.

Le modèle a été appliqué à deux tâches : classification de cultures et occupation des sols générique. Dans les 2 cas, les résultats sont équivalents ou meilleurs que ceux des modèles de l’état de l’art, mais surtout U-BARN a des performances supérieures aux autres approches dans les cas avec peu de données de référence.

Schéma de la méthode développée : un modèle générique de représentation (à gauche) est pré-entrainé au moyen d’une tâche prétexte pour laquelle beaucoup de données sont disponibles (Images Sentinel-2), puis appliqué à la tâche spécifique (à droite) au moyen des quelques données de référence disponibles.

I. Dumeur, S. Valero and J. Inglada, « Self-Supervised Spatio-Temporal Representation Learning of Satellite Image Time Series, » in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 17, pp. 4350-4367, 2024, doi: 10.1109/JSTARS.2024.3358066

Plus d'actualités

Offre de stage M2/PFE Ing.: Cartographie de l’occupation du sol à partir de séries temporelles d’images Sentinel par des approches de machine learning et deep-learning sans apprentissage annuel. Analyse de la dynamique de l’occupation du sol de la plaine de Marrakech depuis 2016.

Ce stage est proposé au CESBIO, à Toulouse pour une durée de 5 mois minimum, et sera co-encadré par un professeur de l’Uni. M6P au Maroc.

Offre post-doctorat : estimation du combustible mort lié au déclin forestier en France métropolitaine

Lauréat de l’AMI PISE du CNRS, le projet ECOFEU – en collaboration avec le CNRM (Météo-France/CNRS) et le CECI (Cerfacs/CNRS) – s’attaque au risque croissant des feux de forêts en France, amplifié par le changement climatique et le dépérissement des forêts. En combinant télédétection spatiale et modélisation, il vise à mieux comprendre l’évolution des combustibles […]

Article dans The Conversation sur la mission BIOMASS

Mission Biomass : un satellite pour mieux comprendre comment les forêts stockent (et émettent) du carbone, par Thuy Le Toan et Alexandre Bouvet (CESBIO) https://theconversation.com/mission-biomass-un-satellite-pour-mieux-comprendre-comment-les-forets-stockent-et-emettent-du-carbone-254316

Rechercher