Comment contourner le besoin de grands volumes de données de référence dans les modèles d’apprentissage automatique ?

La mise en œuvre de chaînes de cartographie automatique (occupation des sols, variables bio-physiques) reposant sur des méthodes d’apprentissage nécessite de grandes quantités de données de référence (vérités terrain, annotations par photo-interprétation) et des modèles de machine learning avec beaucoup de paramètres et donc gourmands en ressources de calcul.

Une façon de contourner ces difficultés est d’entraîner des modèles qui ne sont pas spécifiques à une tâche de cartographie particulière et qui fournissent des représentations des données qui concentrent un maximum d’information. Ce type de modèle peut être entraîné de façon non supervisée en utilisant les grandes masses de données d’archive disponibles. Avec ces représentations, des modèles légers spécifiques à une tâche particulière peuvent être entraînés à partir de petites quantités de données de référence.

Iris Dumeur, au cours de sa thèse au CESBIO, a proposé un modèle pour construire des représentations de séries temporelles d’images (Sentinel-2 ici, mais d’autres données similaires pourraient être utilisées). L’architecture proposée par Iris, appelée U-BARN, combine l’encodage spatio-spectral (Unet) et l’encodage temporel (Transformer) de façon originale. U-BARN permet de traiter des séries de longueur variable et échantillonnées de façon irrégulière. Des masques de nuages sont utilisés lors de l’entraînement, mais ils ne sont pas nécessaires lors de l’inférence.

Le modèle a été appliqué à deux tâches : classification de cultures et occupation des sols générique. Dans les 2 cas, les résultats sont équivalents ou meilleurs que ceux des modèles de l’état de l’art, mais surtout U-BARN a des performances supérieures aux autres approches dans les cas avec peu de données de référence.

Schéma de la méthode développée : un modèle générique de représentation (à gauche) est pré-entrainé au moyen d’une tâche prétexte pour laquelle beaucoup de données sont disponibles (Images Sentinel-2), puis appliqué à la tâche spécifique (à droite) au moyen des quelques données de référence disponibles.

I. Dumeur, S. Valero and J. Inglada, « Self-Supervised Spatio-Temporal Representation Learning of Satellite Image Time Series, » in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 17, pp. 4350-4367, 2024, doi: 10.1109/JSTARS.2024.3358066

Plus d'actualités

Riches échanges lors de l’ « Indo-French Monsoon School on Hydrology from Space » en Inde co-organisé par l’IISc Bangalore et le CESBIO

Du 16 au 18/10/2023 à l’Indian Institut of Science (IISc) de Bangalore (India) s’est tenu le premier Monsoon School co-organisé par l’IISc et le CESBIO dédié à l’hydrologie spatiale. A cette occasion, ce sont près de 40 étudiants et chercheurs locaux qui ont pu bénéficier d’une journée de présentations de scientifiques de l’IISc et du […]

Estimation du stress hydrique des forêts par télédétection : la nécessaire correction de l’effet des ombres portées

par Victor Penot, Antenne CESBIO à l’IUT d’Auch, PRAG et Doctorant. Le suivi du stress hydrique des milieux naturels complexes, tels que les forêts, est une des clés de l’évaluation de leur état de santé. A l’échelle de la canopée – l’arbre – le stress hydrique est physiquement lié à la température de surface des […]

Une campagne de science participative pour mieux comprendre le dépôt de poussières sahariennes

Le 6 février 2021, les cimes enneigées des Pyrénées et des Alpes se sont réveillées colorées d’une fine couche de poussières orange venant du Sahara. Pour caractériser cet épisode qui s’est rapidement avéré remarquable par son intensité et son étendue, les scientifiques ont décidé de lancer une campagne de science participative impromptue visant à collecter […]

Rechercher