La première carte d’occupation des sols 2016 de la France avec Sentinel-2

Jordi Inglada, 30 mars 2017

(article copié depuis le blog OSO)

Une fois n’est pas coutume, nous sommes en avance. Enfin, presque. Nous avions promis une carte d’occupation des sols 2016 de la France métropolitaine avant la fin du premier trimestre 2017. Elle existe et est disponible ici. Il s’agit d’une carte à 10 m de résolution, avec la même nomenclature que celle utilisée pour les derniers produits prototypes Landsat à 17 classes.La carte est principalement basée sur des données Sentinel-2 allant de fin 2015 à fin 2016, mais nous avons aussi utilisé des données Landsat-8. Nous vous donnons les détails de la procédure de production plus bas.

En termes de qualité, les statistiques indiquent quelque chose d’assez similaire à ce que nous obtenions avec Landsat-8. Les améliorations apportées par Sentinel-2 ne sont pas négligeables (il suffit de regarder la carte), mais elles ne sont pas visibles sur les statistiques globales à tout le territoire. Nous allons bientôt ajouter la Corse. Le produit régularisé à 20 m ainsi que les couches vecteur seront mises à disposition dans les semaines à venir. Pensez d’ailleurs à nous donner votre avis en répondant à l’enquête en ligne disponible ici.

Interface de visualisation

La classification est affichée sur un fond d’imagerie à très haute résolution. On peut jouer sur l’opacité (curseur sous l’image). Si vous cliquez sur un pixel, le nom de la classe s’affiche. En haut à droite de l’interface de visualisation vous trouverez un bouton qui vous permet d’afficher 2 couches supplémentaires :

Validité : c’est le nombre de dates valides (pas de nuage, pas d’ombre) utilisées pour reconnaître la classe de chaque pixel. Vous verrez qu’il y a des fortes différences entre les zones à cause du recouvrement des traces au sol du satellite, et bien entendu, à cause de la météo.
Confiance : c’est la probabilité de la classe choisie pour chaque pixel. L’algorithme de classification fait un vote majoritaire à partir de 100 classifieurs individuels. La confiance est le pourcentage de classifieurs qui ont voté pour la classe majoritaire. Avec 17 classes, cette probabilité pourrait être inférieure à 6%, mais globalement, elle est bien supérieure à 40%. On remarque que la confiance est plus faible dans l’Ouest, le pourtour méditerranéen et sur les grandes villes. Inversement, elle est élevée sur les grandes cultures du centre et sur les forêts (on reconnaît la forêt des Landes sur la carte de confiance).

Sous l’affichage de l’image, on retrouve les statistiques de validation. D’abord,il y a les pourcentages globaux :

OA: Overall Accuracy ou précision globale qui donne le pourcentage de pixels bien classés
Kappa: indice statistique similaire à l’OA, mais corrigé à la baisse pour prendre en compte qu’une classification aléatoire aurait aussi des pixels bien classés.

Pour chaque classe on affiche aussi le FScore, une métrique dont l’optimum est à 1 et qui combine sur-détection et sous-détection. Comme les classes de surfaces artificialisées sont très confondues entre elles, nous avons ajouté le FScore des 4 classes réunies. Pour ce qui concerne les cultures annuelles (été et hiver), la procédure de classification (décrite ci-dessous) ne nous permet pas de valider avec le même jeu de données que pour le reste des classes. Nous fournissons donc le FScore avec les 2 classes réunies, mais aussi mesuré avec les classes séparées en utilisant un jeu de données restreint.

Téléchargement des fichiers

Pour télécharger les fichiers raster au format Geotiff, vous pouvez utiliser les liens suivants :

La procédure de production

Pour cette première production « officielle », nous avons rencontré un certain nombre de difficultés (de disponibilité de données, de ressources informatiques, de comportements algorithmiques inattendus) qui nous ont demandé beaucoup de travail et de recherche de solutions mobilisant des compétences très variées.

L’utilisation de Landsat-8

Nous avions prévu d’utiliser de façon conjointe les séries Landsat-8 et Sentinel-2 pour avoir une caractérisation très fine des évolutions temporelles des surfaces observées. Malheureusement, nous avons été confrontés à des différences de calage géométrique et, surtout, à des problèmes de perte de définition liées à la différence de résolution entre Landsat (30 m) et Sentinel-2 (10 et 20 m en fonction des bandes). Nous avons dû faire un choix entre quantité de données et précision géométrique. Etant donné que les résultats obtenus avec Sentinel-2 seul sont satisfaisants, nous avons décidé de ne pas utiliser les données Landsat-8 comme prévu. Elles ont tout de même été utilisées pour résoudre un autre problème décrit ci-dessous.

CropMix

CropMix est le petit nom donné par Arthur et Vincent à la technique mise en oeuvre dans iota2 pour faire de la classification des cultures annuelles sans donnée de référence pour l’année en cours. L’approche a été d’abord prototypée pendant le stage de fin d’études de Dawa Derksen. Pour les produits prototypes nous utilisions le Registre Parcellaire Graphique (RPG) qui nous fournit un grand nombre d’échantillons d’apprentissage. L’inconvénient du RPG est qu’il est disponible trop tard pour la mise à jour annuelle de la carte d’occupation des sols. A titre d’exemple, nous ne disposons pas à ce jour de la version 2015. Donc pour la carte 2016, nous ne pouvions pas compter sur le RPG et la dernière version disponible est celle de 2014. Mais une donné, même de 2015, n’aurait pas été utile, car une parcelle de culture d’été (tournesol, par exemple) en 2015, pourrait bien être une culture d’hiver (blé, par exemple) en 2016. Nous avons donc été obligés de développer une technique (adaptation de domaine dans le jargon de l’apprentissage automatique) pour utiliser le RPG 2014. Une difficulté supplémentaire s’ajoute au problème, car en 2014 il n’y avait pas d’image Sentinel-2, car le satellite n’était pas encore lancé. Nous avons donc utilisé des images Landsat-8 de 2014 pour transférer l’apprentissage sur des images Landsat-8 de 2016, puis nous avons fait une nouvelle opération de transfert pour pouvoir utiliser cet apprentissage sur des données Sentinel
-2 de 2016. Il reste encore le problème de la validation de ce résultat, car le RPG était aussi utilisé pour valider nos classifications. Pour cette tâche, nous avons pu compter sur la présence de données de référence qui, si elles n’étaient pas en quantité suffisante pour l’apprentissage, permettent tout du moins de faire une validation indépendante. Ce sont ces statistiques qui accompagnent la carte publiée. Vous verrez que les résultats sont tout à fait acceptables.

La Corse

Pour des questions purement pratiques (découpage des tuiles et des régions climatiques), nous n’avions pas travaillé sur la Corse lors de la production des cartes prototypes. Nous avons donc traité cette zone pour la première fois très récemment et, comme il fallait s’y attendre, nous avons eu des surprises liées à la faible présence de surfaces bâties et de grandes cultures. Ceci nous a demandé de modifier légèrement la stratégie d’échantillonnage utilisée dans la phase d’apprentissage de la chaîne iota2. Malgré tout, le résultat sur la Corse est tout à fait similaire à celui du reste du territoire cartographié. La carte sera disponible dans quelques jours seulement. Le point positif est que nous avons pu valider encore une fois la facilité d’adaptation de l’approche utilisée lors de l’application à de nouvelles zones.

Remerciements

Même si le travail n’est pas encore fini (on vous doit encore des produits et de toute façon nous allons continuer à améliorer la carte et les algorithmes), il est bon de ne pas oublier que ce GeoTiff que nous avons déposé sur un serveur ne serait pas là sans le travail de beaucoup de personnes.Il faut évidemment remercier Arthur Vincent, CDD au CESBIO, qui travaille sur iota2 depuis septembre 2015. C’est lui presque tout seul qui a construit la chaîne de traitement qui permet de traiter des dizaines de téra-octets de données avec une seule ligne de commande. Mais Arthur n’est pas non plus parti de rien, puisque avant lui, Benjamin Tardy d’abord et Marcela Arias ensuite, ont mis en place la première chaîne automatique pour faire des cartes d’occupation des sols sur de grandes étendues au CESBIO. Marcela a notamment fait un grand travail de validation et de production des premiers prototypes diffusés. Toujours sur la validation et la production, David Morin nous a bien aidé pendant quelques mois en 2016, et depuis septembre, c’est Vincent Thierion qui entre autres tâches a aussi bien pris en main cette activité, et ce, malgré les accidents au ski …iota2 est une belle réussite, mais elle n’existe que grâce à des logiciels libres de très bonne qualité qui nous permettent de traiter des images satellites comme si c’était quelque chose de facile. Donc chapeau à l’équipe de développement de l’OTB qui depuis quelques années prend en compte nos demandes de fonctionnalités et qui, avec une réactivité impressionnante, nous fournit des perles logicielles qui nous facilitent la vie. Merci donc à Julien, Guillaume, Manuel, Rashad, et plein d’autres que je n’oublie pas.iota2 commence à être utilisée en dehors du CESBIO (eh, oui, c’est du logiciel libre). Les retours de ces utilisateurs, mais aussi nos collègues du CESBIO qui s’en servent (Claire Marais-Sicre, Camille Truche) nous aident aussi à améliorer les choses. Et si iota2 marche bien c’est aussi parce que nous utilisons des images en entrée qui sont de très bonne qualité. Cette qualité est atteinte par des traitements développés au CESBIO par Olivier Hagolle et Mireille Huc, industrialisés par le CNES et CS-SI dans la chaîne MACCS et intégrés dans le centre de traitement MUSCATE du CNES qui fait la production opérationnelle pour Theia. Un grand merci aux équipes de développement et d’exploitation du CNES qui ont souffert pour nous offrir ces premières productions.Et encore au CESBIO, il y a des collègues qui nous ont beaucoup aidé dans la localisation et récupération de bases de données (Jean-François Dejoux principalement), dans la mise en place de l’interface de diffusion des produits (Michel Le Page, Philippe Chibaudel, Laurent Drapeau), dans la fourniture de données terrain pour des validations ponctuelles (Claire Marais-Sicre, Camille Truche).Les collègues de Dynafor (Donatien Dallery, David Sheeren, Mathieu Fauvel) ont travaillé avec Vincent Thierion sur la partie de post-traitement qui va nous permettre de vous fournir des produits vecteurs de très bonne qualité.Il faut aussi rendre hommage aux équipes la DSI du CNES qui nous aident depuis plus d’un an à améliorer les performances de iota2 sur le cluster HPC du CNES.Le travail que nous faisons s’inscrit dans le Centre d’Expertise Scientifique sur l’Occupation des Sols (opérationnelle) du Pôle Theia. Il est clair que notre travail aurait manqué de visibilité et de cadre sans l’existence de Theia et du label associé. Il faut aussi souligner que la plupart des ressources financières, y compris le CDD d’Arthur Vincent, viennent du programme TOSCA du CNES.Et pour finir, soulignons que ce travail est fait pour produire des cartes qui seront utiles. Nous avons travaillé avec des utilisateurs externes depuis presque le début en recueillant leurs besoins, en leur proposant des produits prototypes et en écoutant leurs critiques toujours constructives. Ces interactions sont précieuses pour nous et nous espérons qu’elles vont se poursuivre pour que les produits continuent à s’améliorer.

Interface de visualisation

Téléchargement des fichiers

La procédure de production

L’utilisation de Landsat-8

CropMix

La Corse

Remerciements

Rechercher