Détection de valeurs aberrantes dans des mélanges de distributions dissymétriques pour des ensembles de données avec contraintes spatiales

Détection de valeurs aberrantes dans des mélanges de distributions dissymétriques pour des ensembles de données avec contraintes spatiales

Détection de valeurs aberrantes dans des mélanges de distributions dissymétriques pour des ensembles de données avec contraintes spatiales

Contexte

Au cours de cette dernière décennie, divers domaines d’études, tels que l’agriculture de précision et les systèmes d’informations géographiques (SIG) se sont très fortement développés. Dès lors, la capture automatique des informations et la constitution de bases de données se sont nettement étendues avec, comme conséquence, l’acquisition de très grands ensembles de données. Par ailleurs, suite au développement de ces techniques, la demande en analyses de tout type s’est aussi accrue pour les laboratoires. Ces analyses concernent, par exemple, la composition chimique des sols, la détermination de la qualité du froment, etc. L’automatisation de l’acquisition des données crée une situation où l’utilisateur perçoit de moins en moins facilement la signification et la grandeur réelle des données. Il éprouve des difficultés à appréhender l’adéquation de certaines d’entre elles dans le contexte du phénomène étudié. Quant aux laboratoires d’analyses, ils doivent gérer de grandes quantités de données provenant parfois d’origines différentes et qu’il convient de rassembler ; ceci peut mettre en cause la qualité finale de l’information générée. L’ensemble de ces problèmes conduit à la nécessité de détecter les valeurs aberrantes au sein des bases de données. L’étude de valeurs aberrantes consiste en un processus informel d’examen des données précédant l’analyse plus complète de celles-ci (traitements statistiques, représentations cartographiques, etc.) avec des objectifs bien définis. Les méthodes de détection des valeurs aberrantes sont donc essentielles dans la gestion de toute base de données, spécialement lors de l’intégration de nouvelles observations, de manière à construire des ensembles d’informations cohérents. Ce projet s’intègre dans une recherche méthodologique de détection de valeurs aberrantes, à mettre en œuvre de manière opérationnelle, pour des bases de données avec informations géographiques.

Objectifs

L’objectif général de ce travail est donc de proposer une méthode opérationnelle de détection de valeurs aberrantes, applicables sur de grands ensembles de données à références spatiales. Cette méthode doit permettre de garantir statistiquement l’acceptation ou le rejet de la donnée, en suivant une cohérence spatiale liée, par exemple, à la présence d’associations de sols au sein de communes. Elle doit également permettre de réaliser un contrôle sur des échantillons de données, provenant de mélanges de populations qui se distribuent de manière très dissymétrique. Afin d’atteindre cet objectif, il est nécessaire de mettre en place une méthode qui permette de déterminer, de manière optimale, les valeurs limites à partir desquelles une valeur à intégrer dans une base de données est considérée comme aberrante, en tenant compte de la composante spatiale. Un autre objectif est de constituer un référentiel par entité géographique déterminée, telle que des communes ou des groupements de communes voisines. Une classification spatiale des communes basée sur des paramètres de distributions devrait permettre de rassembler les communes présentant des caractéristiques similaires. Ces dernières devraient correspondre à des zones pédologiques semblables. Les paramètres calculés par zones regroupées permettront de fournir un système robuste de validation de données avec contraintes spatiales. Depuis 1994, la Section de Biométrie s’occupe de la gestion de la base de données de RéQuaSud. La méthode développée pourra être appliquée afin d’améliorer la qualité de l’information qui peut être fournie par celle-ci.

Description des tâches

? La composition chimique des sols constitue une partie très intéressante de l’information contenue dans les bases de données à références spatiales. Ces analyses peuvent être parfaitement référencées à la parcelle dans laquelle l’échantillon a été prélevé (GPS), cependant elles sont, la plupart du temps, référencées à la commune dans laquelle se situe cette parcelle. Par conséquent, il est important de tenir compte de divers problèmes liés, de manière générale, à la contrainte spatiale, due à la présence de différentes associations de sols au sein des communes. ? Les distributions pour des éléments étudiés lors d’analyses de sols, sont très dissymétriques avec un étalement vers la droite très marqué. La présence d’un grand nombre de valeurs très élevées ou extrêmes, à droite de la distribution, rend difficile l’estimation des paramètres nécessaires à la réalisation des tests de détection de valeurs aberrantes. ? Un autre problème qui se pose est celui du mélange éventuel de plusieurs distributions dissymétriques au sein de la base de données, lié à la présence de diverses associations de sols dans une même commune. ? Les valeurs aberrantes situées à gauche des distributions doivent également faire l’objet de cette étude. La majeure partie des travaux liés aux distributions dissymétriques s’intéressent uniquement à la partie droite des distributions dissymétriques. ? Enfin, les méthodes de détection des valeurs aberrantes doivent être facilement et rapidement applicables, au vu de la quantité de données contenues dans les bases de données.

Partenaires

Prof. J.J. CLAUSTRIAUX. Faculté Universitaire des Sciences Agronomiques de Gembloux. Unité de Statistique et Informatique. Prof. J. BEIRLANT. Catholic University Leuven Department of Mathematics.

Financement

  • CRA-W - Centre wallon de Recherches agronomiques

Equipe

Partagez cet article