Démarche statistique pour la sélection des indicateurs par Random Forests pour la surveillance de la qualité des sols
The volume of data, and the large number of biological variables to be tested (one hundred), require analytical techniques, such asRandom Forests, which can overcome the problem of multi-colinearity for the selection of indicators, sensitive to various factors.Random Forests methodology is appropria...
Gespeichert in:
Veröffentlicht in: | Étude et Gestion des Sols 2013, Vol.20 (2), p.127-136 |
---|---|
Hauptverfasser: | , , , , , , , , , , , , , , , , , , , , , , , , , , |
Format: | Artikel |
Sprache: | fre |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | The volume of data, and the large number of biological variables to be tested (one hundred), require analytical techniques, such asRandom Forests, which can overcome the problem of multi-colinearity for the selection of indicators, sensitive to various factors.Random Forests methodology is appropriate for the selection of the most discriminant variables. So, we searched for the best wayto select them, by bringing together all biological variables, representing the Microflora and Fauna. This approach focuses on impactindicators from the Bio2 program, indicators of flora and indicators of accumulation (snails) were not included.This work has been implemented on the three factors of discrimination : land use, metallic contamination levels and organic contaminationlevels.We grouped the most discriminating variables from each RF analysis. Linear discriminant analysis was then implemented for each factor,in order to develop a predictive model.
El volumen de datos definidos en el programa bioindicadores 2 (Ademe) y el muy grande numero de variables biológicas para probar(una centena) necesitan técnicas de análisis como los Random Forests que pueden liberarse del problema de multicolinealidad para laselección de indicadores sensibles a los diferentes factores estudiados.La metodología de Random Forests consiste en la selección de variables las más discriminantes. Así buscamos la mejor selección agrupandoel conjunto de las variables biológicas que representan la Microflora y la Fauna. Estos trabajos se realizaron sobre los tres factoresde discriminación : el uso de los suelos, los niveles de contaminación en ETM y los niveles de contaminación en contaminantes orgánicos.Luego, agrupamos las variables las más discriminantes derivadas de cada análisis por RF. Un análisis discriminante linear se realizodespués para cada factor con vista a elaborar un modelo predictivo. Se observaron los indicadores del grupo Flora únicamente sobreun sub-conjunto de 47 parcelas de modalidades contrastadas, así no los incluimos en nuestro estudio. Las variables “estandarizadas"del grupo Flora podrán estar integradas en un segundo tiempo.
Le volume des données définies dans le programme Bioindicateurs 2 (Ademe) et le très grand nombre de variables biologiques à tester(une centaine) nécessitent des techniques d’analyse telles que les Random Forests qui peuvent s’affranchir du problème de multi-colinéaritépour la sélection d’indicateurs sensibles aux différents facteurs étudiés.La méthodolo |
---|---|
ISSN: | 1252-6851 |