CHEMOSPEC-U15: Chimiométrie pour l'exploitation optimale des données analytiques
1 janv. 2004 Vincent BAETEN
Recherche Chimiométrie Technologies Gestion et traitement des données u15 article

Projet CRA-W, coordinateur


Contexte

'La chimiométrie est une discipline de la chimie qui utilise la mathématique et la statistique pour créer ou choisir des procédures expérimentales optimales, pour fournir un maximum d'informations chimiques pertinentes en analysant des données expérimentales et pour obtenir une connaissance des systèmes chimiques.' (D.L. Massart et al., 1997).

Objectifs

L'objectif principal de ce projet est le développement de nouvelles méthodes de chimiométrie pour l'exploitation optimale des données spectroscopiques et chromatographiques. La chimiométrie est utilisée pour obtenir à partir des données une information soit quantitative (régression ou calibration multivariée), soit qualitative (discrimination ou classification). · Régression/Calibration multivariée Dans le cas de la régression (encore appelée calibration multivariée) on essaie de déterminer la relation fonctionnelle entre les valeurs mesurées (intensités du signal à certaines fréquences ou temps de rétention) et valeurs analytiques (concentration). Pour les données spectroscopiques, trois des plus importantes méthodes chimiométriques sont la régression linéaire multiple (MLR), la méthode des moindres carrés (PLS) et le réseau de neurones artificiels (ANN). Chacune de ces méthodes comprend plusieurs étapes, incluant la sélection du modèle, l'estimation des paramètres liés au modèle (ainsi que les erreurs) et sa validation. Les principales difficultés n’interviennent pas dans l’étape de modélisation elle-même mais plutôt dans les étapes préliminaires. Un des buts de ce projet est d’étudier et de proposer des solutions alternatives pour quelques-unes de ces étapes dans les différentes méthodes de calibration multivariée : - Le pré traitement des données. - L'examen de l'homogénéité des données pour garantir la qualité du modèle. L'analyse en composantes principales (ACP) est souvent utilisée pour visualiser les données multivariées, tout particulièrement pour voir la distribution des échantillons. L'ACP crée des nouvelles variables orthogonales (scores ou variables latentes) qui sont des combinaisons linéaires des variables mesurées originales. - Les jeux de données contiennent souvent des sous-groupes d’objets similaires appelés « clusters ». La détection des « clusters » est un défi important en calibration multivariée. - Si un échantillon n’est pas adéquat ou anormal, comparé aux autres données d’étalonnage, il est considéré comme une valeur aberrante (« outlier »). Des méthodes comme la distance de Mahalanobis, l'étude des résidus sur X ou des méthodes de régression robustes peuvent être utilisées pour la détection des valeurs aberrantes. - Pour l’interprétation des valeurs prédites, il est nécessaire de connaître leur qualité. Celle-ci est exprimée en tant qu’incertitude. La prédiction étant d’autant meilleur que l’incertitude est faible. · Discrimination/Classification Dans le cas de la discrimination/classification, on essaie de trouver des règles de classification qui vont définir des limites optimales entre tous les groupes donnés tout en maximisant la différence entre eux. Parmi les méthodes de discrimination on peut citer l'analyse linéaire discriminante (LDA), l'analyse quadratique discriminante (QDA) ou la méthode des k plus proches voisins (kNN). PCR, PLS et ANN peuvent être aussi utilisés pour la classification. L’une des techniques les plus récentes est appelée SVM ou séparateurs à vaste marge (support vector machines). SVM constitue un secteur de recherche très actif en ce moment dans le domaine de l'intelligence artificielle. SVM peut être considéré comme une méthode d’apprentissage qui utilise le concept de noyau de substitution pour l’exploitation d’une cartographie implicite dans un espace de grande dimension. SVM combine le contrôle de la généralisation avec une minimisation des erreurs. SVM est une technique innovante qui a été appliquée avec succès pour de nombreuses tâches en exploitation de données, vision informatisée et bio-informatique par exemple.

Résultats obtenus

Au CRA-W, nous avons récemment introduit SVM comme méthode pour le traitement de données d'imagerie infrarouge dans le domaine de l'alimentation animale. Cette méthode est une nouvelle technique de détection des farines animales dans les aliments composés de façon à combattre les fraudes et les contaminations accidentelles dans le contexte de « la crise de la vache folle ». Les programmes et logiciels utilisés sont Matlab, Unscrambler, Statistica, ISIS et Winisi.

Publications

  • Dardenne, P. & Fernández Pierna, J.A. (2006). A NIR data set is the object of a chemometric contest at "Chimiométrie 2004". Chemom. Intell. Lab. Syst. 80: (2), 236-242.
    http://dx.doi.org/10.1016/j.chemolab.2005.06.013
  • Dardenne, P. & Fernández Pierna, J.A. (2007). Chemometric contest at "Chimiométrie 2005": a discrimination study. Chemom. Intell. Lab. Syst. 86: (2), 219-223.
    http://dx.doi.org/10.1016/j.chemolab.2006.06.009
  • Dardenne, P. & Fernández Pierna, J.A. (2008). Soil parameter quantification by NIRS as a Chemometric challenge at "Chimiométrie 2006". Chemom. Intell. Lab. Syst. 91: (1), 94-98.
    http://dx.doi.org/10.1016/j.chemolab.2007.06.007
  • Fernández Pierna, J.A. , Chauchard, F. , Preys, S. , Roger, J. , Galtier, O. , Baeten, V. & Dardenne, P. (2011). How to build a robust model against perturbation factors with only a few reference values: A chemometric challenge at Chimiométrie 2007. Chemom. Intell. Lab. Syst. 106: (2), 152-159.
    http://dx.doi.org/10.1016/j.chemolab.2010.05.015
  • Fernández Pierna, J.A. , Duval, H. , Valderrama, P. , Rutledge, D. , Baeten, V. & Dardenne, P. (2011). A case study of extrapolation in NIR modelling - A chemometric challenge at Chimiométrie 2009. Chemometrics and Intelligent Laboratory Systems, 106: (2), 205-209.
    http://dx.doi.org/10.1016/j.chemolab.2010.04.001
  • Fernndez Pierna, J.A. , Duponchel, L. , Ruckebusch, C. , Bertrand, D. , Baeten, V. & Dardenne, P. (2012). Trappist beer identification by vibrational spectroscopy: A chemometric challenge posed at the Chimiométrie 2010 congress. Chemometrics and Intelligent Laboratory Systems, 113: 2-9.
    http://dx.doi.org/10.1016/j.chemolab.2011.04.005
  • Fernández Pierna, J.A. , Vermeulen, P. , Amand, O. , Tossens, A. , Dardenne, P. & Baeten, V. (2012). NIR hyperspectral imaging spectroscopy and chemometrics for the detection of undesirable substances in food and feed. Chemometrics and Intelligent Laboratory Systems, 117: 233-239.
    http://dx.doi.org/10.1016/j.chemolab.2012.02.004
  • Overgaard, S. , Fernández Pierna, J.A. , Baeten, V. , Dardenne, P. & Isaksson, T. (2012). Prediction error improvements using variable selection on small calibration sets- a comparison of some recent methods. Journal of Near Infrared Spectroscopy, 20: (3), 329-337.
    http://dx.doi.org/10.1255/jnirs.996
  • Fernández Pierna, J.A. , Grelet, C. , Dehareng, F. , Dardenne, P. & Baeten, V. (2012). Merging of spectral datasets from different MIR instruments used in the routine analysis of milk. Proceedings in: ICAR 2012, Cork, 28 May 2012, 55-72.
  • Coordinateur (CRA-W)

    Equipe impliquée