Objectifs du réseau
Le Réseau Mixte Technologique proposé porte sur l'application des méthodes de la science de données et de la modélisation dans le domaine agricole et de la transformation agroalimentaire.
Les objectifs du réseau sont d'animer la communauté autour de ces méthodes et leurs applications sur la diversité des thématiques en organisant les échanges, en conduisant des travaux d'approfondissement ou de mutualisation, en apportant de nouvelles compétences via des formations et en apportant l'expertise nécessaire aux projets des partenaires présentant des actions importantes sur de science de données ou de modélisation.
En particulier, sur la période 2026-2030, le RMT MODELIA propose de concentrer ses efforts sur trois objectifs :
- Méthodes pour l’analyse de données observationnelles et l’identification de relations causales ;
- Entraînement des modèles d’apprentissage automatique et méthodes pour interpréter leurs résultats ;
- Intégration des modèles dans les outils d’aide à la décision grâce à l’intelligence artificiel générative et au no-code.
Axes de travail du RMT
Le programme prévisionnel sur 5 ans (2026-2030) se décompose en 3 axes.
Axe 1. Quantifier les effets des pratiques agricoles et des évènements extrêmes à partir de données observationnelles
Ce premier axe vise à répondre aux besoins de valorisation des données dites observationnelles pour quantifier l’effet de pratiques agricoles alternatives aux pratiques conventionnelles et l’effet d’évènements extrêmes (climat, maladie). Il s’agit d’informations collectées en observant les phénomènes sans intervention expérimentale de l’observateur. Dans le domaine agricole, cela couvre les réseaux d’observation, les enquêtes et les plans de surveillance, avec des dispositifs plus ou moins pérennes. Par rapport aux expérimentations factorielles, un avantage majeur de ces dispositifs est qu’ils couvrent une grande diversité d’agro-écosystèmes et d’élevages et permettent de collecter des données directement dans des exploitations agricoles. Mais, un inconvénient important de ces dispositifs est qu’ils sont souvent associés à des risques de confusion d’effets élevée, du fait de l‘absence de témoin et de randomisation. Ces confusions d’effet peuvent conduire à une sur- ou sous-estimation de l’effet d’une pratique, d’un évènement climatique ou d’une maladie sur la production. Pour réduire ce problème, il est important d’utiliser des méthodes adaptées pour la conception du dispositif observationnelle et pour l’analyse des données collectées.
Dans cet axe, nous proposons 3 sujets principaux à traiter dans le réseau.
A.1.1. Améliorer la représentativité de l’observatoire en optimisant l’échantillonnage
Avant de valoriser les données issues d’un observatoire agricole, il convient de s'assurer que l’échantillonnage sur lequel il repose permettra de bien répondre à l’objectif visé. En effet, la représentativité de l’observatoire conditionne directement la portée et la fiabilité des analyses qui en découlent. Lorsque c’est possible, des méthodes d’échantillonnage ad hoc peuvent être mobilisées en amont, afin d’optimiser le choix des parcelles/troupeaux ou des exploitations à suivre. Ces méthodes permettent de mieux couvrir la diversité des systèmes agricoles, de limiter les déséquilibres et de dimensionner le réseau pour une certaine exigence de précision.
L’objectif de ce sous-axe est de diffuser, de tester et de comparer des méthodes existantes afin d’améliorer la conception des dispositifs observationnels.
A.1.2. Formuler des hypothèses sur les relations possibles grâce aux méthodes de data mining
Les observatoires dans le domaine agricole et de l’élevage génèrent des volumes importants de données hétérogènes. Ces données offrent l’opportunité d’explorer de manière empirique les relations causales potentielles entre variables via des approches de data mining. Celles-ci permettent d’explorer les bases de données existantes de façon inductive afin de faire émerger des structures latentes ou des motifs récurrents. Elles incluent des analyses factorielles, des analyses de corrélations multiples, des arbres de décision, des méthodes de clustering ou encore les réseaux bayésiens. Ils sont adaptés à la génération d’hypothèses dans des contextes où les relations causales ne sont pas encore formalisées.
L’objectif de ce sous-axe est de renforcer l’exploitation des données des observatoires en identifiant des pistes d’interprétation nouvelles, d’améliorer la compréhension des systèmes étudiés et d’adapter ces méthodes pour permettre leur utilisation par les acteurs des filières agricoles.
A.1.3. Quantifier des effets de pratiques et d’évènements extrêmes avec des méthodes d’analyse causale
Dans les réseaux d’observations d’exploitations agricoles, les facteurs de confusion représentent un défi majeur. Contrairement aux essais contrôlés randomisés, les réseaux d’observations sont impactés par des événements non contrôlés par l’observateur (ex : sécheresse, maladie, pratique agricole…) qui augmentent le risque d'estimations biaisées. Ces dernières années, plusieurs techniques statistiques ont été mises au point pour tenir compte des risques de confusion d’effets dans les données d'observation. Des méthodes telles que la pondération de la probabilité inverse (IPW), l'appariement, la normalisation (SDZ) et la double robustesse (DR) ont été conçues pour réduire les biais et fournir des estimations plus fiables des effets causaux.
L’objectif de ce sous-axe est de comparer les performances de différentes méthodes d’analyses causales pour l’analyse de l’impact d’évènements extrêmes ou de pratiques agricoles innovantes sur la production agricole. Nous identifierons les méthodes les plus performantes en mobilisant plusieurs cas d’usage. Nous étudierons plus particulièrement l’impact d’évènements extrêmes (les sécheresses et l’occurrence de hauts niveaux d’incidence des maladies en production végétal, notamment) mais également la quantification des effets de certaines pratiques innovantes en production animales et/ou végétales. Des ateliers participatifs et une formation faciliteront leur diffusion.
A1. Livrables (sur les 3 premières années)
· 2026T2. Comparaison de méthodes sur un cas d’usage en élevage
· 2026T2. Comparaison de méthodes sur un cas d’usage en production végétale
· 2027T1. Séminaire sur l’échantillonnage (dispositifs classiques et avancés)
· 2027T4. Une formation couvrant l’ensemble de l’axe s’appuyant sur des exemples pédagogiques
· 2028T4. Un guide pédagogique, venant alimenter et compléter la formation. Partie design et analyse. « Données d’observatoire et d’enquête en agriculture. Du design à l’analyse »
· 2027T3. Création d’une ressource pédagogique autour des quantifications de l’impact des évènements climatiques extrêmes (en lien ClimaDiag) à destination de l’enseignement agricole.
Axe 2. Du Machine Learning au Deep Learning pour la prédiction
Suite aux formations sur le Machine Learning réalisées par le RMT depuis 2018, il existe maintenant une forte demande dans notre communauté pour utiliser des méthodes plus avancées. Les premières actions visent à aller plus loin en particulier sur les données de type séries chronologiques, très fréquentes en science de l’élevage et en science de l’environnement. Une autre action vise à établir un lien entre les communautés “data science” et “modélisation” à travers le concept de jumeaux numériques. Enfin, la dernière action sera consacrée à faire monter en compétence la communauté sur le Deep Learning pour valoriser les données se présentant sous forme d’images, ce que l’on rencontre fréquemment en production végétale et en élevage.
Dans cet axe, nous proposons 5 sujets principaux à traiter dans le réseau.
A.2.1. Analyser et interpréter les décisions des modèles de Machine Learning
Les modèles de Machine Learning ont longtemps été présentés comme des modèles “boites noires”, c’est à dire des modèles dont il était difficile de comprendre le fonctionnement. En d’autres termes, ces modèles étaient perçus comme des outils utiles pour la prédiction mais peu pertinents pour identifier les principaux facteurs explicatifs et pour analyser l’impact de ces facteurs. Cependant, plusieurs approches ont été récemment développées pour interpréter les prédictions des modèles de Machine Learning. Il est maintenant possible de (i) hiérarchiser l’importance des variables d’entrée de ces modèles (identifier les variables d’entrée très influentes et les variables peu influentes), (ii) décrire la forme de la réponse de variables prédites en fonction des variables d’entrée (partial dependence plot), (iii) décomposer les valeurs prédites en composantes liées aux caractéristiques des individus/environnements considérées (valeurs de Shapley).
L’objectif de ce sous-axe est de réaliser une synthèse de l’état de l’art de ces méthodes et de les tester dans le contexte des réseaux d’observations en exploitation agricole en collaboration avec les porteurs de ces réseaux.
A.2.2. Intégrer la dimension temporelle dans les approches de Machine Learning
La dimension temporelle des données est souvent laissée de côté dans les approches traditionnelles de Machine Learning. Pourtant, les objets et capteurs connectés en élevage et en agriculture produisent des données marquées par des évolutions temporelles caractéristiques (ex : courbe de production de lait, croissance de plantes, déplacements d’animaux...). L’absence de prise en compte de ces évolutions dans les modèles de Machine Learning peut dégrader leurs prédictions.
L’objectif de ce sous-axe est d’explorer des techniques qui permettent de mieux intégrer cette dimension temporelle, dans le but d’améliorer les performances prédictives des modèles.
A.2.3. Utiliser le Machine Learning prédictif avec un nombre de données limitées
Dans de nombreux contextes agricoles ou d’élevage, la quantité de données disponibles pour entraîner des modèles prédictifs est limitée. Ces données sont souvent coûteuses à produire, difficiles à collecter, ou déséquilibrées. Ces contraintes rendent les approches classiques de Machine Learning peu adaptées car celles-ci reposent sur de grands volumes de données.
Pour répondre à ces défis, plusieurs stratégies complémentaires peuvent être mobilisées. L’augmentation de données (data augmentation) permet de générer artificiellement de nouveaux échantillons à partir des données existantes, par exemple en simulant des variations réalistes dans les séries temporelles ou les images. L’apprentissage par transfert (transfer learning) offre la possibilité de tirer parti de modèles pré-entraînés sur d’autres jeux de données pour améliorer la performance sur des tâches locales, même avec peu d’exemples. Enfin, des techniques de rééquilibrage des classes (ex. : sur-échantillonnage des classes rares et sous-échantillonnage des classes majoritaires) permettent de limiter les biais liés à des distributions de données déséquilibrées.
L’objectif de ce sous-axe est d’évaluer l’efficacité de ces différentes approches sur des cas concrets en production végétale et animale afin de faire des recommandations pour améliorer la robustesse et la généralisation des modèles prédictifs dans des contextes réels, où la disponibilité des données reste une contrainte majeure.
A.2.4. L’alliance du Machine Learning et de la modélisation mécaniste au service des jumeaux numériques
Un jumeau numérique consiste à créer une réplique virtuelle d’un système agricole réel (ex. : un troupeau, une parcelle, une exploitation, un territoire) en combinant données en temps réel, modèles mécanistes et Machine Learning. En agriculture, les modèles mécanistes ont fait l’objet de multiples travaux sur de nombreuses problématiques agricoles. Dans le cadre des périodes précédentes de ce même réseau, nous avons pu travailler pour mieux outiller les ingénieurs et chercheurs développant ces mêmes approches en promouvant des méthodes d’exploration des modèles (analyse de sensibilité), leur amélioration (estimation des paramètres), leur évaluation (performance et analyse d’incertitude) ou encore l’assimilation de données. Dans le contexte du développement des jumeaux numériques (par exemple projet TwinFarms impliquant plusieurs de nos partenaires du PEPR Agroécologie et numérique),
L’objectif de ce sous-axe est d’adapter nos ressources pédagogiques existantes sur les méthodes d’exploration de modèles mais aussi sur le Machine Learning pour mieux répondre aux problématiques autour des jumeaux numériques.
A.2.5 Exploiter le Deep Learning pour l’analyse d’images
Les techniques d’analyse d’images, portée par les avancées considérables de la technologie et du Deep Learning, offre un fort potentiel pour exploiter efficacement les images issues de capteurs, de caméras ou de drones. En agriculture et en élevage, ces données sont de plus en plus présentes, ce qui rend nécessaire une montée en compétences sur leur traitement et leur valorisation. Toutefois, la connaissance et la maîtrise de ces outils reste encore limitée.
L’objectif de ce sous-axe est de renforcer les compétences sur les bases de l’analyse d’image, notamment en proposant une initiation aux principales méthodes de traitement et d’apprentissage profond.
A2. Livrables (sur les 3 premières années)
· 2026T1. Séminaire participatif pour mesurer l’état de la pratique du Machine Learning dans notre communauté
· 2026T4. Etat de l’art sur les méthodes d’analyse pour l’interprétabilité des modèles de ML
· 2027T2. Mise en œuvre de ML pour traiter des séries temporelles sur des exemples courants (par exemple : suivi en santé du végétal & météorologie, émissions de polluants et de gaz à effet de serre, suivi en production animal, …)
· 2028T3. Formation série temporelle avec ML
· 2027T2. Mise en œuvre de méthodes adaptés dans le cas de données peu nombreuses ou déséquilibrées
· 2027T4. Séminaire retour d’expérience sur les méthodes adaptées dans le cas de données peu nombreuses ou déséquilibrées
· 2026T3. Adaptation de la formation sur les méthodes pour la modélisation pour mieux répondre aux problématiques autour des jumeaux numériques.
· 2026T3. Séminaire sur méthode et application du Deep Learning
· 2028T2. Formation initiation au Deep Learning
Axe 3. Boite à outils du data scientist et modélisateur
Dans cet axe, nous proposons 4 sujets principaux à traiter dans le réseau.
A3.1. IAG générative en appui au travail du data scientist et modélisateurs
L’intelligence artificielle générative (IAG) offre de nouvelles opportunités pour appuyer le travail des statisticiens, data scientists et modélisateurs. Elle peut contribuer à structurer des démarches d’analyse, à formaliser plus rapidement des modèles, ou à coder la mise en œuvre de méthodes statistiques. En réduisant le temps consacré à certaines tâches techniques, elle permet de recentrer l’expertise sur les choix méthodologiques et l’interprétation des résultats.
L’objectif de ce sous-axe est d’identifier des usages adaptés de l’IAG dans ces métiers, tout en encourageant une utilisation critique et rigoureuse de ces nouveaux outils.
A3.2. Automatisation des procédures
La comparaison de différents algorithmes est au cœur de l’approche de prédiction mobilisant de le Machine Learning. Même si les ingénieurs peuvent trouver utile d’écrire explicitement leurs procédures, il existe dorénavant des librairies sous R ou python offrant des fonctionnalités intégrées pour tester plus rapidement différents algorithmes avec différentes combinaisons de réglages (hyperparamètre) tout en évaluant leurs performances dans un cadre commun. Potentiellement, cela peut améliorer la fiabilité des codes et faciliter la comparaison de nombreux algorithmes différents
Une fois le travail d’élaboration du modèle, basé sur du machine learning ou de la simulation à partir de modèle plus mécaniste, le modèle peut passer dans une phase opérationnelle. Dans cette phase, il est alors aussi important d’automatiser les procédures, à la fois pour faire des prédictions mais également pour intégrer de nouvelles données, nettoyer les données et pouvoir réévaluer les évolutions au niveau des performances. On peut parler de flux de données (data flow) englobant plusieurs étapes avec le prétraitement des données (nettoyage, normalisation, encodage), entraînement des modèles, puis l’évaluation des performances selon des métriques et un schéma de validation croisée définis.
L’objectif de ce sous-axe est de réaliser une veille sur ces techniques et de produire une synthèse à destination des data scientists afin d’améliorer les pratiques mais aussi de favoriser le passage à leur utilisation opérationnelle.
A3.3. Promouvoir les approches de visualisation pour mieux communiquer sur nos résultats
Une visualisation claire, esthétique et interactive peut non seulement améliorer la compréhension des résultats par des experts, mais aussi faciliter la diffusion des messages auprès d’un public plus large (décideurs, agriculteurs, grand public).
Les outils disponibles dans les langages utilisés par notre communauté (R, Python) offrent aujourd’hui des possibilités riches et variées pour concevoir des visualisations percutantes : graphiques complexes (Matplotlib, ggplot2), graphiques interactifs (Plotly, Shiny, Dash), cartes spatiales dynamiques (Leaflet), représentations de trajectoires ou de réseaux, animations temporelles. Au-delà des outils classiques de R (ggplot2, Shiny) ou Python (Matplotlib, Plotly, Dash), de nombreuses solutions alternatives permettent aujourd’hui de concevoir rapidement des visualisations riches et interactives, accessibles à un public non-développeur.
L’objectif de ce sous-axe est de sensibiliser les membres du réseau à l’importance de la visualisation pour valoriser efficacement les résultats. Il s’appuiera sur le partage d’exemples concrets, adaptés aux problématiques agricoles et agroalimentaires.
A.3.4. Développer les approches no-code pour favoriser le prototypage
Le développement d’approches no-code peut constituer un levier pour accélérer le prototypage d’applications et favoriser l’autonomie des développeurs de modèles. Basées sur des interfaces intuitives, des plateformes permettent de concevoir des outils fonctionnels sans écrire une seule ligne de codes, réduisant ainsi les délais entre l’idée et la mise en œuvre. En s’appuyant sur des API pour interagir avec le modèle, on assure également une bonne séparation entre la partie calcul et l’interface utilisateur.
En démocratisant les possibilités de prototypage, nous pensons que ces approches pourraient renforcer la collaboration entre les métiers et les développeurs pour favoriser les déploiements opérationnels de certains outils d’aide à la décision. Pour autant, nous resterons vigilants sur les problèmes de maintenance et de sécurité qui pourraient se multiplier en cas de mise en œuvre sans concertation avec des informaticiens ou avec un contrôle qualité trop limité.
L’objectif de ce sous-axe est de faire une veille sur ces plateformes et démarches, d’organiser des retours d’expérience ou des tests mis en commun afin de proposer des recommandations précises.
A3. Livrables (sur les 3 premières années)
· 2026T4. Document de veille sur les outils no-code.
· 2027T1. Document de veille sur les outils de comparaison d’algorithme de ML
· 2027T2. Retour d’expérience sur la visualisation
· 2027T3. Mise en œuvre d’outils no-code pour l’informatisation et le prototypage de règles de décision avec l’enseignement agricole dans le cadre de leur référentiel sur l’agriculture numérique.
· 2027T3. Séminaire sur la visualisation
· 2027T4. Intégration dans les formations existantes et à construire de l’usage de l’IAG avec des recommandations sur les bonnes pratiques.
Axe 4. Actions transversales pour et avec l’enseignement agricole
Les référentiels des BTS Agricole évoluent pour notamment intégrer plus la dimension agriculture numérique, c’est le cas également des licences professionnelles. Pour autant, les ressources pédagogiques disponibles restent limitées, en particulier autour de la gestion et les enjeux des données agricoles et l'utilisation des outils d'aides à la décision. Le livre "le numérique en agriculture" paru en 2025 est une première ressource, mais il est désormais important de l’alimenter avec des séquences pédagogiques adaptées à ces publics.
Au-delà des liens avec l’enseignement technique (lycée agricole), nous prévoyons de renforcer les liens avec enseignement supérieur. Cela permettra également de valoriser des ressources constituées pour l’enseignement technique à cette cible, c’est-à-dire notamment aux élèves en cycle ingénieur (M1-M2). Nos ressources à destination des ingénieurs/chercheurs (Axe 1-2-3) pourrons également être mobilisées dans ce cadre.
En complément, des actions des axes 1-2-3 et livrables associés en lien avec l’enseignement agricole, l’objectif de ce sous-axe est de proposer des actions transversales sur la thématique de la modélisation et de la science des données pour l’agriculture. Des ressources opérationnelles complétant le livre « Numérique en agriculture » seront également élaborées en collaboration avec le RMT NAEXUS afin de répondre aux attentes de l’enseignement agricole sur toute la chaine du numérique. Des actions seront également menées pour promouvoir le nouveau dispositif « experts associés à l’enseignement agricole », auquel le RMT propose de contribuer.
A4. Livrables (sur les 3 premières années)
- 2026T2 (et récurent). Promotion du dispositif « experts associés » pour faire contribuer notre communauté à l’enseignement agricole (interventions).
- 2026T4. Création de ressources (vidéo) pour nourrir le livre « Numérique en agriculture » (paru en février 2025) – collaboration RMT NAEXUS.
- 2027T2. Etude de l’opportunité d’une seconde édition du livre « Numérique en agriculture » et/ou d’une traduction en anglais – collaboration RMT NAEXUS.