Qu’est-ce qu’une donnée ?

La donnée a de multiples définitions, le site de Nature France en propose quatre, pas forcément antinomiques :

  • Un élément fondamental servant à la base d’un raisonnement, d’une recherche ;
  • Un résultat d’observations ou de recherches ;
  • Une hypothèse figurant dans l’énoncé d’un problème ;
  • Une représentation conventionnelle d’une information sous une forme convenant à son traitement.

Ces définitions ont, toutefois, un sens trop large pour caractériser les données décrivant notre patrimoine naturel. Dans ce domaine, celui de la biodiversité et la géodiversité, on parle alors de données naturalistes ou données d’observations.

Qu’est-ce qu’une donnée naturaliste ?

Une donnée naturaliste est un ensemble d’informations qui permettent de décrire un événement (observation, capture) concernant la flore, la faune, la fonge ou un habitat. Cet ensemble d’information est formaté de manière à pouvoir rendre possible son partage. Une donnée naturaliste comporte au minimum quatre informations :

  • L’objet de la donnée (taxon, habitat) ;
  • Sa localisation  ;
  • Sa date d’observation ;
  • L’observateur.

Les métadonnées

Ce sont les « données sur les données », des informations servant, conformément aux dispositions de l’article L. 127-1 du code de l’environnement, à décrire les séries et les services de données géolocalisées ou non-géolocalisées et rendant ainsi possible leur recherche, leur inventaire et leur utilisation dans les différents systèmes d’information. Les métadonnées décrivent donc les jeux de données naturalistes primaires, secondaires ou tertiaires. Le protocole du SINP pose le principe de libre accès et gratuité aux métadonnées.

A quoi servent les données ?

Unités de base, les données naturalistes constituent des informations clefs pour quantifier et qualifier l’état de la biodiversité, modéliser son évolution et ainsi définir des moyens efficaces pour limiter son érosion. Ainsi, leur production, traitement et diffusion est indispensable pour la conservation, la restauration et l’amélioration de la biodiversité.

« On ne protège bien que ce que l’on connaît bien ».

L’importance des données dans le domaine de la biodiversité
Comment sont acquises les données sur la biodiversité ?

Les données naturalistes ont des origines diverses. Leur collecte est le résultat d’actions toutes aussi variées. Deux sources principales de données naturalistes sont utilisées lors de la constitution d’une base de données, les données ex situ et in situ.

Les données ex situ

Ce sont les données naturalistes issues de la bibliographie ou de collections.

  • Les données bibliographiques historiques ou contemporaines sont souvent issues d’études précédentes ou ont été produites à d’autres fins. Les sources peuvent être nombreuses : publications scientifiques ou naturalistes, rapports d’études, tableaux de chasse, cartographies, carnets de terrain, etc.
  • Les données de collections sont des données produites à partir de collections muséales ou privées : herbiers, banques de graines, spécimens naturalisés, etc.

Les données ex situ du CBNBl

Le Conservatoire Botanique National de Bailleul (CBNBL) dispose d’une impressionnante quantité de données ex situ, issue de sa bibliothèque, “la bibliothèque botanique et phytosociologique de France”, et de sa collection d’herbiers qu’il conserve dans son herbarium.

La bibliothèque du CBNBl spécialisée dans les domaines d’étude de la botanique et de la phytosociologie est l’une des plus riches d’Europe dans ces domaines. C’est une bibliothèque patrimoniale ainsi qu’une bibliothèque scientifique de pointe. Elle renferme plus de 70 000 ouvrages (monographies, tirés à part, périodiques, thèses, flores, etc.), dont le plus ancien date de 1605, ainsi que plus de 80 000 tableaux phytociologiques (tableaux issus de relevés de terrain).

Les herbiers dont le CBNBl assure la conservation, sont des outils précieux de connaissance, d’étude et d’expérimentation. Ce sont des sources de données historiques et taxonomiques irremplaçables pour la connaissance de la flore d’un territoire…

Le CBNBl les organise en deux grands types:

  • L’herbier général, qui regroupe environ 80 000 planches, concerne des plantes d’origines géographiques très diverses (Europe et Afrique du Nord). Les planches proviennent de plusieurs collections de botanistes français et ont une haute valeur patrimoniale (certains ont plus de 100 ans).
  • L’herbier de référence du territoire d’agrément du CBNBL, de taille plus modeste, se limite à la flore vasculaire sauvage des Hauts-de-France et de Haute-Normandie. L’essentiel du matériel de cet herbier a été récolté depuis 1995. Il constitue un excellent outil d’aide à la détermination des plantes vasculaires régionales et un bon support pour les formations botaniques.

Pour plus d’information, vous pouvez consulter le site du CBNBL en cliquant ici.

Les données in situ

Ce sont les données naturalistes récoltées directement sur le terrain. Traditionnellement, on oppose les données de terrains opportunistes aux données de terrains protocolées.

  • Les données opportunistes sont souvent acquises en dehors de protocoles particuliers. Ces données proviennent d’observations ponctuelles (ballades, randonnées, jardinage, etc.) ou lors de programmes participatifs (tous publics ou experts bénévoles) recueillant les données d’observations, sans plan d’échantillonnage particulier ni objectif prédéfini.
  • Les données de terrains protocolées sont acquises dans le cadre d’une étude ou d’un programme. La récolte des données se fait suivant un protocole défini. Le protocole présente le plan d’échantillonnage, le type de données à collecter, les méthodes et techniques de prospection à employer… Cela peut aller jusqu’aux référentiels à utiliser ou encore le format de transmission des données. Ce type de données est collecté lors d’inventaires naturalistes, de suivis de population, de programmes de surveillance, de recherche, d’études d’impact, etc.

Les bases de données

Ce sont des systèmes d’informations, qui permettent de stocker, structurer, organiser, traiter et partager les données. Elles sont utilisées par les différents acteurs naturalistes pour faciliter l’exploitation des nombreuses données naturalistes qu’ils produisent ou reçoivent. Il convient de distinguer la base de données du simple stockage des données. En effet, une base de données est informatisée, structurée et organisée, alors qu’un stockage peut s’effectuer sous forme papier ou sous format informatique non structuré. Certaines bases sont exclusives à une seule structure, tandis que d’autres sont partagées et compilent les données de plusieurs acteurs différents.

Toutes ces bases imposent un standard (ensemble de règles relatives aux formats de données) que les données naturalistes doivent respecter pour intégrer ces dernières. L’interopérabilité entre les différentes bases de données existantes est essentiel pour facilité la circulation et le partage de l’information naturaliste et peut être facilitée par un standard commun.

Les producteurs de données sur la biodiversité

Les données naturalistes sont produites par de nombreux acteurs pour diverses raisons (ou objectifs) et selon des modalités différentes. Parmi ces acteurs, on retrouve :

  • Le citoyen, au travers des sciences participatives et d’observations opportunistes ;
  • Les associations naturalistes ;
  • Les gestionnaires d’espaces naturels ;
  • Les fédérations de chasse et de pêche ;
  • Les collectivités ;
  • Les établissements publics (ONF, OFB, etc. ) ;
  • Les instituts de recherche ;
  • Les bureaux d’études ;
  • Les entreprises privées ;
  • Les universités ;

Tous ces acteurs produisent de grandes quantités de données chaque année, qui viennent alimenter les diverses bases de données existantes.

Comment exploiter ces données ?

En France, chaque année, les différentes bases naturalistes s’enrichissent de milliers de nouvelles données. Les informations sur notre patrimoine naturel se font ainsi toujours plus nombreuses et complètes. Cependant, toutes ces données ne sont pas toujours mutualisables , ce qui perturbe la construction et la diffusion d’informations fiables, globales et synthétiques sur la biodiversité. Ces limites s’expliquent par différentes raisons :

  • Les objectifs et méthodes à l’origine de la production des données diffèrent entre les acteurs et les programmes ;
  • Chaque donnée présente des limites d’utilisations, qu’il convient de prendre en compte : limite de fiabilité, de pertinence, de représentativité…
  • Les données sont parfois stockées sous des formats ou des structures différentes, parfois non interopérables.

Pour solutionner ces problèmes, plusieurs projets visent à standardiser ces données hétérogènes.

À l’échelle nationale, l’interopérabilité des différentes bases est rendu possible par l’application des standards SINP et permet d’avoir accès à des millions de données, provenant de milliers de jeux de données différents, ainsi qu’aux métadonnées qui les accompagnent, tout en s’affranchissant de fastidieuses manipulations.

Au niveau international, il y a l’exemple du GBIF qui vise à fournir à tous et partout un accès libre aux données sur toutes les formes de vie sur Terre. Pour permettre cet échange il propose l’utilisation de leur standard, le standard Darwin Core.

En parallèle, des outils sont également mis en place pour permettre la visualisation des données naturalistes. Vous pouvez en retrouver une partie sur la page dédiée consultable ici (lien page outils).