Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

OpenData et Biodiversité #21

Open
orovellotti opened this issue Oct 19, 2018 · 14 comments
Open

OpenData et Biodiversité #21

orovellotti opened this issue Oct 19, 2018 · 14 comments
Labels
question Further information is requested

Comments

@orovellotti
Copy link

Un premier jet sur un document sur l'opendata et la biodiversité.
Open Data et Biodiversité.docx

@orovellotti
Copy link
Author

orovellotti commented Oct 19, 2018

Une première MAJ V0.1

Open Data et Biodiversité.docx

@camillemonchicourt
Copy link
Member

Merci.

@orovellotti
Copy link
Author

Voila la toute dernière version
Joyeux Noel
Open.Data.et.Biodiversite 1.7.docx

@orovellotti orovellotti added the question Further information is requested label Dec 24, 2018
@orovellotti
Copy link
Author

Est ce que vous pouvez me dire ça vous convient ?

@camillemonchicourt
Copy link
Member

OK merci pour ce document.

@Amaadou
Copy link

Amaadou commented Feb 19, 2019

Open-Data.pdf
Voici le document Open Data

@camillemonchicourt
Copy link
Member

Merci, c'est bien mis en forme

@frmichel
Copy link

Bonjour,

Bravo pour ce document, je le trouve très bien construit, clair et complet. Il aborde les points importants en restant au bon niveau de détails je pense.

Je joins le PDF (Open-Data-franck.pdf) dans lequel j'ai ajouté pas mal de commentaires concernant des erreurs mineures (typos, orthographe ou redites). Redites-moi si vous avez des problèmes pour voir les remarques (je n'utilise pas Adobe PDF reader).

J'ai eu plus de mal avec la partie qui me concerne, soit parce qu'elle a été moins relue que les autres, soit parce que je suis forcément plus critique sur celle-ci. Complqué de mettre toutes mes remarques comme des commentaires dans le PDF, du coup je vais lister cela juste après, dans un commentaire séparé.

Le diagramme du LOD cloud page 23 est sur fond blanc, c'est dommage. J'en ai fait une version avec fond transparent que je joins également (LOD cloud.pptx). J'y ai ajouté une bulle montrant TAXREF-LD mais c'est peut-être inutile, je vous laisse juge.

En tout cas il faut ajouter la référence (si on parle de licence ouverte et qu'on la ne respecte pas... c'est moche ;) ) : Linking Open Data cloud diagram, 2019. J.P. McCrae, A. Abele, P. Buitelaar, A. Jentzsch, V. Andryushechkin and R. Cyganiak. http://lod-cloud.net/

Franck.

@frmichel
Copy link

Comme indiqué dans mon commentaire précédent, voici mes remarques concernant les pages 22-23 dans lesquelles j'ai reformulé des phrases/paragraphes trop floues ou ambiguës. J'ai aussi pris la liberté de changer le style qui me semblait assez familier, plutôt du genre discussion autour d'une bière ;).

Entretien avec Franck Michel, chercheur au Laboratoire d’informatique, signaux, système de l’Université Nice Sophia-Antipolis (Cnrs, Inria).

Entretien avec Franck Michel, ingénieur de recherche au Laboratoire d’informatique, signaux, système de Sophia-Antipolis (Université Côte d'Azur, CNRS, Inria).

les défis de l'Opendata

les défis de l'open data

Que l’on est le même vocabulaire, les mêmes outils. C’est un énorme challenge. On a besoin de ces technologies pour pouvoir répondre à des questions du type: quel est l’impact du changement climatique, sur telle espèce, dans telle zone géographique, par exemple.

Que l’on utilise des vocabulaires et des formats standards pour publier les données ouvertes. C’est un énorme challenge. On a besoin de ces outils pour pouvoir croiser des données issues de communautés différentes, et répondre à des questions comme par exemple: quel est l’impact du changement climatique sur telle espèce, dans telle zone géographique.

Il s’agit de représenter les données pour que les machines puissent les traiter pour nous et les agréger parce qu’à l’échelle humaine, ce n’est plus possible. Il y en a trop !Et pour qu’elles puissent le faire, il faut que les données soient représentées avec une signification explicite pour elles et que les liens le soient aussi. Autrement dit, au lieu de décrire les choses comme des PDF ou des pages web, on va les décrire sous un format standard, manipulable par une machine et en utilisant un vocabulaire lui aussi standard, sur lequel tout le monde s’est mis d’accord. Les principes de ce web sémantique ont été énoncés par l’inventeur du web Tim Berners-Lee. Il propose d’attribuer des identifiants uniques, à toutes les informations, les idées, les concepts qu’on manipule: une plante, une personnalité publique, …Il a aussi proposé que l’on utilise le web comme infrastructure pour échanger les descriptions des ressources. Si les identifiants uniques sont des URI http, il suffira de les rentrer dans le navigateur pour recevoir une description de la ressource dans un standard (RDF) qui soit compris par les machines.

Il s’agit de représenter les données pour que les machines puissent les traiter et les agréger pour nous. Car cela devient impossible à l’échelle humaine tant les données sont nombreuses, volumineuses et de natures différentes. Et pour qu’elles puissent le faire, il est nécessaire de représenter de façon explicite la signification des données et des relations entre elles. Autrement dit, au lieu de décrire les choses dans des PDF ou des pages web, nous devons les décrire selon un format standard, manipulable par une machine, en utilisant des vocabulaires eux aussi standards et dont la signification soit comprise et partagée par tous les acteurs. De cette façon, on étend le web que nous connaissons, un web de documents destinés aux humains, avec un web de données destiné aux machine. Les principes de ce web de données ont été énoncés par l’inventeur du web, Tim Berners-Lee. Il propose d’attribuer des identifiants uniques à toutes les informations, les idées, les concepts que nous manipulons : une plante, une personnalité publique, … Il a aussi proposé que l’on utilise le web comme infrastructure pour échanger les descriptions des ressources. Dans ce contexte, les identifiants uniques sont des URI http. Il suffit alors à un humain d'entrer un URI dans un navigateur pour recevoir une page web décrivant la ressource, pendant qu'une machine peut utiliser le même URI pour obtenir une représentation de la ressource dans un format standard qu'elle sait manipuler (RDF).

tle Muséum. Cette institution maintient à jour Taxref, le référentiel taxonomique pour la France. Il recense 270 000 espèces et compte plus de 550 000 noms scientifiques. C’est un inventaire et une classification, par genre, par famille, par ordre, qui comporte aussi des informations sur les habitats, les observations, les programmes de conservation. Nous travaillons à transformer cette classification dans les standards du web sémantique, le RDF, à donner des URI aux espèces notamment. Notre objectif est aussi de la lier avec d’autres classifications produites ailleurs, par des liens hyper-texte…

Cette institution gère et maintient à jour TAXREF, le référentiel taxonomique pour la France métropolitaine et l'outremer. Il recense environ 270 000 espèces et compte plus de 550 000 noms scientifiques. C’est un inventaire et une classification, par genre, par famille, par ordre etc., auquel s'ajoutent des informations sur les habitats, les observations, les programmes de conservation de la biodiversité. Nous travaillons à transformer TAXREF dans les standards du web de données, le RDF, en donnant notamment des URI à chaque espèce. Notre objectif est aussi de lier chaque URI d'espèce aux URI correspondants dans d'autres référentiels internationaux, afin de favoriser l'interopérabilité entre tous les jeux de données qui s'appuient sur ces référentiels.

L’enjeu dans l’avenir est aussi de pouvoir répondre à des questions qui exigent de collecter des données issues de champs scientifiques très différents et cloisonnés. Est-ce qu’un gène issu de telle population a un impact sur la construction des écosystèmes où elle vit? Aujourd’hui, on ne sait pas le faire. Car il s’agit de domaines de recherche tellement différents, qui produisent des données qui ne sont pas du tout les mêmes que les requêter en même temps, est impossible. On n’a pas encore les outils nécessaires à cette transversalité.

L’enjeu, dans l’avenir, est aussi de pouvoir répondre à des questions qui exigent de collecter et requêter des données issues de champs scientifiques très différents, et qui traversent donc des champs multiples de la connaissance. Est-ce que tel gène de telle espèce a un impact sur la construction des écosystèmes où elle vit ? Aujourd’hui, on ne sait pas encore le faire. Car il s’agit de réconcilier des données représentant la complexité du vivant à des niveaux multiples (molécule, protéine, gène, cellule, phénotype, espèce, écosystème...). Les recherches actuelles visent à créer les outils nécessaires pour explorer cette transversalité.

@orovellotti
Copy link
Author

Voila la dernière mouture
Open-Data-bis.pdf

Il nous faut un déscriptif du module plus detaillé @patkap

Merci

@frmichel
Copy link

frmichel commented May 2, 2019

Bonjour, bravo, beau résultat.

Je n'ai pas tout relu, mais voici déjà les typos que j'ai notées au passage :

  • open data est orthographié de 3 façons différentes selon les endroits : open data, open-data, opendata. Il faudrait en choisir une seule.
  • p4: " les administrations d’au moins 50 agents sont tenues..." => 50 agences ?
  • p5: "Selon Romain Mazon, rédacteur en chef de cet hebdomadaire,..." : quel hebdomadaire ?
  • p8: "dans un langage commun qui permettent de ..." => permette
  • p9 : "l’enjeu lie à cette protection" : lié à
  • p9 : "sont certes a l’heure actuelle" : à l'heure actuelle
  • p10 : "est rassemblé etcodifié" : et codifié
  • p10 : "le Code des Relations entre Public et Administration**)**" : enlever la parenthèse
  • p12: " comme le soulignait [CR] un article du Monde" : supprimer le retour à la ligne
  • p12 : "les maîtres d’ouvrages privés ou publiques" : publics
  • p12 : "Une partie d’entre elles, notamment celles « récoltées » par les maîtres d’ouvrages privés ou publiques, à l’occasion d’études d’impact avant la construction d’infrastructures n’étaient jusqu’à présent pas accessibles, ces derniers n’étant pas tenus de la rendre public" : il faut choisir si on accorde avec "une partie" ou "celles récoltées", donc soit "accessible" et "la rendre publique", soit "accessibles" et "les rendre publiques".
  • p16: "Les standards d’une dizaine de données dont ont été définies": supprimer "dont" et "définis"
  • p16: "à minima" => "a minima" c'est une locution latine, pas de "à"
  • p16: "les données pu- bliques"
  • p21 : "270 000 espèces" => "200 000 espèces"
  • p21 : "dont la signification soit comprise" => "dont la signification est comprise"
  • p21 : "un web de données destiné aux machine" => "un web de données destinées aux machines"
  • p21 : "Il a aussi proposé que" => "Il propose aussi que"
  • p21 : dans le schéma, la flèche vers la bulle rouge "TAXREF" est à l'envers. Et "TAXREF" déborde de la bulle rouge.

Franck.

@frmichel
Copy link

Bonjour @orovellotti, du nouveau concernant ce document ? Publié quelque part ?

@camillemonchicourt
Copy link
Member

Maintenant qu'on a une version 1 bien complète du module (https://github.com/PnX-SI/gn_module_export/releases), on va pouvoir finaliser ce document pour lequel il faut clarifier l'objectif et la cible.

En attendant, je l'ai mentionné dans la présentation générale du module : https://github.com/PnX-SI/gn_module_export#autres

@orovellotti
Copy link
Author

Ok pour ajouter de le doc sur le module. On le publié comment du coup ?

Est ce qu’il y a une journée technique Aten, ou pour le Hackathon?

Merci

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

4 participants