Oraccle GT Open Data 1.2


Site collaboratif de documentation de l'action groupe de travail open data du projet Oraccle. Propulsé par mdBook sur le Gitlab de l'UNIF.


Présentation (Oraccle)

Premier projet fédérateur en matière d’orientation en Île-de-France, Oraccle (Orientation Régionale pour l’Accompagnement du Continuum Lycéens – Étudiants), déploie huit actions pour créer un vértiable écosystème régional de l’orientation. Porté par l’UNIF et réunissant 35 partenaires, Oraccle ambitionne de faciliter l’orientation bac-3/bac+3 au travers de huit actions :

  1. Immersions dans le Sup, des événements participatifs permettant de découvrir les études supérieures pour les lycéens et lycéennes, dont mon projet dans le Sup en 180 secondes;
  2. Faire de la donnée une alliée pour l'orientation, groupe de travail et formations à la culture des données et aux données ouvertes, publication de données et production de services dérivés;
  3. Une seule voix, pour décrire de façon simple et claire l'offre de formation au travers d'un outil commun;
  4. Les événements du supérieur en un clic, en partenariat avec le portail ORIANE de la Région et les ENT des lycées;
  5. L'ambassade universitaire, 300 ambassadeurs et ambassadrices des universités franciliennes;
  6. Kit pédagogique pour l'orientation, état des lieux des outils mis à disposition des équipes pédagogiques et améliorations
  7. Accompagner spécifiquement les lycéennes et lycéens ultra-marins via un programme spécifique;
  8. Faire du re-choix un tremplin, développement d'outils et services permettant de faciliter les changements de parcours.

Objectifs de l'action

Notre groupe de travail sur l'ouverture des données dans l'enseignement supérieur est au service de l’orientation sur le territoire d’Île-de-France. Notre objectif est de proposer de nouveaux services à valeurs ajoutées pour les lycées, les familles et les étudiants et étudiantes autour des données des établissements, en nous inscrivant dans une démarche d'ouverture des données. Notre action a également our ambition de diffuser dans les universités une culture de l'ouverture des données qui vienne compléter la culture science ouverte, en incluant les données de gestion dans le périmètre d'ouverture. Cette diffusion se fait par des échanges et des formations entre partenaires du projet Oraccle autour de la consitution de notre groupe de travail.

Données

Jeux de données produits

Nous avons produit un jeu de données le 7 septembre 2023 et nous l'avons publié sur la plateforme data.gouv.fr avec la documentation suivante. Ce jeu de données utilise les remontées SISE des établissements (voir plus bas).

Avant cela nous n'avions produit que des jeux de données prototypes en reprenant le travail pionnier d'ouverture de données de l'université Sorbonne Paris Nord. Un petit service web de consultation avec une API et quelques pages de consultation directe est à l'essai ici https://data.unif.app sur le dernier jeu de données produit dans ce cadre.

Nous avons un nouveau jeu de données en préparation avec quelques modifications du format. son prototype est documentée ici. Nous comptons le publier lorsque nous aurons eu accès aux remontées SISE sur les inscriptions 2023-2024, pour pouvoir en tenir compte.

Prochaine publication mi-octobre 2024.

Accès aux données sources

Comment a-t-on accès à des données que l'on puisse transformer de façon à les ouvrir ? Dans notre action, nous travaillons dans deux directions.

Nous pouvons utiliser les données des établissements en particulier les données de scolarité, mais également toute donnée d'intérêt pour l'orientation que nous pourrons identifier (par exemple, les données des plateformes de candidatures). Jusqu'à récemment nous avions travaillé exclusivement sur les données de scolarité de l'université Sorbonne Paris Nord dont la démarche d'ouverture est à l'origine de notre action.

Données SISE

Une alternative à la collecte directe de données dans chaque établissement est l'exploitation des remontées SISE (système d'information pour le suivi des étudiants). Ces données de scolarité sont fournies par chaque établissement, en janvier, à la sous-direction des systèmes d'information et des études statistiques (SIES) du ministère de l'Enseignement Supérieur et de la Recherche.

L'intérêt est double, puisque la centralisation de ces données nous évite de conventionner avec chaque établissement pour l'accès aux données de son SI et que cela permet de couvrir beaucoup plus largement les établissements du supérieur. En nous limitant actuellement à l'Île-de-France.

Le comité du secret statistique réuni le 6 octobre 2022 a accepté notre demande d'accès. Notre accès est totalement effectif depuis mars 2023 via le CASD (Centre d'Accès Sécurisé aux Données), un GIP qui opère un service permettant de consulter des données administratives y compris non anonymes, avec des contraintes de confidentialité fortes.

Cela fonctionne avec un serveur de projet déconnecté d'Internet auquel nous nous connecterons avec un équipement dédié (appelé une SD-Box). Tous les fichiers que nous voudrons extraire du serveur sont vérifiés par la CASD. Ainsi nous bénéficions d'une sécurté supplémentaire pour nous prémunir du risque d'une mauvaise anonymisation.

Combinaison des deux approches

Avec SISE la granularité de l'information es inférieure à ce que nous obtenons en travaillant directement sur des données des systèmes d'information de scolarité. Mais les données des deux types peuvent être utilisées de façon complémentaires, un parcours d'études sur lequel nous avons une information plus fine via un SI d'établissement pourra ainsi être complété par des étapes que nous ne connaissions pas, et nous aurons ainsi la meilleure complétude des parcours d'études.

Par contre, le recollement de données entre SI plus précis et SISE ne pourra se faire qu'avant le traitement d'anonymisation. Cela suppose donc de le faire dans l'environnement contrôlé mis à disposition par le CASD. À l'avenir il devrait être possible pour chaque établissement de transmettre des données au CASD (en les chiffrant avec leur clé PGP) qui se chargera de nous les mettre à disposition. Cela nous permettra de les associer aux données SISE et de produire un jeu de données ouvert incluant les informations affinées par l'établissement.

Notre projet n'a pas vocation à produire des jeux de données privés, moins anonymisées (typiquement pseudonymisées), par exemple pour le pilotage des universités. Toutefois les logiciels que nous produisons sont sous licence libre et on peut y paramétrer une anonymisation moins destructive qui reviendrait à une pseudonymisation. Cela peut être utile pour un établissement qui voudrait mettre en place un service interne avec de telles données, sans possibilité de les croiser avec les données SISE.

Autres données

Notre groupe travaille également sur l'identification de nouveaux gisements de données d'intérêt pour l'accompagnement des élèves, ou des étudiants et étudiantes. Selon la difficulté d'accès aux sources et leur intérêt comparé, nous pourrons dans un second temps nous atteler à la création de nouveaux jeux de données ouvertes (par exemple, concernant les plateformes de candidature) ou à l'exploitation de jeux existants pour créer de nouveaux services (par exemple, utiliser la localisation des établissements pour tenir compte de contraintes de logement et de transport dans les curus).

Rendez-vous mensuels

Un rendez-vous mensuel de type salle ouverte réunit les membres du projet le premier mercredi de chaque mois à 9h00. Voir l'agenda des partenaires sur le site https://oraccle.fr ou contacter opendata@unif.fr pour participer.

Plateforme de gestion de projet et de documentation

Nous utilisons la plateforme Gitlab de l'UNIF pour la gestion de tâche, la documentation et l'hébergement des données ouvertes et des codes sources des logicels produits, tous sous licence libre EUPL V1.2. Notre groupe s'appelle data (demander un accès à opendata@unif.fr), et nos productions logicielles sont publiées dans le groupe opendata.

Une équipe sur le Mattermost de l'UNIF permet des conversations écrites sur le projet. Mattermost est indiqué pour des conversations qui peuvent être décousues dans le temps et que l'on souhaite conserver. Ce type de plateforme permet également des échanges rapides et plus informels que par mail, dans notre cas elle n'est toutefois pas indiquée pour contacter rapidement des membres du projet à moins d'explicitement les mentionner. Un guide rapide pour nous rejoindre est disponible sur cette page : Gitlab et Mattermost.

Ateliers et formations

Nous avons lancé en juin 2022 et poursuivi à l'automne 2022 une série d'ateliers de formation à la data, l'open data, l'exploitation de gisement de données et la visualisation de données, en direction des membres du projet impliqués dans l'action open data d'Oraccle. Suivez ce lien pour le programme.

Plan d'action

En 2022, nous avons opté pour un investissement plus fort qu'initialement prévu dans la montée en compétence des établissements partenaires de l'action via une série de formations qui se prolonge jusqu'en décembre 2022, avec notre prestataire Datactivist. En contrepartie nous n'avons pas investi dans des développements externes, ni documenté autant qu'il le faudrait l'action, ni organisé de hackathon.

Dans nos plans initiaux, l'année 2023 aurait dû être principalement consacrée à l'élaboration de l'API d'accès aux données ouvertes et aux installations nécessaires pour l'extraction des données des SI d'établissements. Nous avons d'ores et déjà une API fonctionnelle développée en interne et l'accès aux données SISE a changé la donne en termes de priorités. Notre travail en 2023 a donc plus porté sur la partie extraction des données SISE et design du service avec le public cible. Nous avons travaillé avec les collègues des services d'orientation sur une approche par persona et nous produisons actuellement des fictions pour nous aider à imaginer le service. Un hackathon à l'initiative de l'action « une seule voix » d'Oraccle fin novembre 2023 nous permettra d'échanger avec des lycéen·nes et étudiant·es sur le service à rendre avec nos données. Ce travail sur le design devrait se poursuivre la première moité de 2024 en y associant plus les publics cibles. En parallèle, nous travaillons sur nos données ouvertes pour en tirer le meilleur parti.

Actions passées

Pré-embarquement le 23 novembre 2021

Cette réunion de pré-embarquement d'une heure a eu lieu en visio le 23 novembre 2021. La présentation utilisée est consultable ici.

Déroulement

  1. Partage des objectifs du projet et de son contexte (échanges)
  2. Exemples d'ouverture de données dans l'enseignement supérieur et la recherche
  3. Feuille de route de notre groupe de travail (échanges)
  4. Les principaux enjeux (synthèse)

Quelques ressources en ligne

Ces sites institutionnels ou privés fournisse des ressources autour de l'open data pour l'enseignement supérieur et la recherche :

  1. la feuille de route du ministère de l'Enseignement Supérieur et de la Recherche en matière d'ouverture des données a été publiée le 28 septembre 2021
  2. Le portail #dataESR du ministère de l'Enseignement Supérieur et de la Recherche, nouveau point d'entrée référençant le portail de diffusion historique et le service/moteur de recherche ScanR.
  3. Le portail de diffusion des jeux de données ouverts du ministère (une instance OpenDataSoft), depuis 2015. Données de téléchargement (graphiques).
  4. Le portail open data du département des Hauts-de-Seine (instance OpenDataSoft) héberge les données ouvertes de l'université de Nanterre depuis 2015.
  5. Une expérimentation en données ouvertes sur les notices et emprunts à la BU de Paris 8 prévu « prêts vues ».
  6. Les jeux de données de scolarité de l'université Paris 13 (Sorbonne Paris Nord) avec des parcours d'études (une visualisation)
  7. La page ressources de la Coopérative Datactivist regorge de guides et réflexions autour de l'ouverture des données.
  8. L'agence de presse spécialisée AEF propose des publications Data Sup-Recherche offrant des données et des visualisations mais souvent en accès et réutilisation restreintes.
  9. Un exemple de publication de données ouvertes et liées en recherche (site en maintenance ?) http://stlab.istc.cnr.it/stlab/project/data-cnr/
  10. Association Open Data France https://www.opendatafrance.net/ (collectivités)
  11. EU Open Data Days https://op.europa.eu/en/web/euopendatadays/programme