Open data : pré-embarquement

pilotes actions 1.2

Created: 2021-11-30 mar. 12:34

Contexte

oraccle.png

  • Oraccle : UNIF, 10 ans, PIA 3.
  • 15 universités (IdF + Antilles) + 18 partenaires 🧩
  • 706 840 étudiant·es 🎓 8 actions
  • Contacts : Sandrine Fernandes, Laurent Ong

Objectifs

  • Action 1.2 Groupe de travail Open Data « autour de l’exploitation et de la valorisation de données ouvertes anonymisées liées aux parcours d’orientation, à des fins d’intérêts publics. »
  • « Mieux accompagner les jeunes … en cassant les stéréotypes tout au long de leur parcours d’études »
  • Détails de l'objectif ticket #1

Pilotes

  • Danielle Arnold et Céline Clouet, université Versailles Saint-Quentin
  • Véronique Mairesse et Pascal Romon, université Gustave Eiffel
  • Olivia Saywell et Pierre Boudes, université Sorbonne Paris Nord

Données ouvertes

Pourquoi ?

  • Confiance ☀️ objectivité, transparence
  • Interne : Une des vraies plu-values est l'amélioration des processus en interne et le dialogue entre les services (Rennes 2011).
  • Externe : effet de levier 🤽‍♀️
  • Écosystème 🛤 : devenir des étudiant·es 🚶‍♀️
  • « Infrastructure essentielle » Henri Verdier 🏗
  • Nouveaux services : 🧭 GPS de l'orientation

Parcours d'étude

  • On part des inscriptions des étudiant⋅es dans les formations

\[ \underbrace{\text{une personne}}_{\text{pseudonyme}} -\underbrace{\text{une formation}}_{\text{données liées}} - \underbrace{\text{une période donnée}}_{\text{année}} \]

  • on regroupe par pseudonyme (inter-établissements) puis par parcours similaires
  • on publie des groupes de même parcours sans les pseudonymes 🎭

Pourquoi ce(s) jeu(x) de données ?

  • Des données existantes, suffisamment massives et variées pour rester intéressantes une fois anonymisées
  • Du côté de la production réelle et non de l'offre
  • oser la sincérité
  • reproductible et vérifiable
  • Rester très conservateurs pour la protection des données personnelles

Publier les données

Feuille de route

  • Constituée par les jalons (milestones) dans le Gitlab de l'UNIF https://lab.unif.app/data/taches/-/milestones
  • Embarquement initial jusque fin février 2022
  • Montée en compétences, exploration jusque fin juin 2022
  • Prototypage (pilotes + ?) jusque fin 2022
  • Mise en production de la version 1 juillet 2023
  • Recette, formations, bilan mi-2023 à mi-2024
  • Version 2 : 2026-2028 …

Les principaux enjeux

  1. N'oublier personne à l'embarquement
  2. Pouvoir embarquer facilement de nouvelles personnes tout au long du projet donc documenter
  3. Démarche itérative : croiser rapidement les données de nos SI (exploration)
  4. chercher de nouvelles données
  5. Servir le dialogue d'orientation

Et après ?

  • Open Data by Design (Pégase remplaçant d'Apogée)
  • Matérialiser les visualisations (dataviz tangible, bac à sable)
  • Applications permettant un apport de données volontaires (résidence, mobilité, devenir après études) et l'enrichissement et la mise en qualité des données
  • 🎯 Données liées linked open data cinq étoiles, interconnexion
  • Reverser les données aux usagers self data

Anonymisation 🎭

  • Se prémunir du risque de divulger 👀 des données personnelles ou sensibles concernant nos étudiant·es
  • Un Hackathon en 2017 avec des chercheurs et chercheuses 🔬 a permis de se poser les questions d'anonymat sur les données à publier (nationalités, adresses, âges)

Techniques d'anonymisation

  1. Diminuer l'information : soit suppression, soit généralisation
    • Utilisation de la k-anonymisation (avec k = 5) : chaque trace apparaît au moins k fois dans le jeu. On supprime les traces rares.
    • Variante de la k-anonymisation : on conserve toutes les traces mais on oublie leur nombre en dessous d'un seuil (k = 10).
  2. Évaluation du risque de ré-identification ou d'information dérivée (exemple)

Généralisation

  • Il s'agit de regrouper les attributs ou les valeurs d'attributs pour supprimer les singularités
  • Attributs diplôme préparé, étape dans le diplôme remplacés par : Bac + 4
  • Attributs nationalité remplacé par le continent

Suppression

  • Isoler les valeurs trop singulières (rares) et supprimer les données associées
  • On supprime souvent des données de mauvaise qualité (erreurs de saisie)

K-anonymisation

  • Il s'agit de regrouper les entrées en clusters ou classes d'équivalence d'au moins k éléments équivalents ou égaux
  • Variante 1 (suppression) : on supprime les classes d'équivalence faiblement peuplées (k < 5)
  • Variante 2 (généralisation) : lorsque la taille du cluster est inférieure à un seuil ( k = 10) on ne conserve pas la cardinalité (« moins de 10 étudiants ont suivi le cursus DUT d'informatique puis master de lettres »).

L-diversité

  • garantir la diversité
  • ajouter du bruit

Pierre Boudes