Open data : pré-embarquement
pilotes actions 1.2
Created: 2021-11-30 mar. 12:34
Contexte
- Oraccle : UNIF, 10 ans, PIA 3.
- 15 universités (IdF + Antilles) + 18 partenaires 🧩
- 706 840 étudiant·es 🎓 8 actions
- Contacts : Sandrine Fernandes, Laurent Ong
Objectifs
- Action 1.2 Groupe de travail Open Data « autour de l’exploitation et de la valorisation de données ouvertes anonymisées liées aux parcours d’orientation, à des fins d’intérêts publics. »
- « Mieux accompagner les jeunes … en cassant les stéréotypes tout au long de leur parcours d’études »
- Détails de l'objectif ticket #1
Pilotes
- Danielle Arnold et Céline Clouet, université Versailles Saint-Quentin
- Véronique Mairesse et Pascal Romon, université Gustave Eiffel
- Olivia Saywell et Pierre Boudes, université Sorbonne Paris Nord
Pourquoi ?
- Confiance ☀️ objectivité, transparence
- Interne : Une des vraies plu-values est l'amélioration des processus en interne et le dialogue entre les services (Rennes 2011).
- Externe : effet de levier 🤽♀️
- Écosystème 🛤 : devenir des étudiant·es 🚶♀️
- « Infrastructure essentielle » Henri Verdier 🏗
- Nouveaux services : 🧭 GPS de l'orientation
Parcours d'étude
- On part des inscriptions des étudiant⋅es dans les formations
\[
\underbrace{\text{une personne}}_{\text{pseudonyme}} -\underbrace{\text{une formation}}_{\text{données liées}} - \underbrace{\text{une période donnée}}_{\text{année}}
\]
- on regroupe par pseudonyme (inter-établissements) puis par parcours similaires
- on publie des groupes de même parcours sans les pseudonymes 🎭
Pourquoi ce(s) jeu(x) de données ?
- Des données existantes, suffisamment massives et variées pour rester
intéressantes une fois anonymisées
- Du côté de la production réelle et non de l'offre
- oser la sincérité
- reproductible et vérifiable
- Rester très conservateurs pour la protection des données personnelles
Feuille de route
- Constituée par les jalons (milestones) dans le Gitlab de l'UNIF https://lab.unif.app/data/taches/-/milestones
- Embarquement initial jusque fin février 2022
- Montée en compétences, exploration jusque fin juin 2022
- Prototypage (pilotes + ?) jusque fin 2022
- Mise en production de la version 1 juillet 2023
- Recette, formations, bilan mi-2023 à mi-2024
- Version 2 : 2026-2028 …
Les principaux enjeux
- N'oublier personne à l'embarquement
- Pouvoir embarquer facilement de nouvelles personnes tout au long du projet donc documenter
- Démarche itérative : croiser rapidement les données de nos SI (exploration)
- chercher de nouvelles données
- Servir le dialogue d'orientation
Et après ?
- Open Data by Design (Pégase remplaçant d'Apogée)
- Matérialiser les visualisations (dataviz tangible, bac à sable)
- Applications permettant un apport de données volontaires (résidence, mobilité, devenir après études) et l'enrichissement et la mise en qualité des données
- 🎯 Données liées linked open data cinq étoiles, interconnexion
- Reverser les données aux usagers self data
Anonymisation 🎭
- Se prémunir du risque de divulger 👀 des données personnelles ou
sensibles concernant nos étudiant·es
- Un Hackathon en 2017 avec des chercheurs et chercheuses 🔬 a permis de se poser les questions d'anonymat sur les données à publier (nationalités, adresses, âges)
Techniques d'anonymisation
- Diminuer l'information : soit suppression, soit généralisation
- Utilisation de la k-anonymisation (avec k = 5) : chaque trace apparaît au
moins k fois dans le jeu. On supprime les traces rares.
- Variante de la k-anonymisation : on conserve toutes les traces mais on oublie leur nombre en dessous d'un seuil (k = 10).
- Évaluation du risque de ré-identification ou d'information dérivée (exemple)
Généralisation
- Il s'agit de regrouper les attributs ou les valeurs d'attributs pour supprimer les singularités
- Attributs diplôme préparé, étape dans le diplôme remplacés par : Bac + 4
- Attributs nationalité remplacé par le continent
Suppression
- Isoler les valeurs trop singulières (rares) et supprimer les données associées
- On supprime souvent des données de mauvaise qualité (erreurs de saisie)
K-anonymisation
- Il s'agit de regrouper les entrées en clusters ou classes d'équivalence d'au moins k éléments équivalents ou égaux
- Variante 1 (suppression) : on supprime les classes d'équivalence faiblement peuplées (k < 5)
- Variante 2 (généralisation) : lorsque la taille du cluster est inférieure à un seuil ( k = 10) on ne conserve pas la cardinalité (« moins de 10 étudiants ont suivi le cursus DUT d'informatique puis master de lettres »).
L-diversité
- garantir la diversité
- ajouter du bruit