Site collaboratif de documentation de l'action groupe de travail open data du projet Oraccle. Propulsé par mdBook sur le Gitlab de l'UNIF.
Présentation (Oraccle)
Premier projet fédérateur en matière d’orientation en Île-de-France, Oraccle (Orientation Régionale pour l’Accompagnement du Continuum Lycéens – Étudiants), déploie huit actions pour créer un vértiable écosystème régional de l’orientation. Porté par l’UNIF et réunissant 35 partenaires, Oraccle ambitionne de faciliter l’orientation bac-3/bac+3 au travers de huit actions :
- Immersions dans le Sup, des événements participatifs permettant de découvrir les études supérieures pour les lycéens et lycéennes, dont mon projet dans le Sup en 180 secondes;
- Faire de la donnée une alliée pour l'orientation, groupe de travail et formations à la culture des données et aux données ouvertes, publication de données et production de services dérivés;
- Une seule voix, pour décrire de façon simple et claire l'offre de formation au travers d'un outil commun;
- Les événements du supérieur en un clic, en partenariat avec le portail ORIANE de la Région et les ENT des lycées;
- L'ambassade universitaire, 300 ambassadeurs et ambassadrices des universités franciliennes;
- Kit pédagogique pour l'orientation, état des lieux des outils mis à disposition des équipes pédagogiques et améliorations
- Accompagner spécifiquement les lycéennes et lycéens ultra-marins via un programme spécifique;
- Faire du re-choix un tremplin, développement d'outils et services permettant de faciliter les changements de parcours.
Objectifs de l'action
Notre groupe de travail sur l'ouverture des données dans l'enseignement supérieur est au service de l’orientation sur le territoire d’Île-de-France. Notre objectif est de proposer de nouveaux services à valeurs ajoutées pour les lycées, les familles et les étudiants et étudiantes autour des données des établissements, en nous inscrivant dans une démarche d'ouverture des données. Notre action a également our ambition de diffuser dans les universités une culture de l'ouverture des données qui vienne compléter la culture science ouverte, en incluant les données de gestion dans le périmètre d'ouverture. Cette diffusion se fait par des échanges et des formations entre partenaires du projet Oraccle autour de la consitution de notre groupe de travail.
Données
Jeux de données produits
Nous avons produit un jeu de données le 7 septembre 2023 et nous l'avons publié sur la plateforme data.gouv.fr avec la documentation suivante. Ce jeu de données utilise les remontées SISE des établissements (voir plus bas).
Avant cela nous n'avions produit que des jeux de données prototypes en reprenant le travail pionnier d'ouverture de données de l'université Sorbonne Paris Nord. Un petit service web de consultation avec une API et quelques pages de consultation directe est à l'essai ici https://data.unif.app sur le dernier jeu de données produit dans ce cadre.
Nous avons un nouveau jeu de données en préparation avec quelques modifications du format. son prototype est documentée ici. Nous comptons le publier lorsque nous aurons eu accès aux remontées SISE sur les inscriptions 2023-2024, pour pouvoir en tenir compte.
Prochaine publication mi-octobre 2024.
Accès aux données sources
Comment a-t-on accès à des données que l'on puisse transformer de façon à les ouvrir ? Dans notre action, nous travaillons dans deux directions.
Nous pouvons utiliser les données des établissements en particulier les données de scolarité, mais également toute donnée d'intérêt pour l'orientation que nous pourrons identifier (par exemple, les données des plateformes de candidatures). Jusqu'à récemment nous avions travaillé exclusivement sur les données de scolarité de l'université Sorbonne Paris Nord dont la démarche d'ouverture est à l'origine de notre action.
Données SISE
Une alternative à la collecte directe de données dans chaque établissement est l'exploitation des remontées SISE (système d'information pour le suivi des étudiants). Ces données de scolarité sont fournies par chaque établissement, en janvier, à la sous-direction des systèmes d'information et des études statistiques (SIES) du ministère de l'Enseignement Supérieur et de la Recherche.
L'intérêt est double, puisque la centralisation de ces données nous évite de conventionner avec chaque établissement pour l'accès aux données de son SI et que cela permet de couvrir beaucoup plus largement les établissements du supérieur. En nous limitant actuellement à l'Île-de-France.
Le comité du secret statistique réuni le 6 octobre 2022 a accepté notre demande d'accès. Notre accès est totalement effectif depuis mars 2023 via le CASD (Centre d'Accès Sécurisé aux Données), un GIP qui opère un service permettant de consulter des données administratives y compris non anonymes, avec des contraintes de confidentialité fortes.
Cela fonctionne avec un serveur de projet déconnecté d'Internet auquel nous nous connecterons avec un équipement dédié (appelé une SD-Box). Tous les fichiers que nous voudrons extraire du serveur sont vérifiés par la CASD. Ainsi nous bénéficions d'une sécurté supplémentaire pour nous prémunir du risque d'une mauvaise anonymisation.
Combinaison des deux approches
Avec SISE la granularité de l'information es inférieure à ce que nous obtenons en travaillant directement sur des données des systèmes d'information de scolarité. Mais les données des deux types peuvent être utilisées de façon complémentaires, un parcours d'études sur lequel nous avons une information plus fine via un SI d'établissement pourra ainsi être complété par des étapes que nous ne connaissions pas, et nous aurons ainsi la meilleure complétude des parcours d'études.
Par contre, le recollement de données entre SI plus précis et SISE ne pourra se faire qu'avant le traitement d'anonymisation. Cela suppose donc de le faire dans l'environnement contrôlé mis à disposition par le CASD. À l'avenir il devrait être possible pour chaque établissement de transmettre des données au CASD (en les chiffrant avec leur clé PGP) qui se chargera de nous les mettre à disposition. Cela nous permettra de les associer aux données SISE et de produire un jeu de données ouvert incluant les informations affinées par l'établissement.
Notre projet n'a pas vocation à produire des jeux de données privés, moins anonymisées (typiquement pseudonymisées), par exemple pour le pilotage des universités. Toutefois les logiciels que nous produisons sont sous licence libre et on peut y paramétrer une anonymisation moins destructive qui reviendrait à une pseudonymisation. Cela peut être utile pour un établissement qui voudrait mettre en place un service interne avec de telles données, sans possibilité de les croiser avec les données SISE.
Autres données
Notre groupe travaille également sur l'identification de nouveaux gisements de données d'intérêt pour l'accompagnement des élèves, ou des étudiants et étudiantes. Selon la difficulté d'accès aux sources et leur intérêt comparé, nous pourrons dans un second temps nous atteler à la création de nouveaux jeux de données ouvertes (par exemple, concernant les plateformes de candidature) ou à l'exploitation de jeux existants pour créer de nouveaux services (par exemple, utiliser la localisation des établissements pour tenir compte de contraintes de logement et de transport dans les curus).
Rendez-vous mensuels
Un rendez-vous mensuel de type salle ouverte réunit les membres du projet le premier mercredi de chaque mois à 9h00. Voir l'agenda des partenaires sur le site https://oraccle.fr ou contacter opendata@unif.fr pour participer.
Plateforme de gestion de projet et de documentation
Nous utilisons la plateforme Gitlab de l'UNIF pour la gestion de tâche, la documentation et l'hébergement des données ouvertes et des codes sources des logicels produits, tous sous licence libre EUPL V1.2. Notre groupe s'appelle data (demander un accès à opendata@unif.fr), et nos productions logicielles sont publiées dans le groupe opendata.
Une équipe sur le Mattermost de l'UNIF permet des conversations écrites sur le projet. Mattermost est indiqué pour des conversations qui peuvent être décousues dans le temps et que l'on souhaite conserver. Ce type de plateforme permet également des échanges rapides et plus informels que par mail, dans notre cas elle n'est toutefois pas indiquée pour contacter rapidement des membres du projet à moins d'explicitement les mentionner. Un guide rapide pour nous rejoindre est disponible sur cette page : Gitlab et Mattermost.
Ateliers et formations
Nous avons lancé en juin 2022 et poursuivi à l'automne 2022 une série d'ateliers de formation à la data, l'open data, l'exploitation de gisement de données et la visualisation de données, en direction des membres du projet impliqués dans l'action open data d'Oraccle. Suivez ce lien pour le programme.
Plan d'action
En 2022, nous avons opté pour un investissement plus fort qu'initialement prévu dans la montée en compétence des établissements partenaires de l'action via une série de formations qui se prolonge jusqu'en décembre 2022, avec notre prestataire Datactivist. En contrepartie nous n'avons pas investi dans des développements externes, ni documenté autant qu'il le faudrait l'action, ni organisé de hackathon.
Dans nos plans initiaux, l'année 2023 aurait dû être principalement consacrée à l'élaboration de l'API d'accès aux données ouvertes et aux installations nécessaires pour l'extraction des données des SI d'établissements. Nous avons d'ores et déjà une API fonctionnelle développée en interne et l'accès aux données SISE a changé la donne en termes de priorités. Notre travail en 2023 a donc plus porté sur la partie extraction des données SISE et design du service avec le public cible. Nous avons travaillé avec les collègues des services d'orientation sur une approche par persona et nous produisons actuellement des fictions pour nous aider à imaginer le service. Un hackathon à l'initiative de l'action « une seule voix » d'Oraccle fin novembre 2023 nous permettra d'échanger avec des lycéen·nes et étudiant·es sur le service à rendre avec nos données. Ce travail sur le design devrait se poursuivre la première moité de 2024 en y associant plus les publics cibles. En parallèle, nous travaillons sur nos données ouvertes pour en tirer le meilleur parti.
Actions passées
Pré-embarquement le 23 novembre 2021
Cette réunion de pré-embarquement d'une heure a eu lieu en visio le 23 novembre 2021. La présentation utilisée est consultable ici.
Déroulement
- Partage des objectifs du projet et de son contexte (échanges)
- Exemples d'ouverture de données dans l'enseignement supérieur et la recherche
- Feuille de route de notre groupe de travail (échanges)
- Les principaux enjeux (synthèse)
Quelques ressources en ligne
Ces sites institutionnels ou privés fournisse des ressources autour de l'open data pour l'enseignement supérieur et la recherche :
- la feuille de route du ministère de l'Enseignement Supérieur et de la Recherche en matière d'ouverture des données a été publiée le 28 septembre 2021
- Le portail #dataESR du ministère de l'Enseignement Supérieur et de la Recherche, nouveau point d'entrée référençant le portail de diffusion historique et le service/moteur de recherche ScanR.
- Le portail de diffusion des jeux de données ouverts du ministère (une instance OpenDataSoft), depuis 2015. Données de téléchargement (graphiques).
- Le portail open data du département des Hauts-de-Seine (instance OpenDataSoft) héberge les données ouvertes de l'université de Nanterre depuis 2015.
- Une expérimentation en données ouvertes sur les notices et emprunts à la BU de Paris 8 prévu « prêts vues ».
- Les jeux de données de scolarité de l'université Paris 13 (Sorbonne Paris Nord) avec des parcours d'études (une visualisation)
- La page ressources de la Coopérative Datactivist regorge de guides et réflexions autour de l'ouverture des données.
- L'agence de presse spécialisée AEF propose des publications Data Sup-Recherche offrant des données et des visualisations mais souvent en accès et réutilisation restreintes.
- Un exemple de publication de données ouvertes et liées en recherche (site en maintenance ?) http://stlab.istc.cnr.it/stlab/project/data-cnr/
- Association Open Data France https://www.opendatafrance.net/ (collectivités)
- EU Open Data Days https://op.europa.eu/en/web/euopendatadays/programme
Ce texte est identique à la description du jeu de données que nous avons déposé ici : https://www.data.gouv.fr/fr/datasets/parcours-detudes-dans-lenseignement-superieur-en-ile-de-france-a-partir-des-donnees-sise-2022-2023/ .
Données sources
Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2022. Soit les années universitaires 2010-2011 à 2022-2023. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Pour se conformer à la demande d'accès à ces données que nous avions formulée nous nous sommes limités aux données concernant les académies de Paris, Créteil et Versailles. Nous envisageons d'étendre notre demande d'accès de façon à produire des données de portée nationale.
L'exploitation de ces données sources a été réalisée le 7 septembre 2023.
Données produites
L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites.
Pour plus d'informations sur le projet Oraccle voir le site https://oraccle.fr et sur l'action open data de ce projet voir la documentation https://data.pages.unif.app.
Les données sources nécessitent d'accéder à des codifications auxiliaires pour être comprises. Nous avons conservé ces références externes dans les données produites.
Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements (https://www.education.gouv.fr/acce_public/search.php?mode=advanced) et sur le portail open data de ce ministère (https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/).
Les codes SISE des diplômes étaient accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse. Ce portail appelé Infocentre apparait comme fermé, mais il fournit une base centrale des nomenclatures, https://infocentre.pleiade.education.fr/bcn/, où l'on peut retrouver les codes SISE de diplôme y compris avec des mises à jour très récentes https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.
La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5, avec un peu moins d'effacement. Cette méthode est détaillée plus bas.
Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.
Les données sources concernent 1,5 millions de parcours individuels (exactement 1 518 563 individus).
Fichier formations.csv
Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.
- formation: code construit en concaténant l'identifiant de composante (code UAI), l'identifiant de diplôme (code SISE) et, lorsque l'information existe, le degré d'étude (DEGETU des données SISE)
- acaeta: académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)
- compos: le code UAI de la composante (code établissement ou code d'une composante de l'établissement)
- cursus-lmd: L, M ou D selon le type de cursus
- cycle: 1, 2 ou 3 selon le cycle concerné
- degetu: degré d'étude (le n du bac + n)
- diplom: code SISE du diplôme. Le code commence par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master indifférencié), 221 (master professionnel), 222 (master recherche), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master). Les codes suivent soit la nomenclature nationale dans le cas de diplômes nationaux soit une nomenclature ad-hoc lorsqu'ils concernent des diplômes universitaires (donc créés par les établissements).
- etabli: code UAI de l'établissement, il peut être différent du code composante
- groupe: groupe disciplinaire selon la nomenclature SISE
- sectdis: code à deux chiffres représentant le secteur disciplinaire du diplôme (52 valeurs possibles dans la nomenclature SISE).
- typ-dipl: type de diplôme (codé sur deux caractères).
précaution d'anonymisation : aucune.
nombre de lignes (formations) : 54 132.
Fichier cohortes.csv
Une cohorte est caractérisée par deux données, d'une part une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes et d'autre part un ensemble de formations réussies, ensemble organisé en séquence croissante selon l'ordre lexicographique. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions avec exactement cet ensemble de réussites est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est alors remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne). La séquence d'inscriptions ainsi que la liste des réussites sont conservés. Les années d'inscriptions ou de réussite ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence.
- cohorteid: identifiant numérique de la cohorte
- effectif: nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.
- inscriptions: séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation.
- réussites: ensemble des réussites dans des formations, codifiées par des codes formation et organisées par ordre lexicographique sous la forme d'une chaîne utilisant "+" comme séparateur.
Nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières (moins de 5 individus dans la cohorte) et de le remplacer un zéro. Cette anonymisation des cohortes nous fait perdre 0,5 millions (543 180) de parcours individuels trop spécifiques pour être publiés dans les données produites. Cela se traduit par 473_001 cohortes ayant un effectif masqué par un zéro. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1,148 personnes.
nombre de lignes (cohortes) : 503 882.
nombre de cohortes avec un effectif non masqué : 30 881.
Attributs des cohortes
Les personnes composant chaque cohorte étaient porteuses d'attributs :
- sexe (champ SISE binaire)
- type de bac obtenu (regroupement selon 8 valeurs)
- année d'obtention du bac
- année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription en Île-de-France)
- année de fin de la séquence d'inscriptions dans la cohorte (dernière année d'inscription en Île-de-France)
- spécialités de terminale au bac général (introduites en 2021)
Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes ayant obtenues leurs bac en 2015.
De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :
- si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
- si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
- si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
- si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.
Fichier cohorte-bac.csv
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- bac-rgrp: la valeur de l'attribut bac-rgrp selon la nomenclature SISE : 1 littéraire, 2 économique, 3 scientifique, 4 techno STT, 5 autres technos, 6 professionnel, 7 dispense, A bac général (2021), vide.
Fichier cohorte-anbac.csv
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- anbac: la valeur de l'attribut année du bac.
Fichier cohorte-sexe.csv
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- sexe: la valeur de l'attribut sexe (selon la nomenclature SISE deux valeurs possibles : 1 hommme, 2 femme).
Fichier cohorte-premiereins.csv
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- annee: la valeur de l'attribut première année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.
Fichier cohorte-derniereins.csv
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- annee: la valeur de l'attribut dernière année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.
Fichier cohorte-age-premiereins.csv
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- annee: la valeur de l'attribut age au moment de la première inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.
Fichier cohorte-spe.csv
Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_SPECIALITE_BAC_2021_SISE
- cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
- effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
- bac-spe1: la première valeur de l'attribut paire de spécialités au bac
- bac-spe2: la seconde valeur de l'attribut paire de spécialités au bac
Future publication
Notre prochaine publication de données est en cours de préparation. Elle sera rendue disponible dès que nous aurons eu accès aux remontées SISE sur les inscriptions pour l'année universitaire passée 2023-2024, sans doute courant septembre 2024.
Les principales nouveautés sont que nous ne tenons plus compte des réussites dont le retard par rapport aux inscriptions produit trop d'écarts dans les données produites. Une cohorte est donc déterminée uniquement par sa séquence d'inscriptions. Nous tenons désormais mieux compte des inscriptions principales dans plusieurs établissements différents la même année.
Cela requiert un travail plus fin pour identifier et éliminer les doublons dans les remontées SISE.
Nous espérons pouvoir publier les données France entière en plus des données Île-de-France.
La documentation CASD qui suit est celle que nous communiquons au CASD pour expliquer notre extraction. Elle est encore susceptible d'évoluer puisque nous comptons ajouter quelques informations aux cohortes. La documentation complète sera fournie à la publication du nouveau jeu, ici sur le site data.gouv.fr.
Parmi les nouveautés, nous ajouterons prochainement un taux de complétude des cohortes qui traduira la proportion de séquences d'inscription qui se sont arrêtées il y a plus d'un an par rapport à l'effectif total de la cohorte. Ce taux ne nous semble pas devoir faire l'objet d'une k-anonymisation comme nous la faisons sur les autres attributs des cohortes.
Nous ajouterons des données annexes issues d'un retravail ortho-typographique sur les référentiels SISE qui doit nous permettre de présenter des libellés plus conformes à l'orthographe et à la typographie française et, si possible, plus intelligibles. Ces données en cours de préparation sont disponibles dans toute une première version de travail. Voir la section Référentiels ortho-typographiés.
Documentation CASD
Données sources
Les données sources sont les données SISE sur les inscriptions entre 2010 et 2022. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Nous avons crée deux jeux de données un se limitant à l'Île-de-France c'est-à-dire aux académies de Paris, Creteil et Versailles et un France entière.
Objectif
L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété de façon à enrichir le dialogue d'orientation. Les données produites s'attachent préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites. Les données France entières nous permettent de compléter les parcours qui ont connu une mobilité avec l'Île-de-France et de comparer les parcours avec les autres régions et académies.
IL y a donc deux dossiers contenant chacun exactement les mêmes fichiers, l'un pour la France entière et l'autre pour l'Île-de-France uniquement.
Fichier formations.csv
Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant·es d'après les données SISE restreinte à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.
formation : code construit en concaténant lorsque l'information existe, le degré d'étude (DEGETU des données SISE), l'identifiant de diplôme (code SISE) et l'identifiant de composante (code UAI).
acaeta : académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)
compos : le code UAI de la composante (code établissement ou code d'une composante de l'établissement)
cursus-lmd : L, M ou D selon le type de cursus
cycle : 1, 2 ou 3 selon le cycle concerné
degetu : degré d'étude (le n du bac + n)
diplom : code SISE du diplôme. Le code par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master ind), 221 (master pro), 222 (master rech), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master).
etabli : code UAI de l'établissement si différent du code composante
groupe : groupe disciplinaire selon la nomenclature SISE
sectdis : code à deux chiffres représentant le secteur disciplinaire du dîplome (52 valeurs dans la nomenclature SISE)
typ-dipl : type de diplôme (codé sur deux caractères)
précaution d'anonymisation : aucune.
Fichier cohortes.csv
Une cohorte est caractérisée par une séquence d'inscriptions principales dans des établissements supérieurs organisée selon les années croissantes. Les années d'inscriptions ne sont pas retenues. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne).
cohorteid : identifiant numérique de la cohorte
effectif : nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.
inscriptions : séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation. En cas d'année avec des inscriptions dans plusieurs établissements ces inscriptions sont jointes par le caractère "&".
Attributs des cohortes
Les personnes composant chaque cohorte étaient porteuses d'attributs :
- sexe
- type de bac obtenu
- année d'obtention du bac
- année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription au sens des données SISE en Île-de-France)
- spécialités de terminale au bac général (introduites en 2021)
Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes aynat obtenues leurs bac en 2015.
De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :
- si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
- si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
- si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
- si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
- si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.
Fichier cohorte-bac.csv
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
bac-rgrp : la valeur de l'attribut bac-rgrp (selon la nomenclature SISE)
Fichier cohorte-anbac.csv
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
anbac : la valeur de l'attribut année du bac.
Fichier cohorte-sexe.csv
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
sexe : la valeur de l'attribut sexe (selon la nomenclature SISE : 1 hommme, 2 femme).
Fichier cohorte-premiereins.csv
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
annee : la valeur de l'attribut première année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.
Fichier cohorte-derniereins.csv
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
annee : la valeur de l'attribut dernière année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.
Fichier cohorte-age-premiereins.csv
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
annee : la valeur de l'attribut age au moment de la première inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.
Fichier cohorte-spe.csv
Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique.
cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué
bac-spe1 : la première valeur de l'attribut paire de spécialités au bac
bac-spe2 : la seconde valeur de l'attribut paire de spécialités au bac
Référentiels SISE
Les référentiels SISE sont nécessaires pour interpéter les données issues de notre extraction. Vous en trouverez une version téléchargée du 5 mai 2024 ici :
- n_academie_et_assimile_.csv
- n_secteur_disciplinaire_sise_.csv
- n_diplome_sise_.csv
- n_type_diplome_sise_.csv
- n_discipline_sise_.csv
Référentiels ortho-typographiés
Les données SISE font référence à des codes de diplômes, des disciplines, des secteurs disciplinaires et à une codification particulière des spécialités du bac par libellés courts dont l'ensemble des libellés sont orthographiés tout en majuscules, sans signes diacritiques (accents, cédilles) et sans respect des règles typographiques (XXEME au lieu de XXᵉ etc.). Nous avons décidé de produire des fichiers de normalisation orthotypographiques de ces libellés. Le plus long à traiter totalement est celui décrivant l'ensemble des près de 50 000 diplômes référencés.
Vous trouverez ici en avant première ces fichiers dans leur état actuel, à chaque fois la colonne avec les libellés de meilleure qualité est la dernière et les colonnes précédentes servent à établir la correspondance avec les codes ou libellés employés dans la codification SISE.
Fictions
« Imaginer et raconter sous la forme d'une fiction prenant place dans un futur proche (5 ans) comment l'action open data d'Oraccle a changé les choses dans le paysage francilien en termes de services rendus. »
Vous aussi vous pouvez participer en nous faisant parvenir votre fiction avant le 20 novembre 2023 !
Fiction 1
En janvier 2028, j’étais en seconde et je m’intéressais aux études de médecine et aussi au monde animal. Mais mes parents pensaient que mon niveau scolaire était insuffisant pour une réussite dans cette voie. J’ai donc cherché des informations pour savoir si mon profil avait des chances de réussir. J’ai ainsi pu trouver plusieurs résultats. J’ai vu que les personnes admises en L1 PASS avaient parfois des résultats conformes aux miens.
Mes parents se sont connectés sur la plateforme ParcourSup pour obtenir plus de renseignements. Ils ont pu télécharger les infos suivantes : le nombre de lycéens de ma région qui ont été acceptés en L1 PASS, et en quels parcours ils se sont répartis. Beaucoup étaient en L2 Gériatrie (nous avions vu que cette filière offrait le plus de places).
Arrivée en terminale, je voulais savoir si cette voie me permettait de récupérer un master en biologie animale (plus facile peut-être que la gestion des personnes âgées). J’ai ainsi vu qu’une personne avait pu suivre cette trajectoire et cela m’a rassurée.
Mon professeur d’histoire, très intéressé par les informations que j’avais pu collecter, a été imprimer un fichier décrivant tous les parcours possibles après un master MEEF, soit 1069 données disponibles. Il a repéré 6 poursuites intéressantes. Je crois qu’il veut nous quitter !
Fiction 2 — témoignages
Les données sur les parcours d’études m’ont aidé à trouver des idées d’orientation. J’étais vraiment stressée par mon orientation après le bac, d’autant que je ne savais du tout vers quoi me diriger. Heureusement, lors d’une réunion organisée par mon lycée, on nous a montré des graphiques sur les parcours d’études fait avec des données des années précédentes. J’ai découvert des filières qui pouvaient m’intéresser en fonction de mes spécialités. Ensuite, je me suis renseignée sur le site Une Seule Voix pour en savoir plus sur les formations. Puis, je suis allée aux Journées Portes Ouvertes des établissements qui m’intéressaient. C’est comme ça que j’ai pu décider de mes vœux sur Parcoursup. Mais en attendant les résultats, je dois encore réussir mon bac ! Capucine, élève en terminale générale
Après le bac, je me suis retrouvé dans une formation qui ne me plaisait pas du tout. Je voulais changer mais j’avais peur de me réorienter. Je me disais qu’après ça, j’aurai moins de chances de pouvoir faire un master. J’ai voulu en avoir le cœur net et j’ai cherché des infos sur Internet. C’est comme ça que j’ai trouvé cet article qui parlait des d’études dans le supérieur. A partir de vraies données sur les parcours d’étudiants, il montrait que, parmi les étudiants diplômés de master, plus de 50% avaient changé de filière de formation ou redoublé au cours de leur licence. Après ça, je me suis dit : « pourquoi pas moi ? ». Je me suis réorienté et maintenant je suis en master et je m’y plais beaucoup. Noah, élève en Master 1
Quand notre fils nous a annoncé qu’il voulait devenir roboticien, nous étions partagés. D’un côté, il avait l’air d’avoir trouvé sa voie, ce qui nous rassurait. D’un autre côté, nous étions désemparés. Quelles études faire pour devenir roboticien ? Après quelques recherches, nous avons trouvé qu’il fallait faire une école d’ingénieur en électronique, mécatronique, informatique ou encore robotique. Certes, ça réduisait le champ de recherches. Mais comment choisir ? Quel est le parcours le plus indiqué ? Personne n’est ingénieur dans notre famille ! Et puis, on m’a parlé d’un site qui permet de comparer les parcours d’études. C’est comme ça que nous avons trouvé les parcours qui permettaient le mieux de réussir et de trouver du travail en tant que roboticien. Aujourd’hui, son avenir nous préoccupe toujours, mais la question est juste de savoir s’il réussira ses études pour devenir roboticien. Annie et Paul, parents d’élève
Je reçois régulièrement des étudiants en psychologie qui veulent poursuivre en master, mais qui ne sont pas surs de vouloir rester en psychologie. Pour certains la question de faire une pause entre la licence et le master se pose. Ils ont besoin de temps pour réfléchir. Pour les aider, je leur montre le site monmaster où on voit que la licence de psychologie n’est pas seulement conseillée pour les mentions de master en psychologie. Elle ouvre d’autres portes. Ensuite, je vais sur Une Seule Voix où je leur montre les parcours d’études réels que d’autres étudiants en licence de psychologie ont suivi avant eux. Cela les rassure beaucoup ! Ils voient ainsi que beaucoup avant eux ont bifurqué, fait des pauses dans leurs études ou même pris plus de temps pour finir leurs études. Ca les décomplexe et souvent ils repartent avec plein d’idées sur la manière de poursuivre leur voie et une motivation renouvelée pour finir leur licence ! Cécilia, psychologue de l’orientation en SCUIO-IP
En tant que Responsable de licence pro, ma priorité est d’accueillir des étudiants motivés par cette formation et de les mener à la réussite. Avant nous avions du mal à compléter nos effectifs et nous avons même eu peur d’être amenés à devoir l’arrêter, alors que les besoins existent pour les compétences auxquelles nous formons les jeunes. Grâce aux données sur les parcours d’études, nous avons montré la diversité des parcours d’origine mais aussi des parcours qui peuvent exister après cette licence pro. Cela nous a aidé à améliorer notre communication et nos cibles pour le recrutement des étudiants. Et aujourd’hui, je ne m’inquiète plus du manque d’effectifs, mais plutôt de la demande ! Yannick, responsable de licence pro en IUT
Fiction 3 — Alma
Alma préparait sa rentrée en master. Elle l'avait choisi après de mûres réflexions nourries par ses réveries. Elle s'adonnait à présent à l'une de ces rêveries devant l'oraccle qu'elle affectionait. Alma avait rencontré l'oraccle en première, lors d'une journée porte ouvertes dans l'université la plus proche de chez elle. L'oraccle, comme elle l'appelelait avec ses amies, se cachait ce jour-là dans le sable au creux d'un bac posé sur une table. Un projecteur dessinait sur le sable blanc un nuage de mots, de points et traits qui l'avait fascinée. En applanissant le sable de ses mains dans le bac, on retrouvait toutes les formations qui lui seraient accessibles après le bac et en creusant elle retrouvait les spécialités de niveau master auxquelles elles ouvraient. Pour être honnête, ça n'était souvent pas très lisible. Le dispositif s'appelait les voies du bac à sable et le jeu de mot rappelait sa nature artistique et récréative.
Mais Alma avait rapidement trouvé comment arranger le sable pour que le dessin prenne suffisamment sens. Une personne d'un service d'orientation de l'université lui avait alors montré comment sélectionner les spécialités du bac de son choix et faire apparaître en couleur des trajectoires d'étudiant⋅es qui l'avaient précédé avec ces spécialités. S'en était suivi une discussion avec la personne du service d'orientation sur son choix de spécialités et sur une éventuelle poursuite en licence, les mains dans le sable. C'est après cette discussion qu'elle s'était sentie décidée et qu'elle avait formé le plan de rejoindre l'université Silice des Vents.
Par la suite, Alma avait pu retrouver un dispositif similiaire à celui du bac à sable, accessible sur son mobile. Ça n'était pas simple parce que l'écran était beaucoup plus petit, mais elle avait vite trouvé comment en tirer son parti. Elle avait pu choisir une couleur pour les trajectoires d'études issues de son lycée, puis pour les trajectoires passant par sa licence. Elle retrouvait ainsi sur l'écran des nuages de personnes inconnues avec qui elle partageait un bout de parcours d'étude. Elle avait continué d'utiliser l'oraccle une fois à l'université et s'en servait de temps en temps pour chercher la coloration des formations en fonction de son propre parcours et se faire une idée sur la composition type de sa promo. Elle avait souvent montré l'oraccle à ses ami⋅es pour les aider à s'orienter à leur tour ou simplement en spéculant sur les trajectoires de leurs ancien⋅nes camarades.
Aujourd'hui elle regardait ce qu'elle pourrait faire après son master. Alma était décidée à trouver un travail rapidement et donc à faire un stage professionalisant. Pour cela, l'oraccle lui proposait une assistance à la recherche de stage avec de vraies offres d'entreprises recrutant dans son domaine. Elle savait qu'elle pourrait s'en servir pour commencer à se construire son réseau pro. C'était d'ailleurs le nom du portail vers lequel l'oraccle l'avait aiguillé pour la recherche de stages, Réseau Pro. Facile à retenir.
En explorant l'interface, Alma avait aussi remarqué que les établissements supérieurs proposaient de plus en plus de formations tout au long de la vie, que ce soient des formations professionnelles payées par l'employeur, des compléments de formations sous formes de DU ou de véritable moyens de repartir sur de nouvelles bases dans un nouveau domaine. L'oraccle lui montrait dans son interface « une seule voix » que l'offre était en train de s'étoffer. Il y avait même déjà quelques trajectoires similaires à la sienne au début qui revenaient aux études par des voies complétement différentes, c'est d'ailleurs ainsi qu'elle avait découvert ces offres de formations tout au long de la vie. Alma s'imaginait volontiers à son tour reprendre les études après quelques années d'une première expérience professionnelle. Savoir que c'était possible l'aidait à se projeter dans son cursus actuel sans crainte de s'être définitivement fermée d'autres portes.
Fiction 4 — COSMOS
Le 4 janvier 2030, Bérénice passe les portes du plus grand service interactif des universités franciliennes : Le COSMOS (Centre d’Orientation Spécifique Majeur pour une Ouverture vers le Supérieur).
Accueillie par un des rares personnels encore présent sur le campus, elle a été convoquée pour passer le test de l’IA suivi d’un entretien avec un « appui conseil individual ».
Bérénice entre dans la cabine sombre et suit à la lettre les instructions techniques pour son analyse.
Après 45 minutes de test, de questions et d’introspection, elle ressort de la DATABOX riche de cette nouvelle expérience.
Elle est reçue par un conseiller qui lui transmet son bilan numérique personnalisé contenant toutes les options qui s’offrent à elle ainsi que les statistiques sur sa réussite et ses perspectives d’insertion professionnelle.
Avec l’Open Data ORACCLE, ces bilans sont maintenant possibles et extrêmement fiables. Elle ressort du COSMOS, la tête dans les nuages, en ayant des perspectives sur les trois voies envisagées et beaucoup plus sûre de son projet.
Elle connait les stratégies, les filières, les entreprises, les stages envisageables et surtout son choix est limpide : elle sera astronaute !
Fiction 5 — ODO
« Ce que l'action Open Data a changé dans le paysage francilien de l'orientation en 2030 »
Nous sommes en décembre 2030, l’expérimentation ORACCLE et son action Open Data arrive à son but ! Elèves du secondaire et leurs familles, étudiantes et étudiants de l’enseignement supérieur mais également équipes éducatives, équipes pédagogiques et personnels d’orientation se sont fait des relais indispensables pour porter au plus haut cette action d’ouvrir la question de l’orientation et de l’aide à la décision à la culture des sciences ouvertes.
Open Data d’Oraccle (ODO), c’est désormais :
- une liste de ressources rédigées et publiées par une équipe portant sur l’attractivité des formations sur le territoire francilien : parcours de réussite des bachelières et bacheliers ; les données géographiques des établissements et de leurs campus afin de faire le lien avec la facilité d’accès en transports ; des données sur l’accessibilité pour favoriser les établissements handi-engagés (aménagements des locaux, adaptations des enseignements, …) ;
- un réseau de données à un niveau local (par établissement) et régional notamment sur l’aspect pédagogique des formations post-bacs : il ne s’agit pas de confronter les formations pour les évaluer entre elles, mais davantage favoriser une dynamique collaborative entre les équipes pédagogiques des établissements d’enseignement supérieur pour accompagner la création de nouveaux cursus complémentaires et le partage de contenus pédagogiques ;
- un partage de calendriers des stages, des rythmes d’alternance pour le supérieur ou encore des périodes d’examens sont affichées : un signal fort à destination des professionnels de l’orientation et de l’insertion professionnelle qui permet d’organiser depuis 5 ans, au niveau régional, des ateliers et conférences d’accompagnement des publics (lycéens, étudiantes et étudiants en réorientation) sur des thématiques ciblées.
- une enquête usager tous les 2 ans, pour vérifier les intérêts, les attentes et les besoins concernant les données proposées ou à proposer.
Côté communauté, c’est par le biais d’un rendez-vous semestriel « utilisateurs », mis en place depuis 3 ans, qu’ODO s’implique dans une démarche d’amélioration continue.
Enfin, avec un appui fort des équipes politiques des universités, un rendez-vous annuel stratégique offre la possibilité aux acteurs du monde de l’éducation, de l’enseignement supérieur, de la recherche et de la sphère socio-économique de se rencontrer et d’échanger sur une thématique ciblée. Un évènement d’envergure qui rassemble plus de 700 personnes sous format hybride : cette année, l’évènement s’est déroulé dans les locaux de l’Université Cergy Paris afin de bénéficier d’un cadre en extérieur et d’organiser des activités de travail collaboratif en petits groupe dans l’herbe (et de promouvoir ainsi une ouverture à la créativité).
Pour terminer, le taux de consultation du site internet d’ODO est monté en puissance progressivement, avec plus de 80 000 connexion par mois dont 45 000 connexion concernant le profil des élèves du secondaire : cela confirme l’intérêt, dans la démarche d’orientation post-bac, de l’étape de recherche et de traitement de l’information fiable. A noter, qu’une part non-négligeable d’usagers hors Ile-de-France (8%) se connecte régulièrement sur le site pour la consultation des données.
Une large campagne de communication a été initié dès 2025 avec le recrutement d’un chargé de communication et de promotion des actions ORACCLE afin de bénéficier d’une couverture médiatique auprès du grand public : les sessions courtes sur TikTok avec l’engagement d’influenceuses et influenceurs sensibilisés au dispositif, on permit d’assurer une visibilité auprès du public jeune. Pour parents d’élèves et professionnels de l’éducation, de l’enseignement et de l’orientation, ce sont les canaux tel que Meta ou X qui ont été davantage investi, ainsi que la nouvelle application de journaux sous accessibles sous casque de réalité virtuelle.
L’action ODO est une réussite qui repose sur un groupe de travail de trente personnes se réunissant au moins 2 demi-journées par semaine.
Les outils Gitlab et Mattermost
Nous utilisons la plateforme Gitlab de l'UNIF pour la gestion de tâche, la documentation et l'hébergement des données ouvertes et des codes sources des logiciels produits, tous sous licence libre EUPL V1.2. Notre groupe s'appelle data et nos productions logicielles sont publiées dans le groupe opendata.
La présente documentation est-elle même hébergée et rédigée sur le GitLab, dans un projet privé accessible uniquement en étant membre du groupe data
.
Une équipe sur le Mattermost (Slack libre) de l'UNIF permet des conversations écrites sur le projet. Mattermost est indiqué pour des conversations qui peuvent être décousues dans le temps et que l'on souhaite conserver. Ce type de plateformes n'est pas indiqué pour contacter rapidement des personnes.
Voici un petit guide rapide pour vous y retrouver.
GitLab
GitLab est un logiciel libre permettant de mettre en place une plateforme similaire au célèbre Github, mais que l'on peut instancier et héberger sur ses propres serveurs. Le GitLab de l'UNIF fonctionne sur un serveur de l'université Sorbonne Paris Nord et sera déplacé à termes dans le datacenter de l'enseignement supérieur à Lognes.
Un des points forts de GitLab est la gestion de projets, avec des tickets (issues) que l'on peut organiser en jalons (milestones). C'est devenu un outil qui n'est plus réservé aux informaticiens et informaticiennes et sert couramment pour la gestion de projets.
Sur l'instance de l'UNIF, la création de compte est modérée. Il faut donc commencer par aller sur la page de création de compte et vous inscrire avec votre prénom, nom et un identifiant de type prenomnom
. Une fois le compte GitLab créé, les personnes de l'UNIF qui s'occupent du serveur sont normalement prévenues, mais vous pouvez aussi nous envoyer un mail à opendata@unif.fr pour que nous pensions bien à valider votre compte et que l'on vous rajoute au groupe data
.
La langue par défaut est l'anglais, il sera bien plus agréable d'afficher l'interface en français même si certaines traductions sont absentes. Pour cela allez dans vos préférences par le menu profil accessible dans le coin en haut à droite et cherchez dans la page la section localization puis cliquez sur « Save changes » et rechargez la page. Et voilà !
GitLab étant un logiciel libre, on peut participer à sa traduction sans connaître la programmation !
Il y a actuellement 33 personnes inscrites dans le groupe data. Celui-ci est privé, seules les personnes inscrites voient ce qu'il contient, et ce que contiennent ses projets (les tâches, le code source des pages web telles que le site public de documentation). Nos productions logicielles sont publiées dans le groupe opendata dans des projets publics ou privés, selon leur niveau d'avancement. Si vous souhaitez contribuer au développement des logiciels, n'hésitez pas demander un accès ce dernier groupe. Même si vous n'envisagez pas de programmer ! Il y a de nombreuses façons dont on peut contribuer.
Mattermost
La suite vous concerne à partir du moment où vous avez un compte sur notre GitLab. Si vous n'avez pas encore été sur notre Mattermost, il faut d'abord aller sur : https://matt.unif.app/login, choisir « GitLab », entrer vos identifiants, puis accepter que GitLab serve à vous authentifier sous Mattermost (à la question « Authorize GitLab Mattermost to use your account? » répondez « Authorize »).
C'est seulement après cela que vous pourrez utiliser l'invitation que nous vous avons communiquée par mail. Si vous ne la trouvez pas, elle est normalement rappelée dans le texte de présentation du projet GitLab que nous utilisons pour la gestion de tâches.
Et après
Félicitations vous voilà dans l'équipe data
sur Mattermost. Il y a quelques astuces utiles pour bien démarrer (faire des messages de plusieurs lignes plutôt que plusieurs messages d'une ligne, répondre à un message plutôt que démarrer un nouveau fil de conversation, réagir à un message avec des emoji, lancer un vote etc.) mais nous les rédigerons plus tard ! N'hésitez pas à prendre la parole sur le Mattermost, même sans connaître ces astuces.
Documentation
La documentation est hébergée sous forme de fichiers source sur le GitLab. Ainsi il est facile d'en suivre les modifications. GitLab se charge de générer les pages webs et de les publier sur le site de documentation
Pour écrire la documentation nous éditons les fichiers textes avec l'extension .md
du répertoire src
. Ces fichiers sont en Markdown, un format de document où la mise en forme est réalisée en utilisant des caractères spéciaux. Une petite extension (mermaidjs) permet également de produire des graphiques en tapant du texte les décrivant. GitLab est capable d'afficher correctement la mise en forme des textes ainsi que les graphiques. Vous pouvez d'ailleurs utiliser ces formats de mise en forme dans les tickets de GitLab. En utilisant le bouton « Open in web IDE » vous pouvez éditer directement ces fichiers. Une fois que vous êtes satisfait⋅es de votre édition, il faut cliquer sur « create commit ». Vous pouvez ensuite cliquer sur Commit mais si vous ne basculez pas sur « Commit to master branch » vous serez amené⋅es à rédiger une proposition d'amélioration (« Nouvelle demande de fusion ») qui sera ensuite relue et acceptée ou non. En basculant sur « Commit to master branch », vous imposerez à GitLab vos modifications et celles-ci seront alors rapidement prises en compte pour ré-générer le site de documentation. Comptez tout de même plusieurs minutes avant que la nouvelle version du site soit disponible.
Gestion de tâches
Notre action est découpée en jalons (milestones en anglais) dont les périodes d'activité prévues peuvent se recouvrir dans le temps. Pour voir l'ensemble des jalons dans l'ordre chronologique vous pouvez choisir cet affichage. Chaque jalon comporte des tickets qui représentent des tâches à accomplir. Le terme anglais pour ticket est issue. Il se peut également que des tickets ne soient associés à aucun jalon. Vous pouvez créer des tickets, modifier des tickets ou commenter sous des tickets, rendre une personne responsable d'un ticket ou clôre ou rouvrir un ticket. L'historique de nos actions sur un ticket est logué mais le contenu antérieur n'est pas conservé. Lorsque vous créez un ticket pensez à l'associer à un jalon. Le format de rédaction est le Markdown comme pour la documentation, mais dans une version plus riche. Ce format enrichi est disponible lorsque vous éditez un ticket ou n'importe quel texte en Markdown dans le projet, tel qu'un commentaire ou la description d'un jalon. Il permet de faire référence à un autre ticket avec un croisillon suivi du numéro de ticket #42
. C'est très utile pour relier un sujet à un autre. Les tickets permettent ainsi une écriture hypertexte et collaborative. On peut aussi utiliser une étiquette du projet en tapant le caractère tilde suivi du nom de l'étiquette ~Oraccle
. Les étiquettes (labels en anglais) sont à définir à part avant de pouvoir être utilisées, par exemple dans la vue jalons, colonne de droite. Les étiquettes sont plutôt faites pour être associées aux tickets pour les caractériser et faciliter la recherche lorsqu'il y en a beaucoup. Actuellement nous les utilisons plutôt pour leur aspect esthétique. On peut également faire référence à des jalons ou à des objets appartenant à d'autres projets, c'est moins courant.
Liste des ateliers / formations Open Data
Notre prestataire Datactivist a ouvert un site pour l'ensemble des formations : https://datactivist.coop/oraccle/ où vous retrouverez tous les supports.
Pour faciliter la lecture voici une version synthétique sous forme de tableau avec les sessions qui seront doublées en octobre.
Nom | Date | Lieu | insc. |
---|---|---|---|
Pipeline | 31 mai après-midi | A8.02 | 17/20 |
Data (cult) | 10 juin matin | A8.02 | 20/20 |
Data (viz) | 10 juin après-midi | A8.02 | 23/20 |
OpenData | 16 juin après-midi | A8.02 | 19/20 |
Manips | 1er juillet | CIDJ | 17/15 |
OpenData | 3 octobre matin | Pano. | 3/20 |
Pipeline | 3 octobre après-midi | Pano. | 3/20 |
Manips | 27 octobre | visio | 15 |
Gisements | 15 novembre | visio | 15 |
DataViz | 22 novembre | à définir | 15 |
Data (cult) | 28 novembre matin | visio | 20 |
Data (viz) | 28 novembre après-midi | visio | 20 |
Prototypage | 8 décembre | visio | 40 |
Lieux :
- A8.02. PMF-Tolbiac de Paris 1 (dans le 13e arrondissement, métro 14 Olympiades). L'accès au bâtiment se fait par le 31 rue Baudricourt et la salle est située au 8e étage (ascenseurs verts) en A802.
- CIDJ. Auditorium du CIDJ, 6/8 rue Eugène Oudiné, 75013 Paris. Auditorium au Rez-de-chaussée – à droite en entrant. Interphone: CIDJ
- Pano : Salle panoramique du bâtiment George Sand (Maison des Sciences de l'Homme Paris Nord)
[Data] Culture générale des données et de la visualisation de données
- 10 juin journée
- inscriptions :
- 10 juin matin
- 10 juin après-midi
- intervenant Antoine Blanchard
- capacité 20 personnes
- pas de pré-requis
Description
Cette formation vise à donner une culture générale des données, pour se situer dans les débats de société et comprendre les notions clés liées à ce phénomène protéiforme. Elle vise également à permettre d’aborder la visualisation de données, en tant que producteur ou consommateur de dataviz.
Compétences visées
- Comprendre la mise en données du monde : définition de la donnée, données du quotidien, nouveau positivisme des données…
- Comprendre les types de données : quantitatives, qualitatives, structurées, non structurées, semi-structurées, crowdsourcées…
- Comprendre le phénomène big data et ses promesses
- Comprendre la science des données, dont la modélisation et le machine learning
- Connaître la méthode data pipeline développée par School of Data pour la découverte et l'usage de données ouvertes : Définir, Trouver, Récupérer, Vérifier, Nettoyer, Analyser, Présenter
- Comprendre les facteurs de réussite d'une dataviz : rigueur, lisibilité, éloquence
- Savoir choisir un format de visualisation adapté au message
- Savoir manipuler des outils de visualisation grand public (Datawrapper, IGN)
Public et pré-requis
Cette session s’adresse à toutes les personnes intéressées par la donnée. Aucun pré-requis attendu.
Modalités pédagogiques
Alternance d’exposé et de séquences interactives.
[Pipeline] Les étapes de l'ouverture des données
- intervenant Antoine Blanchard
- capacité 20 personnes
- pré-requis : avoir déjà travaillé avec des données
Description
Cette formation vous permet d’appréhender les étapes nécessaires à l’ouverture d’un jeu de données. Elle permet de fixer les idées pour arrêter de fantasmer ou d’avoir peur de l’ouverture des données : grâce à un processus simple, l’open data pipeline conçu par Datactivist à partir de la thèse en sociologie de Samuel Goëta 1 , il devient possible d’envisager méthodiquement l’open data et le travail concret qu’il demande.
L’open data pipeline est présenté dans ce livrable produit pour la Région Occitanie : https://docs.google.com/presentation/d/1dBz4BboIl4P1BPJFGtT90wlAJNkUlsTt3_HbNTjgEQY/edit?usp=sharing
Compétences visées
- Connaître les huit étapes de l’open data pipeline
- Savoir illustrer chaque étape par des exemples concrets
- Savoir identifier les objectifs, les enjeux, et les rôles impliqués à chaque étape
Public et pré-requis
Cette session s’adresse en priorité aux pilotes (élargis) du projet Oraccle. Les participants doivent avoir déjà travaillé avec des données (par exemple des données tabulaires), en tant que producteur ou réutilisateur.
Modalités pédagogiques
Alternance d’exposé et de séquences interactives.
[OpenData] Comprendre l'Open Data
- intervenant Clément Mandron
- capacité 20 personnes
- pas de pré-requis
Description
Cette formation permet d’appréhender le contexte et les opportunités d’une démarche open data. Voir notre support https://datactivist.coop/aaf/index.html (jusqu’à la diapo 75).
Compétences visées
- Connaître les origines historiques de l’ouverture des données
- Connaître les grands principes de l’ouverture des données
- Connaître le cadre juridique de l’ouverture des données, de la loi CADA à la loi pour une République numérique
- Comprendre la place de l’ouverture des données dans la modernisation de l’État (open government et État plateforme)
- Connaître l’état des lieux de l’open data en 2022, avec ses succès et ses limites
- Savoir évaluer le niveau de maturité open data de son organisation : cf. https://airtable.com/shrr389QJ2KHOVfHj
Public et pré-requis
Cette session s’adresse à toutes les personnes intéressées par l’open data. Aucun pré-requis attendu.
Modalités pédagogiques
Alternance d’exposé et de séquences interactives.
[Prototypage] Prototypage d’un projet data
- intervenant·es : Arthur Sarazin et Maëlle Fouquenet
- capacité : 40 personnes
- pré-requis : les formations précédentes
Description
Cette journée pratique vise à acculturer aux données, leur cycle de vie, et leur utilisation dans un projet data. Le prototypage du projet data permettra aux participants d’acquérir les bons réflexes de questionnements et les bonnes pratiques liés à l’utilisation des données. De plus, les participants possèderont à l’issue de la journée des outils décisionnels et méthodologiques concrets qu’ils auront manipulé tout au long de la journée.
Compétences visées
- Comprendre le cycle de vie de la donnée
- Savoir échanger sur les bonnes pratiques existantes en interne
- Savoir imaginer une utilisation de données ouvertes
- Savoir développer un projet data en mobilisant divers outils pratiques
Public et pré-requis
Cette session s’adresse à des personnes qui manipulent des données comme à des personnes qui n’en manipulent pas, le programme de la matinée étant spécifique à chacun de ces publics. Pré-requis : avoir suivi l’une des formations précédentes sur la donnée ou l’open data.
Modalités pédagogiques
Essentiellement du travail collaboratif en groupe sur des données fournies par le projet Oraccle. Les participants viennent avec un ordinateur portable équipé d’un navigateur internet Firefox ou Chrome.
Binôme d’intervenants pour fluidifier l’organisation et dynamiser les échanges.
[Manips] Les mains dans la donnée
- intervenant·es : Arthur Sarazin et Maëlle Fouquenet
- capacité 15 personnes
- pré-requis : avoir suivi une des formations donnée ou open data
Description
L’ouverture des données appelle une attention particulière sur la mise en qualité des données. Cette journée pratique vise à faire monter en compétences sur ce sujet les agents traitant les données au sein des différents établissements du projet Oraccle.
Compétences visées
- Comprendre l’importance de la mise en qualité des données
- Savoir évaluer la qualité des données
- Être capable de mettre en qualité ses données de travail, en s’appuyant sur l’OpenData Cheatcode : https://arthursz.gitbook.io/opendata-cheatsheet-1/mise-en-qualite-opendata-cheatcode
- Savoir géocoder des données
- Savoir consolider des jeux de données provenant de différentes sources
Public et pré-requis
Cette session s’adresse à des personnes qui manipulent les données quotidiennement, les collectent, les traitent, les partagent, les transforment en tableaux de bord etc. Pré-requis : avoir suivi l’une des formations précédentes sur la donnée ou l’open data. Jusqu’à 15 personnes.
Modalités pédagogiques
En amont de la journée : questionnaire rapide d’évaluation du niveau de compétence des participants.
Essentiellement du travail collaboratif en groupe sur des données fournies par le projet Oraccle, par l’utilisation de tableur Excel ou Google Spreadsheet (ou équivalent). Les participants viennent avec un ordinateur portable équipé d’un navigateur internet Firefox ou Chrome.
Binôme d’intervenants pour fluidifier l’organisation et dynamiser les échanges.
[Gisements] Identification et évaluation des gisements de données
- date à déterminer
- intervenant Antoine Blanchard
- capacité : 15 personnes
- pré-requis : avoir suivi la formation “Comprendre l'open data”
Description
Cet atelier vise à évaluer le besoin en données du projet Oraccle, en caractérisant les données qui sont nécessaires à l’atteinte de ses objectifs — aussi bien celles qui sont disponibles au sein des établissements membres du projet que celles qui sont publiées par d’autres en open data ou qu’il faudra obtenir par différents moyens. Il s’appuie sur le Parcours d’évaluation du potentiel données élaboré par la FING dans le cadre de la campagne Infolab et largement enrichi par Simon Chignard, une méthodologie française documentée et sous licence libre, qui a déjà été éprouvée auprès d’entreprises et d’administrations, notamment par Datactivist.
Résultats attendus
- “Wanted Data List” listant les données nécessaires au projet
- Recensement et évaluation des jeux de données ouverts ou disponibles en interne
- “Plan de route données” pour déterminer la meilleure stratégie permettant d’obtenir les jeux de données souhaités, et les prochaines actions à mener
Public et pré-requis
Cette session s’adresse aux personnes qui auront besoin d’utiliser et valoriser des données dans le cadre du projet Oraccle. Elles devront maîtriser les objectifs du projet.
Pré-requis : avoir suivi la formation “Comprendre l'open data”
Modalités pédagogiques
Travail collaboratif en équipe. Les participants viennent avec un ordinateur portable équipé d’un navigateur internet Firefox ou Chrome.
[DataViz] Atelier visualisation de données
- intervenant·es : Sylvain Lapoix et Silvia Romanelli
Camille Beurton - capacité 15 personnes
Pré-requis : avoir suivi la formation “Culture générale des données et de la visualisation de données” [Data]
Description
La visualisation des données (de flux, géographiques…) du projet Oraccle appelle une démarche de recherche et d’expérimentation autour de la grammaire visuelle des dataviz afin d’inventer les représentations graphiques les plus adaptées et de sortir des “évidences”. Cette expérimentation démarrera par des recherches papier-crayon, avant de passer aux outils graphiques sur ordinateur. Une designeuse d’information interviendra en fin de journée pour apporter une perspective complémentaire sur la cohérence visuelle et les choix graphiques qui déterminent l’impact et la lisibilité d’une représentation.
Résultats attendus
- Découverte et appropriation de la grammaire visuelle des dataviz
- Pistes de recherche, conservées ou abandonnées
- Versions de travail de visualisations de données, produites en équipe
- Éclairage en matière de design d’information
Public et pré-requis
Cette session s’adresse aux personnes qui auront besoin d’utiliser et valoriser des données dans le cadre du projet Oraccle. Elles devront s'être approprié les données d’entrée et connaître les questions à poser aux données.
Jusqu’à 15 personnes.
Dépendances
- travail personnel -> Pipeline
- Data -> DataViz
- OpenData -> Gisements
- Data ou OpenData -> Qualité
- Data ou OpenData -> Prototypage
Traces et parcours d'étude
Au lycée, chaque élève ayant vocation à s'inscrire sur Parcoursup reçoit un (identificateur national étudiant INE. Cet identifiant suit l'élève lors de ses inscriptions dans des établissements supérieurs. Les étudiantes et étudiants étrangers qui s'inscrivent directement dans les établissements supérieurs se voient également attribuer un INE.
L'INE identifie de façon unique une entrée dans le répertoire national des identifiants élèves, étudiants et apprentis qui contient des données identifiantes (noms, prénoms, sexe, date et lieu de naissance).
Pour limiter la ré-identification directe nous n'utilisons pas l'INE mais un condensat calculé à partir de celui-ci et d'un secret partagé condensat.
En croisant les données des lycées et des établissements supérieurs il est possible de produire la liste des inscriptions d'une personne du bac général à l'enseignement supérieur. Cette liste peut alors être remise dans l'ordre historique des inscriptions. Nous obtenons alors un parcours d'étude.
Par exemple, si Alice a obtenu son bac général au lycée Lovelace en 2020 avec comme enseignements de spécialités Numérique et Sciences Informatiques et Histoire, Géographie, Géopolitique, Sciences politiques. Elle s'est ensuite inscrite en licence d'informatique à l'université Sorbonne Paris Nord (Paris 13). Elle a réussi sa première année de licence en un an. Son parcours d'études est donc le suivant :
flowchart LR N(Alice) -- 2019 --> A[Bac HGGSP-NSI] subgraph Lovelace A end A -- 2020 --> B[L1 info] subgraph USPN B -- 2021 --> C[L2 info] end
Ce parcours d'étude peut être retenu indépendamment de l'identité d'Alice, et être regroupé à des parcours d'étude semblables (il y en aurait encore plus en oubliant des données, comme le nom du lycée).
flowchart LR N[ ] -- 2019 --> A[Bac HGGSP-NSI] subgraph Lovelace A end A -- 2020 --> B[L1 info] subgraph USPN B -- 2021 --> C[L2 info] end
On appelle de façon générique trace des parcours plus ou moins simplifiés dont on a oublié les années d'inscription.
flowchart LR subgraph Lovelace A[Bac HGGSP-NSI] end A --> B[L1 info] subgraph USPN B --> C[L2 info] end
Ou encore
flowchart LR A[Bac] --> B[L1] subgraph USPN B --> C[L2] end
Nomenclature des données
Dans l'axe Open Data du projet ORACCLE, nous utilisons des données extraites des systèmes d'informations des universités. Pour le moment ces données sont extraites uniquement du logiciel Apogée, nous mettrons à jour la nomenclature lorsque une université utilisant d'autres logiciels par exemple de l'association Cocktail ou le nouveau SI Pégase produit conjointement par l'AMUE et Cocktail dans le groupe PC Scol.
Voci un descriptif de la nomenclature des données extraites et des données ouvertes produites. Les types des données sont dans l'ordre : le type dans l'extrait de la base de donnée, le type pour les traitement (en Scala), le type pour l'API (JavaScript), si notoirement différent du type pour les traitements.
Données extraites
Donnée | Table Apogée | champ Apogée |
---|---|---|
hash_ine | INDIVIDU | cod_nne_ind |
code_postal | ADRESSE | cod_bdi |
annee_naissance | INDIVIDU | date_nai_ind |
sexe | INDIVIDU | cod_sex_etu |
academie_bac | ACADEMIE | lic_acd |
code_postal_etb_bac | ETABLISSEMENT | COD_POS_ADR_ETB |
libelle_court_bac | BAC_OUX_EQU | LIC_BAC |
annee_bac | IND_BAC | DAA_OBT_BAC_IBA |
code_etablissement_bac | IND_BAC | cod_etb |
bac_donne_acces_univ | IND_BAC | tem_ins_adm |
code_mention_bac | IND_BAC | COD_MNB |
code_specialite_bac1 | IND_BAC | COD_SPE1_BAC_TER |
code_specialite_bac2 | IND_BAC | COD_SPE2_BAC_TER |
code_specialite_bac3 | IND_BAC | COD_SPE_BAC_PRE |
code_option_bac1 | IND_BAC | COD_OPT1_BAC |
code_option_bac2 | IND_BAC | COD_OPT2_BAC |
code_option_bac3 | IND_BAC | COD_OPT3_BAC |
code_option_bac4 | IND_BAC | COD_OPT4_BAC |
annee_inscription | INS_ADM_ANU | COD_ANU |
lib_diplome | TYP_DIPLOME | LIC_TPD |
libelle_discipline_diplome | DIPLOME_SISE | LIB_INT1_DIS |
code_sise_diplome | DIPLOME_SISE | COD_DIS |
code_cycle | ETAPE | COD_CYC |
code_etape | ETAPE | COD_ETP |
libelle_court_etape | ETAPE | LIC_ETP |
libelle_long_etape | VERSION_ETAPE | LIB_WEB_VET |
libelle_court_composante | COMPOSANTE | LIC_CMP |
libelle_regime | REGIME_INS | LIC_RGI |
code_regime | REGIME_INS | COD_RGI |
Tables Apogée utilisées
tables |
---|
ACADEMIE |
ADRESSE |
BAC_OUX_EQU |
COMPOSANTE |
DEPARTEMENT |
DIPLOME |
DIPLOME_SISE |
ETABLISSEMENT |
ETAPE |
IND_BAC |
INDIVIDU |
INS_ADM_ANU |
REGIME_INS |
TYP_DIPLOME |
VERSION_DIPLOME |
VERSION_ETAPE |
Nomenclature des données publiées
Données produites
Les données publiées portent sur les cohortes
construites à partir de codes étapes et contiennent des attributs de groupes
Données extraites publiées
- Code postal
- Sexe
- Le type du baccalauréat
- Année du bac
- Code de l'établissement du bac
- Mention obtenue au bac
- Code de la première spécialité de terminale
- Code de la deuxième spécialité de terminale
- Code de la spécialité de première
- code_option_bac1
- code_option_bac2
- code_option_bac3
- code_option_bac4
- Année de l'inscription au sein de l'université
- Code de l'étape suivie
Les données suivantes sont publiées annexées au code étape. Autrement dit, on ait l'approximation que pour chaque code étape il ne peut y avoir qu'une seule valeur pour chacune des données suivantes.
- Le diplôme préparé par l'étudiant·e
- Niveau du diplôme préparé par l'étudiant·e
- Discipline du diplôme préparé par l'étudiant·e
- Code SISE du diplôme
- Code SISE du Cycle
- Libellé court (avec abréviation) de la formation préparée par l'étudiant·e
- Libellé long (sans abréviation) de la formation préparée par l'étudiant·e
- Composante où la formation à été préparée
- Régime de la formation préparée par l'étudiant·e
- Code du régime de la formation préparée par l'étudiant·e
Nomenclature détaillée
Parcours d'études
- Description : un parcours d'études est la donnée de deux séquences. Une séquence d'inscriptions dans des étapes principales de diplômes représentées par des codes étapes et une séquence de réussites à des étapes de diplômes, représentées par leurs codes étapes. Aucune autre information que les codes étapes n'est retenue. Les parcours d'études datés enrichissent cette donnée avec l'année de début du parcours.
- Identificateur :
parcours
- Type :
case class Parcours(inscriptions: Vector[String], resultats: Vector[String])
Parcours d'études avec date
- Description : un parcours d'études daté est la donnée d'une année civile, d'une séquence d'inscriptions dans des étapes principales de diplômes représentées par des codes étapes et une séquence de réussites à des étapes de diplômes. L'année civile représente l'année d'obtention du bac ou à défaut l'année de première inscription à l'université. La séquence d'inscription enchaîne les années en prenant en compte les interruptions à partir de cette première année civile, on peut ainsi en déduire l'année d'inscription dans chaque étape. Les réussites ne sont pas datées pour éviter de fausses distinctions entre parcours.
- Identificateur :
parcours_date
- Type :
case class ParcoursDate(debut: Int, inscriptions: Vector[String], resultats: Vector[String])
Groupe
- Description : un groupe d'étudiant·es est la donnée d'un nombre de personnes et des attributs de ces personnes regroupés en (multi-)ensembles d'attributs du même type. Un multi-ensemble est une collection d'éléments non ordonnées, ou dont l'ordre de présentation n'a pas de signification, dans laquelle il peut y avoir des répétitions. Ainsi un groupe de 2 hommes et 3 femmes, aura comme attribut de sexe un multi-ensemble constituté de 2
M
et 3F
, que l'on peut noter[M, M, F, F, F]
ou encore(M -> 2, F -> 3)
. Les attributs d'un groupe sont les codes postaux, années de naissances, sexes… Les codes des spécialités de terminale (code-specialite-bac1 et code-specialite-bac2) sont regroupés en un ensemble de deux éléments avant d'être aggrégés en multi-ensemble. Ainsi on évite de distinguer première et seconde spécialité ou de sépararer les paires. On fait le même traitement pour les options. L'anonymisation et plus particulièrement la k-anonymisation modifient le nombre réel de valeurs pour chaque attribut. Par exemple, s'il y a moins de k femmes ou k hommes dans un groupe, son multi-ensemble sexe sera vide. De même si le groupe est réduit à un nombre de personne inférieur à k, le nombre retenu sera 1. Autrement dit, par convention, un nombre de personnes égal à 1 signifie « moins de k personnes ». - Indentificateur :
groupe
- Type :
case class Groupe(…)
Cohorte
- Description : une cohorte est la donnée d'un ensemble de personnes ayant le même parcours et du groupe qu'elles constituent.
- Type :
case class Cohorte(groupe: Groupe, parcours: Parcours)
Cohorte datée
- Description : une cohorte datée est la donnée d'un ensemble de personnes ayant le même parcours daté et du groupe qu'elles constituent.
- Type :
case class CohorteDate(groupe: Groupe, parcours: ParcoursDate)
Condensat code INE
- Description : code identifiant national étudiant chiffré (voir la page condensat). Le code INE identifie de façon unique une personne. Pour éviter de manipuler une donnée personnelle identifiante nous lui substituons un condensat (un hash) qui conserve l'unicité mais empêche la réindentification. Après préparation des données à publier, ce condensat n'est ni mémorisé, ni publié.
- Identificateur :
hash_ine
- Types :
VARCHAR2
,String
- Table Apogée et colonne :
INDIVIDU
colonneCOD_NNE_IND
Code postal
- Description : code postal de l'adresse personnelle de l'étudiant·e.
- Identificateur :
code_postal
- Types :
VARCHAR2
,String
- Table Apogée et colonne :
ADRESSE
colonneCOD_BDI
- Commentaire : une seule adresse est retenue dans chaque établissement à l'extraction et une seule d'entre tous les établissements au moment du traitement. Cette donnée est donc sujette à caution car elle ne permet pas de suivre les changements d'adresses.
Année de naissance
- Description : année de naissance de l'étudiant·e.
- Identificateur :
annee_naissance
- Type :
VARCHAR2
extrait deDATE
,Int
,number
- Table Apogée et colonne :
INDIVIDU
colonneDATE_NAI_IND
- Commentaire : il s'agit d'un élément de la date de naissance, qui est une donnée identifiante. Est-il vraiment nécessaire ?
Sexe
- Description : sexe de l'étudiant·e.
- Identificateur :
sexe
- Type :
VARCHAR2(F,M)
,String
- Table Apogée et colonne :
INDIVIDU
colonnecod_sex_etu
- Commentaire : sur Apogée, aucune mise à jour à été faite concernant le rajout de colonne "Non-Binaire" ou "Autres"
Académie du bac
- Description : le libellé de l'académie de baccalauréat (exemple : 'Créteil','Versailles','Reims','Etranger')
- Identificateur :
academie_bac
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
ACADEMIE
colonnelic_acd
- Commentaire :
Code postal de l'établissement du bac
- Description : code postal du lycée où le bac a été obtenu
- Identificateur :
code_postal_etb_bac
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
ETABLISSEMENT
colonneCOD_POS_ADR_ETB
- Commentaire : le code postal est
None
si l'académie du bac est à l'étranger.
Le type du baccalauréat
- Description : type du bac obtenu par l'étudiant·e.
- Identificateur :
libelle_court_bac
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
BAC_OUX_EQU
colonneLIC_BAC
- Commentaire : quelques types : 'ES-Eco','L-littérat','S-Sciences','STMG',''STG-Tech.G'
Année du bac
- Description : année de l'obtention du baccalauréat par l'étudiant·e.
- Identificateur :
annee_bac
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneDAA_OBT_BAC_IBA
- Commentaire : la fourchette des années du bac est de (1961 à 2021)
Code de l'établissement du bac
- Description : code UAI de l'établissement d'obtention du baccalauréat
- Identificateur :
code_etablissement_bac
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonnecod_etb
- Commentaire : chaque établissement scolaire bénéficie d’un code UAI (ex-RNE) composé de 7 chiffres et d’une lettre (par exemple 0951099D)
Accès à l'université
- Description : témoin du bac d'acces à l'universite
- Identificateur :
bac_donne_acces_univ
- Type :
VARCHAR2
(SoitO
pour OUI ouN
pour NON) - Table Apogée et colonne :
IND_BAC
colonnetem_ins_adm
| - Commentaire : Sur Apogée, la colonne est
O
par défaut.
Mention obtenue au bac
- Description : code de la mention du bac obtenu par l'étudiant·e
- Identificateur :
code_mention_bac
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_MNB
- Commentaire : les mentions disponibles : (
P
pour Passable,TB
pour Très Bien,B
pour Assez Bien,AB
pour Assez Bien)
Code de la première spécialité de terminale
- Description : code de la première spécialité choisie par l'étudiant·e en terminale
- Identificateur :
code_specialite_bac1
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_SPE1_BAC_TER
- Commentaire : spécialité de terminale
Code de la deuxième spécialité de terminale
- Description : code de l'autre spécialité choisie par l'étudiant·e en terminale
- Identificateur :
code_specialite_bac2
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_SPE2_BAC_TER
- Commentaire : spécialité de terminale
Code de la spécialité de première
- Description : code de la spécialité choisie par l'étudiant·e en première mais abandonnée en terminale
- Identificateur :
code_specialite_bac3
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_SPE_BAC_TER
- Commentaire : spécialité de première abandonnée en terminale
code_option_bac1
- Description : code le première option choisie par l'étudiant·e
- Identificateur :
code_option_bac1
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_OPT1_BAC
- Commentaire :
code_option_bac2
- Description : code le deuxième option choisie par l'étudiant·e
- Identificateur :
code_option_bac2
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_OPT2_BAC
- Commentaire :
code_option_bac3
- Description : code le troisième option choisie par l'étudiant·e
- Identificateur :
code_option_bac3
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_OPT3_BAC
- Commentaire :
code_option_bac4
- Description : code le quatrième option choisie par l'étudiant·e
- Identificateur :
code_option_bac4
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
IND_BAC
colonneCOD_OPT4_BAC
- Commentaire :
Année de l'inscription au sein de l'université
- Description : année de l'inscription de l'étudiant·e à l'université
- Identificateur :
annee_inscription
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
INS_ADM_ANU
colonneCOD_ANU
- Commentaire : si l'année de l'inscription est 2020 alors l'année de scolarité de l'étudiant est véritablement 2020-2021
Le diplôme préparé par l'étudiant·e
- Description : le diplôme préparé par l'étudiant·e au sein de l'université
- Identificateur :
lib_diplome
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
TYP_DIPLOME
colonneLIC_TPD
- Commentaire : exemple de diplômes préparés : (Licence, PACES, DUT, Master1 AP, Prep AGREG)
Niveau du diplôme préparé par l'étudiant·e
- Description : niveau du diplôme préparé par l'étudiant·e à l'université (exemple si
niveau_dans_le_diplome
=1 etlib_diplome
='Licence' alors on sait que l'étudiant suit une Licence 1 ) - Identificateur :
niveau_dans_le_diplome
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
VDI_FRACTIONNER_VET
colonneCOD_SIS_DAA_MIN
- Commentaire : la colonne
COD_SIS_DAA_MIN
représente l'équivalent de l'annee minimale de l'étape pour un diplôme
Discipline du diplôme préparé par l'étudiant·e
- Description : discipline du diplôme préparé par l'étudiant·e (Exemples : OPHTALMOLOGIE, ARTS, LETTRES LANGUES : LETTRES MODERNES)
- Identificateur :
libelle_discipline_diplome
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
DIPLOME_SISE
colonneLIB_INT1_DIS
- Commentaire :
Code SISE du diplôme
- Description : code SISE du diplôme préparé par l'étudiant·e
- Identificateur :
code_sise_diplome
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
DIPLOME_SISE
colonneCOD_DIS
- Commentaire :
Code SISE du Cycle
- Description : code SISE du cycle (0 Cycle, Premier Cycle, Deuxième Cycle, Troisième Cycle)
- Identificateur :
code_cycle
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
ETAPE
colonneCOD_CYC
- Commentaire : cycle 1 pour Licence, 2 pour Master, 3 pour Doctorat
Code de l'étape préparée
- Description : code de l'étape préparée par l'étudiant·e (Exemple E2EGE Pour Licence 2 Eco-Gestion)
- Identificateur :
code_etape
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
ETAPE
colonneCOD_ETP
- Commentaire :
Libellé court de la formation préparée par l'étudiant·e
- Description : libellé court (avec abréviation) de la formation préparée par l'étudiant·e (Exemple: Lic Eco-Gestion an2)
- Identificateur :
libelle_court_etape
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
ETAPE
colonneLIC_ETP
- Commentaire : il n'est pas réellement nécessaire puisque, on trouve le libellé détaillé ci-dessous
Libellé long de la formation préparée par l'étudiant·e
- Description : libellé long (sans abréviation) de la formation préparée par l'étudiant·e (Exemple : Licence Économie et Gestion an2)
- Identificateur :
libelle_long_etape
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
VERSION_ETAPE
colonneLIB_WEB_VET
- Commentaire :
Composante où la formation a été préparée
- Description : composante où la formation a été préparée par l'étudiant·e (Exemple : UFR SEG (Sciences économie Gestion))
- Identificateur :
libelle_court_composante
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
COMPOSANTE
colonneLIC_CMP
- Commentaire : ceci est un sigle de la composante
Régime de la formation préparée par l'étudiant·e
- Description : régime de la formation préparée par l'étudiant·e (Exemple : 'initiale','apprentiss','continue')
- Identificateur :
libelle_regime
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
REGIME_INS
colonneLIC_RGI
- Commentaire :
Code du régime de la formation préparée par l'étudiant·e
- Description : code du régime de la formation préparée par l'étudiant·e
- Identificateur :
code_regime
- Type :
VARCHAR2
,String
- Table Apogée et colonne :
REGIME_INS
colonneCOD_RGI
- Commentaire :
NULL
si uniquement local
Anonymisation des données
Pour l'anonymisation des données nous utilisons la généralisation, en groupant les parcours identiques et en mélangeant les attributs supplémentaires des individus. Puis nous appliquons une variante de la k-anonymisation, avec k = 5, où toutes les cohortes et (presque) toutes les valeurs d'attributs sont conservées mais lorsque les valeurs sont en nombre inférieur à k on ne donne pas leur nombre. Nous détaillons le procédé ici.
l'objectif est de protéger les individus d'un risque d'inférence d'attributs ou de parcours.
Les parcours
Pour construire les parcours nous avons besoin d'un pseudonyme identifiant les individus aux cours de leurs inscriptions et de leurs réussites dans différent établissements. Nous utilisons pour cela le condensat calculé à partir de l'INE, hash_ine
.
Une fois les parcours reconstruits ces condensats sont oubliés et les parcours identiques sont regroupés. Les attributs des individus sont alors mis en commun sans lien entre eux.
Prenons un exemple. Bob, Alice et Oscar ont un même parcours universitaire, appelons le P, et ce sont les seuls avec ce parcours. Supposns que Bob, Alice et Oscar ont les attributs suivants.
hash ine | sexe | mention au bac | année du bac |
---|---|---|---|
Bob | M | AB | 2019 |
Alice | F | TB | 2019 |
Oscar | M | B | 2017 |
Pour ce parcours P nous comptons :
- 3 individus
- 2 M, 1 F
- les mentions au bac : 1 AB, 1 B, 1 TB
- années du bac 1 2017, 2 2019.
C'est la seule information retenue. Autrement dit il n'est plus possible de savoir, par exemple, que c'est une femme qui a eu la mention très bien.
K-anonymisation
Pour la k-anonymisation, le procédé est plus complexe. Nous remplaçons chaque cardinalité inférieure à k (k = 5) par un code signifiant « il y a en a moins de 5 ». Par facilité, on choisit la valeur 0 pour représenter ce code. Donc la valeur 0 veut dire moins de 5.
Pour le parcours P précédent, nous aurions donc 0 individus, ayant pour attributs 0 M et 0 F, pour mentions 0 AB, 0 TB et 0 B et pour année du bac zéro 2019 et zéro 2017.
Amélioration de la k-anonymisation
En réalité, si l'effectif total du groupe est inférieur à 5 nous oublions ses attributs (autres que le parcours lui-même). Le cas précédent nous donnera donc l'information : il y a au moins un individu et au maximum quatre ayant suivi le parcours P, sans donner aucun autre attribut que le parcours. Il est important, notamment pour l'orientation, de pouvoir conserver les parcours rares d'autant que plus les parcours sont longs moins ils concernent d'individus.
Il reste le problème dit du secret secondaire.
Supposons qu'il y ait eu 4 personnes comme Bob avec le parcours P et une comme Alice. Le groupe aurait été alors composé de
- 7 individus
- 5 M, 2 F
- 4 AB, 1 B, 2 TB
- 6 2019, 1 2017 La k-anonymisation nous aurait alors présenté un groupe composé de :
- 7 individus
- 5 M, 0 F
- 0 AB, 0 B, 0 TB
- 6 2019, 0 2017 Nous aurions alors pu déduire que :
- il y a 2 F (seule possibilité 5 + 2 = 7)
- il y a un seul 2017 (6 + 1 = 7)
Le problème que nous rencontrons, dit du secret secondaire, est qu'il n'est pas suffisant d'effacer un terme d'une somme dont on connait le total pour empêcher de connaître ce terme.
Nous avons donc fait le choix d'appliquer un traitement supplémentaire aux données qui consiste à effacer un peu plus de cardinalités au cours de la k-anonymisation. Dans une somme dont on connaît le total, si un terme doit être masqué, il faut en choisir d'autres à masquer également pour éviter que la valeur du terme masqué ne puisse être inférée. Comme nous ne masquons pas complétement les termes mais que nous mettons leur valeur à 0, cette opération supplémentaire peut exiger d'effacer réellement des attributs. Par exemple si dans un groupe de 5 personnes, chacun d'entre elle a obtenu le bac une année différente, nous ne conservons pas l'attribut année du bac.
À titre d'exemple, cette opération transforme les multi-ensembles de la façon suivante :
[a -> 5, b -> 5, c -> 2]
devient[a -> 5, b -> 0, c -> 0]
[a -> 5, b -> 5, c -> 1]
devient[a -> 5, b -> 0, c -> 0]
[a -> 5, b -> 4, c -> 2]
devient[a -> 5, b -> 0, c -> 0]
[a -> 5, b -> 1, c -> 1]
devient[a -> 0, b -> 0, c -> 0]
[a -> 0, b -> 0, c -> 0, d -> 0, e -> 0]
devient vide.
Condensat
L'INE est un identifiant aléatoire qui possède 9 chiffres décimaux et 2 lettres (la première pouvant être un chiffre). Il y a donc 10⁹ × 36 × 26 = 936 milliards d'INE possibles. Il faut 5 octets au minimum pour représenter un INE.
Plutôt que d'échanger et de stocker des données contenant des INE, nous associons dès que possible à chaque INE un condensat. Concrètement un script Python exécute la requête d'extraction des données en se connectant à la base de données de scolarité et retourne un fichier où l'INE est remplacé par son condensat.
Le sel secret est une suite alétoire (arbitrairement longue) de caractères que nous rajoutons à la fin de l'INE formant ainsi un concaténé des deux, avant de lui appliquer une fonction cryptographique de hachage, c'est-à-dire une fonction mathématique dont le calcul par ordinateur est rapide mais pour laquelle le calcul de la réciproque d'une valeur (trouver x tel que f(x) = v) est réputé infaisable. La valeur associée à une entrée x par une telle fonction parait totalement aléatoire, mais elle est bien entendu identique si on la recalcule sur la même entrée x.
flowchart LR A[INE] --> C[concaténé] B[sel secret]--> C C -->|sha224| D(condensat)
Nous utilisons actuellement pour le hachage une fonction de la suite SHA-2, la plus simple, qui retourne un condensat de 224 bits (sha224), soit 28 octets. Cela signifie que nous remplaçon chaque INE par une suite de 28 octets.
Le sel secret doit être partagé entre toutes les sources de données devant être croisées pour produire les données ouvertes. Par contre il peut être changé à intervalle régulier, d'un commun accord. Les jeux de données produits par le traitement ne publient acun condensat.
Il est envisagé de remplacer les condensats initiaux, bâtis à partir de l'INE et du sel partagé, par des condensats dérivés de ceux-ci et d'un sel secret non partagé, pour le temps où les données seront stockées en attente des données d'autres établissements, avec lesquelles elles seront alors croisées. Ce nouveau sel secret et non partagé ne devra pas être présent en mémoire de l'application et de son infrastructure.
Il est possible de retrouver l'INE à partir de son condensat
Il est possible de retrouver l'INE à partir de son condensat, mais c'est difficile voir très difficile.
Excès de confiance en l'état de l'art mathématique. Il est toujours possible qu'une évolution des connaissances cryptographiques conduise à devenir capable d'inverser une fonction de hachage. C'est la raison pour laquelle il ne faut pas publier de condensats en s'en remettant à l'état de l'art mathématique sur le sujet pour assurer l'impossibilité de les inverser. L'état de l'art évolue.
Compromission du secret du sel partagé et table d'inversion. Et si jamais le sel secret partagé tombait entre de mauvaises mains ? En connaissant le sel partagé, il est possible de créer une table de correspondance entre INE + sel et condensat, qui servira à l'inversion. Cette table peut être recalculée à chaque fois ou stockée en mémoire. Elle permettrait de retrouver un INE à partir de son condensat. Il n'est pas nécessaire d'avoir une connaissance préalable des INE réellement utilisés, il s'agit ici de prendre en compte tous les INE possible en suivant leur format. Une telle table prendrait de l'ordre de quelques heures à calculer et, si elle était stockée, elle occuperait au minimum (28 + 5) tera-octets. Une petite entreprise ou un particulier peuvent accéder à de telles moyens de calcul ou de stockage. Il faut donc d'une part conserver tant que possible le secret du sel partagé et d'autre part éviter au maximum d'exposer des données avec condensat. Enfin il faut se garder de manipuler des données sensibles avec ces méthodes. C'est également une bonne raison d'utiliser des condensats dérivés dès lors que les données avec condensats doivent être stockées.
Enfin il faut s'intéresser à la situation où des données avec condensat tombent entre de mauvaises mains. Si une réidentification d'un INE est possible on peut imaginer une variante de l'attaque précédente qui permette de retrouver le sel à partir du couple condensat, INE. Le choix d'un sel complexe, suivant les mêmes recommandations qu'un mot de passe, aide grandement à rendre inefficiente cette méthode.
En résumé en prenant trois mesures simples : choix d'un bon sel, sel conservé secret et surtout des publications n'exposant pas de condensat on ne risque pas grand-chose.