Oraccle GT Open Data 1.2

Site collaboratif de documentation de l'action groupe de travail open data du projet Oraccle. Propulsé par mdBook sur le Gitlab de l'UNIF.

Présentation (Oraccle)

Premier projet fédérateur en matière d’orientation en Île-de-France, Oraccle (Orientation Régionale pour l’Accompagnement du Continuum Lycéens – Étudiants), déploie huit actions pour créer un vértiable écosystème régional de l’orientation. Porté par l’UNIF et réunissant 35 partenaires, Oraccle ambitionne de faciliter l’orientation bac-3/bac+3 au travers de huit actions :

Immersions dans le Sup, des événements participatifs permettant de découvrir les études supérieures pour les lycéens et lycéennes, dont mon projet dans le Sup en 180 secondes;
Faire de la donnée une alliée pour l'orientation, groupe de travail et formations à la culture des données et aux données ouvertes, publication de données et production de services dérivés;
Une seule voix, pour décrire de façon simple et claire l'offre de formation au travers d'un outil commun;
Les événements du supérieur en un clic, en partenariat avec le portail ORIANE de la Région et les ENT des lycées;
L'ambassade universitaire, 300 ambassadeurs et ambassadrices des universités franciliennes;
Kit pédagogique pour l'orientation, état des lieux des outils mis à disposition des équipes pédagogiques et améliorations
Accompagner spécifiquement les lycéennes et lycéens ultra-marins via un programme spécifique;
Faire du re-choix un tremplin, développement d'outils et services permettant de faciliter les changements de parcours.

Objectifs de l'action

Notre groupe de travail sur l'ouverture des données dans l'enseignement supérieur est au service de l’orientation sur le territoire d’Île-de-France. Notre objectif est de proposer de nouveaux services à valeurs ajoutées pour les lycées, les familles et les étudiants et étudiantes autour des données des établissements, en nous inscrivant dans une démarche d'ouverture des données. Notre action a également our ambition de diffuser dans les universités une culture de l'ouverture des données qui vienne compléter la culture science ouverte, en incluant les données de gestion dans le périmètre d'ouverture. Cette diffusion se fait par des échanges et des formations entre partenaires du projet Oraccle autour de la consitution de notre groupe de travail.

Données

Jeux de données produits

Nous avons produit un jeu de données le 7 septembre 2023 et nous l'avons publié sur la plateforme data.gouv.fr avec la documentation suivante. Ce jeu de données utilise les remontées SISE des établissements (voir plus bas).

Avant cela nous n'avions produit que des jeux de données prototypes en reprenant le travail pionnier d'ouverture de données de l'université Sorbonne Paris Nord. Un petit service web de consultation avec une API et quelques pages de consultation directe est à l'essai ici https://data.unif.app sur le dernier jeu de données produit dans ce cadre.

Nous avons un nouveau jeu de données en préparation avec quelques modifications du format. son prototype est documentée ici. Nous comptons le publier lorsque nous aurons eu accès aux remontées SISE sur les inscriptions 2023-2024, pour pouvoir en tenir compte.

Prochaine publication mi-octobre 2024.

Accès aux données sources

Comment a-t-on accès à des données que l'on puisse transformer de façon à les ouvrir ? Dans notre action, nous travaillons dans deux directions.

Nous pouvons utiliser les données des établissements en particulier les données de scolarité, mais également toute donnée d'intérêt pour l'orientation que nous pourrons identifier (par exemple, les données des plateformes de candidatures). Jusqu'à récemment nous avions travaillé exclusivement sur les données de scolarité de l'université Sorbonne Paris Nord dont la démarche d'ouverture est à l'origine de notre action.

Données SISE

Une alternative à la collecte directe de données dans chaque établissement est l'exploitation des remontées SISE (système d'information pour le suivi des étudiants). Ces données de scolarité sont fournies par chaque établissement, en janvier, à la sous-direction des systèmes d'information et des études statistiques (SIES) du ministère de l'Enseignement Supérieur et de la Recherche.

L'intérêt est double, puisque la centralisation de ces données nous évite de conventionner avec chaque établissement pour l'accès aux données de son SI et que cela permet de couvrir beaucoup plus largement les établissements du supérieur. En nous limitant actuellement à l'Île-de-France.

Le comité du secret statistique réuni le 6 octobre 2022 a accepté notre demande d'accès. Notre accès est totalement effectif depuis mars 2023 via le CASD (Centre d'Accès Sécurisé aux Données), un GIP qui opère un service permettant de consulter des données administratives y compris non anonymes, avec des contraintes de confidentialité fortes.

Cela fonctionne avec un serveur de projet déconnecté d'Internet auquel nous nous connecterons avec un équipement dédié (appelé une SD-Box). Tous les fichiers que nous voudrons extraire du serveur sont vérifiés par la CASD. Ainsi nous bénéficions d'une sécurté supplémentaire pour nous prémunir du risque d'une mauvaise anonymisation.

Combinaison des deux approches

Avec SISE la granularité de l'information es inférieure à ce que nous obtenons en travaillant directement sur des données des systèmes d'information de scolarité. Mais les données des deux types peuvent être utilisées de façon complémentaires, un parcours d'études sur lequel nous avons une information plus fine via un SI d'établissement pourra ainsi être complété par des étapes que nous ne connaissions pas, et nous aurons ainsi la meilleure complétude des parcours d'études.

Par contre, le recollement de données entre SI plus précis et SISE ne pourra se faire qu'avant le traitement d'anonymisation. Cela suppose donc de le faire dans l'environnement contrôlé mis à disposition par le CASD. À l'avenir il devrait être possible pour chaque établissement de transmettre des données au CASD (en les chiffrant avec leur clé PGP) qui se chargera de nous les mettre à disposition. Cela nous permettra de les associer aux données SISE et de produire un jeu de données ouvert incluant les informations affinées par l'établissement.

Notre projet n'a pas vocation à produire des jeux de données privés, moins anonymisées (typiquement pseudonymisées), par exemple pour le pilotage des universités. Toutefois les logiciels que nous produisons sont sous licence libre et on peut y paramétrer une anonymisation moins destructive qui reviendrait à une pseudonymisation. Cela peut être utile pour un établissement qui voudrait mettre en place un service interne avec de telles données, sans possibilité de les croiser avec les données SISE.

Autres données

Notre groupe travaille également sur l'identification de nouveaux gisements de données d'intérêt pour l'accompagnement des élèves, ou des étudiants et étudiantes. Selon la difficulté d'accès aux sources et leur intérêt comparé, nous pourrons dans un second temps nous atteler à la création de nouveaux jeux de données ouvertes (par exemple, concernant les plateformes de candidature) ou à l'exploitation de jeux existants pour créer de nouveaux services (par exemple, utiliser la localisation des établissements pour tenir compte de contraintes de logement et de transport dans les curus).

Rendez-vous mensuels

Un rendez-vous mensuel de type salle ouverte réunit les membres du projet le premier mercredi de chaque mois à 9h00. Voir l'agenda des partenaires sur le site https://oraccle.fr ou contacter opendata@unif.fr pour participer.

Plateforme de gestion de projet et de documentation

Nous utilisons la plateforme Gitlab de l'UNIF pour la gestion de tâche, la documentation et l'hébergement des données ouvertes et des codes sources des logicels produits, tous sous licence libre EUPL V1.2. Notre groupe s'appelle data (demander un accès à opendata@unif.fr), et nos productions logicielles sont publiées dans le groupe opendata.

Une équipe sur le Mattermost de l'UNIF permet des conversations écrites sur le projet. Mattermost est indiqué pour des conversations qui peuvent être décousues dans le temps et que l'on souhaite conserver. Ce type de plateforme permet également des échanges rapides et plus informels que par mail, dans notre cas elle n'est toutefois pas indiquée pour contacter rapidement des membres du projet à moins d'explicitement les mentionner. Un guide rapide pour nous rejoindre est disponible sur cette page : Gitlab et Mattermost.

Ateliers et formations

Nous avons lancé en juin 2022 et poursuivi à l'automne 2022 une série d'ateliers de formation à la data, l'open data, l'exploitation de gisement de données et la visualisation de données, en direction des membres du projet impliqués dans l'action open data d'Oraccle. Suivez ce lien pour le programme.

Plan d'action

En 2022, nous avons opté pour un investissement plus fort qu'initialement prévu dans la montée en compétence des établissements partenaires de l'action via une série de formations qui se prolonge jusqu'en décembre 2022, avec notre prestataire Datactivist. En contrepartie nous n'avons pas investi dans des développements externes, ni documenté autant qu'il le faudrait l'action, ni organisé de hackathon.

Dans nos plans initiaux, l'année 2023 aurait dû être principalement consacrée à l'élaboration de l'API d'accès aux données ouvertes et aux installations nécessaires pour l'extraction des données des SI d'établissements. Nous avons d'ores et déjà une API fonctionnelle développée en interne et l'accès aux données SISE a changé la donne en termes de priorités. Notre travail en 2023 a donc plus porté sur la partie extraction des données SISE et design du service avec le public cible. Nous avons travaillé avec les collègues des services d'orientation sur une approche par persona et nous produisons actuellement des fictions pour nous aider à imaginer le service. Un hackathon à l'initiative de l'action « une seule voix » d'Oraccle fin novembre 2023 nous permettra d'échanger avec des lycéen·nes et étudiant·es sur le service à rendre avec nos données. Ce travail sur le design devrait se poursuivre la première moité de 2024 en y associant plus les publics cibles. En parallèle, nous travaillons sur nos données ouvertes pour en tirer le meilleur parti.

Actions passées

Pré-embarquement le 23 novembre 2021

Cette réunion de pré-embarquement d'une heure a eu lieu en visio le 23 novembre 2021. La présentation utilisée est consultable ici.

Déroulement

Partage des objectifs du projet et de son contexte (échanges)
Exemples d'ouverture de données dans l'enseignement supérieur et la recherche
Feuille de route de notre groupe de travail (échanges)
Les principaux enjeux (synthèse)

Quelques ressources en ligne

Ces sites institutionnels ou privés fournisse des ressources autour de l'open data pour l'enseignement supérieur et la recherche :

la feuille de route du ministère de l'Enseignement Supérieur et de la Recherche en matière d'ouverture des données a été publiée le 28 septembre 2021
Le portail #dataESR du ministère de l'Enseignement Supérieur et de la Recherche, nouveau point d'entrée référençant le portail de diffusion historique et le service/moteur de recherche ScanR.
Le portail de diffusion des jeux de données ouverts du ministère (une instance OpenDataSoft), depuis 2015. Données de téléchargement (graphiques).
Le portail open data du département des Hauts-de-Seine (instance OpenDataSoft) héberge les données ouvertes de l'université de Nanterre depuis 2015.
Une expérimentation en données ouvertes sur les notices et emprunts à la BU de Paris 8 prévu « prêts vues ».
Les jeux de données de scolarité de l'université Paris 13 (Sorbonne Paris Nord) avec des parcours d'études (une visualisation)
La page ressources de la Coopérative Datactivist regorge de guides et réflexions autour de l'ouverture des données.
L'agence de presse spécialisée AEF propose des publications Data Sup-Recherche offrant des données et des visualisations mais souvent en accès et réutilisation restreintes.
Un exemple de publication de données ouvertes et liées en recherche (site en maintenance ?) http://stlab.istc.cnr.it/stlab/project/data-cnr/
Association Open Data France https://www.opendatafrance.net/ (collectivités)
EU Open Data Days https://op.europa.eu/en/web/euopendatadays/programme

Ce texte est identique à la description du jeu de données que nous avons déposé ici : https://www.data.gouv.fr/fr/datasets/parcours-detudes-dans-lenseignement-superieur-en-ile-de-france-a-partir-des-donnees-sise-2022-2023/ .

Données sources

Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2022. Soit les années universitaires 2010-2011 à 2022-2023. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Pour se conformer à la demande d'accès à ces données que nous avions formulée nous nous sommes limités aux données concernant les académies de Paris, Créteil et Versailles. Nous envisageons d'étendre notre demande d'accès de façon à produire des données de portée nationale.

L'exploitation de ces données sources a été réalisée le 7 septembre 2023.

Données produites

L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites.

Pour plus d'informations sur le projet Oraccle voir le site https://oraccle.fr et sur l'action open data de ce projet voir la documentation https://data.pages.unif.app.

Les données sources nécessitent d'accéder à des codifications auxiliaires pour être comprises. Nous avons conservé ces références externes dans les données produites.

Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements (https://www.education.gouv.fr/acce_public/search.php?mode=advanced) et sur le portail open data de ce ministère (https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/).

Les codes SISE des diplômes étaient accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse. Ce portail appelé Infocentre apparait comme fermé, mais il fournit une base centrale des nomenclatures, https://infocentre.pleiade.education.fr/bcn/, où l'on peut retrouver les codes SISE de diplôme y compris avec des mises à jour très récentes https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.

La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5, avec un peu moins d'effacement. Cette méthode est détaillée plus bas.

Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.

Les données sources concernent 1,5 millions de parcours individuels (exactement 1 518 563 individus).

Fichier formations.csv

Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.

formation: code construit en concaténant l'identifiant de composante (code UAI), l'identifiant de diplôme (code SISE) et, lorsque l'information existe, le degré d'étude (DEGETU des données SISE)
acaeta: académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)
compos: le code UAI de la composante (code établissement ou code d'une composante de l'établissement)
cursus-lmd: L, M ou D selon le type de cursus
cycle: 1, 2 ou 3 selon le cycle concerné
degetu: degré d'étude (le n du bac + n)
diplom: code SISE du diplôme. Le code commence par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master indifférencié), 221 (master professionnel), 222 (master recherche), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master). Les codes suivent soit la nomenclature nationale dans le cas de diplômes nationaux soit une nomenclature ad-hoc lorsqu'ils concernent des diplômes universitaires (donc créés par les établissements).
etabli: code UAI de l'établissement, il peut être différent du code composante
groupe: groupe disciplinaire selon la nomenclature SISE
sectdis: code à deux chiffres représentant le secteur disciplinaire du diplôme (52 valeurs possibles dans la nomenclature SISE).
typ-dipl: type de diplôme (codé sur deux caractères).

précaution d'anonymisation : aucune.

nombre de lignes (formations) : 54 132.

Fichier cohortes.csv

Une cohorte est caractérisée par deux données, d'une part une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes et d'autre part un ensemble de formations réussies, ensemble organisé en séquence croissante selon l'ordre lexicographique. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions avec exactement cet ensemble de réussites est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est alors remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne). La séquence d'inscriptions ainsi que la liste des réussites sont conservés. Les années d'inscriptions ou de réussite ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence.

cohorteid: identifiant numérique de la cohorte
effectif: nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.
inscriptions: séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation.
réussites: ensemble des réussites dans des formations, codifiées par des codes formation et organisées par ordre lexicographique sous la forme d'une chaîne utilisant "+" comme séparateur.

Nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières (moins de 5 individus dans la cohorte) et de le remplacer un zéro. Cette anonymisation des cohortes nous fait perdre 0,5 millions (543 180) de parcours individuels trop spécifiques pour être publiés dans les données produites. Cela se traduit par 473_001 cohortes ayant un effectif masqué par un zéro. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1,148 personnes.

nombre de lignes (cohortes) : 503 882.

nombre de cohortes avec un effectif non masqué : 30 881.

Attributs des cohortes

Les personnes composant chaque cohorte étaient porteuses d'attributs :

sexe (champ SISE binaire)
type de bac obtenu (regroupement selon 8 valeurs)
année d'obtention du bac
année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription en Île-de-France)
année de fin de la séquence d'inscriptions dans la cohorte (dernière année d'inscription en Île-de-France)
spécialités de terminale au bac général (introduites en 2021)

Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes ayant obtenues leurs bac en 2015.

De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :

si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.

Fichier cohorte-bac.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
bac-rgrp: la valeur de l'attribut bac-rgrp selon la nomenclature SISE : 1 littéraire, 2 économique, 3 scientifique, 4 techno STT, 5 autres technos, 6 professionnel, 7 dispense, A bac général (2021), vide.

Fichier cohorte-anbac.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
anbac: la valeur de l'attribut année du bac.

Fichier cohorte-sexe.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
sexe: la valeur de l'attribut sexe (selon la nomenclature SISE deux valeurs possibles : 1 hommme, 2 femme).

Fichier cohorte-premiereins.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
annee: la valeur de l'attribut première année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-derniereins.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
annee: la valeur de l'attribut dernière année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-age-premiereins.csv

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
annee: la valeur de l'attribut age au moment de la première inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-spe.csv

Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_SPECIALITE_BAC_2021_SISE

cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
bac-spe1: la première valeur de l'attribut paire de spécialités au bac
bac-spe2: la seconde valeur de l'attribut paire de spécialités au bac

Future publication

Notre prochaine publication de données est en cours de préparation. Elle sera rendue disponible dès que nous aurons eu accès aux remontées SISE sur les inscriptions pour l'année universitaire passée 2023-2024, sans doute courant septembre 2024.

Les principales nouveautés sont que nous ne tenons plus compte des réussites dont le retard par rapport aux inscriptions produit trop d'écarts dans les données produites. Une cohorte est donc déterminée uniquement par sa séquence d'inscriptions. Nous tenons désormais mieux compte des inscriptions principales dans plusieurs établissements différents la même année.

Cela requiert un travail plus fin pour identifier et éliminer les doublons dans les remontées SISE.

Nous espérons pouvoir publier les données France entière en plus des données Île-de-France.

La documentation CASD qui suit est celle que nous communiquons au CASD pour expliquer notre extraction. Elle est encore susceptible d'évoluer puisque nous comptons ajouter quelques informations aux cohortes. La documentation complète sera fournie à la publication du nouveau jeu, ici sur le site data.gouv.fr.

Parmi les nouveautés, nous ajouterons prochainement un taux de complétude des cohortes qui traduira la proportion de séquences d'inscription qui se sont arrêtées il y a plus d'un an par rapport à l'effectif total de la cohorte. Ce taux ne nous semble pas devoir faire l'objet d'une k-anonymisation comme nous la faisons sur les autres attributs des cohortes.

Nous ajouterons des données annexes issues d'un retravail ortho-typographique sur les référentiels SISE qui doit nous permettre de présenter des libellés plus conformes à l'orthographe et à la typographie française et, si possible, plus intelligibles. Ces données en cours de préparation sont disponibles dans toute une première version de travail. Voir la section Référentiels ortho-typographiés.

Documentation CASD

Données sources

Les données sources sont les données SISE sur les inscriptions entre 2010 et 2022. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Nous avons crée deux jeux de données un se limitant à l'Île-de-France c'est-à-dire aux académies de Paris, Creteil et Versailles et un France entière.

Objectif

L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété de façon à enrichir le dialogue d'orientation. Les données produites s'attachent préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites. Les données France entières nous permettent de compléter les parcours qui ont connu une mobilité avec l'Île-de-France et de comparer les parcours avec les autres régions et académies.

IL y a donc deux dossiers contenant chacun exactement les mêmes fichiers, l'un pour la France entière et l'autre pour l'Île-de-France uniquement.

Fichier formations.csv

Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant·es d'après les données SISE restreinte à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.

formation : code construit en concaténant lorsque l'information existe, le degré d'étude (DEGETU des données SISE), l'identifiant de diplôme (code SISE) et l'identifiant de composante (code UAI).

acaeta : académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)

compos : le code UAI de la composante (code établissement ou code d'une composante de l'établissement)

cursus-lmd : L, M ou D selon le type de cursus

cycle : 1, 2 ou 3 selon le cycle concerné

degetu : degré d'étude (le n du bac + n)

diplom : code SISE du diplôme. Le code par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master ind), 221 (master pro), 222 (master rech), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master).

etabli : code UAI de l'établissement si différent du code composante

groupe : groupe disciplinaire selon la nomenclature SISE

sectdis : code à deux chiffres représentant le secteur disciplinaire du dîplome (52 valeurs dans la nomenclature SISE)

typ-dipl : type de diplôme (codé sur deux caractères)

précaution d'anonymisation : aucune.

Fichier cohortes.csv

Une cohorte est caractérisée par une séquence d'inscriptions principales dans des établissements supérieurs organisée selon les années croissantes. Les années d'inscriptions ne sont pas retenues. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne).

cohorteid : identifiant numérique de la cohorte

effectif : nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.

inscriptions : séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation. En cas d'année avec des inscriptions dans plusieurs établissements ces inscriptions sont jointes par le caractère "&".

Attributs des cohortes

Les personnes composant chaque cohorte étaient porteuses d'attributs :

sexe
type de bac obtenu
année d'obtention du bac
année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription au sens des données SISE en Île-de-France)
spécialités de terminale au bac général (introduites en 2021)

si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.