Future publication

Notre prochaine publication de données est en cours de préparation. Elle sera rendue disponible dès que nous aurons eu accès aux remontées SISE sur les inscriptions pour l'année universitaire passée 2023-2024, sans doute courant septembre 2024.

Les principales nouveautés sont que nous ne tenons plus compte des réussites dont le retard par rapport aux inscriptions produit trop d'écarts dans les données produites. Une cohorte est donc déterminée uniquement par sa séquence d'inscriptions. Nous tenons désormais mieux compte des inscriptions principales dans plusieurs établissements différents la même année.

Cela requiert un travail plus fin pour identifier et éliminer les doublons dans les remontées SISE.

Nous espérons pouvoir publier les données France entière en plus des données Île-de-France.

La documentation CASD qui suit est celle que nous communiquons au CASD pour expliquer notre extraction. Elle est encore susceptible d'évoluer puisque nous comptons ajouter quelques informations aux cohortes. La documentation complète sera fournie à la publication du nouveau jeu, ici sur le site data.gouv.fr.

Parmi les nouveautés, nous ajouterons prochainement un taux de complétude des cohortes qui traduira la proportion de séquences d'inscription qui se sont arrêtées il y a plus d'un an par rapport à l'effectif total de la cohorte. Ce taux ne nous semble pas devoir faire l'objet d'une k-anonymisation comme nous la faisons sur les autres attributs des cohortes.

Nous ajouterons des données annexes issues d'un retravail ortho-typographique sur les référentiels SISE qui doit nous permettre de présenter des libellés plus conformes à l'orthographe et à la typographie française et, si possible, plus intelligibles. Ces données en cours de préparation sont disponibles dans toute une première version de travail. Voir la section Référentiels ortho-typographiés.

Documentation CASD

Données sources

Les données sources sont les données SISE sur les inscriptions entre 2010 et 2022. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Nous avons crée deux jeux de données un se limitant à l'Île-de-France c'est-à-dire aux académies de Paris, Creteil et Versailles et un France entière.

Objectif

L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété de façon à enrichir le dialogue d'orientation. Les données produites s'attachent préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites. Les données France entières nous permettent de compléter les parcours qui ont connu une mobilité avec l'Île-de-France et de comparer les parcours avec les autres régions et académies.

IL y a donc deux dossiers contenant chacun exactement les mêmes fichiers, l'un pour la France entière et l'autre pour l'Île-de-France uniquement.

Fichier formations.csv

Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant·es d'après les données SISE restreinte à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.

formation : code construit en concaténant lorsque l'information existe, le degré d'étude (DEGETU des données SISE), l'identifiant de diplôme (code SISE) et l'identifiant de composante (code UAI).

acaeta : académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)

compos : le code UAI de la composante (code établissement ou code d'une composante de l'établissement)

cursus-lmd : L, M ou D selon le type de cursus

cycle : 1, 2 ou 3 selon le cycle concerné

degetu : degré d'étude (le n du bac + n)

diplom : code SISE du diplôme. Le code par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master ind), 221 (master pro), 222 (master rech), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master).

etabli : code UAI de l'établissement si différent du code composante

groupe : groupe disciplinaire selon la nomenclature SISE

sectdis : code à deux chiffres représentant le secteur disciplinaire du dîplome (52 valeurs dans la nomenclature SISE)

typ-dipl : type de diplôme (codé sur deux caractères)

précaution d'anonymisation : aucune.

Fichier cohortes.csv

Une cohorte est caractérisée par une séquence d'inscriptions principales dans des établissements supérieurs organisée selon les années croissantes. Les années d'inscriptions ne sont pas retenues. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne).

cohorteid : identifiant numérique de la cohorte

effectif : nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.

inscriptions : séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation. En cas d'année avec des inscriptions dans plusieurs établissements ces inscriptions sont jointes par le caractère "&".

Attributs des cohortes

Les personnes composant chaque cohorte étaient porteuses d'attributs :

  • sexe
  • type de bac obtenu
  • année d'obtention du bac
  • année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription au sens des données SISE en Île-de-France)
  • spécialités de terminale au bac général (introduites en 2021)

Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes aynat obtenues leurs bac en 2015.

De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :

  • si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
  • si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
  • si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
  • si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.

Fichier cohorte-bac.csv

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

bac-rgrp : la valeur de l'attribut bac-rgrp (selon la nomenclature SISE)

Fichier cohorte-anbac.csv

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

anbac : la valeur de l'attribut année du bac.

Fichier cohorte-sexe.csv

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

sexe : la valeur de l'attribut sexe (selon la nomenclature SISE : 1 hommme, 2 femme).

Fichier cohorte-premiereins.csv

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

annee : la valeur de l'attribut première année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-derniereins.csv

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

annee : la valeur de l'attribut dernière année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-age-premiereins.csv

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

annee : la valeur de l'attribut age au moment de la première inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-spe.csv

Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique.

cohorteid : l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut

effectif : l'effectif concerné par la valeur de l'attribut, ou zéro sur cet effectif a été masqué

bac-spe1 : la première valeur de l'attribut paire de spécialités au bac

bac-spe2 : la seconde valeur de l'attribut paire de spécialités au bac

Référentiels SISE

Les référentiels SISE sont nécessaires pour interpéter les données issues de notre extraction. Vous en trouverez une version téléchargée du 5 mai 2024 ici :

Référentiels ortho-typographiés

Les données SISE font référence à des codes de diplômes, des disciplines, des secteurs disciplinaires et à une codification particulière des spécialités du bac par libellés courts dont l'ensemble des libellés sont orthographiés tout en majuscules, sans signes diacritiques (accents, cédilles) et sans respect des règles typographiques (XXEME au lieu de XXᵉ etc.). Nous avons décidé de produire des fichiers de normalisation orthotypographiques de ces libellés. Le plus long à traiter totalement est celui décrivant l'ensemble des près de 50 000 diplômes référencés.

Vous trouverez ici en avant première ces fichiers dans leur état actuel, à chaque fois la colonne avec les libellés de meilleure qualité est la dernière et les colonnes précédentes servent à établir la correspondance avec les codes ou libellés employés dans la codification SISE.