TP analyse de données (II)

Commençons par explorer le jeu de données nous indiquant les réponses d’orientation en fonction du choix de spécialité.
Le jeu de données se trouve  ici : DATA (cliquez pour télécharger) ou rendez-vous sur la page : 
https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux/export/?sort=voeux

Comme dans le TP précédent nous disposons d’un fichier csv (le séparateur est ici le point virgule).

Chargeons ces données en utilisant Pandas.

import pandas as pd

DATA = 'DATA/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux.csv'

data_df = pd.read_csv(DATA, sep=';') 

Pandas est une librairie puissante pour l’analyse de données. 
Commençons à regarder un peu la forme de nos données avec shape.

print(data_df.shape) 

(3965, 5)

Notre jeu de données comporte 3965 lignes et 5 columns.
Regardons quelles sont ces colonnes :

for columns in data_df:
    print(columns) 

Enseignements de spécialité
Formation
Nombre de candidats bacheliers ayant confirmé au moins un vœu
Nombre de candidats bacheliers ayant reçu au moins une proposition d’admission
Nombre de candidats bacheliers ayant accepté une proposition d’admission

Regardons un peu à quoi ressemblent la colonne des spé.

spe = data_df['Enseignements de spécialité'].unique()
print(spe) 

Nous allons essentiellement nous intéresser aux spécialités présentes au Gymnase.

SPE = [
    'Mathématiques',
    'Numérique et Sciences Informatiques',
    'Physique-Chimie',
    'Sciences économiques et sociales',
    'Sciences de la vie et de la terre',
    'Sciences de l\'ingénieur',
    'Histoire,Géographie, Géopolitique, Sciences politiques',
    'Humanités, Littérature et Philosophie',
    'Arts' 
] 

Notre première mission consiste à savoir combien de candidats sont présents dans chaque spécialité. De regarder également comment sont représentés les combinaisons de ces spés.

Pour ça, nous remarquons qu’une des valeurs de la colonne “formation” est : “Ensemble des candidats bacheliers”

mask = data_df['Formation'] == 'Ensemble des candidats bacheliers'
effectif_global = data_df[mask]
print(effectif_global) 

On se retrouve avec 61 une lignes. C’est les 61 combinaisons de spés présentes.
Regardons si nous ne prenons que les spécialités présentes à Sturm.

Retour haut de page