Comme dans le TP précédent nous disposons d’un fichier csv (le séparateur est ici le point virgule).
Chargeons ces données en utilisant Pandas.
import pandas as pd
DATA = 'DATA/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux.csv'
data_df = pd.read_csv(DATA, sep=';')
Pandas est une librairie puissante pour l’analyse de données. Commençons à regarder un peu la forme de nos données avec shape.
print(data_df.shape)
(3965, 5)
Notre jeu de données comporte 3965 lignes et 5 columns. Regardons quelles sont ces colonnes :
for columns in data_df:
print(columns)
Enseignements de spécialité Formation Nombre de candidats bacheliers ayant confirmé au moins un vœu Nombre de candidats bacheliers ayant reçu au moins une proposition d’admission Nombre de candidats bacheliers ayant accepté une proposition d’admission
Regardons un peu à quoi ressemblent la colonne des spé.
spe = data_df['Enseignements de spécialité'].unique()
print(spe)
Nous allons essentiellement nous intéresser aux spécialités présentes au Gymnase.
SPE = [
'Mathématiques',
'Numérique et Sciences Informatiques',
'Physique-Chimie',
'Sciences économiques et sociales',
'Sciences de la vie et de la terre',
'Sciences de l\'ingénieur',
'Histoire,Géographie, Géopolitique, Sciences politiques',
'Humanités, Littérature et Philosophie',
'Arts'
]
Notre première mission consiste à savoir combien de candidats sont présents dans chaque spécialité. De regarder également comment sont représentés les combinaisons de ces spés.
Pour ça, nous remarquons qu’une des valeurs de la colonne “formation” est : “Ensemble des candidats bacheliers”