import numpy as np
x = [0,1,3,4,1]

print(np.min(x))
print(np.max(x))

print("Le nombre d\'occurrences de 1 est", x.count(1))

print("Moyenne : ",np.mean(x)) 
print("Ecart-type : ",np.std(x))

print("Médiane : ", np.median(x))
print("Quantile 0.25 : ", np.quantile(x,0.25))

0
4
Le nombre d'occurrences de 1 est 2
Moyenne :  1.8
Ecart-type :  1.469693845669907
Médiane :  1.0
Quantile 0.25 :  1.0

x = np.array([0,1,3,4,1])

print(np.count_nonzero(x == 1))

2

x = np.array([1, 0, 1, 2, 0, 0])
modalites, effectifs = np.unique(x, return_counts=True)
print("Modalités :", modalites)
print("Effectifs :", effectifs)

Modalités : [0 1 2]
Effectifs : [3 2 1]

print("Effectifs cumulés :", np.cumsum(effectifs))

Effectifs cumulés : [3 5 6]

x = np.array([1,0,2,1,2,2,0])

print(np.where(x==1))

(array([0, 3]),)

import numpy as np
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [9, 8, 7, 6, 5, 4, 3, 2, 1]

print("Matrice de covariance : ")
print(np.cov(x,y,bias=True))
print("Matrice de corrélation : ")
print(np.corrcoef(x,y))

Matrice de covariance : 
[[ 6.66666667 -6.66666667]
 [-6.66666667  6.66666667]]
Matrice de corrélation : 
[[ 1. -1.]
 [-1.  1.]]

x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [9, 8, 7, 6, 5, 4, 3, 2, 1]

print("Covariance de X et Y = ", np.cov(x,y,bias=True)[0][1])

Covariance de X et Y =  -6.666666666666666

import numpy as np
import matplotlib.pyplot as plt

# Création des données
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([9, 8, 7, 6, 5, 4, 3, 2, 1]) + np.array([2*np.random.rand() for i in range(9)])

# Tracé du nuage de points du nuage de points
plt.scatter(x,y)

# Calcul de corrélation
print("Corrélation entre X et Y = ", np.corrcoef(x,y)[0][1])

# Calcul des coefficients de la droite de régression linéaire
a, b = np.polyfit(x,y,1)
print("La droite de régression linéaire a pour équation y=",round(a,3),"x+",round(b,3))

# Tracé de la droite de régression linéaire
x_trace = np.linspace(1,9,100)
plt.plot(x_trace, a*x_trace+b , 'red')
plt.show()

Corrélation entre X et Y =  -0.9846628257298012
La droite de régression linéaire a pour équation y= -0.935 x+ 10.917

import matplotlib.pyplot as plt
import numpy as np

plt.close()
x= [np.random.randint(10, 16) for i in range(1000)]
plt.boxplot(x, whis=[0,100], vert=False)
plt.show()

import pandas

titanic = pandas.read_csv("./titanic.csv")

# Affichage de la table
print("Affichage de la table")
print(titanic)

print("Affichage des cinq premiers éléments")
print(titanic.head(5))

print("Affichage des trois derniers éléments")
print(titanic.tail(3))

Affichage de la table
     PassengerId  Survived  Pclass     Sex   Age     Fare
0              1         0       3    male  22.0   7.2500
1              2         1       1  female  38.0  71.2833
2              3         1       3  female  26.0   7.9250
3              4         1       1  female  35.0  53.1000
4              5         0       3    male  35.0   8.0500
..           ...       ...     ...     ...   ...      ...
886          887         0       2    male  27.0  13.0000
887          888         1       1  female  19.0  30.0000
888          889         0       3  female   NaN  23.4500
889          890         1       1    male  26.0  30.0000
890          891         0       3    male  32.0   7.7500

[891 rows x 6 columns]
Affichage des cinq premiers éléments
   PassengerId  Survived  Pclass     Sex   Age     Fare
0            1         0       3    male  22.0   7.2500
1            2         1       1  female  38.0  71.2833
2            3         1       3  female  26.0   7.9250
3            4         1       1  female  35.0  53.1000
4            5         0       3    male  35.0   8.0500
Affichage des trois derniers éléments
     PassengerId  Survived  Pclass     Sex   Age   Fare
888          889         0       3  female   NaN  23.45
889          890         1       1    male  26.0  30.00
890          891         0       3    male  32.0   7.75

titanic["Age"]

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

Jeunes_passagers = titanic.loc[titanic["Age"]<18]
print("Premiers éléments de la table des passagers mineurs :")
print(Jeunes_passagers.head(3))
print("")
Jeunes_passagers_3eme_classe = titanic.loc[(titanic["Age"]<18) & (titanic["Pclass"]==3)]
print("Table des passagers mineurs de 3ème classe :")
print(Jeunes_passagers_3eme_classe)

Premiers éléments de la table des passagers mineurs :
    PassengerId  Survived  Pclass     Sex   Age     Fare
7             8         0       3    male   2.0  21.0750
9            10         1       2  female  14.0  30.0708
10           11         1       3  female   4.0  16.7000

Table des passagers mineurs de 3ème classe :
     PassengerId  Survived  Pclass     Sex   Age     Fare
7              8         0       3    male   2.0  21.0750
10            11         1       3  female   4.0  16.7000
14            15         0       3  female  14.0   7.8542
16            17         0       3    male   2.0  29.1250
22            23         1       3  female  15.0   8.0292
..           ...       ...     ...     ...   ...      ...
844          845         0       3    male  17.0   8.6625
850          851         0       3    male   4.0  31.2750
852          853         0       3  female   9.0  15.2458
869          870         1       3    male   4.0  11.1333
875          876         1       3  female  15.0   7.2250

[78 rows x 6 columns]

print("Le premier passager de la liste :")
print(titanic.iloc[0,:])

print("Les 3 premières colonnes des 10 premiers passagers :")
titanic.iloc[0:10,0:3]

Le premier passager de la liste :
PassengerId       1
Survived          0
Pclass            3
Sex            male
Age            22.0
Fare           7.25
Name: 0, dtype: object
Les 3 premières colonnes des 10 premiers passagers :

titanic.axes

[RangeIndex(start=0, stop=891, step=1),
 Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'Fare'], dtype='object')]

titanic["Prix par age"]= titanic['Fare'] / titanic['Age']
print(titanic.head(8))

   PassengerId  Survived  Pclass     Sex   Age     Fare  Prix par age
0            1         0       3    male  22.0   7.2500      0.329545
1            2         1       1  female  38.0  71.2833      1.875876
2            3         1       3  female  26.0   7.9250      0.304808
3            4         1       1  female  35.0  53.1000      1.517143
4            5         0       3    male  35.0   8.0500      0.230000
5            6         0       3    male   NaN   8.4583           NaN
6            7         0       1    male  54.0  51.8625      0.960417
7            8         0       3    male   2.0  21.0750     10.537500

x=titanic["Age"].to_numpy()
type(x)

numpy.ndarray

x = np.array([0,1,3,np.nan,4,1])

print("Moyenne : ",np.mean(x)) 
print("Moyenne sans le nan : ", np.nanmean(x))

Moyenne :  nan
Moyenne sans le nan :  1.8

x = x[np.logical_not(np.isnan(x))]
print(x)

[0. 1. 3. 4. 1.]

# Moyenne de la colonne Age
print("Age moyen")
print(titanic["Age"].mean())
print("")

# Médiane de certaines colonnes
print("Mediane de certaines donnees")
print(titanic[["Age", "Fare"]].median())
print("")

print("Nombre de passagers dont l'âge est connu")
print(titanic["Age"].count())

Age moyen
29.69911764705882

Mediane de certaines donnees
Age     28.0000
Fare    14.4542
dtype: float64

Nombre de passagers dont l'âge est connu
714

print(titanic.describe())

       PassengerId    Survived      Pclass         Age        Fare  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118   32.204208   
std     257.353842    0.486592    0.836071   14.526497   49.693429   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    7.910400   
50%     446.000000    0.000000    3.000000   28.000000   14.454200   
75%     668.500000    1.000000    3.000000   38.000000   31.000000   
max     891.000000    1.000000    3.000000   80.000000  512.329200   

       Prix par age  
count    714.000000  
mean       2.391841  
std        8.115102  
min        0.000000  
25%        0.342403  
50%        0.565217  
75%        1.673857  
max      164.728261

print(titanic["Age"].value_counts())

Age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64

print("Matrice de corrélation :" ,titanic[["Survived","Pclass"]].corr())

print("\n Coefficient de corrélation :" ,titanic[["Survived","Pclass"]].corr().iloc[0,1])

Matrice de corrélation :           Survived    Pclass
Survived  1.000000 -0.338481
Pclass   -0.338481  1.000000

 Coefficient de corrélation : -0.33848103596101514

import pandas
import numpy as np

data = {
        'Ville':['Paris','Maseille','Clermont-Ferrand','Bordeaux'],
        'Température moyenne':[13, 18, np.nan, 16],
        'Pluviométrie':[700, 500, 1300, np.nan]
        }

meteo = pandas.DataFrame(data)
print("Données complètes : \n", meteo)
print('\n')

# On enlève toutes les lignes où il y a une valeur manquante
meteo2 = meteo.dropna()
print("On épure toutes les lignes où il y a des données manquantes : \n", meteo2)
print('\n')

# On enlève les lignes où il manque une valeur dans les colonnes Ville ou Température moyenne
meteo3 = meteo.dropna(subset=['Ville', 'Température moyenne'])
print("On épure toutes les lignes où certaines données sont manquantes : \n", meteo3)

Données complètes : 
               Ville  Température moyenne  Pluviométrie
0             Paris                 13.0         700.0
1          Maseille                 18.0         500.0
2  Clermont-Ferrand                  NaN        1300.0
3          Bordeaux                 16.0           NaN


On épure toutes les lignes où il y a des données manquantes : 
       Ville  Température moyenne  Pluviométrie
0     Paris                 13.0         700.0
1  Maseille                 18.0         500.0


On épure toutes les lignes où certaines données sont manquantes : 
       Ville  Température moyenne  Pluviométrie
0     Paris                 13.0         700.0
1  Maseille                 18.0         500.0
3  Bordeaux                 16.0           NaN

groupement_par_genre = titanic.groupby("Sex")
print(groupement_par_genre.mean())

        PassengerId  Survived    Pclass        Age       Fare  Prix par age
Sex                                                                        
female   431.028662  0.742038  2.159236  27.915709  44.479818      2.743144
male     454.147314  0.188908  2.389948  30.726645  25.523893      2.189434

groupement_par_genre2 = titanic.groupby("Sex")[["Age","Survived","Fare"]].mean()
print(groupement_par_genre2)

              Age  Survived       Fare
Sex                                   
female  27.915709  0.742038  44.479818
male    30.726645  0.188908  25.523893

print(groupement_par_genre.count())

        PassengerId  Survived  Pclass  Age  Fare  Prix par age
Sex                                                           
female          314       314     314  261   314           261
male            577       577     577  453   577           453

groupement_survie = titanic.groupby("Survived").mean(numeric_only=True)
print(groupement_survie)

          PassengerId    Pclass        Age       Fare  Prix par age
Survived                                                           
0          447.016393  2.531876  30.626179  22.117887      1.465784
1          444.368421  1.950292  28.343690  48.395408      3.745800

titanic.plot(x="data1", y="data2")

titanic.plot(x="data1", y=["data2", "data3"])

# Diagramme en secteurs

import matplotlib.pyplot as plt

donnees = titanic.groupby("Sex")["Sex"].count()
print(donnees)

donnees.plot.pie(autopct = lambda z: str(round(z, 2)) + '%', pctdistance = 0.6)
plt.show()

Sex
female    314
male      577
Name: Sex, dtype: int64

# Diagramme en boite
import matplotlib.pyplot as plt

titanic["Age"].plot.box(whis=[0,100],vert=False)
plt.title("Diagramme en boite de l'age des passagers")
plt.show()

# Diagramme en bandes
import matplotlib.pyplot as plt

donnees = titanic.groupby("Pclass")["Survived"].mean()
donnees.plot.bar(width=0.5,edgecolor='black')
plt.title("Pourcentage de survivants par classe de passagers")
plt.show()

titanic_group = titanic.groupby("Pclass").mean(numeric_only=True)   # on groupe les passagers par classe et on calcule la moyenne 
                                                   # de chaque colonne
titanic_group.plot.bar(y=["Survived","Fare"], secondary_y="Fare")  # on affiche le diagramme du nombre de survivants
                                                                   # et celui du prix du ticket
plt.show()

titanic_group.plot.bar(y=["Survived","Fare","Age"], secondary_y=["Fare","Age"])  # on affiche le diagramme du nombre de survivants
                                                                   # et celui du prix du ticket
plt.show()

titanic_group.plot.bar(y=["Survived","Fare"], subplots=True, layout=(2,1))
plt.show()

import matplotlib.pyplot as plt
fig, (ax1,ax2) = plt.subplots(1,2)
titanic_group.plot.bar(y=["Survived","Fare"], secondary_y="Fare", ax=ax1)
titanic_group.plot.bar(y=["Survived","Age"], secondary_y="Age", ax=ax2)
fig.tight_layout()   # pour écarter les deux figures
plt.show()

import matplotlib.pyplot as plt
titanic_group.plot.bar(y=["Fare","Age"], stacked=True)
plt.show()

import matplotlib.pyplot as plt
#titanic_group.plot.bar(y=["Survived","Fare"], secondary_y="Fare")
titanic_group.plot.bar()
fig.tight_layout()   # pour écarter les deux figures
plt.show()

Statistiques : les bibliothèques $\mathtt{NumPy}$ et $\mathtt{Pandas}$ ¶

La bibliothèque $\mathtt{Numpy}$ possède un certain nombre de fonctions utiles pour calculer des statistiques basiques.¶

Visualisation des données¶

La bibliothèque $\mathtt{Pandas}$ ¶

Visualisation des données¶