import numpy as np
x = [0,1,3,4,1]

print(np.min(x))
print(np.max(x))

print("Le nombre d\'occurrences de 1 est", x.count(1))

print("Moyenne : ",np.mean(x)) 
print("Ecart-type : ",np.std(x))

print("Médiane : ", np.median(x))
print("Quantile 0.25 : ", np.quantile(x,0.25))

0
4
Le nombre d'occurrences de 1 est 2
Moyenne :  1.8
Ecart-type :  1.469693845669907
Médiane :  1.0
Quantile 0.25 :  1.0


x = np.array([0,1,3,4,1])

print(np.count_nonzero(x == 1))

2


x = np.array([1, 0, 1, 2, 0, 0])
modalites, effectifs = np.unique(x, return_counts=True)
print("Modalités :", modalites)
print("Effectifs :", effectifs)

Modalités : [0 1 2]
Effectifs : [3 2 1]


print("Effectifs cumulés :", np.cumsum(effectifs))

Effectifs cumulés : [3 5 6]


x = np.array([1,0,2,1,2,2,0])

print(np.where(x==1))

(array([0, 3]),)


import numpy as np
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [9, 8, 7, 6, 5, 4, 3, 2, 1]

print("Matrice de covariance : ")
print(np.cov(x,y,bias=True))
print("Matrice de corrélation : ")
print(np.corrcoef(x,y))

Matrice de covariance : 
[[ 6.66666667 -6.66666667]
 [-6.66666667  6.66666667]]
Matrice de corrélation : 
[[ 1. -1.]
 [-1.  1.]]


x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [9, 8, 7, 6, 5, 4, 3, 2, 1]

print("Covariance de X et Y = ", np.cov(x,y,bias=True)[0][1])

Covariance de X et Y =  -6.666666666666666


import numpy as np
import matplotlib.pyplot as plt

# Création des données
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([9, 8, 7, 6, 5, 4, 3, 2, 1]) + np.array([2*np.random.rand() for i in range(9)])

# Tracé du nuage de points du nuage de points
plt.scatter(x,y)

# Calcul de corrélation
print("Corrélation entre X et Y = ", np.corrcoef(x,y)[0][1])

# Calcul des coefficients de la droite de régression linéaire
a, b = np.polyfit(x,y,1)
print("La droite de régression linéaire a pour équation y=",round(a,3),"x+",round(b,3))

# Tracé de la droite de régression linéaire
x_trace = np.linspace(1,9,100)
plt.plot(x_trace, a*x_trace+b , 'red')
plt.show()

Corrélation entre X et Y =  -0.9801817110052893
La droite de régression linéaire a pour équation y= -1.059 x+ 11.527


import matplotlib.pyplot as plt
import numpy as np

plt.close()
x= [np.random.randint(10, 16) for i in range(1000)]
plt.boxplot(x, whis=[0,100], vert=False)
plt.show()


import pandas

titanic = pandas.read_csv("./titanic.csv")

# Affichage de la table
print("Affichage de la table")
print(titanic)

print("Affichage des cinq premiers éléments")
print(titanic.head(5))

print("Affichage des trois derniers éléments")
print(titanic.tail(3))

Affichage de la table
     PassengerId  Survived  Pclass     Sex   Age     Fare
0              1         0       3    male  22.0   7.2500
1              2         1       1  female  38.0  71.2833
2              3         1       3  female  26.0   7.9250
3              4         1       1  female  35.0  53.1000
4              5         0       3    male  35.0   8.0500
..           ...       ...     ...     ...   ...      ...
886          887         0       2    male  27.0  13.0000
887          888         1       1  female  19.0  30.0000
888          889         0       3  female   NaN  23.4500
889          890         1       1    male  26.0  30.0000
890          891         0       3    male  32.0   7.7500

[891 rows x 6 columns]
Affichage des cinq premiers éléments
   PassengerId  Survived  Pclass     Sex   Age     Fare
0            1         0       3    male  22.0   7.2500
1            2         1       1  female  38.0  71.2833
2            3         1       3  female  26.0   7.9250
3            4         1       1  female  35.0  53.1000
4            5         0       3    male  35.0   8.0500
Affichage des trois derniers éléments
     PassengerId  Survived  Pclass     Sex   Age   Fare
888          889         0       3  female   NaN  23.45
889          890         1       1    male  26.0  30.00
890          891         0       3    male  32.0   7.75


titanic["Age"]

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64


Jeunes_passagers = titanic.loc[titanic["Age"]<18]
print("Premiers éléments de la table des passagers mineurs :")
print(Jeunes_passagers.head(3))
print("")
Jeunes_passagers_3eme_classe = titanic.loc[(titanic["Age"]<18) & (titanic["Pclass"]==3)]
print("Table des passagers mineurs de 3ème classe :")
print(Jeunes_passagers_3eme_classe)

Premiers éléments de la table des passagers mineurs :
    PassengerId  Survived  Pclass     Sex   Age     Fare
7             8         0       3    male   2.0  21.0750
9            10         1       2  female  14.0  30.0708
10           11         1       3  female   4.0  16.7000

Table des passagers mineurs de 3ème classe :
     PassengerId  Survived  Pclass     Sex   Age     Fare
7              8         0       3    male   2.0  21.0750
10            11         1       3  female   4.0  16.7000
14            15         0       3  female  14.0   7.8542
16            17         0       3    male   2.0  29.1250
22            23         1       3  female  15.0   8.0292
..           ...       ...     ...     ...   ...      ...
844          845         0       3    male  17.0   8.6625
850          851         0       3    male   4.0  31.2750
852          853         0       3  female   9.0  15.2458
869          870         1       3    male   4.0  11.1333
875          876         1       3  female  15.0   7.2250

[78 rows x 6 columns]


print("Le premier passager de la liste :")
print(titanic.iloc[0,:])

print("Les 3 premières colonnes des 10 premiers passagers :")
titanic.iloc[0:10,0:3]

Le premier passager de la liste :
PassengerId       1
Survived          0
Pclass            3
Sex            male
Age            22.0
Fare           7.25
Name: 0, dtype: object
Les 3 premières colonnes des 10 premiers passagers :


x=titanic["Age"].to_numpy()
type(x)

numpy.ndarray


x = np.array([0,1,3,np.nan,4,1])

print("Moyenne : ",np.mean(x)) 
print("Moyenne sans le nan : ", np.nanmean(x))

Moyenne :  nan
Moyenne sans le nan :  1.8


x = x[np.logical_not(np.isnan(x))]
print(x)

[0. 1. 3. 4. 1.]


# Moyenne de la colonne Age
print("Age moyen")
print(titanic["Age"].mean())
print("")

# Médiane de certaines colonnes
print("Mediane de certaines donnees")
print(titanic[["Age", "Fare"]].median())
print("")

print("Nombre de passagers dont l'âge est connu")
print(titanic["Age"].count())

Age moyen
29.69911764705882

Mediane de certaines donnees
Age     28.0000
Fare    14.4542
dtype: float64

Nombre de passagers dont l'âge est connu
714


print(titanic.describe())

       PassengerId    Survived      Pclass         Age        Fare
count   891.000000  891.000000  891.000000  714.000000  891.000000
mean    446.000000    0.383838    2.308642   29.699118   32.204208
std     257.353842    0.486592    0.836071   14.526497   49.693429
min       1.000000    0.000000    1.000000    0.420000    0.000000
25%     223.500000    0.000000    2.000000   20.125000    7.910400
50%     446.000000    0.000000    3.000000   28.000000   14.454200
75%     668.500000    1.000000    3.000000   38.000000   31.000000
max     891.000000    1.000000    3.000000   80.000000  512.329200


print(titanic["Age"].value_counts())

24.00    30
22.00    27
18.00    26
28.00    25
19.00    25
         ..
55.50     1
74.00     1
0.92      1
70.50     1
12.00     1
Name: Age, Length: 88, dtype: int64


print("Matrice de corrélation :" ,titanic[["Survived","Pclass"]].corr())

print("\n Coefficient de corrélation :" ,titanic[["Survived","Pclass"]].corr().iloc[0][1])

Matrice de corrélation :           Survived    Pclass
Survived  1.000000 -0.338481
Pclass   -0.338481  1.000000

 Coefficient de corrélation : -0.33848103596101514


groupement_par_genre = titanic.groupby("Sex")[["Age","Survived","Fare"]]
print(groupement_par_genre.mean())

              Age  Survived       Fare
Sex                                   
female  27.915709  0.742038  44.479818
male    30.726645  0.188908  25.523893


groupement_par_genre.mean().axes

[Index(['female', 'male'], dtype='object', name='Sex'),
 Index(['Age', 'Survived', 'Fare'], dtype='object')]


titanic.plot(x="data1", y="data2")


titanic.plot(x="data1", y=["data2", "data3"])


# Diagramme en secteurs

import matplotlib.pyplot as plt

donnees = titanic.groupby("Sex")["Sex"].count()
print(donnees)

donnees.plot.pie(autopct = lambda z: str(round(z, 2)) + '%', pctdistance = 0.6)
plt.show()

Sex
female    314
male      577
Name: Sex, dtype: int64


# Diagramme en boite
import matplotlib.pyplot as plt

titanic["Age"].plot.box(whis=[0,100],vert=False)
plt.title("Diagramme en boite de l'age des passagers")
plt.show()


# Diagramme en bandes
import matplotlib.pyplot as plt

donnees = titanic.groupby("Pclass")["Survived"].mean()
donnees.plot.bar(width=0.5,edgecolor='black')
plt.title("Pourcentage de survivants par classe de passagers")
plt.show()


titanic_group = titanic.groupby("Pclass").mean()   # on groupe les passagers par classe et on calcule la moyenne 
                                                   # de chaque colonne
titanic_group.plot.bar(y=["Survived","Fare"], secondary_y="Fare")  # on affiche le diagramme du nombre de survivants
                                                                   # et celui du prix du ticket
plt.show()


titanic_group.plot.bar(y=["Survived","Fare"], subplots=True, layout=(2,1))
plt.show()


import matplotlib.pyplot as plt
fig, (ax1,ax2) = plt.subplots(1,2)
titanic_group.plot.bar(y=["Survived","Fare"], secondary_y="Fare", ax=ax1)
titanic_group.plot.bar(y=["Survived","Age"], secondary_y="Age", ax=ax2)
fig.tight_layout()   # pour écarter les deux figures
plt.show()

Statistiques : les bibliothèques $\mathtt{NumPy}$ et $\mathtt{Pandas}$ ¶

La bibliothèque $\mathtt{Numpy}$ possède un certain nombre de fonctions utiles pour calculer des statistiques basiques.¶

Visualisation des données¶

La bibliothèque $\mathtt{Pandas}$ ¶