Scatter Plot Machine Learning

Grafico di dispersione (Scatter Plot)

Il grafico di dispersione è un grafico in cui ogni valore del set di dati è rappresentato da un punto.


Il modulo Matplotlib ha un metodo per disegnare il grafico di dispersione, che richiede due array di lunghezza uguale, uno per i valori dell'asse x e l'altro per i valori dell'asse y:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

L'array x rappresenta l'età di ogni auto.

L'array y rappresenta la velocità di ogni auto.

Esempio

Utilizzare scatter() Metodo per disegnare il grafico di dispersione:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

Risultato:


Esempio di esecuzione

Spiegazione del grafico a dispersione

L'asse x rappresenta l'età dell'auto, l'asse y rappresenta la velocità.

Dalla figura si può vedere che le due auto più rapide sono state utilizzate per 2 anni, mentre l'auto più lenta è stata utilizzata per 12 anni.

Nota:Sembra che le auto più nuove abbiano una velocità di guida più alta, ma potrebbe essere un caso, poiché abbiamo registrato solo 13 auto.

Distribuzione dei dati casuali

In machine learning, i set di dati possono contenere migliaia o milioni di valori.

Quando testate algoritmi, potresti non avere dati reali, potresti dover utilizzare valori generati casualmente.

Come abbiamo imparato nel capitolo precedente, il modulo NumPy può aiutarci!

Creiamo due array che contengono 1000 numeri casuali provenienti dalla distribuzione dei dati normali.

Il valore medio dell'array primario è impostato a 5.0, con una deviazione standard di 1.0.

Il valore medio dell'array secondario è impostato a 10.0, con una deviazione standard di 2.0:

Esempio

Grafico a dispersione con 1000 punti:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()

Risultato:


Esempio di esecuzione

Spiegazione del grafico a dispersione

Possiamo vedere che i punti si concentrano attorno ai valori 5 sull'asse x e 10 sull'asse y.

Possiamo vedere che la diffusione è maggiore rispetto all'asse x sull'asse y.