- analiticas
- Posts
- 5 comandi per esplorare i dati con pandas
5 comandi per esplorare i dati con pandas
Scopriamo le basi dell'analisi esplorativa con Python.
Comprendere i dati con cui si lavora è il primo passo per qualsiasi tipo di analisi. In questa micro-lezione passeremo in rassegna 5 comandi essenziali per ogni analisi esplorativa.
1. Visualizzare l’inizio e la fine del dataframe
Se lavori con un set di dati che non conosci, una delle primissime cose da fare è quella di dargli uno sguardo.
df.head()
Il comando head() ci mostrerà la parte iniziale del nostro dataframe (negli esempi chiamato df), in particolare le prime 5 righe (5 è il valore di default).
In realtà possiamo specificare il numero di righe da guardare. Basta fare così:
# mostrare le prime 10 righe
df.head(10)
# mostrare le prime 25 righe
df.head(25)
Allo stesso modo, il comando tail() serve per dare un’occhiata alle ultime righe del nostro dataframe:
# mostrare le ultime 5 righe
df.tail()
# mostrare le ultime 10 righe
df.tail(10)
# mostrare le ultime 25 righe
df.tail(25)
2. Conoscere le colonne del dataframe
Se invece vogliamo solo visualizzare i nomi delle colonne del nostro set di dati, ci basta eseguire il comando:
df.columns
In questa maniera, vedremo una lista delle colonne che compongono il nostro dataframe.
3. Comprendere i tipi di dati del dataframe
Anche se abbiamo un’idea di come è fatto il nostro set di dati, è importantissimo scoprire i tipi di dati (data types in inglese) che lo compongono.
Per farlo, dobbiamo eseguire il comando:
df.dtypes
In questa maniera, scopriremo il tipo di dati (numerici, booleani, date, stringhe, ecc.) di ciascuna delle colonne del nostro dataframe.
4. Scoprire i valori unici per ogni colonna
Se siamo interessati ad una colonna in particolare del nostro set di dati possiamo eseguire il comando:
df['colonna'].value_counts()
In questa maniera vedremo quante volte ogni valore è ripetuto all’interno della colonna, scoprendo di fatto i valori unici. La lista sarà generata in ordine decrescente, partendo quindi dai valori ripetuti più volte.
5. Capire le colonne numeriche del dataframe
Se il nostro dataframe contiene delle colonne con valori numerici, la libreria pandas dispone di una maniera immediata per avere una panoramica di questi.
Prova ad utilizzare il comando describe():
df.describe()
Così facendo, scopriremo:
Quanti valori (non necessariamente unici) sono contenuti in ogni colonna.
Il valore massimo e quello minimo.
La media e la mediana.
Il 25% e il 75% percentile.
La deviazione standard.
Per ricevere micro-lezioni come questa via email, iscriviti alla newsletter!