• analiticas
  • Posts
  • Pulisci i nomi delle colonne con Python e pandas

Pulisci i nomi delle colonne con Python e pandas

Scopri come eliminare facilmente gli spazi superflui dalle intestazioni dei tuoi dataframe

In questa micro-lezione vedremo come pulire i nomi delle colonne nei nostri dataframe.

Quando lavoriamo con i dati, capita spesso di trovarci di fronte a dataframe con nomi di colonne che contengono spazi indesiderati all'inizio o alla fine. Questi spazi possono causare problemi durante l'analisi dei dati.

Fortunatamente, pandas ci offre un metodo semplice ed efficace per rimuoverli: df.columns.str.strip().

La libreria e il dataframe

Per prima costa, importiamo la libreria pandas:

import pandas as pd

Creiamo adesso un dataframe con 3 colonne. Diamo alle colonne dei nomi che contengono degli spazi, sia all’inizio che alla fine:

df = pd.DataFrame({
    ' Nome ': ['Mario', 'Luigi', 'Anna'],
    ' Età  ': [30, 28, 35],
    ' Città  ': ['Roma', 'Milano', 'Napoli']
})

Il nostro dataframe iniziale apparirà così:

Nome

Età

Città

Mario

30

Roma

Luigi

28

Milano

Anna

35

Napoli

Perché bisogna pulire i nomi delle colonne?

Gli spazi nei nomi delle colonne, nonostante siano pressoché invisibili, nascondono delle insidie.

Infatti, qualora volessimo far riferimento ad una colonna del nostro dataframe dovremo dare attenzione ad essi.

Immaginiamo di voler eliminare la colonna “Nome” dal nostro dataframe. Come visto in questa micro-lezione, possiamo usare il metodo drop():

df = df.drop('Nome', axis=1)

Tuttavia, eseguendo questo codice con il dataframe creato in precedenza causerà l’errore seguente:

KeyError: "['Nome'] not found in axis"

Infatti la colonna “Nome” non esiste, si chiama “ Nome “.

Da qui il bisogno di pulire i nomi delle colonne del nostro dataframe.

La pulizia

Per eliminare gli spazi dai nomi delle colonne del nostro dataframe, non ci resta che fare così:

df.columns = df.columns.str.strip()

Conclusione

df.columns.str.strip() è uno strumento potente e facile da usare per la pulizia dei nomi delle colonne nei dataframe pandas.

Può sembrare un dettaglio minore, ma avere nomi di colonne puliti e coerenti può fare una grande differenza nella leggibilità e nella manutenzione del vostro codice.

Alla prossima micro-lezione 👋