La libreria Pandas Python è uno strumento fondamentale per chi lavora nel campo della data science e dell’analisi dei dati.
La sua versatilità e la vasta gamma di funzioni disponibili lo rendono ideale per gestire, analizzare e visualizzare grandi quantità di dati.
Python, con il supporto di librerie come Pandas, è diventato uno dei linguaggi più utilizzati in questo contesto
Andiamo quindi a capire all’interno di questo articolo che cos’è la libreria pandas, come importarla nel nostro codice python e come utilizzarla per l’analisi dei dati
Cos’è Pandas per Python?
Pandas è una libreria open-source di Python progettata per facilitare la manipolazione e l’analisi dei dati.
Offre strutture dati di alto livello e strumenti per lavorare con dati etichettati e di tipo tabellare, come DataFrame, che è simile a un foglio di calcolo o a una tabella SQL.
A cosa serve Pandas?
- Gestione dei Dati Tabulari: Pandas è particolarmente utile per lavorare con dati tabulari, cioè dati organizzati in righe e colonne, come quelli che si trovano nei file CSV e nei database SQL.
- Pulizia e Pre-elaborazione dei Dati: Consente di gestire valori mancanti, duplicati e dati errati in modo efficiente.
- Analisi Statistica e Operazioni sui Dati: Pandas fornisce metodi per eseguire calcoli statistici e operazioni sui dati in modo semplice e veloce.
- Manipolazione dei Dati: Permette di eseguire operazioni complesse come il raggruppamento, l’unione e la trasformazione dei dati.
Perché Pandas è utile nel data science e Machine Learning?
- Preparazione dei Dati: Pandas è essenziale per la preparazione dei dati, un passaggio fondamentale in qualsiasi progetto di data science o machine learning. La qualità dei dati è cruciale per l’accuratezza dei modelli predittivi.
- Integrazione con Altre Librerie: Pandas si integra perfettamente con altre librerie di Python, come NumPy per il calcolo numerico e Matplotlib per la visualizzazione dei dati, rendendo il processo di analisi più efficiente.
- Facilità d’Uso: L’interfaccia di Pandas è intuitiva e consente ai data scientist di eseguire operazioni complesse con poche righe di codice.
Introduzione a Python: utilizzo di Pandas
Installazione di Pandas
Prima di iniziare, è necessario installare Pandas. È possibile farlo utilizzando pip, il gestore di pacchetti di Python:
pip install pandas
Creazione di un DataFrame
Un DataFrame è la struttura dati principale di Pandas. Può essere creato da varie fonti di dati, tra cui file CSV, Excel, database SQL, e altri DataFrame.
Esempio: Creazione di un DataFrame da un dizionario
import pandas as pd
# Creare un dizionario di dati
dati = {
'Nome': ['Alice', 'Bob', 'Charlie'],
'Età': [25, 30, 35],
'Città': ['Milano', 'Roma', 'Napoli']
}
# Creare un DataFrame
df = pd.DataFrame(dati)
print(df)
Lettura di dati da un File CSV
Pandas rende semplice leggere dati da file CSV, un formato comune per i dataset.
Esempio: Lettura di un file CSV
# Leggere un file CSV in un DataFrame
df = pd.read_csv('nome_del_file.csv')
# Visualizzare le prime righe del DataFrame
print(df.head())
Operazioni di base con Pandas
- Selezione di Dati: Pandas offre metodi semplici per selezionare righe e colonne specifiche.
# Selezionare una colonna
eta = df['Età']
# Selezionare più colonne
dati_selezionati = df[['Nome', 'Città']]
# Selezionare righe in base a una condizione
adulti = df[df['Età'] > 18]
Funzioni avanzate in Pandas
- Funzione
unique()
: Restituisce i valori unici di una colonna.
# Valori unici nella colonna 'Città'
citta_uniche = df['Città'].unique()
print(citta_uniche)
- Funzione
str.contains()
: Consente di cercare stringhe all’interno di una colonna.
# Selezionare righe dove il campo 'Nome' contiene la stringa 'li'
nomi_con_li = df[df['Nome'].str.contains('li')]
print(nomi_con_li)
- Funzione
groupby()
: Permette di raggruppare i dati e applicare funzioni aggregative.
# Calcolare la media dell'età per ogni città
media_eta_citta = df.groupby('Città')['Età'].mean()
print(media_eta_citta)
Lettura di una parte del DataFrame
Pandas permette di estrarre e lavorare con una parte del DataFrame usando condizioni e filtri.
Esempio: Creare un nuovo DataFrame da una parte di un altro
# Creare un DataFrame con dati di esempio
sps = pd.DataFrame({
'Company Name': ['Company A', 'Company B', 'Company C'],
'Revenue': [1000, 2000, 3000]
})
# Selezionare solo le righe con 'Company A'
company_data = sps[sps['Company Name'] == 'Company A']
print(company_data)
Analisi Statistica
Pandas include metodi per calcolare statistiche di base, come la media e la mediana.
Esempio: Calcolare statistiche semplici
# Calcolare la media
media_eta = df['Età'].mean()
# Calcolare la mediana
mediana_eta = df['Età'].median()
print(f"Media dell'età: {media_eta}")
print(f"Mediana dell'età: {mediana_eta}")
Pandas, strumento indispensabile per l’analisi dati
Pandas è uno strumento potente e versatile per chiunque lavori con i dati.
La sua capacità di gestire dati tabulari, insieme alla facilità di integrazione con altre librerie Python, lo rende indispensabile nel data science e nel machine learning.
Con Pandas, i data analyst e i data scientist possono trasformare e analizzare i dati in modo efficiente, facilitando la scoperta di insight significativi e la costruzione di modelli predittivi accurati.
Lascia un commento