Python on laajalti käytetty tiedon analysointikielenä sen vahvojen kirjastojen ja työkalujen ansiosta. Tällaisten kirjastojen joukossa on Pandat, jotka helpottavat tietojen tutkimista ja käsittelyä. käytämme Pandat -nimisen tietojoukon analysoimiseksi Country-data.csv Kagglesta. Työskennellessään näiden tietojen parissa esittelemme myös joitain tärkeitä käsitteitä Pandasissa.
1. Asennus
Helpoin tapa asentaa pandat on käyttää pip:tä:
Pythonpip install pandas
tai Lataa se osoitteesta tässä .
2. DataFramen luominen Pandasissa
A DataFrame on Pandasin taulukkomainen tietorakenne, johon on tallennettu riveihin ja sarakkeisiin tallennettuja tietoja. DataFrame voidaan luoda välittämällä useita python-sarjan objekteja DataFrame luokka ( pd.DataFrame() ) käyttämällä pd.Series menetelmä. Tässä esimerkissä käytetään kahta sarjaobjektia: s1 kuin ensimmäinen rivi ja s2 toisena rivinä.
Esimerkki 1: DataFramen luominen sarjasta:
Pythonimport pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)
Lähtö:
Esimerkki 2: DataFrame luettelosta, jossa on mukautettuja hakemistoja ja sarakkeiden nimiä:
Pythondataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)
Lähtö:
Esimerkki 3: DataFrame sanakirjasta:
Pythondataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)
Lähtö:
3. Tietojen tuominen Pandan kanssa
Ensimmäinen askel on lukea tiedot. Meidän tapauksessamme tiedot tallennetaan CSV-tiedostona (Comma-Separated Values), jossa jokainen rivi on erotettu uudella rivillä ja jokainen sarake pilkulla. Pythonissa olevien tietojen käsittely edellyttää csv-tiedoston lukemista tiedosto Pandas DataFrameen.
Pythonimport pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape
Lähtö:
(167 10)4. Datakehysten indeksointi Pandan kanssa
Pandat tarjoavat tehokkaat indeksointiominaisuudet. Voit indeksoida DataFrame-kehykset käyttämällä molempia asemaan perustuva ja etikettipohjainen menetelmiä.
Paikkaperusteinen indeksointi (käyttäen iloc ):
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]
Lähtö:
Tarrapohjainen indeksointi (käyttäen loc ):
Indeksointia voidaan käsitellä tarrojen kanssa käyttämällä pandas.DataFrame.loc menetelmä, joka mahdollistaa indeksoinnin käyttämällä tunnisteita paikkojen sijasta.
Esimerkkejä:
Python# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]
Lähtö:
Yllä oleva ei itse asiassa näytä paljon erilaiselta kuin df.iloc[0:5:]. Tämä johtuu siitä, että vaikka rivitunnisteet voivat saada mitä tahansa arvoja, rivitunnisteet vastaavat paikkoja tarkasti. Saraketunnisteet voivat kuitenkin tehdä asioista paljon helpompaa tietojen käsittelyssä.
Esimerkki:
Python# Prints the first 5 rows of Time period # value df.loc[:5'child_mort']
Lähtö:
5. DataFrame Math ja Pandas
Pandat helpottavat matemaattisten operaatioiden suorittamista tietokehyksiin tallennetulle tiedolle. Pandoille suoritettavat toiminnot ovat vektoroituja, mikä tarkoittaa, että ne ovat nopeita ja koskevat automaattisesti kaikkia elementtejä ilman silmukoita.
Esimerkki - Sarakekohtainen matematiikka:
Python# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df
Lähtö:
Pandan tilastofunktiot:
kaneli vs mate
Tietokehysten laskeminen voidaan tehdä käyttämällä pandan tilastofunktioita. Voimme käyttää toimintoja, kuten:
df.sum()→ arvojen summadf.mean()→ keskimäärindf.max()/df.min()→ max ja min arvotdf.describe()→ nopea tilastojen yhteenveto
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()
Lähtö:
6. Tietojen visualisointi Pandasin ja Matplotlibin avulla
Pandan kanssa on erittäin helppo käyttää Matplotlib tehokas kirjasto, jota käytetään peruskaavioiden ja -kaavioiden luomiseen. Vain muutamalla koodirivillä voimme visualisoida tietomme ja ymmärtää niitä paremmin. Alla on muutamia yksinkertaisia esimerkkejä, jotka auttavat sinua aloittamaan piirtämisen Pandasin ja Matplotlibin avulla:
Python# Import the library first import matplotlib.pyplot as plt
Histogrammi
Histogrammi näyttää arvojen jakautumisen sarakkeessa.
Pythondf['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()
Lähtö:
Laatikko tontti
A laatikko juoni on hyödyllinen poikkeamien havaitsemiseen ja tiedon leviämisen ymmärtämiseen.
Pythondf = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()
Lähtö:
Scatter Plot
A hajakuvaaja näyttää kahden muuttujan välisen suhteen.
Pythonx = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()
Lähtö:
Aiheeseen liittyvä artikkeli:
- Pandan esittely
- Graafinen piirtäminen Pythonissa
- Työskentely csv-tiedostojen kanssa Pythonissa
- Pandas DataFrame
- Johdatus Matplotlibiin
- Histogrammi - Määritelmätyypit Kaavio ja esimerkit
- Laatikko tontti
- Scatter Plot