TIETOJEN ANALYSOINTI JA VISUALISOINTI PYTHONILLA

Python on laajalti käytetty tiedon analysointikielenä sen vahvojen kirjastojen ja työkalujen ansiosta. Tällaisten kirjastojen joukossa on Pandat, jotka helpottavat tietojen tutkimista ja käsittelyä. käytämme Pandat -nimisen tietojoukon analysoimiseksi Country-data.csv Kagglesta. Työskennellessään näiden tietojen parissa esittelemme myös joitain tärkeitä käsitteitä Pandasissa.

1. Asennus

Helpoin tapa asentaa pandat on käyttää pip:tä:

Python pip install pandas

tai Lataa se osoitteesta tässä .

2. DataFramen luominen Pandasissa

A DataFrame on Pandasin taulukkomainen tietorakenne, johon on tallennettu riveihin ja sarakkeisiin tallennettuja tietoja. DataFrame voidaan luoda välittämällä useita python-sarjan objekteja DataFrame luokka ( pd.DataFrame() ) käyttämällä pd.Series menetelmä. Tässä esimerkissä käytetään kahta sarjaobjektia: s1 kuin ensimmäinen rivi ja s2 toisena rivinä.

Esimerkki 1: DataFramen luominen sarjasta:

Python

import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' title=

Esimerkki 2: DataFrame luettelosta, jossa on mukautettuja hakemistoja ja sarakkeiden nimiä:

Python dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Esimerkki 3: DataFrame sanakirjasta:

Python dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)

Lähtö:

3. Tietojen tuominen Pandan kanssa

Ensimmäinen askel on lukea tiedot. Meidän tapauksessamme tiedot tallennetaan CSV-tiedostona (Comma-Separated Values), jossa jokainen rivi on erotettu uudella rivillä ja jokainen sarake pilkulla. Pythonissa olevien tietojen käsittely edellyttää csv-tiedoston lukemista tiedosto Pandas DataFrameen.

Python

import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape

Lähtö:

(167 10)

4. Datakehysten indeksointi Pandan kanssa

Pandat tarjoavat tehokkaat indeksointiominaisuudet. Voit indeksoida DataFrame-kehykset käyttämällä molempia asemaan perustuva ja etikettipohjainen menetelmiä.

Paikkaperusteinen indeksointi (käyttäen iloc ):

Python

# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]

Lähtö:

Tarrapohjainen indeksointi (käyttäen loc ):

Indeksointia voidaan käsitellä tarrojen kanssa käyttämällä pandas.DataFrame.loc menetelmä, joka mahdollistaa indeksoinnin käyttämällä tunnisteita paikkojen sijasta.

Esimerkkejä:

Python

# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]

Lähtö:

Yllä oleva ei itse asiassa näytä paljon erilaiselta kuin df.iloc[0:5:]. Tämä johtuu siitä, että vaikka rivitunnisteet voivat saada mitä tahansa arvoja, rivitunnisteet vastaavat paikkoja tarkasti. Saraketunnisteet voivat kuitenkin tehdä asioista paljon helpompaa tietojen käsittelyssä.

Esimerkki:

Python # Prints the first 5 rows of Time period # value df.loc[:5'child_mort']

Lähtö:

5. DataFrame Math ja Pandas

Pandat helpottavat matemaattisten operaatioiden suorittamista tietokehyksiin tallennetulle tiedolle. Pandoille suoritettavat toiminnot ovat vektoroituja, mikä tarkoittaa, että ne ovat nopeita ja koskevat automaattisesti kaikkia elementtejä ilman silmukoita.

Esimerkki - Sarakekohtainen matematiikka:

Python

# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df

Lähtö:

Pandan tilastofunktiot:

kaneli vs mate

Tietokehysten laskeminen voidaan tehdä käyttämällä pandan tilastofunktioita. Voimme käyttää toimintoja, kuten:

df.sum() → arvojen summa
df.mean() → keskimäärin
df.max() / df.min() → max ja min arvot
df.describe() → nopea tilastojen yhteenveto

Python

# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()

Lähtö:

6. Tietojen visualisointi Pandasin ja Matplotlibin avulla

Pandan kanssa on erittäin helppo käyttää Matplotlib tehokas kirjasto, jota käytetään peruskaavioiden ja -kaavioiden luomiseen. Vain muutamalla koodirivillä voimme visualisoida tietomme ja ymmärtää niitä paremmin. Alla on muutamia yksinkertaisia esimerkkejä, jotka auttavat sinua aloittamaan piirtämisen Pandasin ja Matplotlibin avulla:

Python # Import the library first import matplotlib.pyplot as plt

Histogrammi

Histogrammi näyttää arvojen jakautumisen sarakkeessa.

Python

df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()

Lähtö:

Laatikko tontti

A laatikko juoni on hyödyllinen poikkeamien havaitsemiseen ja tiedon leviämisen ymmärtämiseen.

Python

df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()

Lähtö:

Scatter Plot

A hajakuvaaja näyttää kahden muuttujan välisen suhteen.

Python

x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()

Lähtö:

Aiheeseen liittyvä artikkeli:

Pandan esittely
Graafinen piirtäminen Pythonissa
Työskentely csv-tiedostojen kanssa Pythonissa
Pandas DataFrame
Johdatus Matplotlibiin
Histogrammi - Määritelmätyypit Kaavio ja esimerkit
Laatikko tontti
Scatter Plot

Luo tietokilpailu

Tietojen analysointi ja visualisointi Pythonilla

1. Asennus

2. DataFramen luominen Pandasissa

3. Tietojen tuominen Pandan kanssa

4. Datakehysten indeksointi Pandan kanssa

5. DataFrame Math ja Pandas

6. Tietojen visualisointi Pandasin ja Matplotlibin avulla