logo

Tietojen analysointi ja visualisointi Pythonilla

Python on laajalti käytetty tiedon analysointikielenä sen vahvojen kirjastojen ja työkalujen ansiosta. Tällaisten kirjastojen joukossa on Pandat, jotka helpottavat tietojen tutkimista ja käsittelyä. käytämme  Pandat  -nimisen tietojoukon analysoimiseksi  Country-data.csv  Kagglesta. Työskennellessään näiden tietojen parissa esittelemme myös joitain tärkeitä käsitteitä Pandasissa.

1. Asennus

Helpoin tapa asentaa pandat on käyttää pip:tä:

Python
pip install pandas 


tai Lataa se osoitteesta  tässä .



2. DataFramen luominen Pandasissa

DataFrame  on Pandasin taulukkomainen tietorakenne, johon on tallennettu riveihin ja sarakkeisiin tallennettuja tietoja. DataFrame voidaan luoda välittämällä useita python-sarjan objekteja DataFrame luokka ( pd.DataFrame() ) käyttämällä  pd.Series  menetelmä. Tässä esimerkissä käytetään kahta sarjaobjektia: s1 kuin ensimmäinen rivi ja s2 toisena rivinä.

Esimerkki 1: DataFramen luominen sarjasta:

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' title=

Esimerkki 2: DataFrame luettelosta, jossa on mukautettuja hakemistoja ja sarakkeiden nimiä:

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Esimerkki 3: DataFrame sanakirjasta:

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

3. Tietojen tuominen Pandan kanssa

Ensimmäinen askel on lukea tiedot. Meidän tapauksessamme tiedot tallennetaan CSV-tiedostona (Comma-Separated Values), jossa jokainen rivi on erotettu uudella rivillä ja jokainen sarake pilkulla. Pythonissa olevien tietojen käsittely edellyttää csv-tiedoston lukemista  tiedosto  Pandas DataFrameen.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Lähtö:

pää' loading='lazy' title=
(167 10)

4. Datakehysten indeksointi Pandan kanssa

Pandat tarjoavat tehokkaat indeksointiominaisuudet. Voit indeksoida DataFrame-kehykset käyttämällä molempia asemaan perustuva ja etikettipohjainen menetelmiä.

Paikkaperusteinen indeksointi (käyttäen iloc ):

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title= Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title= Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Tarrapohjainen indeksointi (käyttäen loc ):

Indeksointia voidaan käsitellä tarrojen kanssa käyttämällä  pandas.DataFrame.loc  menetelmä, joka mahdollistaa indeksoinnin käyttämällä tunnisteita paikkojen sijasta.

Esimerkkejä:

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title= Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=


Yllä oleva ei itse asiassa näytä paljon erilaiselta kuin df.iloc[0:5:]. Tämä johtuu siitä, että vaikka rivitunnisteet voivat saada mitä tahansa arvoja, rivitunnisteet vastaavat paikkoja tarkasti. Saraketunnisteet voivat kuitenkin tehdä asioista paljon helpompaa tietojen käsittelyssä.

Esimerkki:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

5. DataFrame Math ja Pandas

Pandat helpottavat matemaattisten operaatioiden suorittamista tietokehyksiin tallennetulle tiedolle. Pandoille suoritettavat toiminnot ovat vektoroituja, mikä tarkoittaa, että ne ovat nopeita ja koskevat automaattisesti kaikkia elementtejä ilman silmukoita.

Esimerkki - Sarakekohtainen matematiikka:

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Pandan tilastofunktiot:

kaneli vs mate

Tietokehysten laskeminen voidaan tehdä käyttämällä pandan tilastofunktioita. Voimme käyttää toimintoja, kuten:

  • df.sum() → arvojen summa
  • df.mean() → keskimäärin
  • df.max() / df.min() → max ja min arvot
  • df.describe() → nopea tilastojen yhteenveto
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title= Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

6. Tietojen visualisointi Pandasin ja Matplotlibin avulla

Pandan kanssa on erittäin helppo käyttää  Matplotlib tehokas kirjasto, jota käytetään peruskaavioiden ja -kaavioiden luomiseen. Vain muutamalla koodirivillä voimme visualisoida tietomme ja ymmärtää niitä paremmin. Alla on muutamia yksinkertaisia ​​esimerkkejä, jotka auttavat sinua aloittamaan piirtämisen Pandasin ja Matplotlibin avulla:

Python
# Import the library first import matplotlib.pyplot as plt 

Histogrammi

Histogrammi näyttää arvojen jakautumisen sarakkeessa.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Laatikko tontti

laatikko juoni  on hyödyllinen poikkeamien havaitsemiseen ja tiedon leviämisen ymmärtämiseen.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Scatter Plot

hajakuvaaja  näyttää kahden muuttujan välisen suhteen.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Lähtö:

Tietojen analysointi ja visualisointi Pythonilla' loading='lazy' title=

Aiheeseen liittyvä artikkeli:

  • Pandan esittely
  • Graafinen piirtäminen Pythonissa
  • Työskentely csv-tiedostojen kanssa Pythonissa
  • Pandas DataFrame
  • Johdatus Matplotlibiin
  • Histogrammi - Määritelmätyypit Kaavio ja esimerkit
  • Laatikko tontti
  • Scatter Plot


Luo tietokilpailu