CRISP-DM tarkoittaa alojen välistä standardiprosessia tiedon louhintaan. CRISP-DM-metodologia tarjoaa jäsennellyn lähestymistavan tiedonlouhintaprojektin suunnitteluun. Se on vankka ja hyvin todistettu menetelmä. Emme vaadi omistusoikeutta siihen. Emme keksineet sitä. Olemme muuntaja sen tehokkaasta käytännöllisyydestä, joustavuudesta ja hyödyllisyydestä käytettäessä analytiikkaa liiketoimintaongelmien ratkaisemiseen. Se on kultainen lanka, joka kulkee lähes jokaisen asiakastapaamisen läpi.
Tämä malli on idealisoitu tapahtumasarja. Käytännössä monet tehtävät voidaan suorittaa eri järjestyksessä, ja usein on tarpeen palata aikaisempiin tehtäviin ja toistaa tiettyjä toimia. Malli ei yritä kaapata kaikkia mahdollisia reittejä tiedonlouhintaprosessin läpi.
Miten CRISP auttaa?
CRISP DM tarjoaa tiekartan, antaa sinulle parhaat käytännöt ja tarjoaa rakenteita tiedonlouhinnan parempiin ja nopeampiin tuloksiin, joten näin se auttaa yritystä seuraamaan tiedon louhintaprojektia suunnittelussa ja toteutuksessa.
CRISP-DM:n vaiheet
CRISP-DM tarjoaa yleiskatsauksen tiedon louhinnan elinkaaresta prosessimallina. Elinkaarimallissa on kuusi vaihetta, joissa nuolet osoittavat tärkeimmät ja yleisimmät vaiheiden väliset riippuvuudet. Vaiheiden järjestys ei ole tiukka. Ja useimmat projektit liikkuvat edestakaisin vaiheiden välillä tarpeen mukaan. CRISP-DM-malli on joustava ja helposti räätälöitävissä.
Jos esimerkiksi organisaatiosi pyrkii havaitsemaan rahanpesua, seulot todennäköisesti suuria tietomääriä ilman erityistä mallinnustavoitetta. Mallintamisen sijaan työsi keskittyy tietojen tutkimiseen ja visualisointiin, jotta voit löytää epäilyttäviä kuvioita taloustiedoista. CRISP-DM:n avulla voit luoda tarpeisiisi sopivan tiedonlouhintamallin.
Se sisältää kuvaukset projektin tyypillisistä vaiheista, kuhunkin vaiheeseen liittyvistä tehtävistä ja selityksen näiden tehtävien välisistä suhteista.
Vaihe 1: Liiketoiminnan ymmärtäminen
CRISP-DM-prosessin ensimmäinen vaihe on ymmärtää, mitä haluat saavuttaa liiketoiminnan näkökulmasta. Organisaatiollasi voi olla kilpailevia tavoitteita ja rajoituksia, jotka on tasapainotettava oikein. Tässä prosessivaiheessa pyritään paljastamaan tärkeitä hankkeen lopputulokseen vaikuttavia tekijöitä. Tämän vaiheen laiminlyönti voi tarkoittaa, että oikeiden vastausten tuottamiseen vääriin kysymyksiin tehdään paljon vaivaa.
Mitkä ovat hankkeen toivotut tuotokset?
Arvioi nykyinen tilanne
merkkijonomenetelmät java
Tämä edellyttää yksityiskohtaisempaa tiedonhakua resursseista, rajoituksista, oletuksista ja muista tekijöistä, jotka sinun on otettava huomioon määrittäessäsi data-analyysin tavoitetta ja projektisuunnitelmaa.
- Henkilöstö (liiketoiminnan asiantuntijat, dataasiantuntijat, tekninen tuki, tiedon louhintaasiantuntijat)
- Data (kiinteät otteet, pääsy reaaliaikaisiin, varastoituihin tai toiminnallisiin tietoihin)
- Tietojenkäsittelyresurssit (laitteistoalustat)
- Ohjelmistot (tiedonlouhintatyökalut, muut asiaankuuluvat ohjelmistot)
- Asianmukaisen liiketoimintaterminologian sanasto on osa hankkeen käytettävissä olevaa liiketoimintaymmärrystä. Tämän sanaston rakentaminen on hyödyllinen 'tiedon hankkiminen' ja koulutus.
- Tiedonlouhintaterminologian sanastoa havainnollistetaan yritysongelmaan liittyvillä esimerkeillä.
Määritä tiedon louhinnan tavoitteet
Liiketoiminnan tavoite ilmaisee tavoitteet liiketoimintaterminologiassa. Tiedonlouhintatavoite ilmaisee projektin tavoitteet teknisesti. Liiketoiminnan tavoite voi esimerkiksi olla lisätä luettelomyyntiä nykyisille asiakkaille. Tiedonlouhintatavoite voi olla ennustaa, kuinka monta widgetiä asiakas ostaa, kun otetaan huomioon hänen ostonsa viimeisen kolmen vuoden ajalta, väestötiedot (ikä, palkka, kaupunki jne.) ja tuotteen hinta.
Tuota projektisuunnitelma
Kuvaile suunniteltua suunnitelmaa tiedon louhintatavoitteiden ja liiketoimintatavoitteiden saavuttamiseksi. Suunnitelmassasi tulee määritellä vaiheet, jotka suoritetaan loppuprojektin aikana, mukaan lukien työkalujen ja tekniikoiden alustava valinta.
jousikehys
1. Projektisuunnitelma: Listaa projektissa suoritettavat vaiheet niiden kestoineen, tarvittavine resursseineen, tuloineen, lähdöineen ja riippuvuuksineen. Yritä mahdollisuuksien mukaan tehdä selväksi tiedonlouhintaprosessin laajamittaiset iteraatiot, esimerkiksi mallinnus- ja arviointivaiheiden toistot.
Osana projektisuunnitelmaa on tärkeää analysoida aikataulujen ja riskien välisiä riippuvuuksia. Merkitse näiden analyysien tulokset selkeästi projektisuunnitelmaan, mieluiten toimilla ja suosituksilla, jos riskit ilmenevät. Päätä, mitä arviointistrategiaa käytetään arviointivaiheessa.
Projektisuunnitelmastasi tulee dynaaminen asiakirja. Kunkin vaiheen lopussa arvioit edistymistä ja saavutuksia ja päivität projektisuunnitelman sen mukaisesti. Näiden päivitysten tarkastelukohtien tulisi olla osa hankesuunnitelmaa.
2. Työkalujen ja tekniikoiden alustava arviointi: Ensimmäisen vaiheen lopussa sinun tulee suorittaa työkalujen ja tekniikoiden alustava arviointi. Valitset esimerkiksi tiedonlouhintatyökalun, joka tukee erilaisia menetelmiä prosessin eri vaiheissa. On tärkeää arvioida työkalut ja tekniikat prosessin varhaisessa vaiheessa, koska työkalujen ja tekniikoiden valinta voi vaikuttaa koko projektiin.
Vaihe 2: Tietojen ymmärtäminen
CRISP-DM-prosessin toinen vaihe edellyttää, että hankit projektiresursseissa luetellut tiedot. Tämä alkukeräys sisältää tietojen lataamisen, jos se on tarpeen tietojen ymmärtämiseksi. Jos esimerkiksi käytät tiettyä työkalua tietojen ymmärtämiseen, on järkevää ladata tietosi tähän työkaluun. Jos hankit useita tietolähteitä, sinun on harkittava, miten ja milloin integroit ne.
Kuvaile dataa
Tutki hankitun datan brutto- tai pintaominaisuudet ja raportoi tuloksista.
Tutki dataa
Tässä vaiheessa käsittelet tiedon louhintakysymyksiä käyttämällä kyselyitä, tietojen visualisointia ja raportointitekniikoita. Näitä voivat olla:
- Keskeisten ominaisuuksien jakelu
- Suhteet parien tai pienten määrien määrien välillä
- Yksinkertaisten aggregaatioiden tulokset
- Merkittävien alapopulaatioiden ominaisuudet
- Yksinkertaiset tilastolliset analyysit
Nämä analyysit voivat koskea suoraan tiedon louhintatavoitteitasi. Ne voivat myötävaikuttaa tai tarkentaa tietojen kuvausta ja laaturaportteja ja syöttää muunnos- ja muihin tietojen valmisteluvaiheisiin, joita tarvitaan jatkoanalyysiä varten.
Tarkista tietojen laatu
Tutki tietojen laatua ja vastaa esimerkiksi seuraaviin kysymyksiin:
- Ovatko tiedot täydellisiä vai kattavatko ne kaikki vaaditut tapaukset?
- Onko se oikein vai sisältääkö se virheitä, ja jos virheitä on, kuinka yleisiä ne ovat?
- Puuttuuko tiedoista arvoja? Jos on, miten ne esitetään, missä ne esiintyvät ja kuinka yleisiä ne ovat?
Tietojen laaturaportti
Listaa tietojen laadun tarkistuksen tulokset. Jos laatuongelmia ilmenee, ehdota mahdollisia ratkaisuja. Ratkaisut datan laatuongelmiin riippuvat yleensä suuresti tiedoista ja liiketoimintatiedoista.
Vaihe 3: Tietojen valmistelu
Tässä projektivaiheessa päätät, mitä tietoja käytät analysointiin. Kriteereitä, joita voit käyttää tämän päätöksen tekemiseen, ovat tietojen relevanssi tiedon louhintatavoitteisiisi, tietojen laatu ja tekniset rajoitukset, kuten datamäärän tai tietotyyppien rajoitukset.
Puhdista tietosi
Tämä tehtävä sisältää tietojen laadun nostamisen valitsemiesi analyysitekniikoiden vaatimalle tasolle. Tämä voi sisältää tietojen puhtaiden osajoukkojen valitsemisen, sopivien oletusarvojen lisäämisen tai kunnianhimoisempia tekniikoita, kuten puuttuvien tietojen arviointia mallintamalla.
Rakenna tarvittavat tiedot
kuinka ladata musiikkia
Tämä tehtävä sisältää rakentavia tietojen valmistelutoimia, kuten johdettujen attribuuttien, kokonaisten uusien tietueiden tai muunnettujen arvojen tuottamista olemassa oleville määritteille.
Integroi tiedot
Nämä menetelmät yhdistävät tietoja useista tietokannoista, taulukoista tai tietueista uusien tietueiden tai arvojen luomiseksi.
kuinka vanha pete davidson on
Vaihe 4: Mallintaminen
Valitse mallinnustekniikka: Ensimmäisenä vaiheena valitset käyttämäsi perusmallinnustekniikan. Vaikka olet ehkä jo valinnut työkalun liiketoiminnan ymmärtämisvaiheessa, valitset tässä vaiheessa tietyn mallinnustekniikan, esim. päätöspuun rakentaminen C5.0:lla tai neuroverkon generointi takaisin etenemällä. Jos käytetään useita tekniikoita, suorita tämä tehtävä jokaiselle tekniikalle erikseen.
Luo testisuunnittelu
Ennen kuin rakennat mallin, sinun on luotava menettely tai mekanismi mallin laadun ja kelpoisuuden testaamiseksi. Esimerkiksi valvotuissa tiedonlouhintatehtävissä, kuten luokittelussa, on yleistä käyttää virheprosentteja tiedonlouhintamallien laatumittareina. Siksi yleensä jaat tietojoukon juna- ja testijoukkoon, rakennat mallin junajoukolle ja arvioit sen laadun erillisen testijoukon perusteella.
Rakenna malli
Suorita mallinnustyökalu valmiissa tietojoukossa luodaksesi yhden tai useamman mallin.
Arvioi malli
Tulkitse malleja toimialuetietosi, tiedonlouhinnan onnistumiskriteerien ja halutun testisuunnittelun mukaan. Arvioi mallinnus- ja etsintätekniikoiden soveltamisen onnistumista ja ota myöhemmin yhteyttä yritysanalyytikoihin ja toimialueen asiantuntijoihin keskustellaksesi tiedon louhinnan tuloksista liiketoimintaympäristössä. Tässä tehtävässä otetaan huomioon vain mallit, kun taas arviointivaiheessa huomioidaan myös kaikki muut projektin aikana syntyneet tulokset.
Tässä vaiheessa mallit kannattaa asettaa paremmuusjärjestykseen ja arvioida ne arviointikriteerien mukaan. Sinun tulisi harkita liiketoiminnan tavoitteita ja menestyskriteerejä niin pitkälle kuin voit täällä. Useimmissa tiedonlouhintaprojekteissa yhtä tekniikkaa sovelletaan useammin kuin kerran, ja tiedon louhintatulokset tuotetaan useilla eri tekniikoilla.
Vaihe 5: Arviointi
Arvioi tulokset: Aiemmat arviointivaiheet käsittelivät sellaisia tekijöitä kuin mallin tarkkuus ja yleisyys. Tämän vaiheen aikana arvioit, missä määrin malli vastaa liiketoimintatavoitteitasi, ja yrität selvittää, onko tämän mallin puutteellisuuteen jokin liiketoiminnallinen syy. Toinen vaihtoehto on testata mallia testisovelluksissa todellisessa sovelluksessa, jos aika- ja budjettirajoitukset sen sallivat. Arviointivaiheeseen kuuluu myös muiden luomiesi tiedon louhintatulosten arviointi. Tiedonlouhintatulokset sisältävät malleja, jotka välttämättä liittyvät alkuperäisiin liiketoiminnan tavoitteisiin ja kaikki muut havainnot, jotka eivät välttämättä liity alkuperäisiin liiketoiminnan tavoitteisiin, mutta voivat myös paljastaa lisähaasteita, tietoa tai vihjeitä tulevaisuuden suuntiin.
Tarkastusprosessi
Tässä vaiheessa tuloksena saadut mallit näyttävät olevan tyydyttäviä ja täyttävät liiketoiminnan tarpeet. Nyt sinun on syytä tehdä perusteellisempi katsaus tiedon louhintatoimeksiannosta selvittääksesi, onko jokin tärkeä tekijä tai tehtävä, joka on jotenkin jäänyt huomiotta. Tämä katsaus kattaa myös laadunvarmistuskysymykset. Esimerkiksi: rakensimmeko mallin oikein? Käytimmekö vain attribuutteja, joita saamme käyttää ja jotka ovat käytettävissä tulevia analyyseja varten?
Päätä seuraavat vaiheet
Päätät nyt, miten toimit arvioinnin tulosten ja prosessin tarkastelun perusteella. Saatko tämän projektin päätökseen ja siirrytkö käyttöönottoon, aloitatko lisää iteraatioita tai perustatko uusia tiedonlouhintaprojekteja? Sinun tulee myös arvioida jäljellä olevat resurssit ja budjettisi, jotka voivat vaikuttaa päätöksiisi.
Vaihe 6: Käyttöönotto
Suunnittele käyttöönotto: Käyttöönottovaiheessa otat arviointitulokset ja määrität niiden käyttöönoton strategian. Jos asiaankuuluvien mallien luomiseksi on määritetty yleinen menettelytapa, tämä menettely on dokumentoitu tässä myöhempää käyttöönottoa varten. Käyttöönottotapoja ja -keinoja on järkevää harkita liiketoiminnan ymmärtämisvaiheessa, koska käyttöönotto on ratkaisevan tärkeää projektin onnistumiselle. Tässä ennakoiva analytiikka auttaa parantamaan yrityksesi operatiivista puolta.
Suunnittele seuranta ja ylläpito
Valvonta ja ylläpito ovat tärkeitä asioita, jos tiedon louhintatulos tulee osaksi jokapäiväistä liiketoimintaa ja sen ympäristöä. Huolellinen ylläpitostrategian valmistelu auttaa välttämään tarpeettoman pitkiä jaksoja tiedon louhintatulosten väärinkäytöltä. Hanke tarvitsee yksityiskohtaisen seurantaprosessisuunnitelman tiedonlouhinnan tulosten käyttöönoton seuraamiseksi. Tässä suunnitelmassa otetaan huomioon erityinen käyttöönottotyyppi.
Tee loppuraportti
Projektin päätteeksi kirjoitat loppuraportin. Käyttöönottosuunnitelmasta riippuen tämä raportti voi olla vain yhteenveto projektista ja sen kokemuksista (jos niitä ei ole jo dokumentoitu meneillään olevana toimintona), tai se voi olla lopullinen ja kattava esitys tiedon louhinnan tuloksesta.
Tarkista projekti
java anonyymi toiminto
Arvioi mikä meni oikein ja mikä väärin, mikä tehtiin hyvin ja mikä kaipaa parantamista.