Edellytys – Tiedonlouhinta, samankaltaisuusmitta viittaa etäisyyteen, jonka mitat edustavat tietojoukon tietoobjektin ominaisuuksia. Jos tämä etäisyys on pienempi, samankaltaisuus on suuri, mutta kun etäisyys on suuri, samankaltaisuusaste on alhainen. Jotkut suosituista samankaltaisuusmittauksista ovat -
java-merkistä int
- Euklidinen etäisyys.
- Manhattanin etäisyys.
- Jaccardin samankaltaisuus.
- Minkowskin etäisyys.
- Kosinin samankaltaisuus.
Kosinin samankaltaisuus on mittari, joka auttaa määrittämään, kuinka samanlaisia tietoobjektit ovat niiden koosta riippumatta. Voimme mitata kahden lauseen samankaltaisuutta Pythonissa käyttämällä kosinin samankaltaisuutta. Kosinin samankaltaisuuden vuoksi tietojoukon tietoobjekteja käsitellään vektoreina. Kaava kosinin samankaltaisuuden löytämiseksi kahden vektorin välillä on
(x, y) = x . y / ||x|| ||y||>
missä,
- x . y = vektorien 'x' ja 'y' tulo (piste).||x|| ja ||ja|| = kahden vektorin 'x' ja 'y' pituus (magnitudi).||x||

Esimerkki: Harkitse esimerkkiä löytääksesi samankaltaisuuden kahden vektorin välillä - 'x' ja 'ja' , käyttämällä kosinin samankaltaisuutta. 'x'-vektorilla on arvoja, x = { 3, 2, 0, 5 } 'y'-vektorilla on arvoja, y = { 1, 0, 0, 0 } Kaava kosinin samankaltaisuuden laskemiseksi on: (x, y) = x. y / ||x||
||ja||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>
Kahden vektorin 'x' ja 'y' välinen ero saadaan seuraavasti:
∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
- Kahden vektorin välinen kosinin samankaltaisuus mitataan θ:lla.
- Jos θ = 0°, 'x' ja 'y' vektorit menevät päällekkäin, mikä osoittaa, että ne ovat samanlaisia.
- Jos θ = 90°, 'x' ja 'y' vektorit ovat erilaisia.

Kosininen samankaltaisuus kahden vektorin välillä
Edut:
- Kosinin samankaltaisuus on hyödyllinen, koska vaikka kaksi samanlaista dataobjektia ovat koon vuoksi kaukana toisistaan euklidisen etäisyyden verran, niiden välinen kulma voi silti olla pienempi. Mitä pienempi kulma, sitä suurempi samankaltaisuus.
- Kun piirretään moniulotteiseen avaruuteen, kosinin samankaltaisuus kaappaa tietoobjektien suunnan (kulman), ei suuruuden.