Syväsukellus Titanicin dataan: oivalluksia datankäsittelyllä

3.4.2024

Datankäsittely, Koneoppiminen, Liiketoiminta, Tekoäly, Yleinen

Syväsukellus Titanicin dataan: oivalluksia menneisyydestä liiketoiminnan tulevaisuuteen

Historia tarjoaa lukemattomia tarinoita, opetuksia ja mysteerejä, jotka odottavat tulla kuulluksi. Yksi kiinnostava tarina on RMS Titanicin traaginen uppoaminen yli sata vuotta sitten. Teknologian ja datatieteen edistyessä meillä on ainutlaatuinen mahdollisuus sukeltaa syvemmälle ja ymmärtää paremmin, mitä tuona kohtalokkaana yönä todella tapahtui.

Miksi Titanic-dataa?

Projektini alkoi halusta ymmärtää, voiko koneoppimisen avulla paljastaa uusia oivalluksia Titanicin matkustajien selviytymisestä. RMS Titanicin uppoaminen on yksi merihistorian tunnetuimmista tragedioista, ja se on jättänyt jälkeensä lukemattomia tarinoita rohkeudesta, tragediasta ja inhimillisestä kestävyydestä. Data, joka sisältää tietoja matkustajien luokasta, iästä, sukupuolesta ja selviytymisestä, tarjoaa ainutlaatuisen näkökulman tämän historiallisen tapahtuman analysointiin.

Projektin tavoitteet

Projektini keskittyi koneoppimisen hyödyntämiseen Titanicin matkustajadataa analysoimalla. Tavoitteenani ei ollut ainoastaan ymmärtää selviytymisen todennäköisyyksiä historiallisesta näkökulmasta, vaan myös tutkia, kuinka koneoppimisen ja datan analysoinnin menetelmiä voidaan hyödyntää nykyaikaisessa liiketoimintaympäristössä. Minua kiinnosti erityisesti selvittää, mitkä tekijät vaikuttivat merkittävästi selviytymiseen Titanicin katastrofissa ja miten näitä analyyttisiä oivalluksia voidaan yleistää liiketoiminnan kontekstissa – tarkoituksena tukea päätöksentekoa ja strategista suunnittelua eri toimialoilla.

Vaikka Titanicin tragedia ja moderni liiketoiminta voivat ensisilmäyksellä vaikuttaa toisistaan erillään olevilta aiheilta, niiden välinen yhdistävä tekijä on datankäsittelyn voima. Tämän projektin kautta halusin tutkia, kuinka datan syvällinen analysointi ja koneoppimismallien soveltaminen voivat paljastaa piilotettuja yhteyksiä ja ennustaa tuloksia, tarjoten näin arvokkaita oivalluksia, jotka ovat sovellettavissa laajemmin liiketoiminnan päätöksentekoprosesseihin.

Projektini tavoitteena oli osoittaa, että koneoppimisen ja datatieteen menetelmät tarjoavat tehokkaita välineitä datan muuttamiseen strategiseksi resurssiksi, joka voi informoida ja ohjata liiketoiminnan päätöksiä riippumatta toimialasta tai historiallisesta kontekstista.

Random Forest Classifier -malli

Tutkimusmatkani datan syövereihin on paljon enemmän kuin vain historiallisen tragedian analysointia. Se on esimerkki siitä, miten datatiede ja koneoppiminen voivat auttaa meitä tekemään perusteltuja päätöksiä ja ennustamaan tuloksia eri skenaarioissa. Olipa kyseessä sitten asiakaspoistuman vähentäminen, kohdennetun markkinoinnin optimointi tai riskienhallinnan parantaminen, samat periaatteet, jotka auttoivat meitä ymmärtämään Titanicin matkustajien kohtaloita, voivat auttaa yrityksiä navigoimaan nykypäivän haasteissa.

Olen saavuttanut alla olevaan Random Forest Classifier -mallilleni parhaat hyperparametrit, jotka ovat {max_depth: 20, min_samples_split: 10, n_estimators: 200}. Näiden parametrien avulla saavutin ristiinvalidoinnin keskimääräisen tarkkuuden 0.827, mikä on erittäin hyvä tulos Titanic-datasetille.

Sekaannusmatriisin arvot:

Todelliset negatiiviset (TN): 96, mikä tarkoittaa, että malli ennusti oikein 96 tapausta, joissa henkilöt eivät selvinneet.
Väärät positiiviset (FP): 9, mikä tarkoittaa, että 9 tapauksessa malli virheellisesti ennusti henkilön selviävän, vaikka todellisuudessa henkilö ei selvinnyt.
Väärät negatiiviset (FN): 0, erinomainen tulos, sillä se tarkoittaa, että ei ollut yhtään tapausta, jossa malli olisi virheellisesti ennustanut henkilön kuolevan, vaikka hän olisi selvinnyt.
Todelliset positiiviset (TP): 1, mikä tarkoittaa, että vain yhdessä tapauksessa malli ennusti oikein henkilön selviävän.

Vaikka mallin tarkkuus ja kyky tunnistaa todelliset negatiiviset tapaukset (eli henkilöt, jotka eivät selviytyneet) on korkea, sekaannusmatriisin perusteella näyttää siltä, että mallilla on vaikeuksia tunnistaa oikein todelliset positiiviset tapaukset (henkilöt, jotka selvisivät).

Tämä saattaa viitata mallin epätasapainoon, missä malli on parempi ennustamaan toista luokkaa toisen kustannuksella. Tässä tapauksessa, vaikka mallini ennustaa erittäin hyvin, ettei henkilö selviydy, se kamppailee selviytymisen ennustamisessa. Mallin kykyä ennustaa todellisia positiivisia tuloksia voi parantaa tasapainottamalla luokkia, muuttamalla suorituskyvyn arviointimittaria ja käyttämällä erilaisia malleja tai ensemblointimenetelmiä. On tärkeää muistaa, että koneoppimismallien kehittäminen on iteratiivinen prosessi. Näiden parannusten ja säätöjen tekeminen, testaaminen ja niistä oppiminen voi auttaa kehittämään entistä tarkemman ja luotettavamman mallin.

Ominaisuuksien tärkeysasteet: analyysi paljasti, että lipun hinta ja ikä olivat kaksi tärkeintä tekijää selviytymisen ennustamisessa. Tämä korostaa, että sekä taloudelliset resurssit että henkilökohtaiset ominaisuudet, kuten ikä, olivat avaintekijöitä selviytymisessä.

Titanicin tapauksessa ymmärrämme mallin kyvyn ennustaa selviytymistä ja voimme soveltaa samaa logiikkaa liiketoiminnan päätöksenteossa, kuten asiakaspoistuman ehkäisyssä tai myynnin ennustamisessa

Sekaannusmatriisin ymmärtäminen ja soveltaminen osoittaa, kuinka datatiede voi tarjota arvokkaita oivalluksia ja tukea päätöksentekoa liiketoiminnassa.

Alla oleva pylväsdiagrammi paljastaa kiehtovia oivalluksia siitä, mitkä tekijät vaikuttivat eniten selviytymismahdollisuuksiin. Kaksi merkittävintä ominaisuutta, Fare (matkan hinta) ja Age (ikä), erottuvat selvästi. Fare, joka kuvaa matkustajien maksamaa hintaa, ja Age, joka kertoo matkustajien iästä, dominoivat tärkeysasteiltaan. Tämä antaa vihjeitä siitä, että sosioekonomiset tekijät ja fyysinen haavoittuvuus olivat merkittävässä roolissa matkustajien selviytymisessä. Toisin sanoen, ne, jotka saattoivat panostaa parempiin hytteihin ja olivat nuorempia, olivat todennäköisemmin selviytyjiä.

Vaikka Pclass (matkustajaluokka), SibSp (sisarusten tai puolisoiden määrä laivalla) ja Parch (vanhempien tai lasten määrä laivalla) myös vaikuttavat selviytymiseen, niiden vaikutus on huomattavasti pienempi. Tämä herättää keskeisiä kysymyksiä siitä, miten voimme hyödyntää tällaista data-analyysiä ja koneoppimista liiketoiminnassa.

Tässä analyysissä käytetty lähestymistapa ei ole merkittävä ainoastaan historiallisten tapahtumien ymmärtämiseksi; se tarjoaa myös perustan liiketoimintapäätösten tekemiselle nykypäivänä. Tieto siitä, mitkä tekijät vaikuttavat eniten lopputulokseen, mahdollistaa resurssien kohdentamisen tehokkaammin, riskien hallinnan ja strategisten etujen luomisen. Esimerkiksi asiakasdatan analysointi voi paljastaa, mitkä ominaisuudet korreloivat vahvimmin asiakastyytyväisyyden tai tuotteen menekin kanssa, mahdollistaen kohdennetut markkinointistrategiat ja tuotekehityksen.

Miksi kannattaa panostaa datankäsittelyyn?

Datan analysointi ja koneoppimismallien hyödyntäminen vaativat erityisosaamista, joka ei ole kaikkien yritysten ulottuvilla. Tarjoamalla datankäsittelypalveluita, autan yrityksiä hyödyntämään dataansa parhaalla mahdollisella tavalla, tuoden esille piilotettuja oivalluksia, jotka voivat johtaa merkittäviin liiketoiminnan parannuksiin. Lisäarvo syntyy paitsi datan analysoinnin teknisestä toteutuksesta, myös kyvystä tulkita tuloksia ja soveltaa niitä konkreettisiin liiketoimintahaasteisiin.

Olipa kyse sitten asiakasdatan syväluotaamisesta, riskien ennustamisesta tai uusien markkinamahdollisuuksien tunnistamisesta, datankäsittelypalveluni tarjoavat yrityksille mahdollisuuden tehdä perusteltuja päätöksiä ja saavuttaa kilpailuetua. Tämän Titanic-analyysin kaltaiset projektit demonstroivat, miten tieteelliset menetelmät ja koneoppiminen voivat valottaa monimutkaisia ilmiöitä ja ohjata päätöksentekoa kohti menestystä nykyisessä datavetoisessa maailmassa.

Analyysimme Titanicin matkustajadatan ikäjakaumasta paljasti kiehtovia oivalluksia: vaikka 30-vuotiaiden selviytymisprosentti oli korkea, suuri osa tässä ikäryhmässä myös menetti henkensä

Tämä ikäjakauman visualisointi korostaa, miten tietyt demografiset tekijät, kuten ikä, ovat merkittävässä roolissa kriisitilanteiden selviytymismahdollisuuksissa. Ei ole pelkästään kyse siitä, kuka selviytyy, vaan myös siitä, ketkä ovat haavoittuvimpia.

Tämänkaltaisen datan analysointi ja visualisointi ei rajoitu historiallisten tapahtumien tutkimiseen. Nykypäivän liiketoiminnassa vastaavien analyysien avulla voidaan tunnistaa keskeisiä kohderyhmiä, ymmärtää asiakaskunnan tarpeita syvällisemmin ja ennustaa markkinatrendejä. Esimerkiksi asiakastietojen ikäjakauman analyysi voi auttaa yrityksiä kohdentamaan tuotteitaan ja palveluitaan tehokkaammin, tunnistamaan uusia markkinamahdollisuuksia tai optimoimaan markkinointistrategioita.

Visualisoinnit, kuten ikäjakauman histogrammi, tarjoavat konkreettisen keinon esittää monimutkaista dataa ymmärrettävässä muodossa. Ne mahdollistavat nopeat oivallukset ja päätöksenteon tukemisen, jotka ovat elintärkeitä dynaamisessa ja kilpaillussa liiketoimintaympäristössä. Siksi datan visualisoinnin ja analytiikan tarjoaminen osana palveluitani ei ainoastaan auta yrityksiä ymmärtämään menneisyyttä, vaan se on väline, jolla voidaan muokata tulevaisuutta – tunnistamalla kasvun mahdollisuuksia, vähentämällä riskejä ja rakentamalla asiakaslähtöisempiä palveluita.

Investoidessasi datankäsittelypalveluihin saat käyttöösi välineet, jotka voivat auttaa muokkaamaan liiketoimintastrategioita dataohjautuvaksi: päätöksentekosi perustuu luotettavaan tietoon

Oli kyse sitten asiakasdatan hyödyntämisestä tai uusien markkinoiden tunnistamisesta, datan analysointi ja visualisointi ovat avainasemassa yrityksen menestyksen rakentamisessa.

Yllä oleva visualisointi, jossa kolmannen luokan matkustajien lipunhinnat ja iät näyttäytyvät hajallaan kun taas ensimmäisen luokan matkustajat maksavat suhteellisen vähän, tarjoaa oivalluksia, jotka ovat sovellettavissa liike-elämässä. Tässä muutama keskeinen hyödyntämistapa:

Hinnoittelustrategia ja asiakassegmentointi

Tämä analyysi valottaa asiakassegmentoinnin ja joustavan hinnoittelun merkitystä. Yritykset voivat hyödyntää vastaavaa data-analyysiä määrittääkseen, mitkä asiakasryhmät ovat valmiita maksamaan premium-hinnan erityisistä palveluista tai tuotteista, ja säätää hinnoitteluaan vastaavasti.

Markkinoinnin kohdennus

Havainto korostaa demografisten tietojen tärkeyttä ja niiden vaikutusta ostokäyttäytymiseen, mikä auttaa yrityksiä kohdentamaan markkinointitoimenpiteitään tarkemmin ja tehostamaan markkinoinnin tuloksellisuutta.

Strategiset päätökset

Analyysi tukee strategista päätöksentekoa tarjoamalla syvällistä tietoa markkinoista ja asiakaskäyttäytymisestä. Tämä ymmärrys mahdollistaa paremmat päätökset tuotekehityksessä, markkinoiden laajentamisessa ja liiketoimintastrategioissa.

Olemme tutkineet, kuinka Random Forest Classifier -malli voi ennustaa Titanicin matkustajien selviytymistä käyttäen hyväkseen useita eri tekijöitä. Kehittämämme interaktiivinen visualisointi, joka demonstroi selviytymistodennäköisyyksiä iän ja matkustajaluokan mukaan, tarjoaa kiehtovan näkökulman mallin kykyihin. Se ei ainoastaan valota, kuinka malli käsittelee ja punnitsee erilaisia ominaisuuksia tehdessään ennusteita, vaan myös tarjoaa intuitiivisen tavan havainnollistaa mallin suorituskykyä ja päätöksentekoprosessia.

Tämän kaltaiset visualisoinnit ovat olennaisen tärkeitä, kun pyrimme selittämään koneoppimisen monimutkaisuuksia laajemmalle yleisölle. Ne tekevät abstraktista datasta ja monimutkaisista malleista konkreettisia ja ymmärrettäviä, avaten uusia mahdollisuuksia datan visualisoinnin ja analysoinnin hyödyntämiseen liiketoiminnan päätöksenteossa.

Datatieteessä ja koneoppimisessa piilee valtava potentiaali muuttaa tapaamme ymmärtää maailmaa ja tehdä päätöksiä

Random Forest -mallin kaltaiset työkalut tarjoavat arvokkaita oivalluksia, jotka voivat ohjata yrityksiä kohti informoidumpia ja tarkoituksenmukaisempia strategioita. Interaktiivisten visualisointien avulla voimme tehdä tämän tiedon saataville, ymmärrettäväksi ja hyödynnettäväksi kaikille, avaten ovia uudenlaisille innovaatioille ja edistymiselle.

Kun yritykset hakevat kilpailuetua datan analysoinnista, on elintärkeää, että ne hyödyntävät tätä potentiaalia kehittämällä ja käyttämällä koneoppimismalleja, jotka voivat tarjota syvällisiä näkemyksiä liiketoiminnan haasteisiin. Random Forest -mallimme demonstroi, kuinka voimme käyttää datatiedettä ennustamaan tuloksia ja informoida päätöksentekoa, mikä on vain jäävuoren huippu siitä, mitä on mahdollista saavuttaa, kun yhdistämme tieteen, teknologian ja liiketoimintastrategiat.

Tämän blogin tarkoituksena on ollut herättää uteliaisuutta ja innostusta datatieteeseen, ja toivottavasti olemme onnistuneet siinä. Datatieteen ja koneoppimisen matka on jännittävä, ja se tarjoaa loputtomia mahdollisuuksia oppimiseen, kehittymiseen ja uusien horisonttien tutkimiseen.

Ota yhteyttä, mikäli haluat kehittää ja optimoida liiketoimintaasi datankäsittelyllä. Tutustu myös tekoälypalveluihimme.

Nepsynä työelämässä, osa 6: Virtuaali-Marian reflektio

Syväoppimisen voima: IMDB Top 250 -elokuvien analyysi

To Top