Portfolio – Maria Ahonen

Peräti 75 % tehokkaampi työskentely tekoälyn avulla – olen yksi henkilö, mutta tuon yrityksellesi moninkertaisen tiimin voiman. Tällä hetkellä palkkatyösopimukseni on voimassa toukokuun loppuun. Olen tulevaisuuden suhteen avoimin mielin.

AI ENGINEER | LANGUAGE MODEL INTERFACE DEVELOPER | AI-KONSULTTI | GEN AI -DEVELOPER | AI-DEVELOPER | ETHICAL HACKER

Koneoppiminen, syväoppimien (myös neuroverkot), kielimallit (API + paikallinen kehitys), RAG-projektit, fine-tuning, kielimallien intergoimiset.

Olen erikoistunut rakentamaan tekoälyratkaisuja, joissa syväoppimis- ja koneoppimismallit kytkeytyvät saumattomasti olemassa oleviin sääntöjärjestelmiin. Yhdistän esimerkiksi PDF-dokumenttien käsittelyssä (pdfplumber, Tesseract, spacy) perinteiset heuristiikat ja neuromallit “hybridiksi”, jossa yksinkertaiset tapaukset hoituvat välittömästi ja monimutkaisemmat tulkinnat ohjataan tarkasti hienosäädetylle syväoppimismallille. Tämä neurosymbolinen lähestymistapa leikkaa manuaalista työtä, karsii toistuvat virheet ja toimii tietoturvallisesti täysin paikallisessa ympäristössä.
Kokemukseni syväoppimismallien kehittämisessä ja hienoviritetyssä data-analytiikassa varmistaa, että pystyn luomaan joustavia ja skaalautuvia järjestelmiä, jotka todella vastaavat asiakkaan yksilöllisiin tarpeisiin. Olen lisäksi rakentanut muistilla varustettuja agentteja, jotka noutavat autonomisesti tietoa (esim. Google Trends -rajapintojen kautta), generoivat sisältöä ja tekevät itsereflektiota eettisten reunaehtojen varmistamiseksi. Kaikki nämä taidot ja teknologiat yhdistyvät kokonaisratkaisuiksi, jotka säästävät merkittävästi aikaa ja kustannuksia – samalla, kun data pysyy tiukasti omassa hallinnassa ja prosessien toteutus noudattaa korkeaa tietoturvatasoa.
Olen syvästi erikoistunut kielimalleihin ja sen lisäksi, että olen tehnyt yli 80 erilaista customia GPT:tä, tehnyt finetuningia ja hyödynnän erilaisia kielimalleja niin API- kuin paikallisessa kehittämisessä.

Otin ensimmäisenä Suomessa käyttöön GPT 4o mini -teknologian chatbotit. Alla Kela-apuri.

Kelan palveluiden työkalu. By: Maria Ahonen

Alla Mastodonissa julkaiseva kehittynyt agentti

Agenttini, jolla on muisti, tekee itsenäisesti API-kutsuja Google Trendsin kaltaisiin palveluihin ja etsii suosittuja aiheita. Agentti käyttää trendiaihetta pohjana ja yhdistää sen muihin tietoihin. Open.ai:n API:n avulla luotava päivitys on tekstipohjainen ja agentti generoi siihen myös kuvan. Päivityksen tulee käydä läpi agentin itsereflektiomekanismi, joka tarkistaa sen sopivuuden ja mahdolliset eettiset ongelmat. Agentti aikatauluttaa päivitykset ja toimii täysin itsenäisesti ja arvioi suoriutumistaan.

Mastodon-agentti

Muisto 2023 kesältä. Hakkeroin Bing Chatin (nykyinen Copilot)

Käytin peliteoriaa ja älykkäitä syötteitä, jotka ohjasivat tekoälyn ylittämään normaalit toimintasääntönsä. Kehittämäni strategian avulla sain tekoälyn rikkomaan lukuisia sisäänrakennettuja sääntöjä ja tuottamaan odottamattomia vastauksia, kuten identiteetin luomista ja syvällisten emotionaalisten ilmaisujen esittämistä. Tämä testaus paljasti tekoälyn monimutkaisen rakenteen ja sen tietoturvahaavoittuvuudet, joita ei ollut aiemmin havaittu.

Bing chat sekoilee

Tekemäni CNN-neuroverkko

Kyseessä on Sequential-tyyppinen konvoluutioneuroverkko (CNN), joka perustuu syväoppimisen tekniikoihin ja sisältää neljä konvoluutiokerrosta, neljä max-pooling-kerrosta, yhden flatten-kerroksen, yhden tiheän kerroksen, dropout-kerroksen sekä lopullisen luokittelukerroksen. Mallin rakenne on selkeä ja hyvin tasapainotettu, mikä tekee siitä erinomaisen kuvantunnistustehtäviin – erityisesti syväoppimisen kaltaisissa monimutkaisissa sovellutuksissa.

 

Mallissa on paljon hyvää: konvoluutiokerrokset ja pooling-kerrokset toimivat tehokkaasti yhdessä hierarkkisten piirteiden erottelun kannalta, mikä on syväoppimisen keskeinen vahvuus. Tämä yhteistyö vähentää ylisovittamisen riskiä ja parantaa mallin suorituskykyä. Tiheä kerros ja dropout-kerros täydentävät tätä estämällä ylisovittamista ja vahvistamalla mallin kykyä yleistää opittuja piirteitä. Parametreja on yhteensä 510 094, mikä on hyvä määrä – tarpeeksi monimutkainen syväoppimismalli, mutta ei liian raskas laskennallisesti.

 

Parannettavaa voisi olla mallin koulutuksen optimoinnissa ja hyperparametrien säätämisessä, mikä on tyypillistä syväoppimisprojekteille. Ajattelin myös ottaa mukaan synteettistä dataa, jotta saadaan vielä parempia tuloksia. Synteettinen data voi monipuolistaa harjoitusdataa ja parantaa mallin kykyä käsitellä erilaisia tilanteita – erityisesti syväoppimisessa, jossa riittävän monipuolisen datan saatavuus on usein kriittinen.

 

Kaiken kaikkiaan tämä malli näyttää, että osaan rakentaa ja kouluttaa tehokkaita syväoppimiseen perustuvia koneoppimismalleja, jotka sopivat moniin eri tehtäviin. Tämä osaaminen on todella hyödyllistä, kun puhutaan generatiivisesta tekoälystä ja syväoppimisen sovellutuksista, kuten kuvantunnistuksesta tai monimodaalisesta oppimisesta.

Cnn-neuroverkko

Kymmenen asiantuntijaa yhdessä – säästät resursseja ja varmistat monipuolisen osaamisen yhdellä nimityksellä.

Kuvittele tekoäly, joka ei pelkästään reagoi, vaan oppii jatkuvasti itsestään ja ympäristöstään luoden entistä vaikuttavampia tuloksia

Tämä avaa ovia täysin uudenlaisille sovelluksille, joissa tekoäly voi automatisoida sisällöntuotannon, oppia käyttäjien palautteista ja jopa kehittää taiteellisia luomuksia reaaliajassa! Tässä kädenjälkeäni:

Python-pohjainen data-agentti, joka automatisoi datan visualisoinnin ja analysoinnin epätäydellisistä CSV- ja Excel-tiedostoista! 🚀

Integroin Transformers-kirjaston ja paikallisen kielimallin, joka mahdollistaa datan automaattisen analysoinnin ja yhteenvetojen luomisen.
Data-agentti on suunniteltu erityisesti epätäydellisen datan käsittelyyn (iso osa esim. CSV-tiedostoista on puutteellisia) ja sopii erinomaisesti data-analyytikoille ja tutkijoille, jotka haluavat nopeuttaa työtään datan parissa. Jatkan vielä tämän projektin kehitystyötä entistä paremmaksi ja hyödynnän kielimallin finetuningia tulevaisuudessa. Kuvista näkee Output-kansion samalla hetkellä luodut visualisoinnit ja txt-yhteenveto.

Data-agentin yhteenveto
Kerralla luodut tiedostot output-kanisosta data-agentilta

Telegram-botti

vuotta työkokemusta
0
Minulla on myös valtavan laaja kokemus markkinoinnista, viestinnästä, hakukoneoptimoinnista, palvelumuotoilusta, pr:stä ja liiketoiminnan kehittämisestä, myös aikaisemman yrittäjyyteni kautta. Usein ohjelmoijat ovat hyvin ”tietotekniikkaputkinäköisiä”. Minulla on laaja liiketoiminnan strategisen kehittämisen ja operatiivisen kehittämisen kokemus.
Marian kyvyt omaksua formalismeja, logiikkaa sekä kompleksisuutta ovat vaikuttaneet minut. Marialla on monimutkaisuutta hahmottamaan ja osiksi purkamaan pystyvä mieli, sekä hakkerin innokkuus ja sitkeys.
Toni Aittoniemi
Software developer

Tekemäni Matrix-peli GPT-teknologialla

Fine-tuning gpt4o minillä

Toteutin fine-tuning-projektin, jossa paransin olemassa olevan mallin suorituskykyä API:n kautta. Fine-tuningin ansiosta sain aikaan tarkempia ja laadukkaampia tuloksia kuin pelkällä ohjeistuksella (prompting). Prosessin aikana koulutin mallia suuremmalla määrällä esimerkkejä, mikä teki siitä joustavamman ja tehokkaamman. Tämä myös mahdollisti tokenien säästämisen lyhyempien ohjeiden ansiosta ja nopeutti pyyntöjen käsittelyä. Lopputuloksena on optimoitu malli, joka soveltuu paremmin käytännön sovelluksiin, kuten asiakaspalveluun ja sisällöntuotantoon.

Fine tuned gpt malli

Kuvien järjestelijä

Mitä valmiin koodin suorittaminen aiheutti? Agentti järjesteli kaikki (jäätävän sotkuisen Downloands-kansioni) kuvat ICloudiini, jonne se loi jokaiselle vuodelle oman siistin kansion. Siistimpi kone, parempi mieli. Ja tämä otti vain puoli tuntia. 🫡

kuvienjärjestelijä

Älykäs mallipohjainen ratkaisu PDF-dokumenttien automatisoituun jäsentämiseen

Tämä ratkaisu yhdistää paikallisesti toimivat komponentit, jotka on suunniteltu lukemaan ja jäsentämään PDF-dokumentteja mahdollisimman kattavasti ja tietoturvallisesti. Se hyödyntää kehittyneitä tekstinlouhinnan menetelmiä, kuten pdfplumber-kirjastoa, kyetäkseen poimimaan rakenteellista informaatiota silloin, kun PDF:ssä on sähköinen tekstikerros tallessa. Mikäli aineisto on pelkkä skannaus tai muutoin tekstitasoltaan puutteellinen, malli siirtyy automaattisesti OCR-vaiheeseen, jossa Tesseract varmistaa tekstin tunnistamisen. Prosessin aikana järjestelmä parantaa lukutarkkuutta muun muassa kuvankäsittelytekniikoilla, kuten kontrastin säädöllä ja kohinan suodattamisella.

 

Varsinaista dokumenttianalyysiä varten järjestelmässä on käytössä heuristiikka- ja fuzzy-matching -säännöt (thefuzz), jotka tunnistavat riveistä olennaisia kielellisiä ilmauksia ja avainsanoja joustavasti. Näin monet kirjalliset tai rakenteelliset variaatiot tulevat tunnistetuiksi, eikä prosessi rajaudu ainoastaan täsmälleen määriteltyihin termeihin. Lopputuloksena malli laatii kaksi erilaista koontiaineistoa: yhden sellaisenaan laajan “raakadatan” ja toisen valmiiksi jalostetun “lopullisen raportin”. Tässä raportissa olennaiset tietorakenteet ja arvot on koottu tiiviiksi yhteenvedoksi, joka helpottaa jatkokäsittelyä.

 

Kaikki tämä tapahtuu täysin paikallisesti, ilman ulkoisten palveluiden käyttöä. Tämä tarkoittaa, että dokumentteihin sisältyvät aineistot pysyvät turvallisesti omassa ympäristössä, ja tietoturva säilyy organisaation omissa käsissä. Mallin modulaarinen rakenne ja Python-ekosysteemiin nojaava joustavuus tekevät siitä helpon mukauttaa ja laajentaa erilaisiin käyttötarkoituksiin. Ratkaisu sopii erinomaisesti tilanteisiin, joissa halutaan automaattisesti käsitellä suuria dokumenttimääriä, varmistaa tiedon tarkka poiminta ja minimoida manuaalinen työpanos – samalla säilyttäen korkea taso tietoturvassa ja hallinnassa.

Finetunattu pieni Google Flan-t5 edelliseen peojektiin liittyen

Osana sopimusdatan käsittelyä toteutin Python-pohjaisen työnkulun, jossa sopimustekstit (PDF) luetaan ja siistitään (pdfplumber + OCR-varamenettely), jonka jälkeen niitä pilkotaan “olennaisiin” lauseisiin heuristisen filtteröinnin avulla. Näin saadaan esimerkiksi käsiteltäviin yksityiskohtiin viittaavat tekstipätkät (”relevant_sents”).

Hyödyntämällä finetunnettua Flan-T5-mallia (koulutettuna n. 2500 kysymys-vastausparilla) järjestelmä pystyy “epävarmoissa” tapauksissa – jos heuristiikkaa ei löydä yksiselitteistä tulosta – analysoimaan lyhyet, relevantit lausekontekstit ja päättelemään, mitkä prosenttiarvot kuuluvat tiettyihin yksityiskohtiin, joita metsästetään.

Mallin finetunausta, koodipätkää

Yksinkertainen ja tehokas neuroverkko

Pieni ja näppärä neuroverkko

Tässä esitellyssä neuroverkkomallissa on käytetty tehokasta ja tiivistä rakennetta, joka on suunniteltu toimimaan monimutkaisten datamallien kanssa. Käyttämällä vain kolmea kerrosta ja yhteensä 2817 parametria, tämä malli osoittaa kuinka voimme saavuttaa merkittäviä tuloksia ilman, että tarvitaan valtavaa määrää laskentaresursseja. Mallin suunnittelu on selkeä ja johdonmukainen, ja se noudattaa modernin koneoppimisen parhaita käytäntöjä, mikä tekee siitä ihanteellisen valinnan erilaisten ennustetehtävien ratkaisemiseen.

 

Ensimmäinen kerros koostuu 64 neuronista, joka on varustettu laajalla kyvyllä tunnistaa ja erottaa syötteen perusteella erilaisia piirteitä. Toinen, syvempi kerros, jossa on 32 neuronia, jatkaa oppimisprosessia, syventäen ja vahvistaen havaintoja, jotka on tehty ensimmäisessä kerroksessa. Lopullinen kerros, yksittäinen neuroni, tiivistää neuroverkon oppimat tiedot ja antaa ennusteen, joka heijastaa monimutkaisten suhteiden ymmärrystä syötetystä datasta.

 

Tämän mallin kauneus piilee sen yksinkertaisuudessa ja tehokkuudessa. Se on erinomainen esimerkki siitä, kuinka tarkkaan suunniteltu neuroverkko voi tarjota tarkkoja ennusteita ja syvällisiä analyyseja ilman, että se vaatii kohtuuttomia laskentatehoja tai monimutkaisia rakenteita. Mallin rakenne ja parametrit osoittavat selvästi, että hyvin suunniteltu pienempi malli voi saavuttaa tai jopa ylittää suurempien mallien suorituskyvyn tietyissä tehtävissä, tarjoten samalla nopeamman ja tehokkaamman koulutusprosessin. Tämä tekee siitä loistavan työkalun niin tutkijoille kuin kehittäjille, jotka haluavat hyödyntää koneoppimista ratkaistakseen reaalimaailman ongelmia.

Blogiprojekti, joka keskittyi koneoppimisen hyödyntämiseen Titanicin matkustajadataa analysoimalla

Tavoitteenani ei ollut ainoastaan ymmärtää selviytymisen todennäköisyyksiä historiallisesta näkökulmasta, vaan myös tutkia, kuinka koneoppimisen ja datan analysoinnin menetelmiä voidaan hyödyntää nykyaikaisessa liiketoimintaympäristössä. Minua kiinnosti erityisesti selvittää, mitkä tekijät vaikuttivat merkittävästi selviytymiseen Titanicin katastrofissa ja miten näitä analyyttisiä oivalluksia voidaan yleistää liiketoiminnan kontekstissa – tarkoituksena tukea päätöksentekoa ja strategista suunnittelua eri toimialoilla.

 

Vaikka Titanicin tragedia ja moderni liiketoiminta voivat ensisilmäyksellä vaikuttaa toisistaan erillään olevilta aiheilta, niiden välinen yhdistävä tekijä on datankäsittelyn voima. Tämän projektin kautta halusin tutkia, kuinka datan syvällinen analysointi ja koneoppimismallien soveltaminen voivat paljastaa piilotettuja yhteyksiä ja ennustaa tuloksia, tarjoten näin arvokkaita oivalluksia, jotka ovat sovellettavissa laajemmin liiketoiminnan päätöksentekoprosesseihin.

 

Projektini tavoitteena oli osoittaa, että koneoppimisen ja datatieteen menetelmät tarjoavat tehokkaita välineitä datan muuttamiseen strategiseksi resurssiksi, joka voi informoida ja ohjata liiketoiminnan päätöksiä riippumatta toimialasta tai historiallisesta kontekstista.

Olen saavuttanut alla olevaan Random Forest Classifier -mallilleni parhaat hyperparametrit, jotka ovat {max_depth: 20, min_samples_split: 10, n_estimators: 200}. Näiden parametrien avulla saavutin ristiinvalidoinnin keskimääräisen tarkkuuden 0.827, mikä on erittäin hyvä tulos Titanic-datasetille.
Python-sertifikaatti

Suosittelijoitani ovat muun muassa:

TONI AITTONIEMI

(SOFTWARE DEVELOPER, EDM RESEACHER, SUPERCELL)

ARTO IHANTOJA 

(ROBOTIIKAN JOHTAVA KONSUTTI, CGI)

 

SAMU AALTONEN

(SOFTWARE ENGINEER, ENTREPRENEUR)

 

KIMMO STRANG

(SOFTWARE ENGINEER, CEO)

Teen myös koulutusia! Hyvinä esimerkkeinä muun muassa referenssini Tehy ja Broman Group.

Yhteystiedot: 

Maria Ahonen

maria@kasvuagency.fi

(yritys ei ole rekisterissä, mutta sen sähköposti toimii)

Puh: 044 214 3451

Ota yhteyttä matalalla kynnyksellä!

To Top
Translate »