Big & data: Isot aineistot esillä Tekniikan päivillä 2015

Eri kaupunkeihin levittäytyvien Tekniikan päivien yhteisenä aiheena yleisötilaisuuksissa loka-marraskuussa on big data, suomeksi massadata. Mistä onkaan kyse?

Big data on isoja aineistoja, tietomassoja. Se tarkoittaa, että dataa on paljon, sitä tulee vauhdilla lisää ja se on monimuotoista, eli dataa on erilaista: on tekstiä, mitta-arvoja, kuvia, videoita. Tällainen aineisto voi olla ihmisen tuottamaa tai välittämää, kuten instagram-kuvat, tai koneiden tuottamaa, esimerkiksi teollisuusprosessin valvonnassa syntyvää mittausdataa.

Big data on noussut kiinnostuksen kohteeksi parista hyvästä syystä, sanoo dosentti Patrik Floréen Helsingin yliopiston tietojenkäsittelytieteen laitokselta. Hän kuuluu tänä vuonna Tiedon valossa – Tekniikan päivien 2015 pääkaupunkiseudun ohjelman pääjärjestäjiin yhdessä Aalto-yliopiston professori Ville Pulkin kanssa.

Ensinnäkin tietojenkäsittelykapasiteetti ja -menetelmät ovat kehittyneet niin, että nyt pystytään käsittelemään hyvinkin suuria tietomassoja, Floréen kertoo. Toiseksi on herätty siihen, että datalla on kaupallista arvoa.

Liike-elämä on kovasti kiinnostunut big datasta,ja ”data scientisteista” eli big dataan erikoistuneille osaajille on kysyntää. Massadata ei siis ole vain akateemisesti kiinnostavaa vaan myös taloudellisesti merkittävä asia, hän sanoo.

Massadataa syntyy myös kun käy kaupassa tai keskustelee netissä

Tyypillinen big data -kysymys on vaikkapa kysymys: mitä voidaan sanoa kuluttajien ostokäyttäytymisestä. Datalähteenä voi silloin olla kanta-asiakaskorttidata tai kaupassa sensoreiden keräämä data.

Floréen ottaa toisenkin esimerkin: Sosiaalinen media tuottaa paljon kiinnostavaa dataa ihmisten välisistä suhteista ja käyttäytymisestä. Facebook, instagram ja muut muodostavat isoja verkkoja, joita on tutkittu viime aikoina myös sosiologisesta näkökulmasta.

Niin sanottu esineiden internet (internet of things) lähtee siitä, että laitteet on kytketty verkkoon. Niistä voi verkon kautta kerätä tietoa ja niitä voi verkon kautta ohjata. Tärkeä osa-alue on teollinen internet (industrial internet), jossa yrityksen laitteet varustetaan sensoreilla ja ohjelmilla. Silloin tavoitteena voi vaikka olla kalliin laitteiston kunnon seuranta niin, että ongelmat laitteissa huomataan ja korjaaja pääsee paikalle jo ennen kuin laite menee rikki.

Isot aineistot tarvitsevat omat käsittelymenetelmänsä

Dataa yhdistelemällä ja datasta tietoa etsimällä saa vastauksia erilaisiin kysymyksiin. Suuri datamäärä myös mahdollistaa ihan uudenlaisten kysymysten esittämisen.

Tämä on tietojenkäsittelyllisesti kiinnostavaa, koska menetelmät jotka soveltuvat pienille aineistoille eivät välttämättä toimi isoille. Tarvitsemme uusia tapoja mallintaa ja käsitellä suuria datamääriä, Floréen sanoo.

Big data on suurten, järjestelemättömien, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen (lähde: Wikipedia).

Mitä asiantuntijat sanovat datasta ja tiedosta? Entä muut käyttäjät? Onko kyse tietämisen vallasta ja onko tieto vain hauskaa ajanvietettä? Tekniikan päivät – Tiedon valossa yleisötilaisuudet Tampereella, Helsingissä Turussa ja Oulussa. Tervetuloa mukaan!

 

Kuva: Veikko Somerpuro
Teksti: Minna Meriläinen-Tenhu