torsdag 18 april 2013

Big data, en störtflod av svar


Ett modeord, Big data, har kommit att beskriva behandlingen av väldiga mängder uppgifter i ett stort system som hela internet. Effekterna från Big data kommer att bli mycket stora och överraskande. Mängden, hastigheten på inflödet och olikheterna från de många källorna gör det svårt för vanlig mjukvara för databaser att samla in och analysera Big data.

Datorn brukade vara en burk som stod på ett bord med skärm och mus, man "sitter vid datorn". Nu blir datorn något man alltid har med sig, eller den processkraft som byggs in i alltfler föremål i vår omgivning. IT-gurus som Nicholas Negroponte och Steve Jobs utropade ett ”sakernas internet” och en ”era efter PC:n”.

Nu kan de få rätt. Smartphones blir en dator mer än en telefon, TV-apparaten blir en uppkoppling till internet, sensorer i hushållsapparater spelar in alltmer information om sin omvärld. De sociala medierna lägger upp allt mer information på nätet. Det blir allt billigare att lagra allt större mängder information.

Sensorerna och processkraften skapar väldiga mängder information. Idag passerar det mer data på en sekund genom internet än vad som fanns lagrat på hela nätet i början av 90-talet. Problemet är att kunna sålla i flödet mellan signal och brus, att förstå och översätta till begriplig information.

Ett vardagligt exempel är nätbokhandeln Amazon. Före datorerna kunde en bokhandlare se i sin lagerbok vilka böcker som sålde och vilka som var hyllvärmare. Men vem köpte vad, och hur? Var det någon speciell tidpunkt som en viss titel sålde mycket? Amazon kan se vem som köpt vad på sajten, vad de tittat på före köpet och vad som påverkade deras beslut.

Informationen ger tillräckligt mycket för att kunna bygga ett program som rekommenderar titlar till kunden. Även rekommendationer som blir fel ger mer information om köpvanorna. Vad brukar 45-åriga kvinnor i Sundsvalls postnummerområden titta på efter att de inte klickat på någon av de rekommenderade boktitlarna? Kanske köper de med stor sannolikhet en deckare då, om det är en fredag.

Byråkrati är databehandling. Det kostar att låta tjänstemännen samla in data från verksamheten och de har svårt att få överblick på resultatet. Det fanns en poäng i att samla allt beslutsfattare hos chefen i toppen på organisationen. Chefen tar in stora mängder information på kort tid och fattar beslut på samma sätt varje gång.

Fast om mängden information som produceras är stor och bearbetningen blir lättare så förändras även beslutsfattandet. Det blir lättare att samla in och bearbeta informationen ute i verksamheten, nära erfarenheten och det enskilda fallet. Det går att göra experiment och utvärderingar i realtid.

Det har talats om hur databehandlingen kan påverka försäljning, tillverkning och produktutveckling. Sjukvården kan upptäcka epidemier tidigt genom när många användare börja googla på något symptom.

En annan användning är journalistiken. Jens Finnäs arbetar med Journalism++, ett europeiskt nätverk för datadriven journalistik. Finnäs förklarar ”i grunden handlar datajournalistik om två saker: research och presentation. Om att kunna analysera och bearbeta data och åskådliggöra den på ett så bra sätt som möjligt”.

Ett exempel är att Journalism++ kunde strukturera data som Aftonbladet redan hade om alla livstidsdömda fångar. Då kunde tidningen visa upp mönster för vem som döms till livstid, för vilka brott och för hur länge de sitter i fängelse.

Grafik på internet som läsarna kan påverka eller att bearbeta deras reaktioner och svar för att lösa ett problem, är en ny form av berättande där journalister och utvecklare måste kunna arbeta tillsammans.

Ännu ser inte Finnäs att journalistiken arbetar med Big data, utan det gäller att dra större nytta av de små- och medelstora datamängder som redan finns.

Går det att äga data? Kan individen få tillgång till sina egna data? Hur väl går det att koppla uppgifter till en viss person? Kritik har redan framförts mot att myndigheter, sjukvården och finansmarknaden är för öppna med data de samlar in, vilka kan läggas ihop av andra användare. Integritetsfrågan har funnits med personnumren och Datalagen sedan 70-talet, och blir viktigare med Big data. Om beslutsfattandet automatiseras längre ned i systemet, kanske inte beslutsfattare behövs?

Konstnären Pablo Picasso sa i en ofta citerad intervju att datorer var meningslösa, för de kan bara ge svar. Där hade Picasso en poäng, för med Big data så blir det viktigare att bestämma syftet med svaren och ställa de rätta frågorna. Svar finns det för många av.

Läs även andra bloggares åsikter om , , , , , , ,

Intressant
Skicka en kommentar

En ny form för IMF och Världsbanken

Internationella valutafonden IMF och Världsbanken håller sitt vårmöte i Washington DC. Troligen ett av de svåraste sedan grundandet i B...