Analyse en voorspellingen

Egmont-Petersen

Big data – trends

Met de komst van de cloud, de grote groei aan allerlei soorten publieke data op Internet en steeds meer internetverkeer in het algemeen, is de nieuwe discipline ‘Big Data‘ ontstaan. Het concrete doel met Big Data activiteiten verschilt per organisatie. Een drietal voorbeelden:

  • Een bank kan geïnteresseerd zijn om haar imago te volgen, via sociale media. Welke trefwoorden worden (vaak) geassocieerd met de dienstverlening van de bank?
  • Een opsporingsorganisatie wenst om kentekens van web-cams in het verkeer te koppelen aan mogelijke opsporingsonderzoeken (nadat de nodige juridische toestemmingen hiervoor zijn verleend).
  • Een verzekeraar wil geclaimde schade aan woningen en inboedel relateren aan recente verkoopadvertenties op bekende makelaarsites, voor woningen in dezelfde wijken.
  • Een aanbieder van online leersystemen wil verschillende leerstijlen in kaart brengen, onder hun gebruikers.

Wat ik altijd zie terugkomen in Big Data projecten, is een sterke focus op het verzamelen van data, en harmonisatie van data. Softwareomgevingen zoals: Hadoop, Spark, Hive, leggen een sterke focus op deze taken. Het distribueren van deze taken over een cluster van virtuele computers is ook een punt van focus.

Wat ik veel minder zie in Big Data projecten, is de vraag naar goede Machine Learning tools, en de diepgaande kennis om hiermee de verzamelde ‘Big Data’ te analyseren.

Machine learning – predictive analytics

Wat zit er achter deze concepten? Wanneer de (big) data verzameld zijn, dan volgt in de regel voorbewerkingsstappen – pre-processing. Deze voorbewerkingen zijn bijvoorbeeld nodig wanneer de data als natuurlijke taal (‘woorden’) beschikbaar zijn (bijv. Twitter-berichten). Voor beelddata zijn ook speciale voorbewerkingsstappen nodig.

Hierna begint het ‘leren’ uit data. Ik maak de indeling tussen:

  • Verbanden – Verbanden zien in de data – het reduceren van de vele dimensies in de gegevensstroom naar specifieke, hoog-relevante samenhangen.
  • Voorspellen – Het voorspellend modelleren van verbanden in de data. Dit is weer onderverdeeld in:
    • Voorspellen uitkomst – Voorspellen van een uitkomst (de kans hierop) uit een kleine hoeveelheid mogelijke uitkomsten, gebaseerd op de aanwezige data
    • Voorspellen ‘getal’ – Voorspellen van een getalsvariabele, gebaseerd op de aanwezige data.

Een voorbeeld van een uitkomst-voorspellend model ‘Voorspellen uitkomst‘, is het berekenen van de kans van een bezoeker in een webwinkel ook een aanschaf doet en daarmee klant wordt. Zie voorbeeld.

Het voorspellen van een ‘getal’ is handig wanneer je bijvoorbeeld het verwachte aantal verkochte eenheden per dag van een product in je webshop wil weten. Deze voorspelling is handig wanneer je het inpakken en versturen van de pakketjes per dag aan het plannen is.

Een andere uitdaging is het monitoren of het aankoopgedrag na een maand verandert onder de bezoekers, waardoor het voorspellend model opnieuw moet worden berekend. Deze veranderingen in gedrag kunnen we automatisch detecteren, en het voorspellend model opnieuw laten berekenen, met de nieuwste data.