Avinash Kaushik heeft deze week weer een interessante post afgeleverd. Avinash is een ‘quality over quantity’ blogger en Datamining and Predictive Analytics On Web Data Works? Nyet! valt ook zeker in die categorie.

Als iemand met een Business Intelligence achtergrond ben ik het, in tegenstelling tot normaal nu niet met hem eens. Avinash geeft zes redenen waarom het gebruik van datamining en voorspellende analyses niet kan werken op webdata.

1. Type of data

Webdata heeft volgens Avinash twee grote nadelen voor datamining.

  1. Webdata is anoniem
  2. Webdata is vanwege de dataverzameling via cookies of tags foutgevoelig

Beide punten zijn natuurlijk waar (dit geldt overigens ook van web analytics in het algemeen), maar hoeven mijns inziens geen belemmering te zijn om webmining toe te passen. Natuurlijk is het mooi om persoonsgegevens te kunnen koppelen aan je data, maar je kunt net zo makkelijk voorspellende analyses maken op cookie niveau of IP-adres/browser.

2. Number of variables

Menselijk gedrag is irrationeel, online misschien nog wel meer als offline. Mensen wisselen tussen kanalen en gebruiken niet altijd dezelfde (of juiste) naam en adres. Uit je webdata haal je maar een klein gedeelte van het gedrag (alleen het internetkanaal) en mis je dus andere contacten die je klant met jouw organisatie heeft. Ook wordt binnen een huishouden vaak door meerdere mensen gebruik gemaakt van dezelfde computer (en dus cookie). Hierdoor wordt gedrag toegeschreven aan één persoon terwijl in werkelijkheid meerdere personen voor dit gedrag verantwoordelijk waren. Door het weglaten van alle variabelen die je niet vertrouwt hou je uiteindelijk te weinig variabelen over om iets mee te doen, volgens Avinash.

Natuurlijk zijn dit issues waar je rekening mee moet houden. Perfecte data bestaat nu eenmaal niet. Het mooie van datamining is dat het patronen kan laten zien in de data die je wel hebt. Veruit de meeste tijd in datamining zit in datapreparatie (minimaal 75%). Niet alleen schoning van data, maar ook het creeeren van nieuwe variabelen, zoals trendvariabelen (komt deze bezoeker vaker of minder vaak dan een maand geleden?).

3. Multiple primary purposes

Mensen hebben verschillende doelen op verschillende momenten dat ze je site bezoeken. De ene keer komen ze om informatie te verzamelen, dan andere keer om iets te kopen etc. Dit maakt het voorspellen van gedrag erg lastig. Het grappige is dat dit mijns inziens juist mogelijkheden biedt voor voorspellende analyses. Als je iedere pagina op je site indeeld naar een bepaald type (bijvoorbeeld informatiepagina’s, bestelpagina’s etc) kun je van ieder bezoek het doel vaststellen. Hiervoor kun je bijvoorbeeld een aanname maken dat het type pagina dat de meeste pageviews heeft, het doel van het bezoek weergeeft. Door het doel van ieder bezoek nu als variabele toe te voegen aan je mining table zou je wel eens een sterk voorspellende variabele kunnen hebben gecreeerd.

4. Multiple visit behavior

Dit is een interessant punt wat Avinash hier aandraagt! Op internet is het heel normaal (net als in offline winkels trouwens) dat mensen de shop meerdere keren bezoeken voordat ze tot aankoop over gaan. Avinash ziet het analyeren van dit gedrag als een enorme uitdaging. Dat is het natuurlijk ook. Als datamining makkelijk was zou iedereen het wel doen :-).

Het voorspellen van gedrag binnen een sessie is inderdaad vrij kansloos. Juist in de reeks van bezoeken die iemand aan je site aflegt zit de voorspellende waarde. Leg een miningtable aan op klant of bezoeker niveau en creeer variabelen als fase ‘doel van het laatste bezoek’ en ‘aantal bezoeken in huidige koopcyclus’.

5. Missing primary keys, data silos, lack of holistic datasets

Door je web data te integreren met andere databronnen kun je je voorspellende modellen sterk verbeteren. Dit is echter een stuk makkelijker gezegd dan gedaan. Het ontbreekt in webdata vaak aan een unieke sleutel om de data aan elkaar te koppelen. Datakwaliteit is in datamining één van de belangrijkste issues (gaan we veel van horen de aankomende jaren denk ik), dus ook in web analytics. Dat neemt niet weg dat je een heel eind kan komen. Natuurlijk zul je altijd ‘probleemgevallen’ houden met mensen die meerdere accounts hebben of van meerdere IP-adressen naar je site komen, maar dit zal uiteindelijk slechts een klein gedeelte van je database betreffen.

Los van het al dan niet kunnen koppelen van je webdata aan je andere systemen denk ik dat datamining op losstaande webdata ook al tot voldoende inzichten kan leiden. De koppeling van data is in die zin een extratje. Ik denk ook dat voornamelijk je offline modellen gebaat zijn bij een koppeling van webdata aan je datawarehouse en minder andersom.

6. Massive pace of change on the web

Internet is voordurend aan verandering onderhevig. Daardoor is ook het online gedrag van mensen voordurend aan het veranderen (tenminste volgens Avinash). Voorspellende analyses zijn daardoor minder ‘houdbaar’.

Laten we er voor het gemak even van uitgaan dat online gedrag inderdaad zo snel en sterk wijzigt. Dit zou inderdaad betekenen dat je voorspellende analyses eerder geupdate moeten worden. Datamining is echter geen eenmalige analyse, maar een continue proces. Via een champion-challenger methode kun je altijd een nieuw voorspelmodel hebben klaarstaan. Presteert je nieuwe model (challenger) beter dan je huidige (champion), dan vervang je je huidige model door de ‘uitdager’.

Datamining kan wel degelijk toegepast worden op webdata. Het is moeilijk en veel werk, maar zeker mogelijk. Ik ben het Avinash eens dat je als bedrijf niet meteen veel geld in systemen en tooling moet gaan stoppen (ook dat geldt voor meer dan alleen datamining). Web analytics is voor veel organisaties nog nieuw. Deze organisaties moeten zich eerst richten op de (quick) wins die met web analytics te bereiken zijn. Als dat proces onder de knie is, kun je als bedrijf eens naar datamining gaan kijken. Neem eens een sample uit je webdata en probeer daar een mining table van te maken. Levert dit nieuwe (en actionable) inzichten op, dan kun je hiermee verder gaan.

Plaats een reactie