Archief voor categorie “Datamining”


De Magic Quadrant filosofie van Gartner is best interessant. Vaak is er ook genoeg op aan te merken, maar het idee is goed bedacht. De verkoop van deze magic quadrants zal best veel geld binnenbrengen bij Gartner, en dankzij de partijen die in het rechtsboven kwadrant staan, kan de wereld ook snel meegenieten van deze informatie.

In dit geval de magic quadrant voor data-mining. Net verschenen, juli 2008 en nu is het dankzij SAS al vrij beschikbaar. Gartner houdt het kwadrant nog wel in eigen hand, want ze publiceren het rapport zelf. Maar SAS wil de wereld natuurlijk graag laten horen dat ze zo goed zijn. Waarschijnlijk zullen we in de volgende kwadranten ook plek zien voor Microsoft, dat met Analysis Services/Excel en de datamining spullen daarin een erg interessant aanbod heeft. Het zal ze waarschijnlijk nog ontbreken aan voldoende referentiestories.

Daarnaast denk ik de datamining business ook vooral en value added consultancy business is. Als je datamining doet zonder de algoritmes te begrijpen, zul je meestal niet veel verder komen dan een simpele correlatie of forecast. Dus veel niche spelers, die dit vooral vanuit services optiek doen, zullen onzichtbaar blijven in deze Gartner markt.

Het totale rapport is te lezen op:
http://mediaproducts.gartner.com/reprints/sas/vol5/article3/article3.html

Tags: , , ,

Comments 1 Reactie »

De essentie van elke paradox is de schijnbare tegenstelling. Iets is waar maar tegelijkertijd doorzien we de onmogelijkheid ervan. Een van de leukste paradoxen is de ‘Catch 22 van het hersenonderzoek’.

de essentie van deze paradox is: als onze hersenen zo eenvoudig zijn dat wij deze kunnen begrijpen, is de mens zo eenvoudig dat we dat weer niet kunnen. De mens is intelligent genoeg om de hersenen te kunnen begrijpen, althans dat denken wij zelf.  En dus doen we onderzoek naar hersenen om onszelf te doorgronden. Met elke stap vooruit verschuift onze kennishorizon mee en dienen zich automatisch nieuwe problemen aan. Kortom, wij zijn telkens weer bezig met het creëren van nieuwe problemen in plaats van oplossingen. En dat noemen we innovatie en veranderingsmanagement.

In de marketing kennen we eenzelfde paradox: de “Catch 22 van de marketing”. De essentie is: als de consument zo eenvoudig is dat marketeers hen kan begrijpen, dan is de marketeer –zelf ook consument - weer zo eenvoudig zijn dat zij dat niet kan. En het is dezelfde ontkenning als bij het hersenonderzoek: wij denken de klant wel te kennen. En dus doen wij onderzoek naar klantgedrag. En telkens ontdekken we weer nieuwe facetten die we niet begrijpen maar het waard zijn om verder onderzocht te worden. Onderzoek is dus een bezigheid dat zichzelf in stand houd en voortdurend nieuwe problemen signaleert in plaats van oplossingen.

Dagelijks wordt ik geconfronteerd met de meest stompzinnige radio en TV commercials die allen uitvoerig zijn getest. Het merendeel van alle nieuwe product introducties faalt jammerlijk, ondanks uitgebreid marktonderzoek. De enige die er beter van zijn geworden zijn de medewerkers die alles hebben onderzocht.  Zij hebben geld verdiend, hun tijd op een leuke manier doorgebracht en een aantal nieuwe problemen ‘geproduceerd’ waarmee ze weer een tijdje voort kunnen. Is dat niet een bevestiging van de “cach 22 van de marketing”

Accepteer dat je de klant niet begrijpt.  Dat klinkt vreemd uit ‘de mond’ van een database marketeer. Maar dat is het allerminst. Het is slechts de nuchtere constatering dat ook een Mi-specialist beperkt is in zijjn instrumentarium. MI wordt door specialisten vaak overschat en door marketeers onderschat!

Comments 1 Reactie »

Datamining en financiele dienstverlening zijn een zeer gelukkige combinatie. Aan de ene kant kun je de vele transactiegegevens gebruiken om klantgedrag te voorspellen en zo efficienter met je marketingbudget omgaan. Aan de andere kant kun je datamining inzetten om kredietrisico’s in te schatten en zo je risico beter beheersen. In de huidige moelijke tijden is dat geen overbodige exercitie.

Via Datamining Research werd ik gewezen op het boek “Data Mining in Finance: Advances in Relational and Hybrid Methods“. Zoals de titel al doet vermoeden gaat dit boek over het toepassen van datamining binnen financiele dienstverlening. Naast de toepassingen van datamining binnen finance, komen ook een aantal andere onderwerpen aan bod:

  • Statistische modellen
  • Autoregressie modellen
  • Neurale netwerken
  • Decision trees
  • Naive Bayes
  • Fuzzy logic

Het is geen goedkoop boek ($146), maar met de huidige lage dollarstand win je al veel terug :-).

Tags: ,

Comments 1 Reactie »

De achtergronden en methoden van datamining zijn velen van ons niet onbekend. Het potentiële effect op het bedrijfsresultaat is (volgens de gepubliceerde literatuur) zeker niet verwaarloosbaar.

Uitgaand van het doel om te voldoen aan de behoeften van de klant zou inzet van datamining een positieve bijdrage moeten leveren aan het welzijn van de klant. Echter, steeds vaker wekt datamining ook discussies op in verband met ethiek: men kan op internet uitspraken vinden die datamining in verband brengen met het beperken van individuele vrijheden.

Sommige bedrijven hebben al in het verleden de principes van permission marketing gehanteert, enige tijd geleden is er in Nederland een centrale register ingevoerd.

Ik vroeg me af of jullie je ervaringen hiermee en/of mening hierover (trends) zouden willen delen?

Tags: ,

Comments 2 Reacties »

De klantenpiramide is een veelgebruikte manier om klanten in te delen. Het is de theorie van het Pareto-effect die stelt dat twintig procent van de klanten tachtig procent van de omzet genereert. De theorie is mooi, maar sterk achterhaald. Dit artikel betoogt waarom en biedt een beter alternatief.

De klantenpiramide is gebaseerd op de theorie van het Pareto-effect, ofwel de 20/80-regel. De gedachte hierachter is dat twintig procent van uw klanten tachtig procent van de omzet genereert. Die twintig procent klanten behoort tot de top van de piramide. Het volgende segment levert minder omzet op en staat lager in de hiërarchie. De onderste laag, het merendeel van alle klanten, levert de minste bijdrage aan de totale bedrijfsomzet of zelfs een negatieve.

Het doel van deze analyse is het segmenteren van klanten naar omzet. De populariteit van deze techniek komt door haar eenvoud. Het is nu eenmaal gemakkelijk om klanten in te delen naar goud, zilver en brons of zoortgelijke kleuren.

Ondanks de aantrekkelijke eenvoud stoelt de theorie niet op de praktijk. Zij gaat immers uit van een gelijkmatige verdeling van klanten naar omzet en van klanten over de piramide. En daar gaat het fout: het Pareto-effect bestaat helemaal niet. Het is een verzinsels die marketeers en managers van elkaar overnemen.

De vertaalslag van de theorie naar de praktijk resulteert in verkeerde beslissingen. Wie uitgaat van de 20/80-regel concentreert zich voornamelijk op de top van de piramide, de beste klanten. Maar die zijn doorgaans ook zonder piramide wel bekend. Wat bedrijven nodig hebben is een instrument waarmee ze juist hun minder goede klanten in kaart kunnen brengen. Want in deze groep zitten juist de potentieel kansrijke klanten die kunnen doorgroeien naar het topsegment. De 20/80-regel negeert deze kanshebbers en ‘gooit’ deze massa op een hoop. Dat is uitermate jammer.

De resultaten van de klantepiramide-analyse geven een eenzijdig en zelfs onjuist beeld van het klantenbestand. Het richt zich voornamelijk op de omzet van de topklanten. Maar een bedrijf wordt niet afgerekend op de omzet, maar op de winstgevendheid, de omzet minus de kosten dus.

Klanten die de meeste omzet genereren, zijn niet per definitie de meest winstgevende Deze klanten krijgen vaak privileges toebedeeld, zoals aanzienlijke prijskortingen, betere services en meer aandacht. Hierdoor stijgen de kosten. Een prijskorting is immers een kostenpost als investering in de klantrelatie. De klantenpiramide selecteert dus bedrijven in het topsegment die in werkelijkheid lang zo aantrekkelijk niet zijn. Vanwege deze genoemde bezwaren is het onverstandig de marktbewerking te baseren op de klantsegmentatie volgens de theorie van de klantenpiramide.

Tags: ,

Comments 10 Reacties »

In de offline kanalen begint het besef door te dringen dat klanten zich vaak volkomen irrationeel en onlogisch gedragen. Slechts 50% van de consumenten blijkt bijvoorbeeld een folder van voor naar achter door te nemen, de andere 50% neemt de folder van achter naar voor door. Om de aandacht van de lezer vast te houden moet er dus niet alleen een pakkende verhaallijn van voor naar achter in de folder worden verwerkt, maar ook van achter naar voren. Analogie met het ‘doornemen’ van een website is duidelijk.

In Paul Postma’s ‘Neurologie Berooft Marketing van Logica’ wordt aangetoond dat klantgedrag volkomen irrationeel is. In dit artikel worden vier onderzoeksmethoden behandeld waarmee het mogelijk is om het werkelijke onlogische klantgedrag te achterhalen. Een van deze vier onderzoeksmethoden waarmee werkelijk klantgedrag te achterhalen is, is emphatic design, oftewel gewoon waarnemen wat klanten doen. Peter Merholz, partner van Adaptive Path heeft aan de hand van deze methode aangetoond dat een klant zich ook op internet volkomen irrationeel en onlogisch gedraagt.

Merholz geeft aan dat het beslisproces dat hij keer op keer ziet tijdens het bestuderen van mensen die op het internet beslissen welk product zij willen aanschaffen volkomen non-lineair is en dat ook op een website als gevolg hiervan geen logische klikpaden worden gevolgd. Er bestaan dus ook geen dominante klikpaden, en al helemaal geen funnels. Een voorbeeld van een beslisproces van een klant is het aankoopproces van een digitale camera. Wat Merholz observeert is dat mensen zich eerst laten ‘vallen‘ op een camera die ze wel aardig lijkt. Ze nemen enkele specificaties tot zich en leren het domein beter kennen (digitale camera’s in dit geval), ‘stuiteren‘ weer terug en gaan nadenken welke specificaties ze eigenlijk nodig hebben, laten zich vallen op een andere camera, leren weer iets en stuiteren vervolgens minder hoog op. Dit houdt men vol totdat er uiteindelijk een keuze is gemaakt. De plek waar de bal terechtkomt, is volgens Merholz geheel toevallig en irrationeel.


Toepassing van een andere behandelde onderzoeksmethode, database gestuurde marketing, ofwel het analyseren van vertoond klantgedrag uit het recente verleden (datamining op webdata), laat zien dat er inderdaad in webdata vaak geen dominante klikpaden op een (grote) website te vinden zijn. Ook online blijkt een klant zich irrationeel te gedragen. En is gedrag niet te vangen in een logisch model. Internet marketeers die toch proberen klantgedrag in logische modellen te vangen om het voor zichzelf verklaarbaar te maken slaan volledig de plank mis. De klant beweegt zich op Internet dus als een stuiterende tennisbal die overal kan neerkomen.

Wanneer we slechts klantgedrag op sessieniveau bestuderen, zijn er daarom inderdaad geen patronen te vinden die voorspellende waarde kunnen hebben. Vaak wordt hier toch een poging toe gedaan door verklaringen als ‘fouten in de website’ of ‘een slechte ecommerce-strategie’. Aanpassing hiervan zal echter niet leiden tot een ander gedragspatroon van consumenten. Indien we een stap verder gaan en een reeks sessies van een klant bestuderen, blijken er wel degelijk stabiele patronen met voorspellende waarde in het online klantgedrag te ontstaan. De patronen die hier gevonden worden, hebben een hoge mate van voorspelbaarheid en verschaffen uitstekend inzicht in het gedrag van consumenten.

Deze wetenschap is bij directmarketing in de offline kanalen al jaren gemeengoed. Op basis van voorspellende waarde van reeksen aan contactmomenten worden in de Telecom-sector en in de financiële wereld al jaren complete geavanceerde contactstrategieën ontwikkeld op basis van voorspellende modellen en het maximaliseren van klantwaarde. Nu blijkt dat ook online een soortgelijke aanpak mogelijk is, omdat het klantgedrag, zowel online als offline, dezelfde kenmerken vertoont. Dit is niet zo vreemd, omdat door de enorm hoge penetratiegraad van internet tegenwoordig de offline klant dezelfde is als de online klant.

Tags: , ,

Comments 2 Reacties »

Na de Web Analytics Zoekmachine is er nu ook een Datamining zoekmachine. Sandro Saitta van Data Mining Research heeft deze kortgeleden in Google aangemaakt.

De volgende onderwerpen worden in de zoekmachine meegenomen:

  • Data mining
  • Machine learning
  • Knowledge discovery
  • Pattern recognition
  • Exploratory data analysis
  • Data visualization

Inmiddels worden er meer dan 80 links meegenomen in de zoekmachine, maar dat moeten er gauw meer worden. Als je ideeën hebt, kun je ze hier doorgeven.

Comments Geen reacties »

Datamining lab publiceerde deze week een lijstje met redenen waarom datamining zo interessant en leuk om te doen is. Hieronder de top10:

1. You can train your computer to do things you can’t.
2. The methods are complicated, but the applications are intuitive.
3. It can save/make lots of money.
4. Data mining has applications in nearly any area you can think of.
5. You get to deal with data sets larger than you could ever process in your mind.
6. There are big developments taking place in the industry.
7. Data mining algorithms attempt to model how things work in biology and the real world. (ie. Neural networks/genetic algorithms)
8. There is no one size fits all solution when it comes to data mining.
9. You help make the statement “I have more data than I know what to do with” obsolete.
10. Your results can make an immediate impact in whatever industry you are involved in.

De combinatie van 3 en 4 maakt het voor mij interessant. Datamining maakt het mogelijk om klantgedrag, hoe irrationeel ook, te voorspellen en zo grip op de klant te houden/krijgen.

Comments Geen reacties »

Avinash Kaushik heeft deze week weer een interessante post afgeleverd. Avinash is een ‘quality over quantity’ blogger en Datamining and Predictive Analytics On Web Data Works? Nyet! valt ook zeker in die categorie.

Als iemand met een Business Intelligence achtergrond ben ik het, in tegenstelling tot normaal nu niet met hem eens. Avinash geeft zes redenen waarom het gebruik van datamining en voorspellende analyses niet kan werken op webdata.

1. Type of data

Webdata heeft volgens Avinash twee grote nadelen voor datamining.

  1. Webdata is anoniem
  2. Webdata is vanwege de dataverzameling via cookies of tags foutgevoelig

Beide punten zijn natuurlijk waar (dit geldt overigens ook van web analytics in het algemeen), maar hoeven mijns inziens geen belemmering te zijn om webmining toe te passen. Natuurlijk is het mooi om persoonsgegevens te kunnen koppelen aan je data, maar je kunt net zo makkelijk voorspellende analyses maken op cookie niveau of IP-adres/browser.

2. Number of variables

Menselijk gedrag is irrationeel, online misschien nog wel meer als offline. Mensen wisselen tussen kanalen en gebruiken niet altijd dezelfde (of juiste) naam en adres. Uit je webdata haal je maar een klein gedeelte van het gedrag (alleen het internetkanaal) en mis je dus andere contacten die je klant met jouw organisatie heeft. Ook wordt binnen een huishouden vaak door meerdere mensen gebruik gemaakt van dezelfde computer (en dus cookie). Hierdoor wordt gedrag toegeschreven aan één persoon terwijl in werkelijkheid meerdere personen voor dit gedrag verantwoordelijk waren. Door het weglaten van alle variabelen die je niet vertrouwt hou je uiteindelijk te weinig variabelen over om iets mee te doen, volgens Avinash.

Natuurlijk zijn dit issues waar je rekening mee moet houden. Perfecte data bestaat nu eenmaal niet. Het mooie van datamining is dat het patronen kan laten zien in de data die je wel hebt. Veruit de meeste tijd in datamining zit in datapreparatie (minimaal 75%). Niet alleen schoning van data, maar ook het creeeren van nieuwe variabelen, zoals trendvariabelen (komt deze bezoeker vaker of minder vaak dan een maand geleden?).

3. Multiple primary purposes

Mensen hebben verschillende doelen op verschillende momenten dat ze je site bezoeken. De ene keer komen ze om informatie te verzamelen, dan andere keer om iets te kopen etc. Dit maakt het voorspellen van gedrag erg lastig. Het grappige is dat dit mijns inziens juist mogelijkheden biedt voor voorspellende analyses. Als je iedere pagina op je site indeeld naar een bepaald type (bijvoorbeeld informatiepagina’s, bestelpagina’s etc) kun je van ieder bezoek het doel vaststellen. Hiervoor kun je bijvoorbeeld een aanname maken dat het type pagina dat de meeste pageviews heeft, het doel van het bezoek weergeeft. Door het doel van ieder bezoek nu als variabele toe te voegen aan je mining table zou je wel eens een sterk voorspellende variabele kunnen hebben gecreeerd.

4. Multiple visit behavior

Dit is een interessant punt wat Avinash hier aandraagt! Op internet is het heel normaal (net als in offline winkels trouwens) dat mensen de shop meerdere keren bezoeken voordat ze tot aankoop over gaan. Avinash ziet het analyeren van dit gedrag als een enorme uitdaging. Dat is het natuurlijk ook. Als datamining makkelijk was zou iedereen het wel doen :-).

Het voorspellen van gedrag binnen een sessie is inderdaad vrij kansloos. Juist in de reeks van bezoeken die iemand aan je site aflegt zit de voorspellende waarde. Leg een miningtable aan op klant of bezoeker niveau en creeer variabelen als fase ‘doel van het laatste bezoek’ en ‘aantal bezoeken in huidige koopcyclus’.

5. Missing primary keys, data silos, lack of holistic datasets

Door je web data te integreren met andere databronnen kun je je voorspellende modellen sterk verbeteren. Dit is echter een stuk makkelijker gezegd dan gedaan. Het ontbreekt in webdata vaak aan een unieke sleutel om de data aan elkaar te koppelen. Datakwaliteit is in datamining één van de belangrijkste issues (gaan we veel van horen de aankomende jaren denk ik), dus ook in web analytics. Dat neemt niet weg dat je een heel eind kan komen. Natuurlijk zul je altijd ‘probleemgevallen’ houden met mensen die meerdere accounts hebben of van meerdere IP-adressen naar je site komen, maar dit zal uiteindelijk slechts een klein gedeelte van je database betreffen.

Los van het al dan niet kunnen koppelen van je webdata aan je andere systemen denk ik dat datamining op losstaande webdata ook al tot voldoende inzichten kan leiden. De koppeling van data is in die zin een extratje. Ik denk ook dat voornamelijk je offline modellen gebaat zijn bij een koppeling van webdata aan je datawarehouse en minder andersom.

6. Massive pace of change on the web

Internet is voordurend aan verandering onderhevig. Daardoor is ook het online gedrag van mensen voordurend aan het veranderen (tenminste volgens Avinash). Voorspellende analyses zijn daardoor minder ‘houdbaar’.

Laten we er voor het gemak even van uitgaan dat online gedrag inderdaad zo snel en sterk wijzigt. Dit zou inderdaad betekenen dat je voorspellende analyses eerder geupdate moeten worden. Datamining is echter geen eenmalige analyse, maar een continue proces. Via een champion-challenger methode kun je altijd een nieuw voorspelmodel hebben klaarstaan. Presteert je nieuwe model (challenger) beter dan je huidige (champion), dan vervang je je huidige model door de ‘uitdager’.

Datamining kan wel degelijk toegepast worden op webdata. Het is moeilijk en veel werk, maar zeker mogelijk. Ik ben het Avinash eens dat je als bedrijf niet meteen veel geld in systemen en tooling moet gaan stoppen (ook dat geldt voor meer dan alleen datamining). Web analytics is voor veel organisaties nog nieuw. Deze organisaties moeten zich eerst richten op de (quick) wins die met web analytics te bereiken zijn. Als dat proces onder de knie is, kun je als bedrijf eens naar datamining gaan kijken. Neem eens een sample uit je webdata en probeer daar een mining table van te maken. Levert dit nieuwe (en actionable) inzichten op, dan kun je hiermee verder gaan.

Comments Geen reacties »