Posts Tagged “Datamining”

Als dataminerd ben ik fervent gebruiker van opensource tools voor datamining(R, Weka, Octave, Orange).

Nu ben ik momenteel bezig om voor ons adviesbureau een tooltje in elkaar te draaien dat rss-feeds van vacature sites leeg slurpt. De relevante opdrachten eruit filtert en met CV’s van mede ondernemers combineert en deze gecombineerd bij onze sales in de email bus te laten vallen.

Je zou een geheel Basyaanse aanpak kunnen opzetten waarin je net als een spamfilter leert wat goede en slechte matches (spam/ham) zijn maar in eerste instantie is gekozen voor een direct aanpak met het slim tellen van overeenkomsten in de text. Hirevoor gebruik ik de Natural Language Tool Kit (NLTK) in python en een Nederlandse corpus van Alpino Treebank.

Ik zal jullie op de hoogte houden van verdere voortgang…

Tags: , ,

Comments Geen reacties »

In Clou van maart 2009 een geweldig interessant stuk “data want to be free”. Waarin Frank van Harmelen van de VU een kijkje in zijn keuken gunt met interessante links, waaronder deze over Cogito van Expert System op readwriteweb, en deze op wikipedia: Semantic Advertisement.

Wat mij vooral interesseert is hoe kennis uit data gewonnen wordt en dat dit op het semantische web revolutionair anders zal gaan dan in de huidige omgeving. Nu wordt er weinig data over data (metadata) opgeslagen en nauwelijks gebruikt bij het analyseren van gegevens. Dus de complexiteit zit in de dure datamining algorithmes achteraf of de samenhang tussen gegevens opnieuw af te leiden. In het semantisch web zit de complexiteit in het organiseren van een ‘ontologie‘ of context gedurende design time en is het verkrijgen van het juiste antwoord op een analyse vraag in runtime veel eenvoudiger.

Tenminste dat is het idee.

Tags: ,

Comments Geen reacties »

Onderstaand artikel verscheen in het oktober 2008 nummer van Adforesult en werd geschreven door Bart Clement & Bram van Essen. Het volledige artikel in pdf is hier te downloaden.

Offline wordt het gedrag van klanten al jaren met grote nauwkeurigheid voorspeld en wordt per klant vaak real-time de beste aanbieding doorgerekend. De voorspellingen zijn gebaseerd op grote hoeveelheden gedragsgegevens, contactgegevens, productgegevens en persoonsgegevens van klanten. Deze schijnbaar onoverzichtelijke bron wordt behapbaar gemaakt door toepassing van datamining technieken die patronen en profielen kunnen opsporen in de gegevens.

Ondanks dat het online kanaal al jaren een kanaal is waar enorm veel interactie met de klant plaatsvindt, worden de gegevens die online het gedrag van klanten beschrijven nog steeds niet gebruikt ten behoeve van analyses en geintegreerde marketing. De traditionele statistische technieken om klantgedrag en klantbehoeften te voorspellen zijn echter, onder enkele voorwaarden, ook geschikt om toe te passen op online klantgegevens. In dit artikel laten we aan de hand van voorbeelden zien hoe datamining technieken ook succesvol binnen online marketing kunnen worden ingezet, en geven we aan hoe je als organisatie een vliegende start kan maken met datamining.

Wat is datamining?
Datamining is het toepassen van statistische algoritmen om (verborgen) structuren en patronen in grote databestanden te vinden. Voorbeelden in de marketing zijn het vinden van klanten die met een grote mate van waarschijnlijkheid zullen reageren op een direct mail-actie of het segmenteren van een klantenbestand aan de hand van hun waarschijnlijkheid om op te zeggen en zo input te krijgen voor behoudsactie.

Werkwijze
Het dataminingproces is grofweg in 3 fases in te delen:
1. Definieren datamining vraag
Het kiezen van een geschikte datamining vraag is een belangrijke stap omdat dit de methode van analyse en de richting van de uitkomsten van de analyse bepaalt. Een miningvraag kan zijn: Welk gedrag vertonen bezoekers op de website vlak voordat ze een abonnement opzeggen, zodat je potentiele opzeggers op tijd kunt benaderen, of welke producten kan ik het beste aanbieden aan klanten die recent een doorlopende reisverzekering hebben afgesloten?

2. Kiezen van de juiste datamining techniek.
De tweede stap in het dataminingproces betreft de keuze van de juiste datamining techniek. Iedere datamining techniek heeft specifieke voor- en nadelen. Zo zal de ene techniek wellicht tot betere voorspellingen leiden, terwijl een andere techniek juist beter interpreteerbaar en uitlegbaar is.

3. Samenstellen dataminingtabel,
Deze stap is een belangrijke en zal verreweg de meeste tijd in beslag nemen (tot wel 80%). Allereerst dient de dataminingtabel op het juiste niveau te worden samengesteld. Meestal zul je klantgedrag willen voorspellen en zul je dus je miningtabel op klantniveau moeten samenstellen. Vervolgens moet de miningtabel worden aangevuld met variabelen die mogelijk een verband (correlatie) met de dataminingvraag kunnen hebben. Dit kunnen transactiegegevens, productbezit gegevens en klantcontactgegevens zijn, maar ook samengetrokken variabelen zoals klantwaarde of kanaalpreferentie per klant.

Het samenstellen van een geschikte miningtabel (op Internet gegevens) is tot op heden vaak een probleem geweest. De meeste webanalytics pakketten leggen gegevens namelijk op sessieniveau vast en rapporteren ook op sessieniveau. Omdat we met datamining meestal uitspraken doen over behoefte en gedrag van klanten dient de mining tabel meestal ook op klantniveau te worden opgesteld en zal er dus in het onderliggende datamodel van de webanalytics pakketten nog een aggregatie van sessienoveau naar klantniveau moeten plaatsvinden.

Toepassingen op online klantgegevens

In het grote scala aan statistische technieken en algoritmes onderscheiden wij de volgende drie groepen datamining technieken die zich het best lenen voor online analyses:

  1. Associatieve technieken
  2. Technieken waarbij de te voorspellen variabele een binaire variabele is
  3. Technieken waarbij de te voorspellen variabele een continue variabele is.

Ad 1. Associatieve technieken
Associatieve technieken zijn de meest bekende vorm van datamining. Dit zijn technieken waarmee overeenkomsten binnen groepen en juist verschillen tussen verschillende groepen kunnen worden gebaseerd op geselecteerde variabelen. Bij associatieve technieken wordt datamining gebruikt om associaties en verbanden te leggen zonder dat er een doelvariabele is. Voorbeelden van dergelijke technieken zijn de clusteranalyse en de apriori analyse.

A) Clusteranalyse
Clusteranalyse is vooral bekend uit marktonderzoek en wordt veel ingezet voor klantsegmentatieonderzoeken. Het doel van de analyse is niet het voorspellen van klantgedrag, maar het zoeken naar een beperkt aantal homogene groepen die onderling sterk verschillen. Online kan deze techniek heel goed worden ingezet om websitebezoek te segmenteren. Onderstaand voorbeeld laat dat zien.

Case 1: Een aanbieder van vakantiereizen segmenteert websitebezoek
Een grote aanbieder van vakantiereizen wilde achterhalen wat bezoekers op de website doen. Om hier inzicht in te krijgen is een clusteranalyse uitgevoerd, waarbij alle sessies over de laatste maand zijn meegenomen. Uit de clusteranalyse blijkt dat de volgende groepen sessies bestaan:

  • Korte sessies waarbij slechts op de aanbiedingen werd gefocussed, de zogenaamde ‘pricehunters’
  • Extreem korte sessies, waarin slechts 1 of 2 pagina;s zijn bekeken, zogenaamd ‘verkeerd verbonden’
  • Lange sessies die zich verspreiden over de gehele website, de zogenaamde orientatiesessie
  • Middellange sessie waarbij de manier van boeken wordt onderzocht door de bezoekers, de zogenaamde ‘boekingsvoorbereiding-sessie’
  • Korte sessie waarin de aanbiedingen worden bekeken en de boekingsmodule wordt doorgelopen, meestal eindigend in een boeking, de zogenaamde ‘boekers’.

Een nieuwe clusteranalyse op klantniveau liet zien dat deze verschillende sessies door alle klanten kunnen worden toegepast, en afhankelijk zijn van de fase van het beslisproces waarin de klant zich bevindt. Dit inzicht werd gebruikt om een nieuwe indeling van de website vorm te geven waarbij elk van deze type sessies optimaal werd ondersteund, met andere woorden, de bezoeker werd gefaciliteerd in het behalen van zijn of haar doelen op de website.

B) Apriori analyse technieken
De apriori techniek is uitermate geschikt om transactie data mee te analyseren. De basket analyse is hiervan het bekendste voorbeeld. Binnen (offline) retail is deze techniek veel ingezet om te bepalen welke artikelen veel samen worden gekocht om zo de winkel optimaal in te richten (zodat bier en zoutjes in hetzelfde schap staan). In online retail zijn de mogelijkheden van deze techniek nog vele malen groter, omdat je online geen last hebt van fysieke beperkingen.

Een bekend en succesvol online voorbeeld van toepassing van apriori datamining is Amazon. Door uitgebreide analyse van transactiedata wordt bij ieder product een extra suggestie gegeven (’mensen die dit boek kochten, hebben ook dit boek aangeschaft’).

Ad 2. De doelvariabele is een binaire variabele
Voorbeelden van miningvragen waarbij de doelvariabele een binaire variable is, is het voorspellen van de kans op weglopen. De doelvariabel is in dit geval wegloop (ja/nee). In dit geval zijn technieken als logistische regressie, kansbomen en neurale netwerken geschikte algoritmen.

Case 2: Een uitgeverij voorspelt kans op opzeggen van een abonnement
Een uitgever van een dagblad heeft de laatste jaren steeds meer moeite om abonnees te behouden. Om de uitstroom te verlagen wil de uitgever graag tevoren weten welke abonnees een verhoogde kans hebben om de krant op te zeggen. Hiervoor wordt een churnmodel ontwikkeld. Veel van haar klanten maken gebruik van de website van het dagblad om op de hoogte te blijven van het laatste nieuws. Gemiddeld wordt de website ongeveer drie keer per dag bekeken. Op internet zijn voor abonnees extra diensten gratis beschikbaar gesteld. Hiervoor moet wel op de site worden ingelogd, waardoor bekend is wie, wanneer, hoe vaak en wat op de site bezoekt. Deze gegevens kunnen worden gebruikt om opzeggers te voorspellen.

Er is een miningtabel opgesteld met alle klanten die in de afgelopen 3 maanden hebben opgezegd. Vervolgens wordt een model gemaakt om te voorspellen welke klanten een hoge kans hebben om hun abonnement op te zeggen. Hieruit blijkt dat weglopers in de maand voordat zij opzeggen meerdere keren de contactpagina met de algemene voorwaarden bekijken.

Klanten die hetzelfde gedrag gaan vertonen als de opzeggers, en dus een risicogroep zijn, komen nu in een aparte retentiegroep terecht waar extra marketing middelen worden ingezet om de klant alsnog te bewegen het abonnement te verlengen.

Ad 3. De doelvariabele is een continue variabele
Voorbeelden van miningvragen waarbij de doelvariabele een continue variabele is, zijn het voorspellen van de hoogte van de verwachte omzet per klant voor specifieke online marketing campagnes. In dit geval is de doelvariabele de omzet per klant, en deze kan een onbeperkt aantal waarden aannemen.

Advies
Zoals we hebben laten zien in de voorbeelden kan datamining ook succesvol worden toegepast op webdata en zijn de inzichten die je ermee kunt verwerven van grote waarde. Investeer echter niet meteen veel geld in systemen en tooling, maar begin klein.

Webanalytics is voor veel organisaties nog relatief nieuw. Richt je eerst op de (quick) wins die met webanalytics te bereiken zijn. Als dat proces onder de knie is, kun je als bedrijf eens naar datamining gaan kijken. Neem eens een steekproef uit je webdata en probeer daar een mining table van te maken. Levert dit nieuwe inzichten op, dan kun je hiermee verder gaan.

De praktijk leert dat organisaties vaak nog niet klaar zijn voor structurele datamining op internet gegevens zoals dit voor offline direct marketing al wel is ingebakken in organisaties. Het advies is dan ook om bij deze afdelingen aansluiting te zoeken en langzaam het webkanaal te ontsluiten en onderdeel te maken van het offline datawarehouse. Online marketing hoeft in dit geval niet opnieuw het wiel uit te vinden, maar kan snel de inhaalslag maken en profiteren van het voorbereidende werk van databasemarketing in de afgelopen 20 jaar.

Tags: ,

Comments Geen reacties »

Via Datamining Research werd ik gewezen op een interessante Franse onderneming die door middel van onder andere datamining technieken de koersen van aandelen voorspellen. Ik weet dat veel datamining ‘nerds’ hier in hun vrije tijd mee bezig zijn, maar deze heren hebben kennelijk van hun hobby hun werk gemaakt.

Het bedrijf Botraiders is opgericht door Xavier Bouteiller en Yann Finck. Per aandeel hebben ze een bot die de koers van dat aandeel voorspeld. Recentelijk zijn ze ook met een soort portfolio bot gestart om zo een optimale portfolio samen te kunnen stellen. Dagelijks worden hun voorspellingen op hun blog gepubliceerd. Tot op heden is dat nog gratis, maar bij bewezen succes zal daar op termijn wel verandering in komen.

Was toch handig geweest om de koersontwikkeling van zeg Fortis een dag van tevoren te weten :-)

Tags: ,

Comments Geen reacties »

De Magic Quadrant filosofie van Gartner is best interessant. Vaak is er ook genoeg op aan te merken, maar het idee is goed bedacht. De verkoop van deze magic quadrants zal best veel geld binnenbrengen bij Gartner, en dankzij de partijen die in het rechtsboven kwadrant staan, kan de wereld ook snel meegenieten van deze informatie.

In dit geval de magic quadrant voor data-mining. Net verschenen, juli 2008 en nu is het dankzij SAS al vrij beschikbaar. Gartner houdt het kwadrant nog wel in eigen hand, want ze publiceren het rapport zelf. Maar SAS wil de wereld natuurlijk graag laten horen dat ze zo goed zijn. Waarschijnlijk zullen we in de volgende kwadranten ook plek zien voor Microsoft, dat met Analysis Services/Excel en de datamining spullen daarin een erg interessant aanbod heeft. Het zal ze waarschijnlijk nog ontbreken aan voldoende referentiestories.

Daarnaast denk ik de datamining business ook vooral en value added consultancy business is. Als je datamining doet zonder de algoritmes te begrijpen, zul je meestal niet veel verder komen dan een simpele correlatie of forecast. Dus veel niche spelers, die dit vooral vanuit services optiek doen, zullen onzichtbaar blijven in deze Gartner markt.

Het totale rapport is te lezen op:
http://mediaproducts.gartner.com/reprints/sas/vol5/article3/article3.html

Tags: , , ,

Comments 1 Reactie »

Datamining en financiele dienstverlening zijn een zeer gelukkige combinatie. Aan de ene kant kun je de vele transactiegegevens gebruiken om klantgedrag te voorspellen en zo efficienter met je marketingbudget omgaan. Aan de andere kant kun je datamining inzetten om kredietrisico’s in te schatten en zo je risico beter beheersen. In de huidige moelijke tijden is dat geen overbodige exercitie.

Via Datamining Research werd ik gewezen op het boek “Data Mining in Finance: Advances in Relational and Hybrid Methods“. Zoals de titel al doet vermoeden gaat dit boek over het toepassen van datamining binnen financiele dienstverlening. Naast de toepassingen van datamining binnen finance, komen ook een aantal andere onderwerpen aan bod:

  • Statistische modellen
  • Autoregressie modellen
  • Neurale netwerken
  • Decision trees
  • Naive Bayes
  • Fuzzy logic

Het is geen goedkoop boek ($146), maar met de huidige lage dollarstand win je al veel terug :-).

Tags: ,

Comments 1 Reactie »

De achtergronden en methoden van datamining zijn velen van ons niet onbekend. Het potentiële effect op het bedrijfsresultaat is (volgens de gepubliceerde literatuur) zeker niet verwaarloosbaar.

Uitgaand van het doel om te voldoen aan de behoeften van de klant zou inzet van datamining een positieve bijdrage moeten leveren aan het welzijn van de klant. Echter, steeds vaker wekt datamining ook discussies op in verband met ethiek: men kan op internet uitspraken vinden die datamining in verband brengen met het beperken van individuele vrijheden.

Sommige bedrijven hebben al in het verleden de principes van permission marketing gehanteert, enige tijd geleden is er in Nederland een centrale register ingevoerd.

Ik vroeg me af of jullie je ervaringen hiermee en/of mening hierover (trends) zouden willen delen?

Tags: ,

Comments 2 Reacties »

In de offline kanalen begint het besef door te dringen dat klanten zich vaak volkomen irrationeel en onlogisch gedragen. Slechts 50% van de consumenten blijkt bijvoorbeeld een folder van voor naar achter door te nemen, de andere 50% neemt de folder van achter naar voor door. Om de aandacht van de lezer vast te houden moet er dus niet alleen een pakkende verhaallijn van voor naar achter in de folder worden verwerkt, maar ook van achter naar voren. Analogie met het ‘doornemen’ van een website is duidelijk.

In Paul Postma’s ‘Neurologie Berooft Marketing van Logica’ wordt aangetoond dat klantgedrag volkomen irrationeel is. In dit artikel worden vier onderzoeksmethoden behandeld waarmee het mogelijk is om het werkelijke onlogische klantgedrag te achterhalen. Een van deze vier onderzoeksmethoden waarmee werkelijk klantgedrag te achterhalen is, is emphatic design, oftewel gewoon waarnemen wat klanten doen. Peter Merholz, partner van Adaptive Path heeft aan de hand van deze methode aangetoond dat een klant zich ook op internet volkomen irrationeel en onlogisch gedraagt.

Merholz geeft aan dat het beslisproces dat hij keer op keer ziet tijdens het bestuderen van mensen die op het internet beslissen welk product zij willen aanschaffen volkomen non-lineair is en dat ook op een website als gevolg hiervan geen logische klikpaden worden gevolgd. Er bestaan dus ook geen dominante klikpaden, en al helemaal geen funnels. Een voorbeeld van een beslisproces van een klant is het aankoopproces van een digitale camera. Wat Merholz observeert is dat mensen zich eerst laten ‘vallen‘ op een camera die ze wel aardig lijkt. Ze nemen enkele specificaties tot zich en leren het domein beter kennen (digitale camera’s in dit geval), ‘stuiteren‘ weer terug en gaan nadenken welke specificaties ze eigenlijk nodig hebben, laten zich vallen op een andere camera, leren weer iets en stuiteren vervolgens minder hoog op. Dit houdt men vol totdat er uiteindelijk een keuze is gemaakt. De plek waar de bal terechtkomt, is volgens Merholz geheel toevallig en irrationeel.


Toepassing van een andere behandelde onderzoeksmethode, database gestuurde marketing, ofwel het analyseren van vertoond klantgedrag uit het recente verleden (datamining op webdata), laat zien dat er inderdaad in webdata vaak geen dominante klikpaden op een (grote) website te vinden zijn. Ook online blijkt een klant zich irrationeel te gedragen. En is gedrag niet te vangen in een logisch model. Internet marketeers die toch proberen klantgedrag in logische modellen te vangen om het voor zichzelf verklaarbaar te maken slaan volledig de plank mis. De klant beweegt zich op Internet dus als een stuiterende tennisbal die overal kan neerkomen.

Wanneer we slechts klantgedrag op sessieniveau bestuderen, zijn er daarom inderdaad geen patronen te vinden die voorspellende waarde kunnen hebben. Vaak wordt hier toch een poging toe gedaan door verklaringen als ‘fouten in de website’ of ‘een slechte ecommerce-strategie’. Aanpassing hiervan zal echter niet leiden tot een ander gedragspatroon van consumenten. Indien we een stap verder gaan en een reeks sessies van een klant bestuderen, blijken er wel degelijk stabiele patronen met voorspellende waarde in het online klantgedrag te ontstaan. De patronen die hier gevonden worden, hebben een hoge mate van voorspelbaarheid en verschaffen uitstekend inzicht in het gedrag van consumenten.

Deze wetenschap is bij directmarketing in de offline kanalen al jaren gemeengoed. Op basis van voorspellende waarde van reeksen aan contactmomenten worden in de Telecom-sector en in de financiële wereld al jaren complete geavanceerde contactstrategieën ontwikkeld op basis van voorspellende modellen en het maximaliseren van klantwaarde. Nu blijkt dat ook online een soortgelijke aanpak mogelijk is, omdat het klantgedrag, zowel online als offline, dezelfde kenmerken vertoont. Dit is niet zo vreemd, omdat door de enorm hoge penetratiegraad van internet tegenwoordig de offline klant dezelfde is als de online klant.

Tags: , ,

Comments 2 Reacties »