Zusammenhänge


Kombinationen

Ich habe alle enthaltenen so wie von mir generierten binären Features (Uhrzeit, Zahlungsmethoden, Artickelgruppen) miteinander kombiniert und die Anzahl der Betrugsfälle gezählt um eine Betrugswahrscheinlichkeit für Featurekombinationen zu berechnen.

Es gibt einige Featurekombinationen, welche 100% oder auch 0% Betrug implizieren, aber mit extrem niedrigem Support (1-10)..

Die besten Features (Betrugswahrscheinlichkeit-Support) sind folgende:

!Email + Neukunde --> 15.18% Betrug, 362 Betrüger insgesamt
!Email + Artikelgruppe4 --> 12.92% Betrug, 277 Betrüger insgesamt
!Email + mitrechnungbezahlt --> 11.4% Betrug, 268 insg.
!Email + !Telefonnummer angegeben --> 10.94% Betrug, 440 insg.
!Email + !Artikelgruppe2 --> 10.85% Betrug, 360 insg.
Neukunde + Artikelgruppe4 --> 10.69% Betrug, 581 insg.
!Email + !Zahlungsart_EC --> 10.67% betrug, 425 insg.

Tobias

weitere Kombintionen

Frage an den/die Verfasser(in) von oben: Welches Datenset hast du benutzt? Hier noch einige weitere Betrugswahrscheinlich für kombinierte Features, ermittelt auf den kompletten Trainingsdaten (alle verfügbaren Daten abzüglich Holdout-Daten):

!EMAIL + FAIL_RORT --> 12,66% Betrug, 191 Betrüger insgesamt  [ wenig "neue" Information, s.u. ]
!EMAIL + SESSION_TIME=1 --> 30,83% Betrug, 133 Betrüger insgesamt [ deutliche Korrelation, aber eher geringer Support ]
Anmerkung:
!EMAIL allein: 10,05%, 4827 Betrüger insgesamt
SESSION_TIME=1 allein: 18,62%, 650 Betrüger insgesamt
FAIL_RORT allein: 12,19%, 238 Betrüger insgesamt

Andre

3er Kombinationen

Alle meine Kombinationen sind auf den kompletten Daten abzüglich Iljas Holdoutset errechnet. Kombinationen mit Support unter 200 hatte ich weggelassen, da mir die anderen besser erschienen. Ich habe die von mir errechnet günstigen 2er Kombinationen nocheinmal mit allen weiteren binären features korreliert, dabei sind noch ein paar signifikante zusammenhänge zu Tage getreten

!email+neukunde+artikel4 -->20.5%, 218 betrüger
!email+neukunde+!telefon -->16.85%, 338 betr.
!email+neukunde+rechnung -->16.80%, 208 betr.
!em+art4+!telefon        -->14.07%, 254 betr.

Tobias


Offline DMC Log & Layout: Arnd Ißler, http://arndissler.net/