Artikelanalyse


Zusammenfassung Artikel:

- Struktur: 
  71965 bestellte Artikel insgesamt (Train+Test)
    560 verschiedene Artikel, keine, die nur in Test oder nur in Train 
        vorkommen
     40 verschiedene Preise
     10 Artikel werden nicht von Betrügern gekauft       

- Artikel werden annähernd gleichverteilt gekauft

- Es gibt für Betrug anfällige Artikel und Artikelgruppen

- Die Artikelpreise sind bekannt

Detaillierter:

- Verteilungen
  + Artikel:
    Alle Artikel werden annähernd gleichverteilt bestellt, im Mittel
    128.5 mal (auf Train und Test zusammen) Minimum ist 99, Maximum
    ist 173 (d.h. kein Artikel wird weniger als 99 mal bestellt, und
    keiner öfter als 173 mal)

  + Kategorien
    Die Artikelnummern scheinen in Kategorien eingeteilt zu sein, die
    durch die ersten drei ziffern bestimmt wird. Es gibt 6 Kategorien: 
    "010" bis "060" die folgenden ziffern scheinen zufällig verteilt
    zu sein, das wird aber noch untersucht.

    Kategorie "040" macht 36% der Artikelnummern aus und wegen der
    Gleichverteilten Bestellung auch 36% der bestellten Artikel.

    Die Kategorie "040" kommt verstärkt in Betrugsfällen vor,
    Kategorie "020" ist bei Betrügen unterrepräsentiert


  + Betrüge
    Im Schnitt sind 6% der Bestellmenge eines Artikels Betrug

    Es gibt besonders auffällige Artikel bei denen dieser Wert bei 20%
    liegt und 10 Artikeln, die in den Trainingsdaten nie von Betrügern
    gekauft wurden

    Betrüge treten eher bei Produkten mit niedrigen und mittleren
    Preisen auf.

- Preise
  + Es gibt 40 Verschiedene Preise zwischen 5.20 EURO und 68.40 EURO
  + Die Einzelpreise aller Artikel sind bekannt
  + Die Durschnittspreise der Kategorien unterscheiden sich nicht
    merklich

Noch detaillierter:

- Verteilung der Artikel

  Erwartungswerte für die Bestellhäufigkeit eines Artikels:

  MERGED [50000] Erwartungswert = 128.509 Varianz = 141.757 max = 173 min = 99
  TRAIN  [30000] Erwartungswert = 77.2607 Varianz = 84.9892 max = 105 min = 51
  TEST   [20000] Erwartungswert = 51.2482 Varianz = 51.1652 max = 69  min = 33

- Kategorien

  MERGED [71965]      TRAIN [43266]      TEST [28699]
  count  %of          count  %of         count  %of
  10801  15.01  010    6461  14.93  010   4340  15.12  010
  16028  22.27  020    9623  22.24  020   6405  22.32  020
   6057   8.42  030    3603   8.33  030   2454   8.55  030
  26152  36.34  040   15814  36.55  040  10338  36.02  040
   8071  11.22  050    4830  11.16  050   3241  11.29  050
   4856   6.75  060    2935   6.78  060   1921   6.69  060

- Kategorien Klasse 0 VS. Klasse 1

  Klasse 0 [40663 Artikel] 
  Klasse 1 [ 2603 Artikel]

      | C=1   | C=0    Beide
  ----+-------+-------------
  010 | 14.41 | 14.97  14.93  
  020 | 18.02 | 22.51  22.24
  030 |  7.72 |  8.37   8.33
  040 | 44.45 | 36.05  36.55
  050 |  9.91 | 11.24  11.16 
  060 |  5.49 |  6.87   6.78

  => binäres feature wenn aus Kategorie [1-6] bestellt wird 

- Kategorien: Durchschnittspreise:

  010 32.7623
  020 26.8331
  030 30.8209
  040 32.5132
  050 27.3946
  060 32.1562

- Artikel aus Train nicht in Test
  + KEINE!!!
  + es gibt insgesamt 560 verschiedene Artikel 

- Die Fraud top ten:

  Artikel Betrüge   %betr  Bestellt  %best  %betrug/bestell  Preis
  0403950 13        0.50   64        0.21   20.31             8.50
  0409513 14        0.54   69        0.23   20.29            18.00
  0402845 17        0.65  105        0.35   16.19            12.60
  0407703 13        0.50   87        0.29   14.94             9.99
  0406310 11        0.42   74        0.25   14.86            10.80
  0402469 10        0.38   71        0.24   14.08            14.50
  0202681 10        0.38   72        0.24   13.89             6.50
  0400061 12        0.46   87        0.29   13.79            42.80
  0404792 10        0.38   74        0.25   13.51            14.50
  0407046  8        0.31   60        0.20   13.33            19.99

- Betrug von Bestell gesamt (durchschnittlicher prozentualer Betrugsanteil pro Artikel)
  6.01

  => binäres feature, wenn einer der "verdächtigen" Artikel bestellt wird
  => betrogen wird eher bei niedrigen bis mittleren Preisen


- Die Fraud Bottom 10

  Artikel Betrüge   %betr  Bestell  %best  %betrug/bestell  Preis
  0609500  0        0.00   71       0.24    0.00            26.00
  0600925  0        0.00   86       0.29    0.00            37.00
  0509121  0        0.00   72       0.24    0.00            22.95
  0504485  0        0.00   66       0.22    0.00            42.80
  0407570  0        0.00   64       0.21    0.00            34.50
  0405431  0        0.00   69       0.23    0.00            51.00
  0302677  0        0.00   81       0.27    0.00            19.99
  0208609  0        0.00   64       0.21    0.00            10.80
  0208605  0        0.00   70       0.23    0.00             9.99
  0100061  0        0.00   74       0.25    0.00            31.90


- Die Preise 
  + min = 5.2  max = 68.4

  + durchschnittlicher Preis in der Preisliste 30.5306
  + Artikelpreis Top Ten

    Preis   Anzahl
    12.6    25
    68.4    24
    54.5    24
    17.8    21
     9.99   20
    19.99   20
    16      20
    42.8    18
    37      16
    34.5    16


  + durchschnittlicher Artikelpreis in den Bestellungen 30.4868
  + Bestellungen pro Preis Top Ten

    Preis   Anzahl
    12.6    1970
    54.5    1810
    17.8    1652
    16      1586
    9.99    1548
    19.99   1526
    42.8    1437
    23.5    1293
    37      1278
    34.5    1257

In der Crossvalidation:

fold 0 distinct articles in   non-fraudulent transactions 560   fraudulent transactions 530 
fold 1 distinct articles in   non-fraudulent transactions 560   fraudulent transactions 531 
fold 2 distinct articles in   non-fraudulent transactions 560   fraudulent transactions 532 
fold 3 distinct articles in   non-fraudulent transactions 560   fraudulent transactions 526 
fold 4 distinct articles in   non-fraudulent transactions 560   fraudulent transactions 529 

distinct articles in the fraud top ten of each fold (max=50): 22
  count article
      5 0409513
      5 0403950
      4 0402845
      4 0102496
      4 0101511
      3 0407703
      3 0406310
      3 0402089
      2 0508777
      2 0504159
      2 0408889
      2 0408470
      2 0206821
      1 0509725
      1 0503397
      1 0404242
      1 0402116
      1 0402062
      1 0401402
      1 0300767
      1 0202681
      1 0107300

distinct articles in the fraud bottom 10 of each fold (max=50): 38
  count article
      5 0200061
      5 0100061
      4 0202448
      2 0205874
      1 0302677
      1 0302611
      1 0209006
      1 0208609
      1 0208605
      1 0207610
      1 0206255
      1 0204765
      1 0204485
      1 0204242
      1 0204159
      1 0202677
      1 0202410
      1 0202246
      1 0202089
      1 0201856
      1 0201796
      1 0200925
      1 0200214
      1 0200035
      1 0108889
      1 0108801
      1 0108777
      1 0108397
      1 0107699
      1 0107255
      1 0106858
      1 0105685
      1 0104159
      1 0104077
      1 0103397
      1 0102089
      1 0100214
      1 0100124

distinct articles in the fraud bottom 50 of each fold (max=250): 131

Average Rank in Fraud Hitlist

TOP:
Article Average Rank
0403950 1.6
0409513 2
0402845 5.2
0101511 11.8
0402089 12.6
0407703 13
0504159 16.4
0300767 20.6
0406310 20.6
0408470 23.4

BOTTOM:
Article Average Rank
0407570 539.4
0405431 540.8
0302677 543.8
0209006 546
0208609 547.2
0208605 548.2
0205874 551
0202448 553.6
0200061 556
0100061 560


Offline DMC Log & Layout: Arnd Ißler, http://arndissler.net/