Logfile of DMC lab:
-
2005-02-02 Vorbesprechung/Kick-Off Meeting
-
nächstes Treffen am 18.2.2005, 14:00h
-
Postleitzahlen Datenbank und Beschreibung des Eingabeformates für den Maximum Entropy Classifier
-
Links:
-
2005-02-09 Nächstes Treffen verschoben auf 10:00h
-
2005-02-18 Meeting:
-
wer hat was getan, was für Probleme gab es, etc.
-
Zusammenfassung über Klassifikationsverfahren und anderes von Tobias Weyand
-
Bis zum nächsten Treffen: alle arbeiten nochmal (oder erstmal) mit den DMC 2000 Daten und den KDD 2004 Daten
-
Unterschied/Zusammenhang Fehlerrate und Score
-
Nächstes treffen am 7.3. um 10:00h
-
2005-03-07 Meeting:
-
wer hat was getan, was für Probleme gab es, etc.
-
Nochmal Erläuterung zu Entscheidungsregeln mit Scores/ER
-
Arne hat Dracula 3000 geguckt
-
entschuldigt: Helga, Kaifei
-
MIA: tim, arnd
-
2005-03-14 Meeting:
-
anwesend: arnd, tobw, buck, tobiasg,liviu, andreh, arne
-
entschuldigt: helga, kaifei
-
Bericht GfKl:
-
Verfahren David Vogel: Splinefitting, Missing value imputation, Variableninteraction
-
Arnd: WEKA
-
TobiasW: Crossvalidation, Lossfunction,
-
Buck: 2001er Daten: Lossfunction führt zu Verschlechterung, keine bessere Lossfunction also 0/1er, libsvm: braucht sehr lange, bisher noch keine Scorefunction, keine Datentransformation,
-
TobiasG: knn, fehlersuche, netlab, probleme mit daten des 2002er DMC,
-
Liviu: Converter für WEKA arff format
-
Andre: Theorieprüfung
-
Arne: Killerbarbies vs. Dracula, neuen Naive Bayes
-
Hinweis: man benutze das Wiki zum Austausch der Datenkonvertierungstools
-
gnuplot: plotten der kumulativen Verteilung: Wert eines Features gegen Zeilennummer
-
Bitte ab jetzt Ergebnisse ins Wiki eintragen
-
Unsere Folien von der GfKl: slides.pdf
-
nächstes Treffen: 24.3.2005, 14:00h
-
2005-03-15:
-
2005-03-24: meeting
-
da: alle außer tim, tobias g, kaifei, und die waren entschuldigt
-
Andre:
-
vorverarbeitungsmethode mit umsortieren der X-Werte
-
tests auf DMC2001 daten. Es ist schwierig über die Baseline zu kommen. Von 57 eingereichten Lösungen waren nur 8 oberhalb der baseline. WEKA LMT liefert bessere Ergebnisse als MaxEnt
-
Liviu: 2002er Daten, Gebastel mit WEKA, missing values ersetzen: Was genau macht der?
-
Diskussion über Sinn und Unsinn von Pharmatyp, und wie entstehen diese Daten? Arnd will ne Mail schreiben und das rauskriegen
-
Ilja: NN, SG, Histogramme -> Datenvorverarbeitungstool wird veröffentlicht, tool zur halbautomatischen Vorverarbeitung
-
FLCL: realNB und DA
-
Buck, Tobw: MaxLL zur Auswahl der Verteilung/Modelwahl, Ergebnisse bei den Ergebnissen
-
Erläuterungen zu Wahrscheinlichkeitsverteilung/W'keitsdichte
-
Helga, Arnd: KNN, NB Ergebnisse bei den Ergebnissen
-
nächstes Treffen 5.4. 14:00h
-
2005-04-05: meeting DMC-lab
-
Helga:
-
kurzentschlossene Kunden (kurze Sessionzeit) sind häufiger Betrüger
-
insgesamt viele missing values
-
Konvertierung in ARFF format (kann auch mit strings umgehen)
-
Geburtstage in Sternzeichen umgewandelt, bringt aber nix
-
Widder sind besonders brav (Thomas), Wassermänner böse (Daniel)
-
vllt. sollte man das besser in Alter umrechnen
-
Transformation sollte zusammen für Train- und Testdaten erstellt werden.
-
Ilja schreibt Skripte, die die Datenfiles zerhacken
-
Spaltenweise
-
Train, Holdout, Test, CV
-
Alle Files dafür enthalten keine header- und footerzeilen
-
Baseline ist 5.82% ER (alles Klasse 0)
-
ab jetzt für alle Ergebnisse immer angeben welcher Datensatz und Fehlerrate und Score
-
tobw:
-
alles aus Daniels mail realisiert:
-
B_GEBDATUM:
-
zusaetzliches binaeres Merkmal "Geburtsdatum vorhanden"
-
Umwandlung in 2000-Geburtsjahr
-
Z_METHODE, Z_CARD_ART, TAG_BEST:
-
jeweils ein binaeres Merkmal
-
Z_CARD_VALID:
-
Umwandlung in "noch X Monate gueltig"
-
TIME_BEST, SESSION_TIME:
-
geeignete Diskretisierung? Histogramme?
-
ANUMMER_XX:
-
geeignete Diskretisierung?
-
DATUM_LBEST:
-
Umwandlung in "X Tage vor 2005-12-31"
-
Sternzeichenfeature implementiert
-
Was passiert mit Artikelnummern?
-
Artikelnummern vermutlich konsistent mit Anzahl Artikel
-
als Menge betrachten
-
Arne versucht das Gleichungssystem zu lösen was bestimmt, welcher Artikel wie teuer ist.
-
auf diesen Daten kann man dann weiter sehen
-
Kartenart: ist missing value, wenn mit Rechnung bezahlt
-
Tobias Gass:
-
Experimente mit Weka
-
Matlab kann Korrelationen in Matrizen zwischen Spalten ausrechnene.
-
Untersuchung der Korrelationen zwischen Features und Zielvariable
-
Durchschnittspreis aktuelle Bestellung/alte Bestellungen vergleichen
-
Liviu:
-
es gibt einige Features die Betrug quasi ausschließen:
-
Verteilung der Session Zeit ist Chi-Quadrat mit 2 Freiheitsgraden
-
Betrüger haben kürzere Session time (cf. Helga)
-
Naive Bayes: 7%
-
Daniel:
-
Produktfeatures testen oder andere Kombinationen
-
Prudsys Discoverer testen?
-
Wie machen wir die Abgabe der Lösungen?
-
Thomas:
-
Man kann auch andere Klassifikatoren implementieren als die drei bisherigen Pflichklassifikatoren, am besten mit uns absprechen.
-
Probevortrag von Ilja und Arne für die Informatiktage, Folien davon gibt es bald hier...
-
nächstes Treffen: Freitag Apr. 8, 14:00h
-
2005-04-08:
-
Thomas: stellt Ergebnisse der Artikelanalyse von Arne vor
-
Andre:
-
Kategorien nicht so hilfreich, besser: unterteilen der Artikel nach Betrugswkeit
-
Betrugswkeit als feature? höchste und niedrigste getestet
-
Baseline score: * 302000 wenn man davon ausgeht, dass alle nicht betrügen
-
295000 wenn man davon ausgeht, dass alle betrügen
-
Das Feature "Rechungs- und Lieferadresse falsch" bringt nix
-
Erreichter SCORE: 317000 (CV)
-
Liviu:
-
preprocessing
-
minmax normalisierung einiger merkmale
-
tobw
-
dateien konvertiert
-
weka mit gcj
-
Buck
-
testen von LMT, bricht aber wegen speicherproblem ab:
-
-> vorschlag: mal weniger merkmale testen.
-
Arnd:
-
Gruppierung der Artikelnummern
-
Verbindung Artikelnummer und Alter
-
Discoverer ist doof und in alter Delphi Version, keine Variablen mit mehr als 128 Ausprägungen
-
Unix tools unter windows von MSDNAA
-
Helga:
-
Grafik der Altersstufen mit Betrügen
-
Helga: alter in Minuten
-
Tobias Gass:
-
Correlation in Matlab
-
Diskretisierung der Zahlungsmehtoden
-
Correlation einzelner Variablen mit Zielvariable:
-
Neukunde
-
email angegeben
-
Correlation zwischen Wert der Bestellung und Lastschrift
-
Vorschlag von Daniel:
-
Interaktionsanalyse machen
-
Was hilft die Annahme, dass die Daten künstlich sind? (Sind sie das denn überhaupt?)
-
nächstes Treffen: Mi 13.4. 11:30h
-
Arnd:
-
Prudsys discoverer ist vollständig regelbasiert, baut riesigen Entscheidungsbaum
-
Regeln sidn nicht gewichtet, teilweise aber sehr lang
-
Regeln sind faszinierend
-
PNC2 ist eine Diss von vor ~1.5Jahren, da wird auch geclustert
-
DK & TD: Macht Scores! Die Zeit läuft!
-
Vorschlag: Besser Absprechen, wer was macht
-
-> ab sofort wird bei jedem Meeting eine Liste gemacht wer bis zum nächsten Meeting was gemacht haben wird
-
tobw: Test mit grundlegenden Klassifikatoren und verschiedenen Features
-
ganz viele scores, aber nicht exact angegeben, müssen außerdem wegen sehr optimistisch geschätzten Wahrscheinlichkeiten wiederholt werden
-
verschiedene neue features wie Wochenende/nicht Wochenende
-
featureselection
-
Buck:
-
costsensitive classifier, probleme mit matrix, normalisiert die Matrix
-
dabei dürfen nur 0en auf der Diagonale sein
-
will netlab lernen! Wer zeigt ihm das?
-
consistenzchecks
-
Hinweis: Immer nur eine Sache ändern um Effekte unterscheiden zu können
-
Andre:
-
Betrugswahrscheinlichkeiten für Artikelnummern müssen in Crossvalidation geschätzt werden
-
daher meiste Scores bisher ungültig
-
MaxEnt und ganz viele Features, bisher am besten: Artikelnummern auf 0-1 normieren
-
libsvm -> alles Klasse 0
-
Hinweis: Alle Transformationen, die die Zielvariable verwenden muss man in CV schätzen
-
Tobias Gass:
-
Naive Bayes und Featureinteraktionen, betrachte Zweierkombinationen für verschiedene Merkmale
-
teilweise klare Aussagen (100% Betrüger) mit sehr wenig Support (3 Beobachtungen)
-
¬Email & Neukunde -> 15% Betrug
-
Mal testen in CV
-
insgesamt score um 2000 verbessert
-
Frage: Gibt es sehr ähnliche Daten, die Klasse 1/0 sind?
-
Liviu: Interaktionien, Produktfeatures, Zahlungsmethoden, wie sehen Verteilungen für bestimmte Auswahlen der Daten aus?z
-
nächstes Treffen: Mo 16:00h
-
Wer macht was:
-
Tobias W: richtige Scores berechnen und ins Wiki, featureselection testen
-
Arnd: Regelwerk, regeln betrachtenb, PNC ins Wiki und testen
-
Buck: Sanities, Testen mit Score, Mail -> Ilja wegen Netlab, Kostenmatrix überprüfen, Kundenkarte, Kreditkarte testen, Wiki-Features übersicht (done: Einzelne Features)
-
Arne: Betrugsw'keit CV, Logit boost, Säge des Grauens
-
Tobias G: Korrelationen für Nicht binäre Merkmale, 3er Kombi
-
Liviu: Zahlungsmehtode untersuchen, Kundenkarte, Scores
-
Andre: LMT, wieso dauert das solange, libsvm testen, MaxEnt & Score im Training
-
2005-04-18:
-
Daniel: das Paper ueber Signifikanz und Vergleich von Klassifikatoren: On comparing classifiers
-
Arne:
-
Betrugswkeit in CV
-
logit boost ist metaclassifier
-
säge des todes
-
problematisch die Betrugswkeit features abzulegen für CV
-
- bleibt konsistent in CV
* Ilja:
-
ganz viele features
-
Experimente mit Netlab, 316344 mit MLP und featureselection
-
insgesamt 70 feat7ures
-
histogramme für artikelnummern
-
featureselection: optimistisch
-
Histogramme für Preise: 0-16, 16-70,70-100, 100-400 EUR
-
binäre features für verschiedene session times
-
316274 mit logreg und featsel
* Andre:
-
svm: fast so gut wie maxent
-
logistic: fast so gut wie maxent
-
neural nets aus weka
-
LMT: zeitproblem
* Tobias Gass:
-
Kombinationen
-
nicht binäre features
-
Dreierkombis
-
bestes: !Email, Neukunde, artikelgruppe 4
-
verbesserung score: 130 -> 312037 mit NB, cost sensitive
* AB JETZT: LOGISTIC als baseline * Buck: neukunden sind gutes Feature
-
trennen in neukunden/nicht neukunden verbessert den score um 2500
-
netlab: spielen
-
trennen: kundenkarte/kreditkarte
-
cost sensitive classifier
-
macht umgewichtung der trainingsdaten
-
mit parameter "minimize expected cost" wird das normale gemacht (bayes' regel)
* helga:
-
einfluss von feature kombinationen auf ausgabevariable untersuchen
* tobw:
-
feat. sel: nur ein feature hat auch verallgemeinert auf großen Datensatz
-
scores auf untransformierten Daten...
* Liviu:
-
untersucht die zahlungsfeatures
-
ergebnisse mit holdoutset dabei -> nicht vergleichbar!
* Wie Abgabe: Mal sehen, was passiert, im Zweifelsfall abstimmen. * Weitere Treffen:
-
22.4. 15:00h, und da hat jeder mindestens 3CV scores
-
25.4. 16:00h
-
29.4. 10:00h, und da ist hier ne große DMC session.
* Wer macht was:
-
Arne: Transformationen, Logitboost, NaivePosteriorME
-
Ilja: verbesser Skript für Kunde/Neukunde, CV -> feat sel(forward sel), features ins verz., neue transformationen erfinden
-
andre: ergebnisse verbessern, SVM optimieren, Kombinationen automatisieren
-
TG: Verteilung der generierten Features in CV überprüfen, verschiedene Klassifkatoren
-
Buck: Neues Datum, Kundenkarte/Nicht KK trennen, Stacking?
-
Helga: Tool verbesser, Logistic scores damit
-
Tobw: feature selection (backward elimination)
-
liviu: endlich mal richtige Scores, mit Decision Table und logreg
-
arnd: BayesNet (maximal 309k Score auf Helgas 39 Features) und VotedPerceptron (max. ~315k Score auf Helgas Features)