Einzelne Features


Allgemeines

Die einzelnen Datenspalten liegen jetzt im Verzeichnis /work/dmclab/features, benannt nach den Features Enthalten sind hintereinander die Trainings- und Testdaten. Alle erstellten Transformationen, die vielversprechend sind :-), können dort abgelegt werden.

Die Features sind unverändert, nur fehlende Werte sind durch ? ersetzt Das Skript zur Auftrennung von Daten in training, evaluation und test sets liegt unter /work/dmclab/features/bin

Aufruf: separate.py inputfile prefix [-cv]

inputfile: Eingabedatei, beliebig viele Spalten, wird zeilenweise getrennt

prefix: Prefix der Ausgabedateien

es werden folgende Dateien generiert:

PREFIX+"_train_tr.data" Trainingsdatei ohne Hold-Out Daten

PREFIX+"_train_ev.data" Hold-Out-Daten

PREFIX+"_train.data" Alle Trainingsdaten

REFIX+"_test.data" Testdaten

[-cv] erzeugt optional 5-fach Kreuzvalidierungsdateien der Form 5fold_PREFIX_test[0-4].data

Die Datei mit den Zeilennummern des Hold-Out-Sets(1.Datensatz=1.Zeile) liegt auch unter /work/dmclab/features/bin, der Pfad ist als Konstante ins Skript eingebaut

Ilja

Übersicht über die Features


Offline DMC Log & Layout: Arnd Ißler, http://arndissler.net/