WekaTipps


Speicherprobleme

hier http://www.oefai.at/~alexsee/WEKA/ steht folgendes:

"While for initial experiments the included graphical user interface is quite sufficient, for in-depth usage the command line interface is recommended, because it offers some functionality which is not available via the GUI - and uses far less memory. Should you get Out of Memory errors, increase the maximum heap size for your java engine, usually via -Xmx1024M or -mx1024m for 1GB."

Und die schreiben das [WWW]Tutorial wäre nicht mehr up2date!

Unsere Crossvalidation

Hier ein Script, das Iljas Crossvalidation mit WEKA benutzt. Die Dateiendung ist zusammen mit dem Format von .data auf .arff zu ändern. Der PREFIX Parameter ist das gleiche, was ihr bei Iljas Script als prefix angegeben habt. Falls ihr das parallellisieren könnt/wollt dann ist das qsub/qsubmit in der Zeile $JAVE ... vorzuschalten.

Die einzelnen Klassifikationen werden mit Wahrscheinlichkeit ausgegeben

#!/bin/bash
if [ $# -lt 2 ] ; then
        echo "usage $0 PREFIX CLASSIFIER {CLASSIFIER OPTIONS}"
        exit 1
fi

PREFIX=$1
CLASSIFIER=$2
CLASSOPT="$3 $4 $5 $6 $7 $8 $9"

OPTIONS=`echo $CLASSOPT | tr -d ' ~' | tr '/' '_'`

COSTNULLDIAG=/u/mauser/dmc2005/cost0diag.cost
COSTEVALUATE=/u/mauser/dmc2005/cost.cost

JAVA=java
JAVAOPT="-Xmx1000m weka.classifiers.meta.CostSensitiveClassifier -C $COSTNULLDIAG -m $COSTEVALUATE -W " 

for i in 0 1 2 3 4 ; do
   TRAIN=5fold_$PREFIX-train$i.arff
   TEST=5fold_$PREFIX-test$i.arff
   $JAVA $JAVAOPT $CLASSIFIER -p 0 -t $TRAIN -T $TEST -d $PREFIX.$CLASSIFIER$OPTIONS.CV$i.model -- $CLASSOPT >$PREFIX.$CLASSIFIER$OPTIONS.CV$i.log
done


Offline DMC Log & Layout: Arnd Ißler, http://arndissler.net/