Home Made Tools


BonzaiBoost


BonzaiBoost est un outil générique permettant de faire de l'apprentissage supervisé. Il implémente notamment le célèbre algorithme de boosting multiclasses/multilabels Adaboost.MH au dessus d'arbres de décision binaires. Cet algorithme de boosting est implémenté dans icsiboost ou boostexter sur des règles de décision simple, plus ou moins des arbres à deux feuilles, bonzaiboost permet de l'appliquer sur des arbres plus profond. Augmenter sensiblement la performance du classifier faible permet d'obtenir dans certains jeu de données de meilleures performances comme en atteste le comparateur MLcomp ou une configuration de bonzaiboost sur des arbres à 4 feuilles est classée première parmi tout les algorithmes déposés.

BonzaiBoost is a general purpose machine-learning program based on decision tree and boosting for building a classifier from text and/or attribute-value data. It implement the famous boosting algorithm Adaboost.MH over binary decision trees. This algorithm is already implemented in icsiboost or boostexter over decision stumps, more or less 2 leafs trees, bonzaiboost can run it over deeper trees. Increasing the performance of the weak classifier allows better performances for some datasets. One proof is the ML comparator MLcomp where a bonzaiboost configuration over 4 leaf trees is ranked first among all other posted algorithms.

if the link does not work, try this other link

discretize4crf

Vous voulez utiliser des attributs numériques dans des Champs Conditionnels Aléatoires mais les implémentations CRF++ ou wapiti n'acceptent que des attributs discrets ? discretize4crf convertit des attributs continus en attributs discrets selon une méthode supervisé appelée MDLPC décrite dans Fayyad et Irani (1993).discretize4crf prends en entrée le format utilisé par les outils précédemment cités et donne en sortie le même fichier avec les attributs numériques discrétisés.

You want to use numeric attributes within Conditional Random Fields (CRF) but actual implementations CRF++ or wapiti  works only with discret attributes ? discretize4crf convert numeric attributes to discret ones thanks to a supervised method named MDLPC described in Fayyad et Irani (1993). discretize4crf takes as input data format the one used by the previous mentioned tools et output the same file with numeric attributes dicretized.


IRISA_NE

IRISA_NE est un couple d'étiqueteur en Entités Nommées (jeu Ester 2), un étiqueteur est à base de CRF et l'autre de HMM. Il sont dédiés à l'étiquetage de transcriptions automatiques de parole (ne prennent en compte ni majuscule, ni ponctuation, n'ont pas de notion de phrases). Ils gèrent toutefois les textes avec majuscules et ponctuations qu'ils éliminent avant le passage aux étiqueteurs et les restituent en sortie.
Concrètement la seule chose dont il faut se soucier est l'encodage de caractère et à une moindre mesure la tokenisation, un fichier log produit par l'étiqueteur vous indique les mots inconnus pour vous guider.

back