OSBF-Lua (Orthogonal Sparse Bigrams with confidence Factor) is a Lua C module
authorshannonjr <shannonjr>
Mon, 8 Sep 2008 10:31:23 +0000 (10:31 +0000)
committershannonjr <shannonjr>
Mon, 8 Sep 2008 10:31:23 +0000 (10:31 +0000)
commitbc7d21e24c0aee228e93eef53bf53aff3c37f759
treed2c9ff3dd4b28ade42c6b7647d947cdbf2ae8e17
parent8e11e62481f36b27e60c110178a045fc9b3477c8
OSBF-Lua (Orthogonal Sparse Bigrams with confidence Factor) is a Lua C module
for text classification. It is a port of the OSBF classifier implemented in
the CRM114 project. This implementation attempts to put focus on the
classification task itself by using Lua as the scripting language, a powerful
yet light-weight and fast language, which makes it easier to build and test
more elaborated filters and training methods.

The OSBF algorithm is a typical Bayesian classifier but enhanced with two
techniques originally developed for the CRM114 project: Orthogonal Sparse
Bigrams - OSB, for feature extraction, and Exponential Differential Document
Count - EDDC (a.k.a Confidence Factor), for automatic feature selection.
Combined, these two techniques produce a highly accurate classifier. OSBF
was developed focused on two classes, SPAM and NON-SPAM, so the performance
for more than two classes may not be the same.

spamfilter.lua is an anti-spam filter written in Lua using the OSBF-lua
module.  It takes special advantage of EDDC to introduce TONE-HR, a highly
effective training method. The combination of OSB, EDDC and TONE-HR to
enhance a classical Bayesian classifier resulted in the best spam filtering
performance in TREC's Spam Track 2006 and the CEAS 2008 Live Spam Filter
Challenge.
mail/lua-OSBF/DESCR [new file with mode: 0644]
mail/lua-OSBF/Makefile [new file with mode: 0644]
mail/lua-OSBF/PLIST [new file with mode: 0644]
mail/lua-OSBF/distinfo [new file with mode: 0644]
mail/lua-OSBF/patches/patch-aa [new file with mode: 0644]
mail/lua-OSBF/patches/patch-bb [new file with mode: 0644]