[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[connect24h:7305] Re: お勧めのSPAM フィルタ



山口です.

From: Tietew <tietew@xxxxxxxxxx>
Subject: [connect24h:7304] Re: お勧めのSPAM フィルタ
Date: Fri, 19 Mar 2004 16:29:34 +0900
Message-ID: <20040319160716.4419.TIETEW@xxxxxxxxxx>
> 
> On Fri, 19 Mar 2004 02:18:19 +0900 (JST)
> In article <20040319.021819.133816958.eisaku@xxxxxxxxxxxxxxxxxx>
> [[connect24h:7294] Re: お勧めのSPAM フィルタ]
> Eisaku YAMAGUCHI <eisaku@xxxxxxxxxxxxxxxxxx> wrote:
> > 多国語への対応となると,それなりに必要となるCT:の整理や,CT:が宣言され
> > ていない場合などのDBをどのように管理するかというポリシを明確にしないと
> > クリアできない事項かと思います.
> すみません。CT:て何でしょうか。

Content-Type:のことです.巷ではよく略して会話してしまっていますので,
ちょっと不親切な書き方でした.申し訳ありません.

> > > 問題点としては:
> > > ・HTMLメールの処理が完璧じゃない。エンコーディングを誤認すると
> > >   spam認定されることが。(infoseek の広告とか :-)
> > これは,パーサを忠実に実装する価値があるか否かですよね.
> ISO-2022-JP + QP で化けたりしますね。

charsetが実際の物と食い違っていたりしないでしょうか?
bsfilterではMIME decodeを行ってから処理してくれていますし,行末の処理
についても意識してくれているようです.

> > > ・SDBM が無限ループに嵌ることがある
> > sdbmの縮小処理の際に非常に時間がか
> > かり,以前はUltraSPARC 300MHz + Memory. 256MBの環境で,LANG=Cのspamの

ちょっと寝惚けてtypoがありました.
CPUはUltraSPARC IIの300MHz です.

> > DB縮小に7,8時間かかるような状況でした.
> > これは,DBからremoveするのではなく,新たにDBを再構築して頂く形に修正
> > いただくことで,7〜8時間が7,8分と,1/60の所要時間に改善されています.

それから,
一旦削除して新たにProbability token DBを再構築する形に修正して頂いたの
で,現在の版は以前の1/60程度の所要時間に改善されています.

どうもsdbmからのremoveが遅いのが原因のようです.

> そうなんですか。bkbsfilter の受信フィルタが固まってしまうので 
> --auto-update 相当の処理を外していたのですが,また試してみよう。

--auto-updateや,--update は受信フィルタとして使うさいに指定すべきもの
ではないように思います.
処理メッセージ数に応じて,自動的にDBのサイズの縮小処理をしてくれますの
で,その際にどうしても待ちが発生します.それを狙って,ゴミメイルをガン
ガン投げつければDoSが成立します.(^^;

対策としては

案1. フィルタリングの際は判定だけに専念させる
     (--update/--auto-update系を使わない)
     その後,篩い分けさせた結果に基づいて手動のタイミングで一気に
     学習させる
案2. --max-mailを大きめに設定して使用する
     たまに--show-db-statusで様子をみて,手動で(--max-mailを操作して)
     token DBの縮小処理を誘発してやる

というものが考えられます.

フィルタリングの際に,--auto-updateを使うと,初めて遭遇するspamのパター
ンに0.5程度の確率が付くので,cleanと判定されてしまって,そのメイルに
含まれる全部のtokenがcleanのメイルに出現するtokenとして還元されちゃう
んですよね.
で,その後のspamの判定に影響を及ぼしてしまいます.
還元は素晴らしい特徴なんですけど,万能ではありませんから注意も必要です.

-- EY

--[PR]------------------------------------------------------------------
 
         お得な 懸賞情報 あつめました。
 
                               FML懸賞
       http://ad.freeml.com/cgi-bin/ad.cgi?id=c9VK1
------------------------------------------------------------------[PR]--
<GMO GROUP> Global Media Online  www.gmo.jp