反撃するフィルター | Paul Grahamのエッセイ

反撃するフィルター

2003年8月

ベイジアンスパムフィルターの精度を向上させるために、リンクをたどってその先にあるものを確認する方法が考えられます。death2spamのRichard Jowseyは、境界線上のケースでこれを行い、良好な結果を報告しています。

なぜ境界線上のケースだけで行うのでしょうか？そして、なぜ一度だけなのでしょうか？

スパムをフィルターは殺すか？で述べたように、スパム内のすべてのURLをたどることは、面白い副作用をもたらすでしょう。人気のあるメールクライアントがスパムをフィルタリングするためにこれを行えば、スパマーのサーバーは深刻な打撃を受けるでしょう。このことを考えるほど、これは良いアイデアに思えます。これはただ面白いだけでなく、スパマーに対するより完璧な反撃を想像するのは難しいでしょう。

そこで、スパムフィルターの開発者に追加機能を提案したいと思います：疑わしいスパム内のすべてのURLをn回スパイダーする「罰モード」で、nはユーザーが設定できます。[1]

多くの人が指摘しているように、現在のメールシステムの問題の一つは、それが受動的すぎることです。それはあなたが命じることを何でもします。これまでのところ、問題を修正するためのすべての提案は新しいプロトコルを含んでいるようです。これは含みません。

広く使用されれば、自動取得スパムフィルターはメールシステムを反発させます。これまでスパマーの味方であったスパムの膨大な量は、今や彼の顔に跳ね返る枝のように、彼に対して働くでしょう。自動取得スパムフィルターはスパマーのコストを上げ、彼の売上を下げるでしょう：彼の帯域幅使用量は天井を突き、彼のサーバーは負荷の下で停止し、スパムに反応する人々には利用できなくなるでしょう。

1時間に100万通のメールを送り出せば、サーバーに1時間に100万回のヒットが来ます。

これが疑わしいスパムに対してのみ行われることを確認したいと思います。原則として、何百万人もの人々に送信されるURLはスパムURLである可能性が高いので、すべてのメール内のすべてのHTTPリクエストを送信することは、ほとんどすべての場合にうまくいくでしょう。しかし、これが当てはまらないケースがいくつかあります：例えば、Yahoo MailやHotmailのような無料メールサービスから送信されるメールの下部にあるURLです。

このようなサイトを保護し、悪用を防ぐために、自動取得はスパム広告サイトのブラックリストと組み合わせるべきです。ブラックリストに載っているサイトのみがクロールされ、サイトは人間によって検査された後にのみブラックリストに載せられます。スパムの寿命は少なくとも数時間である必要があるので、新しいサイトを宣伝するスパムを妨害するために、このようなリストを時間内に更新するのは簡単でしょう。[2]

高容量の自動取得は、高帯域幅接続のユーザーにとってのみ実用的ですが、スパマーに深刻な問題を引き起こすのに十分な数があります。実際、この解決策は問題をきれいに反映しています。スパムの問題は、少数の騙されやすい人々に到達するために、スパマーが全員にメールを送ることです。騙されない受信者は単なる巻き添え被害です。しかし、騙されない大多数は、騙されやすい人々がそれに反応するのを止める（または止めることを脅す）ことができるまで、スパムを受け取り続けるでしょう。自動取得スパムフィルターは彼らにこれを行う方法を提供します。

それはスパムを殺すでしょうか？完全には。最大のスパマーはおそらく自動取得フィルターに対して彼らのサーバーを保護できるでしょう。しかし、彼らがそれを行う最も簡単で安価な方法は、彼らのメールに機能する配信停止リンクを含めることでしょう。そして、これは小さな魚や、彼らを宣伝するためにスパマーを雇った「正当な」サイトにとって必要になるでしょう。したがって、自動取得フィルターが広く普及すれば、それらは自動配信停止フィルターになるでしょう。

このシナリオでは、スパムは、OSのクラッシュ、ウイルス、ポップアップのように、適切なソフトウェアを使用しない人々だけが苦しむ疫病の一つになるでしょう。

注記

[1] 自動取得フィルターはリダイレクトをたどる必要があり、場合によっては（例えば、「ここをクリック」とだけ書かれたページ）複数のレベルのリンクをたどるべきです。また、HTTPリクエストが人気のあるWebブラウザーのものと区別できないようにすることも確認してください、順序とリファラーを含めて。

応答がx時間内に戻ってこない場合、かなり高いスパム確率にデフォルト設定します。

nを一定にする代わりに、サイトについて言及されているスパムの数に関数を設定するのが良いかもしれません。これは、悪用や事故に対するさらなるレベルの保護を追加するでしょう。

[2] この記事の元のバージョンでは、「ブラックリスト」の代わりに「ホワイトリスト」という用語を使用していました。それらはブラックリストのように機能するはずでしたが、法的攻撃に対して脆弱でなくなるかもしれないので、私はそれらをホワイトリストと呼ぶことを好みました。しかし、これはただ読者を混乱させたようです。

おそらく複数のブラックリストがあるべきです。単一の障害点は攻撃と悪用の両方に対して脆弱でしょう。

謝辞

Brian Burton、Bill Yerazunis、Dan Giffin、Eric Raymond、Richard Jowseyに、この草稿を読んでいただいたことに感謝します。