スパムメール対策方法の研究の進展
2011年10月13日
譚 営(Tan Ying):北京大学信息科学技術学院教授、
博士課程指導教員、計算知能実験室主任、
中国科学院百人計画入選者
1997年、東南大学無線電気工学系博士課過程卒、工学博士。1999年、香港中文大学副研究員。2000~2003年、合肥電子工程学院スマート情報システム研究所所長、教授、博士課程指導教員。2004~2005年、香港中文大学副研究員。2006年から北京大学に勤務。主な研究分野は文計算知能、機械学習、群知能、知的情報処理、データマイニング及び知識発見、コンピュータ情報セキュリティーなど。発表論文200本以上、単著書多数、特許2件。科学研究事業20項目余りを主宰・担当。
はじめに
スパムメール検出技術及び方法に関する研究は国内外の関心事で、必要性と重大な意味がある。スパムメール対策技術の研究において、研究者たちは数多くの特徴抽出方法及びスパムメール検出・フィルタリング方法を提示してきた。本稿では、スパムメール対策技術及び方法に関する研究の現状を総括し、現行のスパムメール対策技術、スパムメール対策システムの評価規範及び標準データを重点的に紹介する。
スパムメールの検出システムにとって、メールの特徴抽出は極めて重要な段階であり、ひいてはパターン認識方法の選択や分類器の使用・設計より重要と言える。メールの特徴抽出方法の正確さ、識別可能性、安定性及び自己適応性は、システム全体の分類効果及び性能に直接影響を与える。中国インターネット協会の2008年第4四半期中国スパムメール対策調査の統計によれば、ユーザが受け取るスパムメールの本文形式は主に、画像+テキスト形式、純テキスト形式、純画像形式の3種類である。本章ではテキストによるメールの特徴抽出方法、画像によるメールの特徴抽出方法、行為によるメールの特徴抽出方法について総括的に述べる。
1.1 本文に基づくメールの特徴抽出方法
本文によるメールの特徴抽出方法には、一般に以下の2つの段階が含まれる。(1)単語による選別(terms selection)。語句の重要性(識別可能性)に基づいて特有の単語についてソートをかけ、識別可能性の良い特有の単語を選択してから次の段階に進む。(2)特徴抽出及び表示であり、メールの特徴を抽出し、統一された形式で表示する。
1.1.1 本文の単語による選別方法
メールデータベース中のメールからは単語を区切る段階を経た後に大量の単語が抽出される。単語による選別の過程を経ないと特徴次元が高過ぎるという問題が起き、次元による障害が引き起こされる。単語による選別では、特徴次元及び計算の複雑さを緩和できる一方、ノイズ(識別性の低い単語)による悪影響も低減できる。よく使われる選別方法には、情報利得(Information Gain,IG)、索引語頻度の分散(Term Frequency Variance,TFV)、文書頻度(Document Frequency,DF)、免疫凝縮(Immune Concentration,IC)及びその他の単語による選別方法がある。
1.1.2 本文の特徴による抽出方法
主に以下の数種類がある。袋詰めの単語法(Bag-of-words,BoW)、多項式二次元ハッシュ(Sparse Binary Polynomial Hashing,SBPH),直交疎Bigram (Orthogonal Sparse Bigrams,OSB)及び人工免疫システムに基づいた方法(Artificial Immune System,AIS)。
1.2 画像に基づくメールの特徴抽出方法
スパムメール検出システムによるフィルタリングを避けるために、スパムメールの送信者は画像メールを用いて広告情報を送信することがある。この種のスパムメールを検出する鍵は、有効な画像特徴の抽出にある。現在、画像の特徴に基づく抽出の研究はまだ初歩段階にある。よく使われる画像特徴には、画像のプロパティ、画像のエッジ、文字、モアレ、異質性及びノイズなどがある。
1.3 アクションに基づくメールの特徴抽出方法
アクションに基づくスパムメールの検出技術は新型のスパムメール・フィルタリング方法であり、抽出されたスパムメールと正当なメールとで異なるアクション特性に基づきスパムメールをフィルタリングする。アクションに基づくスパムメール対策技術でよく使われる方法を概観すると、よく利用されるメールのアクション特性として次の4つが挙げられる。(1)メールのヘッダー情報及びシステムログ(2)添付ファイル(3)ネットワーク(4)ユーザのアクション。
2.1 法的手段
スパムメールによりもたらされる巨大な損失に対応するために、一部の国は関連の法律を制定してメールの送信行為を標準規範化し、スパムメールの数を減らす努力をしている。米国は2003年にスパムメール対策法案「未承諾のポルノグラフィーおよびマーケティング攻撃に対する規制法」(Controlling the Assault of Non-Solicited Pornography and Marketing Act,CAN-SPAM Act)を制定した。この法律ではメールのヘッダー情報の偽装、メールアドレスの騙取及びメールアドレスに対する攻撃などの行為を明確に禁じると同時に、商業用メールには必ず配信停止のリンク先を張ることを要求している。しかし、Gansterer W及びGrimes G Aの論文によれば、当該法律はスパムメールの数の抑制に顕著な効果を示しておらず、配信停止のリンク先があることで逆にスパムメール作成者が有効なメールアドレスを確認するのに役立っている。
オーストラリアでは電気通信法第107条で個人と企業に分けて規定しており、受信者の承諾を得て初めて個人に対してスパムメール(商業用メール及び受信者数が50人を上回るメール)を送信できる。しかし、企業宛てのメールは規制がややゆるく、配信停止のリンク先を含んでいれば企業にはスパムメールを送信してよいことになっている。
欧州議会では2002年6月にプライバシー及び電子通信に関する指令が承認され、受信者の同意を得ない限りその人物にスパムメールを送信することを禁じた。
これら法律・条文の制定及び実施により、スパムメール問題はある程度改善がみられたが、徹底的な根絶には至らなかった。したがって、より効果的にスパムメールをフィルタリングし、メール通信の便利さを保障するには、これら法律と他の技術や手段を結びつけることが必要となる。
2.2 シンプルな方法
スパムメール対策の研究の初期に、人々はスパムメールの基本特性及びスパムメール作成者が用いる基本的な手段に対する観察を通じて、いくつかのシンプルな方法を人工的に作り出した。これらの方法は、早期のスパムメール対策業務で重要な役割を果たした。
1) アドレス保護
Hoanca Bは2006年に比較的簡単なスパムメール対策技術を提起した。それは、公開されたメールアドレスの形式を変更することでスパムメールを予防するものであった。例えば、メールアドレスを username@domain.comからusername#domain.comに、またはusername AT domain.comなどの形式に変更する。時にはさらに、「.」をDOTに書き換える。こうすれば、スパムメール作成者がクローラ技術によりホームページ上のメールアドレスを取得するのをある程度防ぐことができる。
しかし、これら技術の防護能力は非常に低い。スパムメール送信者はメールアドレスを収集する際に簡単な識別コードを加えるだけで、依然として正当なメールアドレスを抽出できるからだ。現在では、辞書攻撃によってメールアドレス収集プログラムでメールサーバのアカウントを推測できるほか、HP以外でもネットワーク上の文書(例えばDOC、JPEG、PDF、XLS、RTF、PPTなど)に含まれるメールアドレスを抽出することも可能である。
2) キーワードフィルタリング
キーワードフィルタリング技術では、それぞれのメールにあらかじめ定義したキーワード(例えば、レシート、セールス、Viagraなど)が存在するか否かを検知することによって、メールのタイプを判断する。当初は完全マッチングの方法(例えば「Viagra」は「Viagra」とのみマッチングし、「Viiaagra」とはマッチングしない)を採用していたが、この場合スパムメール作成者はマイナーチェンジを行うだけで、これらキーワードを容易に回避できてしまう。
そこで、正規表現に基づくモデルとのマッチング方法が徐々に採用されるようになった。ワイルドカードパターン「V*i*a*g*r*a」は「V-i-agra」、「Viiaagra」、「Viagra」などのキーワードとマッチングする。これらのパターンマッチング方法により効果的にキーワード・データベースのサイズを小さくできるうえ、一定の範囲でスパムメールのマイナーチェンジに対応できる。
3)ブラックリスト及びホワイトリスト
これら2つの方法は、送信者のステータスに基づく簡単な識別方法であるが、ステータス情報が偽装された場合は完全にその効果を失う。
ブラックリストとは、特定のIPアドレス、TCP接続またはドメイン名から送信されたメールを拒否することでスパムメール送信者からのメールをフィルタリングする方法である。しかしスパムメール送信者は、メールのヘッダーに含まれるこうした情報を、その他の人物のアドレス情報に偽装して送信することがある。この場合、無実の人物のメールがフィルタリングされてしまう。
ホワイトリストとは、特定のIPアドレス、TCP接続またはドメイン名から送信されたメールだけを受信し、他に由来するメールを拒絶する方法である。しかしホワイトリストは、初めて連絡を取る場合、最初に確認要求メールを送信しなければならず、利便性に欠ける。
4) グレイリスト及び誰何・応答(Challenge-Response)
グレイリストとは、サーバに記録のないメールに対して一時的エラーの応答を出す方法である。正当なメールの場合は、正確に配置されたMTAで当該応答を受信したのちに再度当該メールを送信し、サーバが一定時間内に再度当該メールを受信した場合に、送信が成功したものとする。一方、スパムメールの場合は、メールは往々にしてオープンリレー(Open-relay)の方法で送信され、エラーの応答を受けたからと言って再度送信されることはないため、受信者への送信が成功することはない。当該方法の欠点は、正当なメール送信に対してわずかながらも遅れをもたらすことである。
誰何・応答(Challenge-Response)とは、ホワイトリストをベースに誰何・応答技術を付け加える方法である。この方法でも一つのホワイトリストを同じように維持することができる。ホワイトリストに由来するアドレスからのメールは送信されるが、リストにないメールアドレスから送信されると、サーバは送信者に「チューリング・テスト」を返信する。送信者がテストに通過するとメールは順調に送信され、かつ、相応する送信者アドレスがホワイトリストに加えられる。スパムメールの作成者は一般的に、偽装した送信者アドレスを用いて遡及追跡を逃れるため、応答テストを受信することはない。
この2つの方法の設計は、正当なメールとスパムメールでは送信時に異なる応答を示すことに基づいており、スパムメールは応答不足を正確に示せないことを利用し、メールタイプの判別を行う。しかし、この2つの方法の欠点は、応答によって正当なメールの送信に遅れがもたらされ、かつ、ネットワーク帯域幅を占拠することにある。
2.3 スマート型スパムメール検出技術
1) 単純ベイズ法(Naïve Bayes)
この方法はシンプルかつ効果的で、商業用ソフトウエアで最もよく利用されている。またスパムメールの処理で最も効果的な方法の一つであり、高い検出精度(precision)及びリコール率(recall)が得られることが、大量の実績で証明されている。多項式モデルによってベルナール(Bernoulli)モデルを使うより高い正確度(accuracy)が得られるとの研究もある。伝統的な単純ベイズ法からは多くの亜種モデルが派生している。Raju Shresthaらは、さまざまな位置に出現する同一のキーワードの内的関連特性を利用して分類を行い、キーワードの共重み付け(co-weighting)を算出し、性能の向上を得る。Liらは、ユーザのフィードバックにより改良されたNaïve Bayes法に基づき、相対的に低い誤検出率(false positive)と良好な性能を獲得した。
2) k近傍法(k-Nearest Neighbors, k-NN)
Sakkisらはk近傍法(伝統的な怠惰学習方法の一つ)をスパムメール検出の分野に応用した。彼らは実験の方法で領域の大きさ(kの大きさ)、特徴次元及び訓練サンプル集合の大きさによる検出器の性能への影響を研究した。その研究論文によれば、k近傍法の平均的性能は、ベイズ法に勝る。
3) Boosting Trees
Schapire及びSingerは、まずこの方法を本文の分類に応用し、さまざまな基本仮説(base hypotheses)の組み合わせにより、マルチクラス(multi-class)及びマルチラベル(multi-label)の分類問題を処理した。Carreras及びMarquezは、AdaBoost計算法を用いたスパムメール対策によるメールのフィルタリングを実現した。2つの公共データ集合(PU1 corpus和Ling-Spam corpus)による実験をベースに、Boosting Trees法が性能面でNaïve Bayes、Decision Trees及びk-NN計算法より優れているとの結論を導いた。しかしNicholasは、decision stumpsによるBoosting Tress及びAdaBoostは、正確度と速度のいずれにおいてもNaïve Bayseに劣るとしている。
4) サポートベクターマシン(Support Vector Machine --SVM)
DruckerらはSVMに基づいたフィルタを実現した。その研究によれば、SVMフィルタ及びBoosting Treesフィルタのいずれも最も低いエラー率(error rates)を実現できるが、Boosting Treesのほうがより長い訓練時間を要した。Ruan及びTanは、SVMユニット及びそのスライドウィンドウ技術によりスパムメールの常時監視を実現した。
5) Ripper
他の分類方法と異なり、Ripperは特徴ベクトルを必要としない。この方法は、訓練サンプルから分類法則を集中的に帰納し、一連のif-thenルールで構成される。
6) Rocchio
このタイプの分類器では、規範化されたTF-IDFを用いて訓練サンプルのベクトルを表示する。この方法の長所は訓練及びテスト段階のスピードが比較的速いことで、短所は訓練サンプル集合上で最適閾値(optimum threshold)及び最適βを検索する際に余計に訓練時間がかかり、かつ、これらパラメータの訓練サンプル集合上での一般化特性が低いことにある。
7) テキストクラスタリング
Minoru Sasakiらは特徴空間モデルに基づくテキストクラスタリングの方法を提起し、spherical k-meansアルゴリズムを用いて異なるクラスタを自動的に算出し、かつ、抽出された質量中心ベクトル(centroid vector)にカテゴリー表示を割り当て、算出された新たなメール・ベクトルと質量中心ベクトルの距離を通じて分類を完了させた。この方法は、Ling-Spam corpusで比較的良好な試験性能を獲得している。
8) メタヒューリスティクス(Meta-Heuristics)
Chi-Yuan Yehらは、キーワードに基づく機械学習方法に対してキーワードの変化がもたらす性能上の影響について、スパマー(スパムメールの送信者)の行為を識別特徴としてメールの分類を行う方法を提起した。これら行為の特徴はMeta-Heuristicsを通じて描写できる。与えられたMeta-Heuristicsをもとに新たな113特徴が抽出された。実験結果によれば、この方法はキーワードに基づくフィルタリング法より優れており、訓練時間にも明らかな短縮が見られる。
9) 人工ニューラルネットワーク(Artificial Neural Network--ANN)
James Clarkらは、人工ニューラルネットワークを用いてメールを自動的に分類した。彼らの開発したシステムLingerは、Ling-Spam corpusで比較的高い正確度、リコール率及び検出精度を得たが、PU1 corpus上のシステムで得られた性能にはやや低下が見られた。Ian Stuartらは単語と情報の描写的特徴に基づき、人口ニューラルネットワークを用いる方法でメールを分類した。実験結果によれば、この方法ではさらに、特徴データ集合に対する適切な拡充または修正を行い、性能の向上を得る必要がある。
10) 人工免疫システム (Aritificial Immune System--AIS)
Andrew Seckerらは、免疫に基づくメール分類アルゴリズムAISEC(Artifical Immune System for E-mail Classification)を提起した。当該アルゴリズムは、ユーザの関心のあるメールと関心のないメールを識別することを目的とする。改めて訓練をする必要がない前提で、アルゴリズムは連続的にe-mailに対して分類処理を行うことができ、ユーザの関心の変化を適時追跡することができる。
Terri Odaらは、人工免疫モデルをスパムメールの処理に応用し、主に免疫による自己/非自己(self/non-self)の検出原理及び検出器(detector)の概念を利用した。実現したメールのフィルタリングシステムの中で、まず様々なソースの中から遺伝子ライブラリを構築した。これらソースには言語の中の単語、つまり、収集したメール中の単語やフレーズ、スパムメールに含まれる連絡情報、メールヘッダーの情報などが含まれる。システム初期化の過程で、無作為法を用いて遺伝子ライブラリから抗体(antibody)及び関連のリンパ細胞(lymphocyte)を生成し、生成の過程で相似する抗体の重複生成を許容しない。各リンパ細胞は抗体に対する属性を持つほか、msg_matched及びspam_matchedという二つの属性と関係し、それぞれリンパ細胞とマッチするメールの数とスパムメールの数を表すのに用いられる。リンパ細胞の訓練過程で、マッチングが発生したリンパ細胞についてmsg_matched及びspam_matchedの2つの属性の値を修正する。システムの運行過程で、加重平均値の評価方法を用いてメールのタイプを判断した。これら評価方法では、マッチング回数の多いリンパ細胞が点数上、比較的大きな加重を持つ。
Tanが率いる研究チームは最近、免疫濃度に基づくメールの特徴の抽出方法を提起し、スパムメールの特徴に対する評価能力を大きく向上させた。さらなる細分化処理を経て、局分濃度に基づくメール特徴の抽出方法を提起し、スパムメールに対する検出性能を向上させた。同時に、彼らは最新の群知能技術をスパムメールの特徴抽出及び検出に導入し、喜ばしい進展を得ている。
3. 性能評価方法及び標準データ集合
3.1 性能評価方法
スパムメールの検出技術は今なお国内外の研究における関心事の一つであり、大量の関連研究が絶えず発表されている。スパムメールのフィルタリング方法を比較し、適切な方法の選択に資するため、研究者たちはさまざまなフィルタリング方法・システムの性能について一定の評価基準を提起している。本章では、主な性能評価方法をいくつか紹介・分析し、いくつかの標準的なデータ集合を提示する。
1) スパムメール・リコール率 (Spam recall)
この基準では、アルゴリズム・モデルで正確に検出され、分類されたスパムメールの割合を評価できる。スパムメール・リコール率の高いシステムモデルであれば、さらに効果的にスパムメールをフィルタリングすることができ、スパムメールの人々の生活に対する障害を効果的に削減できる。以下にスパムメール・リコール率の計算方法を示す。
式中のは正確に分類されたスパムメールの数を、 は誤って正当なメールに分類されたスパムメールの数を示す。
2) スパムメール検出精度(Spam precision)
この基準では、システムによるスパムメール検出精度、つまり、システムがスパムメールとして分類したメールの中で、正確に分類された割合を評価する。この基準はまた、システムが誤って分類した正当なメールの割合を反映できる。システムのスパムメール検出精度が高いほど、そのシステムが誤って分類する正当なメールの数は少ない。スパムメール検出精度の計算方法は以下の通りである。
式中のは正当なメールで誤ってスパムメールに分類された数を表す。
3) 正当なメールのリコール率及び検出精度(Legitimate recall and Legitimate precision)
スパムメールの検出は2種類のメール(正当なメール及びスパムメール)と関わるため、これら2種類の基準はスパムメールのリコール率及び検出精度と対称の関係にあり、計算式も対称に導き出すことができる。
4) 正確度 (Accuracy)
この基準では、メールのフィルタリングシステム全体の性能を反映することができ、正しく分類されたメール(正当なメール及びスパムメールを含む)の割合を表すことができる。この基準は、以下のように定義される。
式中のは正確に分類された正当なメールの数を、及びはそれぞれで正当なメール及びスパムメールの合計数を表す。
5) 加重平均検出精度(Weighted Accuracy)
研究者の観察によれば、正当なメールの逸失(システムに誤ってフィルタリングされたもの)は人々が生活の中で重要な情報を逃すことを意味するため、スパムメールの分類の誤りに比べてはるかに深刻である。正当なメールの重要性を反映するため、研究者たちは検出精度を基礎に、次の加重平均検出精度を定義づけた。
式中のは正当なメールの重要性を表すパラメータである。この値が大きいほど、該当する状況下での正当なメールの重要性がより高いことを説明している。は一般的に9、99または999の値を取る。の値が999であるなら正当なメールが該当する状況下で非常に重要であることを示し、1であるなら加重平均検出精度と検出精度の基準は等価であることを示す。
6) 評価
スパムメールのリコール率及び検出精度はシステムの一面しか反映できず、このうちのある基準が強い場合はシステム全体の性能を反映できない。この問題を解決するため、評価はこれら2種類の基準の融合として定義された。式を以下に示す。
式中のは検出精度の加重平均を表し、検出精度のリコール率に対する重要性を反映する。大多数の研究ではは1の値を取る。この場合、われわれは当該基準を評価という。
3.2 標準データ集合
2000年にAndroutsopoulosらはLingSpamデータ集合を整理し、発表した。このデータ集合は早期からある典型的なメール分類データ集合の一つである。
- LingSpam:このデータ集合には合計で2893通のメールが含まれ、このうち正当なメールは2412通で、スパムメールの割合は16.63%である。このデータ集合のメールはすべて事前処理を経ており、すべてのヘッダー情報(タイトルを除く)、HTMLタグは削除されている。このデータ集合における不足は、正当なメールの内容は大部分が言語学の話題に関係する点にある。このデータ集合を使用してメールの検出システムを評価すると過度に楽観的な評価が得られる。2004年にAndroutsopoulosらはPUシリーズの典型的なデータ集合を収集・整理し、発表した。このデータ集合は、現行の各種スパムメールフィルタリングシステムの性能評価に広く応用されている。PUシリーズのデータ集合には、次の4つの独立したデータ集合が含まれる。
- PU1:このデータ集合には1099通のメールが含まれ、このうちスパムメールは481通である。このデータ集合に含まれる正当なメール及びスパムメールはすべて英文メールである。正当なメールは文中の筆頭執筆者[14]が36ヶ月の時間をかけて収集したもので、スパムメールは彼が22ヶ月の時間をかけて収集したものである。
- PU2:このデータ集合には721通のメールが含まれ、このうちスパムメールは142通である。PU1と同様、このデータ集合に含まれるメールもすべて英文メールである。共同執筆者のうちの一人が22ヶ月の時間をかけてこれらメールを收集・保存した。
- PU3:このデータ集合には4139通のメールが含まれ、このうちスパムメールは1826通である。PU1、PU2と異なり、このデータ集合には英文メールと非英文メールが同時に含まれる。データ集合に含まれる正当なメールは第二執筆者が収集し、スパムメールは他のメールデータ集合に由来する。
- PUA:このデータ集合には1142通のメールが含まれ、このうちスパムメールは572通である。PU3と同様、このデータ集合にも一部、非英文メールが含まれる。また、スパムメールは他のメールデータ集合に由来する。データ集合に含まれる正当なメールは別の共同執筆者が収集し、提供したものである。Medlockは、大規模なメールデータ集合、GenSpamを整理し、発表した。
- GenSpam:このデータ集合は次の3つの部分から構成される。(1)正当なメール8018通とスパムメール31235通を含む訓練サンプル集合(2)正当なメール754通とスパムメール797通を含むテストデータ集合(3)正当なメール300通とスパムメール300通を含む適合データ集合。(3)の適合データ集合はスパムメールフィルタリングシステムの動態性、自己適応性をテストするのに用いられる。ZH1データ集は中国語のメールデータ集であり、含まれるメールはすでに中国語の単語分割処理が施されている。処理後の単語は整数が割り当てられ、メール受信者のプライバシーを保護している。
- ZH1:このデータ集合には1633封のメールが含まれこのうち正当なメールは428通で、スパムメールの割合は73.79%であった。データ集合に含まれる正当なメールの平均の長さは819.06単語で、スパムメールの平均の長さは819.06単語であった。最も短いスパムメールは819.06単語で、最も長いものは32810単語であった。
4. 総括及び展望
現行のスパムメール対策技術においては、スマート型スパムメール対策技術が依然として最も効果的で、将来性がある。法的手段及びシンプルな方法はいずれも、定義の特徴と一致する一部のスパムメールに対してしか一定の効果がなく、しかも自己適応性を持たないため、スパムメールの騙取を効果的にフィルタリングできない。スマート型スパムメール対策技術ではメールの特徴に基づく抽出方法が非常に重要な役割を果たし、スパムメール対策システムの各種性能に直接影響する。
メールの特徴抽出は、スパムメール対策システムの中核部分であり、システムの分類性能において決定的な役割を果たす。目下、大多数のメールはテキスト、画像タイプに集中しているため、テキスト、画像を対象としたメールの特徴抽出方法には良好な実用の可能性があり、現在の研究の関心事である。アクションに基づくメールの特徴抽出方法はメールのタイプと関係しない特徴抽出方法である。この方法は、スパムメール及び正当なメールの発信プロセスで現れる各種アクションを区別することによってスパムメールをフィルタリングするもので、効果的かつロバスト性の強い方法であり、さらなる研究に値する。新たなメールの特徴抽出方法の研究は、スパムメール対策システムの発展を大きく推進するであろう。
現行のスパムメール対策関連法では、スパムメールの送信行為に一定の規制を設けている。しかし、現行の関連法ではスパムメール問題を根本的に解決することは全くできず、スパムメール対策技術の連携的支援が必要である。現行の関連法もさらなる整備が急がれる。
スマート型スパムメール対策技術は、シンプルなスパムメール対策方法を発展させて得られた新たなスパムメール対策技術である。この技術はメールの特征抽出を基礎に、最新の機器学習方法等のさまざまなスマート技術を運用してメールのタイプ(スパムメールであるか否か)について分類を行うことで、スパムメールをフィルタリングする。新たなスマート型技術の提起及びスパムメール対策分野における応用は将来の研究の趨勢であり、将来性は大きい。