第6回 データマイニング

CRMとデータウエアハウス

レコメンドウエアハウス®の第6回です。 第6回は「データマイニング」です。

データマイニングとは

データマイニングとは収集したデータの属性からデータ間の関連性や法則を導き出し、新たな発見・知識を導き出すことです。 鉱山で宝の山を掘り当てるショベルカーに例えて「マイニング」と呼ばれるようになったと言われています。

「データマイニング」

データマイニングはデータウエアハウス等からデータを抽出して「予測」「分類」「判別」「相関」等の手法で分析します。

分類
データをある関連性に基づいてグループに分類する手法です。
判別
ツリー分析
データを分割してツリーを構成して判定を行う手法です。
予測
データを基にして結果を予測する手法です。
相関
2つ以上のデータの関係性を数値化する手法です。

データマイニングでよく取り上げられる分析には以下があげられます。

  • 回帰分析
  • クラスタ分析
  • ツリー分析
  • ニューラル・ネットワーク
  • 相関

以下に各分析手法の特徴を説明しましょう。

回帰分析

複数の属性データ(変数)の関係性を用いて、検証・予測モデルを構築します。 例えば、

  • ・売上と広告費の関係から次回の売上に対する広告費を決定する
  • ・商品購入金額と年代の関係からターゲット属性を決定する
  • 等が事例として良く取り上げられます。

    「回帰分析」

    回帰式は2つの変数間の関係を直線(回帰直線)で表すことができます。 この直線との距離が近いほど、関連性が高いとみなします。 ただし、回帰直線とデータ間の距離が大きい場合は予測の精度が落ちます。

    クラスター分析

    データの組み合わせによって類似する購買履歴や、属性を持つグループに分ける手法です。 属性の相関関係を座標上の点で表し、距離の近いデータをグループ化する方法です。 分類手法はグループ数を決める方法(k-means法が有名)と決めずに分類する方法があります。 また、分類する基準が事前与えられている「教師あり分類」と「教師なし分類」があります。 サポートベクターマシンという手法の研究も盛んです。

    「クラスタ分析」

    ツリー分析

    決定木(decision tree)とも呼ばれます。 属性データと履歴データ等から質問形式(yes/no)でツリーを構成していきます。 例えば、銀行やクレジットカードの与信・審査モデルでは以下の図にようになります。

    「ツリー分析」

    滞納する顧客モデルを条件で順に2分木を構成します。上記のサンプルでは 「持ち家でなく、年令50才以上で勤続年数10年以下」の場合に滞納率が高くなる仮説を示しています。

    ニューラル・ネットワーク

    人間の神経細胞(ニューロン)の構造をシュミレーションして学習モデルを構築して分析する手法です。 多くの属性(変数)を入力として複数回アルゴリズムによってパターンを学習して、結果(出力)を導き出します。 以下に簡単なニューロンの例を示します。

    【ニューラル・ネットワーク】 「ニューラル・ネットワーク」

    入力された値を一定の閾値を超えた場合のみ出力します。これらのパターンを学習させていき、 ニューロン同士を結合して、ニューラル・ネットーワークを構築します。

    相関

    レコメンドの代名詞でもある「Aを買った人はBも買っています」といった併買分析のように、 ある事業が発生したときに発生する別の事象が発生する確率です。買い物かごの中で 同時に買った分析に使用されることから「バスケット分析」とも呼ばれます。

    各分析手法には向き・不向きがあります。クラスタ分析、ツリー分析は分類に、回帰分析、ニューラルネットワーク、相関分析は予測に向いていると言えるでしょう。

    ウエブマイニング

    インターネットにおけるデータマイニング(ウエブマイニング)の活用は広範囲に渡って浸透してきています。

    【ウエブマイニング】 ウエブマイニング」

    ウエブマイニングは大きく分けてコンテンツベースと行動履歴ベースに分類できます。

    コンテンツベースのマイニング

    Webページのコンテンツを分析して、出現する単語やフレーズを元に分析する方法です。 ブログや口コミサイトでの評判検索やある単語(キーワード)と関連するコンテンツを探し出すといった 検索エンジンで利用されています。 言語処理に加えて回帰・クラスター分析等を応用したマイニング手法が活用されています。

    Webページのリンクを分析して、ページ間に関連性やコミュミティを発見したり、関連性を探し出す モデルもあります。この場合はニューラルネットワーク・グラフ理論を応用したモデルが活用されています。

    行動履歴ベースのマイニング

    アクセスログやクリック・購入データを分析して、レコメンデーションや顧客分析・広告配信に活用するモデルです。 相関分析・クラスタリング分析が応用される場合が多いようです。 この連載の主題である「レコメンドウエアハウス®」はこのモデルです。

    ブログや口コミサイトの分析は既に定着した感がありますが、これから発展していくと予想されているのが、 行動履歴ベースのマイニング、CRMとインターネットデータ(ウエブデータ)の連携・連動です。

    アクセスログ、購買データをベースにデータマイニングで顧客を分類することにより、 商品と顧客データを利用して購入確率を算出し、顧客をセグメント分けしておきます。 ウエブサイト上でレコメンドする際も ・商品をレコメンドする ・顧客によって画面上に表示するメッセージを変更する といった手法で誰にでも同じパターンをレコメンドするのではなく、 顧客に合わせたレコメンデーションを実現することができます。

    行動履歴の応用

    行動履歴ベースのマイニングの応用例をあげてみましょう。

    【行動履歴の応用】 行動履歴の応用

    レコメンデーション

    アクセスログからどのWebページ経由からどの商品(商品でなくてもよい)を 購入したかを分析・マイニングします。 そのWebページを閲覧した訪問者に対してレコメンド情報を表示します。 分析手法としては主に相関分析(バスケット分析)を応用したモデルが利用されています。

    キャンペーン、メールの応用

    レコメンデーションの活用方法として顧客へのメール配信にお薦めする商品をマイニングした結果を メール配信に適用する例があります。 また、キャンペーンの告知やお知らせをメールやカタログ配信する際にWebサイトの行動履歴から 顧客に関心のある内容に絞って、訴求する例もあります。

    広告評価・配信

    広告から流入した顧客の行動履歴をマイニングした結果を元に広告配信を最適化します。 限られた費用で最大の効果を得ることができるようにすることが目的です。

    CRM/SFAシステムとの連携

    営業支援(SFA)、顧客支援(CRM)システムとWebデータを連携します。 BtoBサイトであれば、顧客向け(会員企業向け)のウエブサイトの訪問者の 行動履歴をCRMシステムへ分析できる形で渡します。 営業担当者はアクティブな顧客や、顧客の関心のある商品・サービスを 行動履歴から知ることができます。

    これまでデータマイニングは統計の専門的や知識と組織(人)や、特定の研究分野での利用と いったイメージが強く、莫大なコストがかかる印象を持たれている方も多かったと思います。 しかし、ハード・ソフト、通信インフラの発展に伴い、一般の企業やシステムでも低コストで 利用できる環境が整ってきています。ウエブ上の行動履歴は売上・顧客・商品データや営業情報と 同じく、企業のマーケティングに必要不可欠なデータとなってきています。 データマイニングを駆使したインターネットマーケティングは今後、ますます発展が見込まれる分野です。