R導入記事はこちら
決定木分析って何ができるの?
正解、不正解の教師データを基にして、分岐要素を洗い出す分析(データマイニング手法)です。
つまり、何かの結果(申し込み完了とか高額商品購入とか)を成し遂げた人とそうでない人を比べて、何が結果に寄与しているのかを明らかにできます。
商品やサービスを購入する可能性が高い人はどんな人なのか
LTVが高い人はどんな特徴があるのか
なんてこともわかる可能性が高いです。データの取り方にもよるのですが・・
出力結果イメージ
有名どころですが、タイタニックで生死を分けた条件について項目分けしたものです。(Yes=生存)
1,2等室および乗務員の女性、 1,2等室の男の子は生き残りやすく、逆に男性は等室によらず残念なことに・・。

取り込むデータのフォーマット
1行目が項目名、2行目以降は1人1行、といった形です。

【コピペ用】コード
install.packages("rpart") #初回のみ:パッケージのインストール install.packages("partykit") #初回のみ:パッケージのインストール library(rpart) #使い始め:パッケージ読み込み library(partykit) #使い始め:パッケージ読み込み t <- read.csv("Decision_tree.csv") #データの読み込み head(t) #表頭から5行書き出して確認 Decision_tree.rp <- rpart(Survived ~ . , data=t) # 決定木モデルの構築 plot(as.party(Decision_tree.rp), tp_args=T) # 決定木の描画
補遺
CVした人と資料請求までの人・商品ページ見た人・Web平均などで分析すると、特徴が分かりやすい・・・こともあります。
どんな要素を変数として入れるか、によって、決定木の形は大きく変わってしまう(意味のないものが出てくることも・・)ので、元ファイルをいじりつつ何回もたたいてみるのが良いと思います。
1st party dataだけで判別し、LP改修や商品設計に活用するもよし、どこか(調査会社だったり広告代理店だったり媒体社だったり)のお世話になり3rd party dataを利用し、人をよりシャープ化させるもよし、です。