決定木プログラムは、説明変数及び目的変数が、名義尺度や順序尺度の時、
変数の情報指標を計算し、目的変数を的確に分類する説明変数の選択の様子を
明らかにする時に使用します。
なおこのプログラムは、「可能性を考慮した決定木構築アルゴリズム」(※)を基に、Excel VBAで作成しています。
(※)2003/03:火の国シンポジウム:九州工業大学 和田 稔/平田耕一/原尾政輝(2014年1月現在リンク切れ) → Webarchiveにて
アドイン接続を終え、メニューの「決定木分析」をクリックすると、次のように、設定画面が表示されます。
説明変数の範囲指定:
説明変数にあたるデータの範囲をマウスでドラッグして選択します。
サンプルデータでは青色部分を範囲選択します。
データラベル(変数名)を含めて範囲選択してください。
なお説明変数は最大で100変数まで分析可能です。
目的変数の範囲指定:
目的変数にあたるデータの範囲1列をマウスでドラッグして選択します。
サンプルデータではオレンジ色の部分を範囲選択します。
データラベル(変数名)を含めて範囲選択してください。
出力先の指定:
出力を開始したいセルを1か所マウスでクリックして選択します。
説明変数内での制限要素数:
最後の分岐数をいくつにするか、数字を入力して設定します。
最大50まで指定できます。
分析終了条件の細分化行数:
最後の分岐のデータ行数を何行にするかを設定します。
中間出力:
中間結果を同時に出力させる場合は、「有」をマウスでクリックして選択します。
展開図作成:
展開図を出力結果と同時に出力させる場合は、「有」をマウスでクリックして選択します。
設定が済んだら、「開始」ボタンをクリックします。
「中止」ボタンをクリックすると、操作を中止します。
中間出力を「有」とした場合の出力結果は、次のようになります。
分析方法は以下のとおりです。
A.項目選択のための情報指標の計算
1.情報量の計算
目的変数の情報量DI
Σ-(pk/nj)*log(pk/nj)
pk=要素数
nj=レコード数
説明変数(属性)の情報量Dj
-Σ((pj/nj)*Σ(pi/pj)*log(pi/pj))
pj=属性での要素数
nj=属性のレコード数
pi=属性の要素の中の目的変数の要素数
2.利得の計算
属性の利得
DI-Dj
3.分割情報量(SPL)
Σ-(pj/nj)*log(pj/nj)
4.利得比
分割情報量/利得
5.非純粋性(GI,GJ)
DIの非純粋性GI
1-Σ(pk/nj)*(pk/nj)
属性の非純粋性Gj
Σ((pj/nj)(1-Σ(pi/pj)*(pi/pj)))
6.GINI指標
GI-Gj
B.項目の選択基準
分割判断基準=利得比の大きい説明変数(属性)から順次選択しパスを作成する。
C.カテゴリの区間数の制限
要素の昇順を考慮した度数の累積割合を算定し、要素単位で度数を考慮して、制限区間の範囲に割り付ける。
制限数=3の時は、設定範囲数=3とする。
変換結果を出力
例)
a1 → a1
a1 → a1
b1 → a1
b2 → b2
b3 → b2
c1 → b2
c2 → b2
D.数量の区間数の制限
小さい数字順に並べる。
制限区間数の範囲に割付ける。
ただし同じ数量がある場合は、小さい方の範囲に含ませる。
制限数=3の時は、設定範囲数=3とする。
境界数字で変換結果を出力
境界の表現は次の通り。
<=nnn
<nnn<=
nnn<
ただし、nnnは境界の(小+大)/2で表わす。
E.分割する最小のレコードの処理
全レコード*割合の整数より、分割するレコード数が少ない場合は、この範囲以下の分割処理は行わない。
F.目的変数の処理
1)カテゴリの場合は、種類と、その個数を出力
2)数量の場合は、個数とその合計を出力
即ち、決定木と回帰木の両方の処理ができる。
動作環境 |
日本語版Windows用 日本語版Microsoft Excel2003以降(推奨)が快適に動作するパソコン。 |
アドイン接続方法・ ソフトウェア使用許諾 |
※Excel2016・2019も右側の「Excel2007・2010・2013用」をお選びください |
マクロが実行できないときにご確認ください |
https://faq.mypage.otsuka-shokai.co.jp/app/answers/detail/a_id/314030
当商品のような、インターネットからダウンロードしたExcelのファイルについて、マクロが実行できない仕様になっているようです。 マクロを有効化する方法が記されています。お試しください。 |
※カスタマイズは対応不可となりました(2019年1月)