データマイニング (データサイエンス・シリーズ 3)
購入
p5 データマイニングの定義 「大規模なデータから思いがけない(unsuspected)パターンを発見すること」
統計学では、データ全体を説明するような大域的なモデルを構成する方法をとることが多いが、データマイニングではすぐあとで例示するように、データの細かな一部でしか成り立たないようなパターンにしばしば注目する。もちろんそれがランダムなデータの揺らぎによるものでないことは、統計的道具を使って検証されるべきである
データマイニングは探索的データ解析(exploratory data analysis)にごく近い目的をもっているが、あくまで実用技術として
(1)非常に大規模なデータを対象としていること
(2)データの収集法に対してコントロールが利かないことが多いこと
(3)新しい種類のデータやパターンに注目していること
(4)人間とコンピュータがいかに役割を分担できるかに注目していること
といった点において特徴づけられる
p6 バスケット解析の結果→店での品揃えや商品の配置の決定、さらに特売商品の選定などを行う
p7 「法則はできるだけシンプルで、ユーザにとってわかりやすいものでなければならない」という基本要求(法則の明解性)に答えねばならないからである
法則の明解性が必要になる理由=>see p7
p8 木構造をもつ決定木と回帰木は、構造の大きさと予測精度に関する理論も整備され、効率がよい上に安心して用いることができるため、現在実用化が成功しているシステムといえる
P39 3.5 視覚化手法とその他の研究
データマイニングの目的はデータから人間が知見を得ることである
エンドユーザーに対するインターフェイスは非常に重要である
このための集団として、単に相関ルールのリストを表示するだけでは、あまりにお粗末である
一般に、難解な現象を理解する方法として、より直感的な表現に直す-視覚化(VISUALIZE)-ことが有効である
<研究>
アソシエーション分析の研究
・アルゴリズム(プログラミングなど)
・視覚化(2次元、3次元)
・データ処理の高速化
・極大頻出アイテム集合の発見
・相関ルールの価値基準
・数値属性の取扱い
・問合わせ群
・時系列パターン
データマイニングシステム (System for Optimized Numeric Association Rules) SONAR
http://www.research.ibm.com/trl/projects/s7800/DBmining/sonar/index.htm
- 1次元数値属性相関ルール
- 2次元数値属性相関ルール
- 決定木・回帰木