2012年6月2日土曜日

『データマイニング (データサイエンス・シリーズ 3)』


データマイニング (データサイエンス・シリーズ 3)



購入

p5 データマイニングの定義 「大規模なデータから思いがけない(unsuspected)パターンを発見すること」

統計学では、データ全体を説明するような大域的なモデルを構成する方法をとることが多いが、データマイニングではすぐあとで例示するように、データの細かな一部でしか成り立たないようなパターンにしばしば注目する。もちろんそれがランダムなデータの揺らぎによるものでないことは、統計的道具を使って検証されるべきである


データマイニングは探索的データ解析(exploratory data analysis)にごく近い目的をもっているが、あくまで実用技術として

(1)非常に大規模なデータを対象としていること
(2)データの収集法に対してコントロールが利かないことが多いこと
(3)新しい種類のデータやパターンに注目していること
(4)人間とコンピュータがいかに役割を分担できるかに注目していること

といった点において特徴づけられる




p6 バスケット解析の結果→店での品揃えや商品の配置の決定、さらに特売商品の選定などを行う



p7 「法則はできるだけシンプルで、ユーザにとってわかりやすいものでなければならない」という基本要求(法則の明解性)に答えねばならないからである

法則の明解性が必要になる理由=>see p7


p8 木構造をもつ決定木と回帰木は、構造の大きさと予測精度に関する理論も整備され、効率がよい上に安心して用いることができるため、現在実用化が成功しているシステムといえる


P39 3.5 視覚化手法とその他の研究

データマイニングの目的はデータから人間が知見を得ることである
エンドユーザーに対するインターフェイスは非常に重要である
このための集団として、単に相関ルールのリストを表示するだけでは、あまりにお粗末である

一般に、難解な現象を理解する方法として、より直感的な表現に直す-視覚化(VISUALIZE)-ことが有効である


<研究>
アソシエーション分析の研究
・アルゴリズム(プログラミングなど)
・視覚化(2次元、3次元)
・データ処理の高速化
・極大頻出アイテム集合の発見
・相関ルールの価値基準
・数値属性の取扱い
・問合わせ群
・時系列パターン



データマイニングシステム (System for Optimized Numeric Association Rules) SONAR
http://www.research.ibm.com/trl/projects/s7800/DBmining/sonar/index.htm
- 1次元数値属性相関ルール
- 2次元数値属性相関ルール
- 決定木・回帰木



2012年5月6日日曜日

Google Analytics



*Google Analytics
http://www.google.com/analytics/



*Google Analytics(グーグル・アナリティクス)の使い方やホームページのアクセス解析の活用方法を説明
http://hmn.livedoor.biz/archives/50734875.html


facebook 解析


*Facebookが提供する解析ツール「Facebook Insights for Websites」を紹介するサイト
http://fb-news.jp/facebook/facebook-insights.html

「この仕組ではボタンが表示された回数やクリックされた回数、記事が表示された回数やクリックされた回数に加え、ユーザーの属性データなどが取得できるようになり、それぞれのデータをグラフ化して閲覧することが可能です。」






*競合のFacebookページも簡単に分析できちゃう「All Facebook」無料を紹介するサイト
http://d.hatena.ne.jp/ryuka01/20110728/p1

「一番違いは「自分のページ以外の情報をみられるか」ということ。Facebookページはまだ「目標指標と数値であるKPIを設定する事は難しい。しかし、競合のページと比べて、勝っているあるいは追いついている、という事が可視化できるというのが「All Facebook」を使う一番の理由」

All Facebook
http://www.allfacebookstats.com/
・無料で最大3ページまでFacebookページを分析出来るサービス
・facebookインサイト機能との違い

機能 インサイト All Facebook
他ページの分析 × ○
複数ページの管理 × ○
データのダウンロード ○ ○
ダッシュボードの作成 × ○
年代や性別の分析 ○ ×
レポートの豊富さ △ ○


【Statistics】
Dashboard:任意のレポートを選択してひとつの画面にまとめられる機能
Fans:ファン数の増加などに関するレポート群
Interactions/Content:発言に対するコメント数など「やりとり」に関するレポート群
Location/Places:位置上に関するレポート群
Page Details:Facebookページ単位の詳細レポート

【Administration】
Manage Pages:ページ管理
Events:イベント管理
My account:アカウント情報
Support:サポート情報
Help:ヘルプ
Logout:ログアウト





*ウォール投稿を紹介するサイト
Facebook運用者必見!覚えておくと役立つウォール投稿の3つの解析視点|ここを狙えばいいね!を増やせる!
http://gaiax-socialmedialab.jp/facebook/097

1.良いウォール投稿は『タイミング』が上手い!
2.『タイミング』はこの3つの視点で見ると効果を伸ばせる!
3.『タイミング』を見定めるためにやるべき事、まとめ

【視点1】ファンのアクティブ状況
【視点2】ニュースフィードの混雑状況
【視点3】これまでの反応実績

















2012年5月5日土曜日

twitteR



*第5回 インターリュード: TwitterとR
http://www.atmarkit.co.jp/fcoding/articles/stat/05/stat05a.html
2010/9/15
「今回はTwitterという身近な題材を使って、Rによるデータ収集と可視化をやってみます。Rの豊富なライブラリを使えば意外に手軽にできます。」




*twitteRたのしいよtwitteR
http://oku.edu.mie-u.ac.jp/~okumura/blog/node/2529
統計・データ解析用言語 R の欠点は,Googleで検索しにくいこと
Rに twitteR というTwitter APIを操るパッケージ

-> 日本語の抽出が上手くいかない 2012.05.05



*twitteR サンプル
http://www.okada.jp.org/RWiki/?twitteR%20%A5%B5%A5%F3%A5%D7%A5%EB



*twitteR: R based Twitter client
http://cran.r-project.org/web/packages/twitteR/
Reference manual:
http://cran.r-project.org/web/packages/twitteR/twitteR.pdf



igraph 調査要 2012.05.05



調査要 2012.05.05

ここにサンプルあり↓
http://www.atmarkit.co.jp/fcoding/articles/stat/05/stat05a.html






『「複雑ネットワーク」とは何か (ブルーバックス)』

「複雑ネットワーク」とは何か (ブルーバックス)

「複雑ネットワーク」とは何か (ブルーバックス)