2012年5月2日水曜日

『Rによるテキストマイニング入門』

購入。

Rによるテキストマイニング入門

配達待ち

到着


石田 基広 教授
http://pub2.db.tokushima-u.ac.jp/survey/person/60564/index.html


実装関数の解説ページ
『Rによるテキストマイニング入門』に記載の無い関数を含めて解説
http://rmecab.jp/wiki/index.php?RMeCabFunctions



サポートページ(正誤表)
http://www.morikita.co.jp/soft/84841/index.html


R によるテキストマイニング入門–初級 石田基広 2009.pdf
http://rmecab.jp/wiki/index.php?plugin=attach&pcmd=open&file=ism091124doc.pdf&refer=RMeCabFunctions




p.14
Rに関しては豊富な情報がインターネット上に公開されている、日本ではRjpWikiが有名

英語の情報源では、メーリングリストR-helpがある。メーリングリストの内容はサイトのデータベースに蓄積されている

カイ自乗検定の関数chisq.test()がある、この関数の使い方は?chisq.testをRのコンソールに入力して[Enter]キーを押せば関数のヘルプが表示される(英語)
さらに詳細な情報が必要な場合は、RSiteSearch("chisq.test")を実行する。自動的にブラウザが起動して回答が記述されたページへのリンクを確認できる
そもそもカイ自乗検定をRで実行する方法や関数名がわからなくなった場合、関連するキーワードをapropos()関数に指定する(ex. apropos("chi"))


p.17
Rでは変数をオブジェクト、あるいはインスタンスなどと表現する。本書ではオブジェクトと呼ぶ


p.64

*抽出サンプル #全文章を通しての総頻度が1以上のターム

> res <- dm[rowSums(dm) >= 1,]
> res
docs
terms kokoro1_1.txt kokoro1_2.txt kokoro1_3.txt
する 0.3512027 0.4317092 0.3645128
私 0.5755193 0.5224413 0.6031864





p.140
> rgl.open()
> rgl.bg(color=c("white","black"))
> rgl.lines(c(-1,1),0,0,color="gold")
> rgl.lines(0,c(-1,1),0,color="gray")
> rgl.lines(0,0,c(-1,1),color="black")
> rgl.bbox(color="blue",emission="green")
> rgl.texts(dm3[1,],dm3[2,],dm3[3,],dm3.name,color=as.numeric(as.factor(dm3.col)))
> rgl.close()






0 件のコメント:

コメントを投稿