2012年5月5日土曜日

スライド テキストマイニング


*テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料
http://d.hatena.ne.jp/langstat/20120505#p1



*Pythonによる日本語自然言語処理 #pyconjp
http://www.slideshare.net/nokuno/python-pyconjp
by Yoh Okuno on Aug 26, 2011




*OsakaR_3: R言語によるテキストマイニング入門
http://www.slideshare.net/langstat/osakar3-4642650
by Yuichiro Kobayashi on Jun 29, 2010

[形態素解析]
言語学では、意味を担う最小の言語要素を形態素(morpheme)と呼ぶ。
これに対して自然言語処理では、形態素を同定する処理、すなわち入力文中の単語を同定し、その語の形変化を解析する処理を形態素解析(morphological analysis)と呼ぶ。
松本裕治ほか(1997)「単語と辞書」岩波書店


[N-gram]
言語の特徴を示すものとして、2文字、3文字が隣接して生じる文字の共起関係(これを2グラム、3グラム、一般にNグラムという)の頻度を調べること
長尾真(2004)「言語情報処理」岩波書店


[コロケーション]
語と語の間における、語彙、意味、文法等に関する習慣的な共起関係を言う
堀正広(2009)「英語コロケーション入門」研究社





*テキストマイニングの前のコーパス収集
Collecting corpus
http://www.slideshare.net/gepuro/collecting-corpus-8203771
by gepuro on Jun 04, 2011




*TokyoR_21: テキストマイニングで見る『機動戦士ガンダム』
http://www.slideshare.net/langstat/tokyor21
by Yuichiro Kobayashi on Mar 08, 2012
・分析データ(例)
・時系列変化
・キャラクター間ネットワーク分析
・共起ネットワーク分析
・特徴語分析





*マーケティングリサーチへのテキストマイニングの活用
http://www.slideshare.net/saynoway66/ss-9661561
by saynoway66 on Oct 12, 2011
・手法のポジショニングを明確に(図、p7)
・解析に使用した無料ツール(一覧、p19)





*TwitterのデータをRであれこれ
http://www.slideshare.net/abicky/twitterr
by Takeshi Arabiki on Dec 04, 2010
TwitterのデータとRで戯れながらRと仲良くなろうという発表です.





*OsakaR_7: Rでテキストマイニングをする前に
http://www.slideshare.net/langstat/osakar7
by Yuichiro Kobayashi on Feb 10, 2012
・tf-idf
・ステミング: 語幹を解釈し、語尾が変化した語とマッチングする手法。ステム(stem)は「木の幹、草の茎」のことで語尾が変化しても変化しない根幹部分のこと(例、sing(歌う)は、singer(歌手)やsinging(歌うこと)とマッチングさせることができる
・proxyパッケージ: 距離や類似度を計算するためのパッケージ(Jaccard, cosineなど)が使える
・igraph















0 件のコメント:

コメントを投稿