データ分析初心者の備忘録

不定期で更新していきます。

バギング、ブースティングの概要とRでのXGboost実行例

XGboostを実務で使う機会がありそうなので勉強しているのですが、そもそもブースティングがどのような手法なのか、同じアンサンブル学習のバギングとの違いは何かといったことが気になったため調べた内容をまとめました。 目次 アンサンブル法 バギング ブー…

ソーシャルゲームの分析事例まとめ

ソーシャルゲーム分析に興味があるものの、ソーシャルゲーム業界に詳しくないので他社でどのような分析が行われているのか過去の勉強会のスライドや記事を収集してまとめました。 調査方法は単純で、chromeのシークレットモードで「ソーシャルゲーム 分析」…

scikit-learnで使える機械学習手法まとめ

機械学習ライブラリscikit-learnを活用して実行できるアルゴリズムの特徴と実行方法、実行結果をまとめました。 アルゴリズムの実行にはUIC Machine Learning Repositoryに登録されているBreast Cancer Wisconsinデータセットを用いています。 なお、理論の…

t検定、カイ二乗検定の備忘録

■t検定 主に2群の平均値の差の検定に用いる。 母集団が正規分布に従っている場合、標本分散を用いて算出される統計量tが自由度n-1のt分布に従うという性質を用いて検定を行う。 なお、利用する際は以下の条件を満たしている必要がある。 1.標本が母集団から…

Rで自然言語処理(の準備)

統計ソフトのRを使って自然言語処理をする際に必要な設定のメモです。(インストール方法などはよく忘れてしまうため。。) 手順は以下の通りです。なお、Windows7の場合を想定しています。 Rのインストール Rstudioのインストール MeCab(形態素解析エンジン)…