Nagoya.R #1 Part 1

Post on 03-Dec-2014

1,490 views 4 download

Tags:

description

 

transcript

R の基本操作—とにかく実行するのだ編—

阪上 辰也@名古屋大学Nagoya.R #12010-03-26

Saturday, March 27, 2010

本日の目標

•基本操作を「知る」 (覚えない)

•演習での不実行ゼロ•「R いいよ R」と勧めたくなる• ついでに「Nagoya.R いいよ」とも...

Saturday, March 27, 2010

Agenda

1. R 概論2. R の基本操作3. 記述統計の基礎

Saturday, March 27, 2010

Agenda

1. R 概論2. R の基本操作3. 記述統計の基礎

Saturday, March 27, 2010

Rとは何か

• 統計処理を目的とするプログラミング言語

• 作者:Ross Ihaka & Robert Gentleman (R & R)

• 無償+オープンソースのソフトウェア

Saturday, March 27, 2010

要するにRは統計ソフト

Saturday, March 27, 2010

Rの何が良いのか

•無償(IBM SPSS Statistics は10万弱)

•統計処理の種類が豊富•グラフィックスが美しい

Saturday, March 27, 2010

Rの弱点

•文字ベースの操作• プログラムを組む感覚を養成

•最新情報は英語• 統計+PCに関する知識が必要

Saturday, March 27, 2010

Excel や SPSS は...

•高価(IBM SPSS Statistics は10万弱)

•処理が信頼できず • Excel のひどい話(青木先生@群馬大)

•グラフィックスが美しくないSaturday, March 27, 2010

RいいよR

Saturday, March 27, 2010

Rのインストール

1. http://www.r-project.org/ にアクセス

2. “download R” をクリック

3. JAPAN の中から、どれか1つを選ぶ

4. 使っている OS のリンクをクリック

Saturday, March 27, 2010

Rのインストール Windows: http://cran.md.tsukuba.ac.jp/bin/windows/base/

■「Download R 2.10.1 for Windows」というリンクをクリックしてダウンロード

■ Mac OS X: http://cran.md.tsukuba.ac.jp/bin/macosx/  「R-2.10.1.pkg (latest version)」というリンクをクリックしてダウンロード

Saturday, March 27, 2010

Rのアップデート1. http://www.r-project.org/ にアクセス

2. 自分が使っているバージョンより新しいものが出ているか確認

3. 新規にインストール用ファイルをダウンロードの上、インストール

Saturday, March 27, 2010

Rのアンインストール• Windows

• START → Program → R → Uninstall R

• Mac OS X・/Applications 内の R アイコンと /Library/Frameworks 内の R. framework

 をゴミ箱に入れる

Saturday, March 27, 2010

Rの起動• Windows

• START → Program → R → R 2.10.1

• Mac OS X・/Applications 内の R アイコンをクリック

R の「コンソール」が表示されることを確認

Saturday, March 27, 2010

Rの終了

• Windowsも Mac OS X も1.「q()」と入力2.今は作業スペースの保存をしない3.ウィンドウが消えて、R終了

Saturday, March 27, 2010

Rの環境設定

• 細かいことは省略

• 日本語の文字化けが起こったら(Win)

• [編集]→[GUI プリファレンス]を選択• Font を [MS Mincho] か [MS Gothic] に設定

Saturday, March 27, 2010

Rで困ったら

• まずは、help(XXX) !!

• RjpWiki (http://www.okada.jp.org/RWiki/)

• R による統計処理 (http://aoki2.si.gunma-u.ac.jp/R/)

• R-Tips (http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html

Saturday, March 27, 2010

1. R 概論まとめ

•R は統計ソフト•無償+何でも統計+美しい作図

•起動はクリック、終了は q()

•困ったら help(XXX) !!

Saturday, March 27, 2010

1. R 概論まとめ

RいいよRSaturday, March 27, 2010

Agenda

1. R 概論2. R の基本操作3. 記述統計の基礎

Saturday, March 27, 2010

Agenda

1. R 概論2. R の基本操作3. 記述統計の基礎

Saturday, March 27, 2010

前置きが長くなりましたがどんどん実行しましょう

Saturday, March 27, 2010

まずは四則演算•式を入力し [Enter] を押す

• > 3+5 [Enter]

• > 10-3 [Enter]

• > 2*3 [Enter]

• > 100/20 [Enter]

• > (12 + 34 -56) * 78 / 90 [Enter]

Saturday, March 27, 2010

もうちょっと複雑に

•次の違いは?

•> 100^1/2

•> 100^(1/2)

Saturday, March 27, 2010

いままでのものは単なる計算式でしたが

Saturday, March 27, 2010

Rといえば

関数が命

Saturday, March 27, 2010

関数とは指定した値に対して何らかの処理をして結果を返すもの

Saturday, March 27, 2010

Saturday, March 27, 2010

なにはともあれ実行してみましょう

Saturday, March 27, 2010

sqrt():平方根•> sqrt(2)

•> sqrt(144)

•> sqrt(104976)

• [応用] 2の立方根はどう求める?

• 「2の3分の1乗」と考える• > 2^(1/3)

Saturday, March 27, 2010

「関数(値)」が命

•R には多数の関数がある

•q() や help(xxx) も関数

•必要な関数をしつこく実行!Saturday, March 27, 2010

Rといえば

変数も命

Saturday, March 27, 2010

変数とは1つ以上の値をまとめていれておく「箱」のこと

Saturday, March 27, 2010

Rではベクトルとも呼ばれ複数の値を1つにまとめたものを指す

Saturday, March 27, 2010

統計処理などを行うには複数の値をまとめて扱う

ことが必要でそれを使い回すために

変数を使うSaturday, March 27, 2010

ちなみに変数に数値を入れることを

「代入」といいますSaturday, March 27, 2010

Saturday, March 27, 2010

なにはともあれ実行してみましょう

Saturday, March 27, 2010

変数の名前は “hako”

•> hako <- c(1,2,3,4,5)•> hako

•c() 関数:concatenate

•値を1つにまとめる関数Saturday, March 27, 2010

現在、hako という名前の「変数」の中に

1から5までの5つの数字がまとめて入っている状態

Saturday, March 27, 2010

では使い回してみましょう

Saturday, March 27, 2010

以下の関数を実行

•> sqrt(hako)

•> log(hako)

Saturday, March 27, 2010

もし変数がなかったら何度も関数を

繰り返す羽目になるsqrt(1), sqrt(2) ... sqrt(5)log(1), log (2) ... log (5)

Saturday, March 27, 2010

一括処理のために変数(ベクトル)の利用は不可欠

Saturday, March 27, 2010

2. R の基本操作まとめ

•Rは「関数」と「変数」が命

•関数を使って数値を処理•q(), help(), sqrt(), log(), c()

•変数を使って一括処理!Saturday, March 27, 2010

では変数をもっと使い回してみようと思いますが

その前に...

Saturday, March 27, 2010

Agenda

1. R 概論2. R の基本操作3. 記述統計の基礎

Saturday, March 27, 2010

Agenda

1. R 概論2. R の基本操作3. 記述統計の基礎

Saturday, March 27, 2010

今日のこの短い時間でとにかくご理解

いただきたいことは...

Saturday, March 27, 2010

統計は神様ではない

Saturday, March 27, 2010

統計処理・値が出ると

•すごーい•感動ぉー•客観的ぃー•私もそうしよー

Saturday, March 27, 2010

しかしSaturday, March 27, 2010

分析においてちょっとしたヒントを与えてくれるものにすぎない

Saturday, March 27, 2010

結局のところデータの取捨選択や解釈は

分析者次第

Saturday, March 27, 2010

それでははじめましょう

Saturday, March 27, 2010

<母集団と標本>

Saturday, March 27, 2010

【事例】名古屋大学の学生に対し食堂で提供すべき料理を調査したい

Saturday, March 27, 2010

母集団

調査対象すべて

名古屋大学の全学生 (15,000)=

Saturday, March 27, 2010

標本

母集団の一部

各学部の学生(300)=

Saturday, March 27, 2010

なぜ標本がいるか

全部調べることが事実上不可能な場合があるから

Saturday, March 27, 2010

なぜ標本がいるか

標本を調べて母集団を推測することで解決

Saturday, March 27, 2010

母集団 標本推測

標本抽出

Saturday, March 27, 2010

ちなみに基本的に抽出は無作為に行うこと

Saturday, March 27, 2010

標本は母集団のことを推測するために抽出されるもの

Saturday, March 27, 2010

そのためバランスのとれた

データである必要がある

Saturday, March 27, 2010

したがってさきほどの事例では学年・男女比なども

考慮した抽出が本当は必要

Saturday, March 27, 2010

<記述統計と推測統計>

Saturday, March 27, 2010

記述統計

集団(母集団)に属する「すべてのデータ」を用いて平均値や比率を求め、集団の特徴や傾向を明らかにする手法

Saturday, March 27, 2010

推測統計

標本を用いて母集団の特徴や傾向を推測する手法

※ Nagoya.R #2 以降で扱う予定

Saturday, March 27, 2010

<数値>

Saturday, March 27, 2010

数字をただ並べてもある集団の特徴をつかむことができない

Saturday, March 27, 2010

特徴をつかむためにある1つの数値にまとめてしまう

Saturday, March 27, 2010

まとめることを数値要約といいます

Saturday, March 27, 2010

数値要約で得られる値

•代表値;平均値・中央値・最頻値

•分散•標準偏差

Saturday, March 27, 2010

代表値

•平均値:総和÷データの個数

•中央値:データを並べた時中央にくる値•最頻値:最も頻度の高い値

(ある集団を代表し、特徴がわかる値)

Saturday, March 27, 2010

分散と標準偏差

•分  散:個々の値の平均からの距離を        自乗したものの平均値

•標準偏差:分散の平方根をとった値

(データの散らばり具合を示す値)

Saturday, March 27, 2010

嗚呼分かりにくい...

Saturday, March 27, 2010

つまり平均値を基準として個々の値がどれくらい離れているかを見る値(散らばっているか)

Saturday, March 27, 2010

まだ分かりにくい...

Saturday, March 27, 2010

平均

Saturday, March 27, 2010

記述統計の基礎のまとめ

• 統計には、記述統計と推測統計がある• 集団の傾向を捉えるために数値要約

• 平均値,最大値,分散 etc.

Saturday, March 27, 2010

それではRで数値要約をしてみましょう

Saturday, March 27, 2010

以下の関数で実行!

•基本統計量を求める:summary()

•度数分布表を作る:table()

•合計する:sum()

•データの個数を求める:length()

Saturday, March 27, 2010

続いてこちらも実行!

• 平均値を求める:mean()

• 最大値と最小値を求める:max(), min()

• 中央値を求める:median()

• 標準偏差を求める:sd()

Saturday, March 27, 2010

時間が余るようなら...

Saturday, March 27, 2010

以下は10人分のTOEICスコアです

600, 500, 720, 430, 500,550, 430, 500, 850, 400

1. “score”という名の変数に代入し2. 基礎統計量・平均値・最大値・最小値・ 中央値・標準偏差の6種類を求める

Saturday, March 27, 2010

メモを頼りに実行できれば理解は OK

Saturday, March 27, 2010

以下は10人分のTOEICスコアです

600, 500, 720, 430, 500,550, 430, 500, 850, 400

1. “score”という名の変数に代入し2. 基礎統計量・平均値・最大値・最小値・ 中央値・標準偏差の6種類を求める

Saturday, March 27, 2010

•> score <- c(600,500,720,430,500,550,430,500,850,400)

•> summary(score)

•> mean(score)

•> max(score)

•> min(score)

•> median(score)

•> sd(score)Saturday, March 27, 2010

第1部完

Saturday, March 27, 2010