スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

数B③ 統計

変量 へんりょう Random variable; Variable
変量とは「身長」や「体重」など、データの項目の名前のことだと思ってくれればよいです。また、その項目の特定の値(「A君の体重」)を指して変量という場合もあるようです。
(正確に説明しようとするとかなり専門的になったり、日本語への翻訳の問題もあったりするので、高校生ならこんな感じの覚え方でいいと思います。)

変量は(方程式のときのように)xやyなど、文字で表すのが統計学では普通になります。
変量は大きく分けて、離散変量と連続変量の2つに分けることができます。


離散変量 りさんへんりょう Discrete variable
変量の分類の一つです。変量の値が、整数(など)しかとらないようなものを離散変量といいます。例えば何かの個数を調べているときには、離散変量を扱っていることになります。
「とびとびの値をとる」と説明されることも多いです。これはどういうことかというと、例えば「何かの人数」を調べているとき、「1人」と「2人」という値はとれるけれども、「1.45人」などのような値は現れません(データを分析したあとでそうなるのは別にいいんです。例えば、女性が平均して生む子どもの数などがそういう値になっているのをニュースなどで聞いたことがあるかもしれません。しかし、個々のデータをとるときには小数の値は出てこないので、「~の人数」というのは離散変量なのです)
(これに対して連続変量のほうにはそういう値がきても良いのです)。


連続変量 れんぞくへんりょう Continuous variable
変量の分類の一つです。変量の値が連続的な値を取れるものを連続変量といいます。「身長」や「体重」や「気温」などは連続変量です。

度数 どすう Frequency
変量の値を取るデータ(結果)の個数のことを、その値の度数といいます。
例えば、テストの結果を10点ずつ区分したとします(「90~100点」など)。そのとき、各区分に入る人数が、その区分の度数となります。また、各区分の人数をすべて足せば、テスト全体の度数がわかります。(度数というのは、最高が~である、というような決まりはありません。もちろん、いくつかの区分に分けたならば、各区分の度数の和が全体の度数と一致しなければなりません。)

度数分布表 どすうぶんぷひょう Frequency distribution table
それぞれの値がどんな度数を取っているかまとめた表を度数分布表といいます。

相対度数 そうたいどすう Relative frequency (density)
それぞれの度数を、全体の度数で割ったものを相対度数といいます。つまり、その度数が全体の中でどのくらいの割合を占めているかを教えてくれるものです。相対度数は必ず「0以上1未満」になります。

階級 かいきゅう Interval
テストの結果を調べるときの「90点以上100点」のような、変量の区分のことを統計学では「階級」とよびます。この階級の幅の取り方というのは特に決まりがあるわけではなく、アンケートをとる人やデータを分析する人などが自分で決めるものです(どれくらいの階級の幅にしたら良いのかというのを求めるための公式は一応ありますが、その公式で求めた幅が必ず正しいというわけでもないので、どの幅が適正であるというような正解はありません)。例えばテストの結果の階級を10点ではなく5点で区分していっても良いわけです。

階級値 かいきゅうち
それぞれの階級の、端と端の平均の値のことを階級値といいます。
例えばテストの結果「90点以上100点」という階級の階級値は「95点」です。

階級の幅 かいきゅうのはば
階級の端と端の値の差のことを階級の幅といいます。例えばテストの点「90点以上100点」という階級の幅は「10点」になります・

ヒストグラム Histogram
柱状グラフともいいます。長方形が並んでいるグラフです。横軸に階級値をとり、縦軸に度数をとります。ヒストグラムを用いることにより度数分布を視覚的に理解しやすくなります。

(これはグラフの一種ですが、ヒストグラ「ム」であって、ヒストグラ「フ」ではないです。また、ヒストグラムは「度数分布を表す棒グラフ」ということもできます。棒グラフは必ずしも度数を表す必要はありません。)


度数折れ線 どすうおれせん
ヒストグラムの長方形の上の辺の中点を、線分で結んだ線のことを度数折れ線といいます。

散布図 さんぷず;相関図 そうかんず Scatter plot; Scattergraph
座標を用い、2つ以上の変量を1組にしてその変量の関係を点で示した図のことです。高校レベルでは2つの変量を1組と考え、平面で相関を考えることになります。1つの変量を横軸、他方を縦軸にとります。横軸をx軸、縦軸をy軸と考えれば関数のグラフを書くときと同じように相関図をつくれます。ただ、関数ではないので曲線にはならず、相関図は点の集まりになります。

相関 そうかん Correlation
変量同士の関係のことを「相関」といいます。「相」は「お互いに」という意味ですので、相関とは「お互いの関係」ということです。
2つの変量があって、一方が増加すれば他方も増加し、一方が減少すれば他方も減少するような関係にあるとき「正の相関」があるといいます。また、一方が増加すれば他方が減少し、一方が減少すれば他方が増加するような関係にあるとき「負の相関」があるといいます。正の相関も負の相関でもなければ「相関はない」といいます。

注意が必要なのですが、「正の相関」「負の相関」「相関がない」というのは、明確な線引きができるものではないです。「相関係数」という、相関の度合いを示す数値もありますが、「この値以上あれば正の相関があるといえる」というような値はありません。データを分析する人が自分で決めなければならならことです。
(また、相関があるからといってすぐに「因果関係(=原因と結果の関係)」がある、とも言い切れません。)


代表値 だいひょうち
データの特徴を表す数値を全てまとめて代表値といいます。「代表値」という値を求める式があるわけではなく、色々な数値の総称を「代表値」と呼びます。代表的な代表値は「平均値」「中央値」などです。

平均値 へいきんち Average

代表値の1つです。
「平均値=(データの和)÷データの総数」
で求めます。

平均値を求める式では、シグマの記号を使います。このシグマの記号は数列の箇所ででてきたものです。和を求めているというだけなので、慣れてしまえば単純なことしか言っていないことが理解できます。もしシグマの記号を見てひるんでしまったのなら、数列の箇所に戻って記号を使う練習をしてくれれば良いと思います。


メジアン;中央値 ちゅうおうち Median
代表値の1つです。データの値を小さい順(または大きい順)に並べたときに、真ん中の順番にきているデータの値のことをメジアン(中央値)といいます。英語の発音では「メジアン」というより「ミーディアン」という感じの発音になります。
データの個数が奇数である場合は真ん中にくるものがすぐわかるのですが、データの個数が偶数である場合は真ん中にくるものが2つあることになります。この場合はその2つの平均値をメジアンといいます。

教)すべてのデータを小さい順に並べたとき、中央の順位にくるデータの値をメジアン、または中央値といいます。
ただし、データの個数が偶数の場合は、第n番目とn+1番目の順位のデータの平均値をメジアンとします。


偏差 へんさ;平均値からの偏差 へいきんちからのへんさ Deviation
ある変量があって、その変量の個々の値と、その変量全体の平均値との差を、それぞれの値の偏差といいます。つまり、それぞれの値が平均値とどれだけ離れているかを教えてくれる値のことです。もちろん、個々の値が平均値よりも小さいこともあり得ますから、偏差が負の数になることがあります。

注意が必要なのは、平均値というのは(その問題の中で)1つの値しかありませんが、偏差というのは個々の値が違っているので値ごとに違ってくるということです。つまり、データの数と同じ数だけ偏差というのはあるのです。
(偏差と標準偏差は別物です。)

偏差を全部足し合わせると0になる、という重要な性質があります。
一応0になるというのを例を出して確認しておきます(教科書などではシグマを使った数式で書いてありますがここではシグマを使わずに説明してみます。)
「x1, x2, x3」という3つのデータを考えてみます(1,2,3は添え字です)。まずこれらの平均値は:
「(x1+x2+x3)÷3」
です。この値をxと置くとします。そしてそれぞれ偏差を考えると:
「x1-x」と「x2-x」と「x3-x」
となります。これらの偏差を全部足し合わせると:
「(x1-x)+(x2-x)+(x3-x)」
です。足し算なのでカッコを外して整理すると:
「x1+x2+x3-3x」
と書けます(3xというのは「3×x」です。)ここで、x(平均値)というのは「(x1+x2+x3)÷3」のことだったので、「3x = x1+x2+x3」となります。
したがって
「x1+x2+x3-3x = x1+x2+x3-(x1+x2+x3) = 0」
となるので、偏差の合計は0になるのが確認できました。


分散 ぶんさん Variance
データの散らばり具合を表す値の1つです。分散の値が大きいほどデータの散らばり具合が大きい(=分布している範囲が広い)といえます。
分散を求めるには:
データの偏差をそれぞれ2乗します。そして、その偏差の2乗の平均値を求めます(=偏差を2乗したものを全部足して、偏差の個数で割る)。その値が分散と言われる値です(正確には標本分散といいます。高校ではやりませんが分散にも色々種類があります。)

データの偏差というのは、それぞれの値が平均値からどのくらい離れているかというのを教えてくれるものなおで、その偏差の平均をとればデータの散らばり具合(分布の程度)がわかるんじゃないか、という考えが生まれます。ただし、偏差の合計というのは常に0になってしまうのでそのまま平均をとることはできません。そこで登場するのが「分散」という値です。
(わざわざ2乗したものの平均を求めなくても、「偏差の絶対値」の平均の値でも分布の程度はわかるんじゃないか、と思うかもしれませんが、絶対値の平均はほとんど使われません。絶対値の平均を考えてもいいのですが、絶対値を使うと色々条件を考えたりしなければならず面倒だから、というのがその理由のようです。)

ここでも注意が必要ですが、「~より大きければ散らばり具合は大きい」といえるような値は特に決まっていません。

分散を数式で使う場合は、「s^2」(sの2乗)または「σ^2」(シグマの小文字の2乗)と表されるのが普通です。シグマというのはギリシャ文字で、現在の英語の「S」に当たる文字です。これは標準偏差をStandard deviationというので、それを2乗しているという意味だと思います。標準偏差とは分散の正の平方根のことです。

標準偏差 ひょうじゅんへんさ Standard deviation
分散の正の平方根の値のことを「標準偏差」といいます。分散というのは0以上の値(=負の数にはならない)であり、その正の平方根ですから、分散が大きければ標準偏差も大きくなる、と言えます(その逆:標準偏差が大きければ分散も大きい、ともいえます。)

分散の値をだすときに、偏差を2乗してしまっているので、それを元に戻すために正の平方根をとる、と思ってくれれば良いです。

相関係数 そうかんけいすう Correlation coefficient

相関の度合いを示す値の1つです。相関係数は普通「-1以上、1以下」の範囲で考えます。正の相関が大きいほど1に近い値になります。負の相関が大きいほど-1に近い値になります。

相関係数を求める式は、数式を見るとめんどくさそうですが、「偏差」と「標準偏差」を使っているだけなので、あわてずゆっくりと理解していけば単純に思えてくると思います。(ちょっと数式がうまく表示できないので数式は割愛させてもらいます…)
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

mathgalois

Author:mathgalois
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
カウンター
QRコード
QR
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。