2013年7月21日日曜日

偏差値を理解しよう

茂木先生はいつも偏差値で人を測る日本の教育に怒っておられますね。
それはさておき、日本では色々なところで偏差値が使われていることは事実です。
しかし偏差値が何なのかをきちんと理解している人がどれくらいいるか、というと「?」ではないでしょうか。

高校の数学でも偏差値やそのもとである分散まできちんと扱っているところは少ないと思います。
大学に入ってからも統計に触れる機会のある人はあまり多くないと思いますし、触れることがあっても小難しい数式が並んでいる(ように見える)ためけっきょく分からないまま終わってしまう人もいるのではないでしょうか。

そういうわけでせめてそこらじゅうに徘徊している偏差値くらいは正体を知ろうというのがこの記事の目指すところです。



次のような3つのグループを考えます。

いずれも25人のクラス、青組・赤組・緑組が10点満点のテストを受けました。
その結果が下のそれぞれのグラフです。
横軸の値は点数を、縦軸の値は人数を表しています。
例えば青組で7点の人は3人いる、といった具合です。






さて、まずはそれぞれのクラスの平均点を求めてみましょう。

平均点の計算はわりとなじみ深いものだと思いますが、いちおう飛ばさずにやってみます。
馬鹿にするんじゃねぇ、平均の求め方くらいわかるわ、という方は次の節へ進んでください。
平均点は(全員の点数の合計)÷(人数)で求められます。
青組なら1点の人が1人、2点の人が2人、3点の人が3人、4点の人が4人、5点の人が5人、6点の人が4人、7点の人が3人、8点の人が2人、9点の人が1人ですから、
(1×1+2×2+3×3+4×4+5×5+6×4+7×3+8×2+9×1)÷25=5点です。
同じように赤組・緑組も求められます。

計算すると青組:5点・赤組:2.32点・緑組:5.4点という平均点が求まります。

ここから一足飛びに偏差値の話に飛びたいのですが、そうはいきません。
偏差値の定義は次の通りです。
(ある人の偏差値)={(その人の点数)-(平均点)}÷(標準偏差)×10+50

10とか50とかいう数字に深い意味はありません。
しかし「標準偏差」というやつがいます。
これはなんでしょうか。
標準偏差の定義は次の通りです。
(標準偏差)=√(分散)
ブログの書式だと伝わりにくいと思いますので両辺を2乗しますと、
(標準偏差)×(標準偏差)=(分散)
ということになります。

またよくわからないものが出てきました。
「分散」とはなんでしょうか。
分散の定義は次のとおりです。
(分散)=(各人の点数を2乗したももの平均)-(平均点)×(平均点)

定義に従って赤組の分散を求めると次のようになります。
(1^2×1+2^2×2+3^2×3+4^2×4+5^2×5+6^2×4+7^2×3+8^2×2+9^2×1)÷25-5^5
=(1×1+4×2+9×3+16×4+25×5+36×4+49×3+64×2+81×1)÷25-25
=4
「^」はその前の数字を、その後の数字の回数だけ掛けることを示します。

計算すると青組:4・赤組:2.46・緑組:7.04という分散が求まります。
標準偏差青組:2点・赤組:1.57点・緑組:2.65点となります。
これで偏差値を求める準備ができました。

例えば青組で7点とったアオさんの偏差値を求めてみましょう。
(アオさんの偏差値)
={(アオさんの点数)-(平均点)}÷(標準偏差)×10+50
=(7-5)÷2×10+50
=60

同じ計算を今度は緑組で7点とったミドリさんでやってみると、偏差値は56点になります。

同じ点数なのにアオさんの方がミドリさんより偏差値が高くなっています。
その理由は2つに分解できます。

まず、青組と緑組では赤組の方が平均点が低くなっています。
そのため同じ7点でもアオさんの方が平均点との差が大きくなっています。

次に、青組の方が緑組よりも低い標準偏差になっています。
計算式に戻れば標準偏差が低い方が偏差値が高くなることが分かると思います。

平均点はともかく、標準偏差の大小は何を表しているのでしょうか。
計算の方法はすでに示しましたからここでは実際的な意味を問題にしてみます。
結論としては標準偏差は点数の「散らばり具合」を示しているということです。

「散らばり具合」とは何を指すのでしょうか。
ここで最初のグラフに戻ってみてください。
青組は平均点の5点の人が5人と最も多く、その他の点数をとった人の人数も平均点に近いほど多くなっています。
これに対して緑組はどの点数をとった人も2人か3人でばらばらです。
青組の標準偏差が2点なのに対し、緑組の標準偏差が2.65点とより高いのは緑組の方がよりばらばらに散らばっていることを表しているというわけです。

赤組はどうでしょう。
標準偏差は1.57点です。
2点をとった人が24人いてかなりまとまっているといえるでしょう。
10点の1人だけが「散らばって」いるので青組や緑組よりも低い標準偏差になっているのです。
ここで10点をとったアカさんの偏差値はなんと98.9点にもなります。
他の人が同じ点数にまとまっていて、自分だけがそこから遠く離れた点数をとったのでそれが偏差値であることすら疑わしいような高い偏差値が出ています。

で、けっきょく偏差値って何なの? と思われたことと思います。
偏差値がわかるとその人が全体の中でだいたいどれくらいの位置にいるかがわかるといわれています。
Wikipediaから引用すると、
偏差値60以上(あるいは40以下)は、全体の15.866%
偏差値70以上(あるいは30以下)は、全体の2.275%
偏差値80以上(あるいは20以下)は、全体の0.13499%
偏差値90以上(あるいは10以下)は、全体の0.00315%
偏差値100以上(あるいは0以下)は、全体の0.00002%
とのことです。

ただしこれは点数の散らばり方(具合ではなく)が標準正規分布に従っているかそれに近いときのみです。
とりあえず条件つきということです。

模試の点数などという例を考えてみると、だいたいの場合は自分の偏差値だけでなく自分の順位も分かります。
受験者数ももちろんわかります。
偏差値は順位が分からないときにだいたい自分が集団のどのあたりの位置にいるかの目安になるものなので、順位が分かっているなら本来必要ないもののように私は思います。

もっともすべての模試について受験者数が同じということはありえないので、複数の模試の結果を横断的に見るときに自分の位置がどう変化しているのか、などという判断をする基準にはなるかもしれません。
4月に受けた模試で3000人中1000位、9月に受けた模試では5000人中1000位、ということであれば4月より9月の方が相対的に成績はよくなったことになります。
しかしこのことも偏差値なしでは分からないかといえばそうでもないでしょう。

それに自分の成績が相対的によくなったかどうかを判断するにはまわりの受験生のレベルが変化していないかどうかを知る必要があります。
とてもよくできる3000人のうちの1000位と不出来な5000人のうちの1000位とを比較すれば、実際には3000人のうちの1000位の方が実力が上だということは十分にありえるでしょう。

……と考えると偏差値を、特に受験の場で考えることにどれほどの意味があるのか私にはよくわかりません。
偏差値しか教えてもらえないような状況ではそれなりに意味を持つとは思いますけれども。

偏差値の正体に関する話はこれで終わりです。
最後にWikipediaの偏差値のページのリンクを貼っておきます。
ではでは。

0 件のコメント:

コメントを投稿