C#で最小二乗法をつかって単回帰直線を引くプログラムを作成します。

単回帰分析がなにか? 単回帰分析の重要性に関してはこの動画がわかりやすいと思います。

たとえばマーケティングでは「獲得したデータを分析し、いかに将来の顧客行動を予測するか」が大切です。ここで獲得するデータは、ひとつではありません。アンケートデータや購買データ、Webの閲覧データなどがあります。他にもあるかもしれません。これは重回帰分析とよばれます。回帰分析は、データ分析による予測の基礎であります。

回帰分析のなかでも単回帰分析は1つの目的変数を1つの説明変数で予測するもので、1つの目的変数を1つの説明変数からY=aX+bという一次方程式の形で表します。Y=aX+bのa(傾き)とb(Y切片)がわかれば、両者の関係を予測することができるのです。

たとえば冷たい飲み物を売っている店があってその日の気温が高ければ冷たい飲み物もたくさん売れることは予想できます。これまでに蓄積してきた気温と売上のデータから明日の気温の予想ができれば用意すべき飲み物も量も予測できます。たくさん商品を用意しても売れ残ってしまえば捨てるしかありません。少なくしか商品を用意できないのであれば顧客を満足させることはできません。

お客さんがどれくらい来てどれくらい注文されるかは店の人にとっては重大な問題なのです。

ではこれまでの気温とこれまでの売上のデータから単回帰直線を引くにはどうすればいいのでしょうか? これに関しては最小二乗法という手法を用いるのですが、この手法に関しては以下の動画がわかりやすいと思います。

ではこの計算方法で単回帰直線を引くことを考えてみましょう。細かい計算法の説明は上の動画に委ねます。ここで説明されていることは、単回帰直線の傾きと切片(一次直線 y = ax + b の a の部分と b の部分)は以下のようにして計算されるのです。

a = {(xとyの積の平均値) – (xの平均値 * y平均値)} ÷ {(xの2乗の平均) – (xの平均値の2乗)}
b = – a * (xの平均値) + (yの平均値)

なぜこんな計算式になるのかは動画をみてください。

では実際に計算してみましょう。

XとYを格納するクラスDataを作成します。

DataのインスタンスができたらDataのリストに格納します。

変数xの平均 AverageOfX、変数yの平均 AverageOfY、変数xとyの積の平均 AverageOfXY、変数xの2乗の平均 AverageOfSquareXとすると以下のようになります。

そして単回帰直線の傾きと切片を求めると以下のようになります。

これでaとb、すなわち単回帰直線の傾きと切片を求めることができます。

では適当なデータを入力して試運転してみましょう。

これで処理を実行すると、a = 0.589267803410231, b = 1.95486459378134になります。

これでグラフを作成してみます。最小値は0より大きく最大値は10より少し大きいです。そこで縦横350ピクセルのビットマップを作成してXとYの値を30倍してその座標に点を描画します。

実行結果は以下のようになります。