単回帰分析とは?

date_range 2023/07/05
日々の活動日記エンジニアインターン
分析

こんにちは! マーケティング部受託プロダクトチームのインターン生、村高歩夢です!



本日は自分のアウトプットとして、データ分析の手法の一つについて書いてく!part1をやっていきます。

今までもAIやデータ分析についてチラチラ触れてきましたが、フェザータッチしかしてなかったので、

今日はガッツリ触れていこうという魂胆でございます。 今日は単回帰分析についてアウトプットします。


さらに絞って、線形単回帰分析について書いていきます。

単回帰分析は化学系の学科の僕の感想としては理系は結構馴染み深く理解しやすいかなと考えております。

というのも実験で絶対使いますから。 単回帰分析は教師あり学習の一つです。

与えられたデータから関係式を仮定することでデータを予測します。

イメージとしては中学の1次関数みたいな感じです。

x=2の時、y=4 x=4の時、y=8 じゃあ、x=8の時、yは何でしょう?

みたいな問題、中学の時やりましたよね?


この場合では y=2x という式を仮定して、そこにx=8を代入してyを求めます。

グラフで表すと綺麗な右上がりの直線上に答えが見えますよね 正しくこれ!


データから直線y=ax+bのような型の関係式を導き、その直線上に目的データの答えがあると予測するのです。

上の場合ではa=2, b=0ですね。aとbは定数、xとyは変数でしたね。

回帰分析ではxを説明変数、yを目的変数と言います。

求めてるものがyの値だよってことです。

単回帰分析だとxは一つですが、重回帰分析だと説明変数xは複数個になります。


ただ、実際にデータ分析をする場合にはさまざまな誤差があります。

出来杉くんだって、腹痛でテストの点数が低くなるかもしれません。

腹痛でトイレ集中できず、解けなかった問題分の点数。

そんなイレギュラーが多い現実では誤差を考慮してしまえば、上記の方法では綺麗な直線はできないですよね?

この誤差も含めて予測できるのが単回帰分析です。


具体的には最小二乗法という手法を用いて直線を導きます。

最小二乗法はそれぞれのデータの誤差を二乗したものの和を計算してその和が最小になる時のaとbを求めます。


データ全部に誤差があるじゃないですか。その誤差が全体的に小さくなるような式がもとまるってわけ。


誤差が小さい式なら精度が高いってわけ。(投げやり)


これが単回帰分析です。

ちなみにこの単回帰分析、客観的に見てどんくらい精度高いの? って気になるじゃないですか。

単回帰分析の精度がどれくらい高いかを数値化したものを決定係数といいます。

この決定係数は最大値が1 1に近づくほどいい分析ができます。


教科書的なデータの分析だと0.9以上が多いみたいですね。 実務はもっとイレギュラーが多いので0.6~0.8とかですかね?

あ、一応言っておくとそれぞれの分析でこの決定係数は異なりますから。

単回帰分析全体でこれくらいの数値というわけじゃないですからね。


次は重回帰分析かな?



■ガーディアン主力ソリューション→OWLet

■新サービスリリースのお知らせ WEB業界を変える!

育てて成果を上げるサブスク型HPサービス →SCSC (スクスク)

ガーディアンのインターン制度→こちら

村高歩夢の紹介ページ→こちら


*COMMENT*

  • 河原田 ゆきえ

    河原田 ゆきえ

    更新日:2023-07-05 23:54

    *コメント*

    オモロかしこい感じゃの

    *コメント*

*コメント*

*ログイン*

メールアドレス
パスワード