平均二乗誤差損失における局所的最小値｜機械学習｜AGI Lambda

1,662 文字

Neural Network mapping vs Gradient descent function

単純なY = x²のグラフを考えてみましょう。このグラフは、このシンプルな平均二乗誤差損失の方程式で表すことができます。ただし、これは単純なY = x²のグラフではなく、実際の出力に対する予測からの損失であることを覚えておいてください。ここには2つの値があり、y hatはニューラルネットワークからの予測で、Yはデータセットからのラベルです。
この単純な方程式は、ラベルと予測の両方を使用して計算された損失を表しています。x軸には予測を、y軸には予測に対する損失を加えました。予測の初期値であるy hatを1.5とした場合、現時点での予測が1.5で損失が0.25となります。予測の値を変更すると、損失も変化することがわかります。
問題は、与えられた点において損失を減らすために予測値を増やすべきか、それとも減らすべきかということです。また、どれだけ増減させるべきでしょうか。そのために、微分を計算します。この値は単純に予測に対する損失の微分を表しています。損失はここでは2つの値にのみ依存していることを覚えておいてください。ここでのラベルはデータセットからの静的な値なので変更できませんが、予測は損失を減らすために変更できます。
これが予測に関してのみ損失の微分を計算する理由です。損失の予測に対する微分が正であることがわかります。この正の符号は、損失を減らすために予測を減らす必要があることを示しています。予測を減らすことで損失が減少することがわかります。
損失の予測に対する微分が負であることがわかります。この負の符号は、損失を減らすために予測を増やす必要があることを示しています。予測値を増やすことで総損失は減少しますが、損失が最小で勾配がゼロとなる点が1つだけあります。
しかし、ここでは平均二乗誤差損失における局所的最小値について議論したいと思います。別のグラフを追加してみましょう。ここで状況は興味深くなります。最初の入力を2.0、2番目の入力を3.0とし、重みW1も持っています。これは方程式のパラメータで変更可能です。この方程式は入力と重みを受け取り、y hatを与えます。このy hatは上記で説明した損失を計算するために使用されます。
この方程式はニューラルネットワークではないことを覚えておいてください。私は1つの重みでこれを使用しただけです。なぜなら視覚化が簡単だからです。この方程式の代わりにニューラルネットワークを想像することができます。x軸は重みの値を表し、y軸はy hatの値を表しています。これは上記の損失関数で使用しているのと同じy hatです。
重みの値を変更するだけで、最初のグラフの損失を増減できることがわかります。これは、上記の方程式で使用されているy hatが、この下の方程式を使用して入力から得られるy hatと同じだからです。
これは1つの関数に過ぎないという事実があります。これを理解するために、これら2つの関数を組み合わせてみましょう。この方程式は前の2つの方程式の組み合わせで、平均二乗誤差損失方程式と呼ぶことができます。ここには前の方程式と同じように、最初の入力i1、2番目の入力i2、1つの重み、そして損失を計算するためのラベルがあります。
これは同じ平均二乗誤差損失ですが、予測値が実際の予測方程式に置き換えられているだけであることがわかります。また、ラベルについては、x軸にW1、y軸に損失があります。損失の微分は重みW1に関して直接計算されます。モデルが行き詰まる可能性のある局所的最小値があることがわかります。このような問題を解決するために最適化手法を使用しますが、ここでツイストがあります。
データセットの異なる入力を使用して、それぞれの損失を最小化することができ、異なる入力に対して異なるラベルを持つこともできます。また、複数のラベルについてはどうでしょうか。これらの変更により、最小化したい関数が変わる可能性があります。このトピックについては次の動画でさらに議論します。