データサイエンティストへの道

投稿2日ほど遅刻しました、すみません。

初めに。
この記事は機械学習をかじり始めの僕自身のためのものとなっております。ご了承ください。
この記事はデータサイエンティストを目指す人、または機械学習を少し勉強したが少し不安がある人向けのチェックシートのようなものとなっております。

  1. どのような場合にGDではなくSGDを使うべきか。また逆も然り。

2. データセットがある場合にそれを訓練データ(training data)、検証データ(validation data)、テストデータ(test data)に振り分けるべきか。

3. ニューラルネットワークの長所・短所




答えが見たい人はスクローーーール






















【答え】
1. GDはデータセットが小さい時に、SGDはデータセットが大きい時に使用するのが良い。
 ただ、大抵の場合SGDが用いられています。理由は各自考えてみてください。

2. 特に決まった指標はないが、training(training, validation data)に80%を、test dataに20%を割り振るのが良いとされている。trainingの80%はそこから更に交差検証用に振り分ける必要が足ます。

3. 利点:非構造化データ(unstructured data)に対しては機械学習手法の中で群を抜いて効果的。例) 画像、動画、音声など
難点:モデルを確立する(収束する)までに大量な訓練データが必要となる。など


【おまけの問題】 no free lunch theoremとはなにか

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中