自己教師あり学習
ディープラーニングを含む機械学習は、
に分類されることがあります。
- 犬の画像に、犬という正解ラベル
- 猫の画像に、猫という正解ラベル
が付いているデータを使って学習を進める方法が教師あり学習です。
2021年までの、画像処理や自然言語処理をはじめとする様々な領域でのディープラーニングの目覚ましい成果は、教師あり学習の恩恵を受けているものが多くあります。
一方で、ラベル付きのデータを用意するのは、簡単なことではなく、ディープラーニングの研究開発が進むとともに、ラベルが無いデータを使ったディープラーニングの手法が模索されてきました。
自己教師あり学習(Self-supervised Learning)は、ラベル無しデータを使う教師なし学習の一種であるとされています。
自己教師あり学習では、人間が用意する正解ラベルが少なくて済みます。
自己教師あり学習には様々な手順が提案されていますが、例えば以下があります。
- 人間が正解ラベルを付与していない大量のデータで、解かせたいタスクに繋がるような学習をさせる
- 比較的少量の正解ラベルありデータで、1の結果を基に学習をさせる
1では、例えば画像分類のタスクを解かせたい場合は、
- ラベル無しデータからコンピュータが自動で正解ラベルを生成でき
- 画像分類タスクの正解率が上がりそうなタスク
の学習に取り組ませます。
例えば、
- 画像を回転させて、画像の特徴を学習する
- 1つの画像を複数に分割、分割された画像が基の画像のどこの位置のものか予測する
などです。
これらのタスクを通して、画像に対する学習を進めます。
そして、2では、1で学習したディープラーニングのモデルを基に、比較的少量の正解ラベルありデータで画像分類の学習をします。
この方法で、従来の方法つまり、大量の正解ラベルありデータで学習した画像分類タスクの精度に近いところまで、自己教師あり学習の精度が迫っています。
一見すると、込み入った手順ですが、人間が付与した正解ラベルありデータに比べ、ラベル無しデータは、多くの領域で大量に存在しているため、自己教師あり学習は注目されています。
ここでは、拡大している自己教師あり学習の研究開発について、サーベイ論文や研究開発論文のリストを示します。
研究開発が進む自己教師あり学習
自然言語処理
別の記事で紹介した、
- BERT
- GPT-3
関連のモデルには、自己教師あり学習を活用したものが多くあります。
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (2019)
などがあります。
Self-supervised Learning: Generative or Contrastive (2020)
のサーベイ論文には、自然言語処理の事例が扱われています。
コンピュータビジョン
2021年時点で、コンピュータビジョン領域での自己教師あり学習の研究は活発な印象です。
研究論文は、以下のように多数あります。
Unsupervised Visual Representation Learning by Context Prediction (2015)
Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles (2016)
Context Encoders: Feature Learning by Inpainting (2016)
Colorful Image Colorization (2016)
Representation Learning by Learning to Count (2017)
Self-supervised Learning of Motion Capture (2017)
Unsupervised Representation Learning by Predicting Image Rotations (2018)
Boosting self-supervised learning via knowledge transfer (2018)
S4L: Self-Supervised Semi-Supervised Learning (2019)
SelFlow: Self-Supervised Learning of Optical Flow (2019)
Revisiting Self-Supervised Visual Representation Learning (2019)
Scaling and Benchmarking Self-Supervised Visual Representation Learning (2019)
Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles (2019)
Big Self-Supervised Models are Strong Semi-Supervised Learners (2020)
Self-Supervised Learning of Pretext-Invariant Representations (2020)
Momentum Contrast for Unsupervised Visual Representation Learning (2020)
Bootstrap your own latent: A new approach to self-supervised Learning (2020)
サーベイ論文に、
Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey (2020)
A Survey on Contrastive Self-Supervised Learning (2020)
などがあります。
その他の領域
自然言語処理やコンピュータビジョン以外の文脈でも、自己教師あり学習の研究開発は進められています。
自己教師あり学習の適用範囲の拡大など
Representation Learning with Contrastive Predictive Coding (2018)
Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty (2019)
音声関連
vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (2019)
強化学習やロボット
Curiosity-driven Exploration by Self-supervised Prediction (2017)
Time-Contrastive Networks: Self-Supervised Learning from Video (2018)
大量のラベルなしデータの活用
ラベル無しのデータは、日々増え続けています。
大量に存在するラベル無しのデータを活かしてどう学習を進めるか、自己教師あり学習が1つの領域としてその道を切り開いています。
自然言語処理の分野でのBERTやGPT-3などの高い性能により、自己教師あり学習の可能性は広く知られることになりました。
今ではコンピュータビジョン領域をはじめ、様々な領域で自己教師あり学習による、ラベル無しのデータの活用は研究されています。
自然言語処理以外の分野でも、自己教師あり学習を用いたエポックメイキングな研究開発が、今後発表されるかもしれません。
自己教師あり学習について興味が出た人は、サーベイ論文を確認してみるのも良いのではないでしょうか。
コメント