自己教師あり学習:Self-supervised Learning【サーベイ論文など】

Uncategorized

自己教師あり学習

ディープラーニングを含む機械学習は、

に分類されることがあります。

  • 犬の画像に、犬という正解ラベル
  • 猫の画像に、猫という正解ラベル

が付いているデータを使って学習を進める方法が教師あり学習です。

2021年までの、画像処理や自然言語処理をはじめとする様々な領域でのディープラーニングの目覚ましい成果は、教師あり学習の恩恵を受けているものが多くあります。
一方で、ラベル付きのデータを用意するのは、簡単なことではなく、ディープラーニングの研究開発が進むとともに、ラベルが無いデータを使ったディープラーニングの手法が模索されてきました

自己教師あり学習(Self-supervised Learning)は、ラベル無しデータを使う教師なし学習の一種であるとされています。

自己教師あり学習では、人間が用意する正解ラベルが少なくて済みます

自己教師あり学習には様々な手順が提案されていますが、例えば以下があります。

  1. 人間が正解ラベルを付与していない大量のデータで、解かせたいタスクに繋がるような学習をさせる
  2. 比較的少量の正解ラベルありデータで、1の結果を基に学習をさせる

1では、例えば画像分類のタスクを解かせたい場合は、

  • ラベル無しデータからコンピュータが自動で正解ラベルを生成でき
  • 画像分類タスクの正解率が上がりそうなタスク

の学習に取り組ませます。

例えば、

  • 画像を回転させて、画像の特徴を学習する
  • 1つの画像を複数に分割、分割された画像が基の画像のどこの位置のものか予測する

などです。
これらのタスクを通して、画像に対する学習を進めます
そして、2では、1で学習したディープラーニングのモデルを基に、比較的少量の正解ラベルありデータで画像分類の学習をします

この方法で、従来の方法つまり、大量の正解ラベルありデータで学習した画像分類タスクの精度に近いところまで、自己教師あり学習の精度が迫っています。

一見すると、込み入った手順ですが、人間が付与した正解ラベルありデータに比べ、ラベル無しデータは、多くの領域で大量に存在しているため、自己教師あり学習は注目されています。

ここでは、拡大している自己教師あり学習の研究開発について、サーベイ論文や研究開発論文のリストを示します。

研究開発が進む自己教師あり学習

自然言語処理

別の記事で紹介した、

  • BERT
  • GPT-3

関連のモデルには、自己教師あり学習を活用したものが多くあります。

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (2019)

Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension (2019)

などがあります。

Self-supervised Learning: Generative or Contrastive (2020)
のサーベイ論文には、自然言語処理の事例が扱われています。

コンピュータビジョン

2021年時点で、コンピュータビジョン領域での自己教師あり学習の研究は活発な印象です

研究論文は、以下のように多数あります。

Unsupervised Visual Representation Learning by Context Prediction (2015)

Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles (2016)

Context Encoders: Feature Learning by Inpainting (2016)

Colorful Image Colorization (2016)

Representation Learning by Learning to Count (2017)

Self-supervised Learning of Motion Capture (2017)

Unsupervised Representation Learning by Predicting Image Rotations (2018)

Boosting self-supervised learning via knowledge transfer (2018)

S4L: Self-Supervised Semi-Supervised Learning (2019)

SelFlow: Self-Supervised Learning of Optical Flow (2019)

Revisiting Self-Supervised Visual Representation Learning (2019)

Scaling and Benchmarking Self-Supervised Visual Representation Learning (2019)

Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles (2019)

Big Self-Supervised Models are Strong Semi-Supervised Learners (2020)

Self-Supervised Learning of Pretext-Invariant Representations (2020)

Momentum Contrast for Unsupervised Visual Representation Learning (2020)

Bootstrap your own latent: A new approach to self-supervised Learning (2020)

サーベイ論文に、

Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey (2020)

A Survey on Contrastive Self-Supervised Learning (2020)

などがあります。

その他の領域

自然言語処理やコンピュータビジョン以外の文脈でも、自己教師あり学習の研究開発は進められています

自己教師あり学習の適用範囲の拡大など

Representation Learning with Contrastive Predictive Coding (2018)

Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty (2019)

音声関連

vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (2019)

強化学習やロボット

Curiosity-driven Exploration by Self-supervised Prediction (2017)

Time-Contrastive Networks: Self-Supervised Learning from Video (2018)

大量のラベルなしデータの活用

ラベル無しのデータは、日々増え続けています。
大量に存在するラベル無しのデータを活かしてどう学習を進めるか、自己教師あり学習が1つの領域としてその道を切り開いています

自然言語処理の分野でのBERTやGPT-3などの高い性能により、自己教師あり学習の可能性は広く知られることになりました。
今ではコンピュータビジョン領域をはじめ、様々な領域で自己教師あり学習による、ラベル無しのデータの活用は研究されています。
自然言語処理以外の分野でも、自己教師あり学習を用いたエポックメイキングな研究開発が、今後発表されるかもしれません。

自己教師あり学習について興味が出た人は、サーベイ論文を確認してみるのも良いのではないでしょうか。

コメント

タイトルとURLをコピーしました