マルチモーダル
- 画像
- 音声
- テキスト(文章)
など複数種類の情報を取り扱うディープラーニングの学習は、マルチモーダルなディープラーニングと呼ばれることがあります。
マルチモーダルなディープラーニングは注目され、研究開発が進んでいる領域です。
別の記事で紹介したOpenAIの、CLIP、DALL·Eは、マルチモーダルな学習に関係する研究です。
今日は、そんなマルチモーダルなディープラーニングについて
- Web記事
- 講義動画
- サーベイ論文
など参考になるリソースを紹介します。
リソース集
講義動画など
別の記事で紹介した、MultiModal Machine Learning 11-777 MMML以外にもマルチモーダルなディープラーニングの参考になる動画はいくつかあります。
D4L4 Multimodal Deep Learning (by Xavier Giró)
MIT 6.S191 Lecture 5 Multimodal Deep Learning
Learning Deep Multi-Modal Architectures
[SAIF 2020] Day 2: Live Streaming | Samsung
NIPS 2015 Workshop (Mooney) 15488 Multimodal Machine Learning
Web記事など
WIDeText: A Multimodal Deep Learning Framework
Embodied Multimodal Learning (EML) ICLR 2021 Workshop (Virtual)
Recent Advances in Vision-and-Language Research CVPR 2020 Tutorial
Connecting Language and Vision to Actions ACL 2018 Tutorial
Reading List for Topics in Multimodal Machine Learning
「ディープラーニングって?」東京大学大学院・山崎准教授が歴史から最新トピックまでを解説
サーベイ論文など
別の記事で紹介した論文以外にも、参照できる論文は多数あります。
Multimodal Deep Learning (2011)
Zero-Shot Learning Through Cross-Modal Transfer (2013)
A Comprehensive Survey on Cross-modal Retrieval (2016)
Deep Multimodal Learning: A Survey on Recent Advances and Trends (2017)
Multimodal Machine Learning: A Survey and Taxonomy (2017)
A survey of multimodal sentiment analysis (2017)
Learn to Combine Modalities in Multimodal Deep Learning (2018)
A Survey of Reinforcement Learning Informed by Natural Language (2019)
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications (2019)
Experience Grounds Language (2020)
マルチモーダル×ディープラーニング
マルチモーダルなディープラーニングは色々な面から注目されています。
などと合わせて、広範な領域での研究開発が行われています。
また、
- 感情認識
- 対話システム
など実社会への応用の点からも注目されています。
マルチモーダルな学習に興味がある人は、講義動画やサーベイ論文などを見てみるのもいいのではないでしょうか。
コメント