Penulis: Universitas Lu Sidi Shanghai Jiaotong
Panduan Xin Zhiyuan Tim peneliti laboratorium APEX dari Shanghai Jiaotong University mengusulkan pelatihan kooperatif. Dengan melatih generator (G) dan harmonizer (M) secara bergantian, perbedaan JS antara distribusi saat ini dan distribusi target dapat dikurangi secara stabil tanpa pelatihan sebelumnya. Dan itu melampaui algoritma sebelumnya dalam kinerja pembangkitan dan kinerja prediksi. Untuk tugas pemodelan sekuens diskrit, algoritme tidak perlu mengubah struktur jaringan model, dan pada saat yang sama biaya komputasi relatif ideal, karena merupakan algoritme yang universal dan efisien. Artikel ini adalah interpretasi yang dibawa oleh Lu Sidi, penulis pertama tesis.
Alamat kertas: https://arxiv.org/pdf/1804.03782.pdf
GitHub: https://github.com/desire2020/Cooperative-Training
Model generatif adalah topik penting di bidang pembelajaran tanpa pengawasan. Untuk pemodelan data kontinu (seperti gambar), sejak diterbitkannya Generative Adversarial Network (GAN) pada tahun 2014, banyak kemajuan yang telah dicapai dalam penelitian. Namun untuk data diskrit, khususnya pemodelan dan pembangkitan rangkaian diskrit, penelitian tentang masalah ini belum menghasilkan terobosan yang cukup memuaskan.
Untuk jenis masalah pemodelan data, algoritma klasik seperti Estimasi kemungkinan maksimum (Estimasi Kemungkinan Maksimum, MLE) hampir tidak bisa disebut sebagai algoritma yang ideal. Dengan data yang terbatas, itu tidak cocok dengan tugas-tugas generatif. Seperti yang ditunjukkan pada gambar di bawah, MLE setara dengan mengoptimalkan divergensi KL satu sisi KL (P || G):
Karena asimetri divergensi KL, fungsi objektif MLE dapat memberikan penalti yang lebih baik untuk kesalahan dalam prediksi dan kemudian memperbaikinya; tetapi untuk kesalahan pembangkitan potensial, MLE tidak memainkan peran yang baik.
Menanggapi masalah ini, peneliti mengusulkan Sequence Generative Adversarial Network (SeqGAN) . SeqGAN merupakan salah satu upaya awal di bidang ini untuk mengatasi permasalahan MLE dengan menggunakan reinforcement learning untuk mengoptimalkan fungsi tujuan GAN yaitu:
Dibandingkan dengan algoritma klasik, SeqGAN memiliki beberapa peningkatan dalam kualitas pembuatan sampel. Namun, karena ketidakstabilan yang melekat pada jaringan musuh, SeqGAN sering berkinerja buruk dalam tugas prediktif. Selain itu, dibatasi oleh kemampuan pembelajaran penguatan berbasis kebijakan (Policy-based Reinforcement Learning) dari metode gradien kebijakan, SeqGAN tidak dapat digunakan sendiri dan memerlukan MLE untuk pra-pelatihan.
Menanggapi masalah ini, tim peneliti laboratorium APEX dari Universitas Shanghai Jiaotong mengusulkan Pelatihan Koperasi , Dengan melatih generator (G) dan rekonsiliator (M) secara bergantian, divergensi JS antara distribusi saat ini dan distribusi target dapat terus dikurangi tanpa pra-pelatihan, dan melampaui algoritme sebelumnya dalam performa pembangkitan dan performa prediksi. Untuk tugas pemodelan sekuens diskrit, algoritme tidak perlu mengubah struktur jaringan model, dan pada saat yang sama biaya komputasi relatif ideal, karena merupakan algoritme yang universal dan efisien.
- Daftar unicorn terbaru Hurun dirilis, 4 perusahaan kecerdasan buatan ada dalam daftar, dan cloud telah menjadi pemula dari teknologi
- Jingdezhen menerapkan kembang api dan petasan untuk melaporkan hadiah! Bonus hingga 2000 yuan! Laporkan nomor telepon
- Retail Morning Post JD Mall ditingkatkan menjadi sub-grup ritel, Jack Ma mengungkapkan alasan untuk tidak memasuki Eropa
- Mengapa Megvii Technology berinvestasi dalam Video ++? Perluasan tata letak menciptakan Wawancara loop tertutup AI + IoT dengan Tang Wenbin
- Klasemen putaran CBA 21, Shandong menang kembali ke empat besar, Jiangsu menyusul Liaoning, Sichuan keluar dari bawah
- Penyelidikan atas tragedi Las Vegas yang mengejutkan dunia berakhir, namun hasilnya tidak terduga ...
- Retail Morning Post Zhang Zetian menjual mansion dengan kerugian, Youzan dilaporkan, bisnis penjualan langsung Avon nol