Tidak diperlukan pra-pelatihan untuk melampaui algoritme klasik, Universitas Jiaotong Shanghai mengusulkan model pelatihan kooperatif generatif CoT

Penulis: Universitas Lu Sidi Shanghai Jiaotong

Panduan Xin Zhiyuan Tim peneliti laboratorium APEX dari Shanghai Jiaotong University mengusulkan pelatihan kooperatif. Dengan melatih generator (G) dan harmonizer (M) secara bergantian, perbedaan JS antara distribusi saat ini dan distribusi target dapat dikurangi secara stabil tanpa pelatihan sebelumnya. Dan itu melampaui algoritma sebelumnya dalam kinerja pembangkitan dan kinerja prediksi. Untuk tugas pemodelan sekuens diskrit, algoritme tidak perlu mengubah struktur jaringan model, dan pada saat yang sama biaya komputasi relatif ideal, karena merupakan algoritme yang universal dan efisien. Artikel ini adalah interpretasi yang dibawa oleh Lu Sidi, penulis pertama tesis.

Alamat kertas: https://arxiv.org/pdf/1804.03782.pdf

GitHub: https://github.com/desire2020/Cooperative-Training

Model generatif adalah topik penting di bidang pembelajaran tanpa pengawasan. Untuk pemodelan data kontinu (seperti gambar), sejak diterbitkannya Generative Adversarial Network (GAN) pada tahun 2014, banyak kemajuan yang telah dicapai dalam penelitian. Namun untuk data diskrit, khususnya pemodelan dan pembangkitan rangkaian diskrit, penelitian tentang masalah ini belum menghasilkan terobosan yang cukup memuaskan.

Untuk jenis masalah pemodelan data, algoritma klasik seperti Estimasi kemungkinan maksimum (Estimasi Kemungkinan Maksimum, MLE) hampir tidak bisa disebut sebagai algoritma yang ideal. Dengan data yang terbatas, itu tidak cocok dengan tugas-tugas generatif. Seperti yang ditunjukkan pada gambar di bawah, MLE setara dengan mengoptimalkan divergensi KL satu sisi KL (P || G):

Karena asimetri divergensi KL, fungsi objektif MLE dapat memberikan penalti yang lebih baik untuk kesalahan dalam prediksi dan kemudian memperbaikinya; tetapi untuk kesalahan pembangkitan potensial, MLE tidak memainkan peran yang baik.

Menanggapi masalah ini, peneliti mengusulkan Sequence Generative Adversarial Network (SeqGAN) . SeqGAN merupakan salah satu upaya awal di bidang ini untuk mengatasi permasalahan MLE dengan menggunakan reinforcement learning untuk mengoptimalkan fungsi tujuan GAN yaitu:

Dibandingkan dengan algoritma klasik, SeqGAN memiliki beberapa peningkatan dalam kualitas pembuatan sampel. Namun, karena ketidakstabilan yang melekat pada jaringan musuh, SeqGAN sering berkinerja buruk dalam tugas prediktif. Selain itu, dibatasi oleh kemampuan pembelajaran penguatan berbasis kebijakan (Policy-based Reinforcement Learning) dari metode gradien kebijakan, SeqGAN tidak dapat digunakan sendiri dan memerlukan MLE untuk pra-pelatihan.

Menanggapi masalah ini, tim peneliti laboratorium APEX dari Universitas Shanghai Jiaotong mengusulkan Pelatihan Koperasi , Dengan melatih generator (G) dan rekonsiliator (M) secara bergantian, divergensi JS antara distribusi saat ini dan distribusi target dapat terus dikurangi tanpa pra-pelatihan, dan melampaui algoritme sebelumnya dalam performa pembangkitan dan performa prediksi. Untuk tugas pemodelan sekuens diskrit, algoritme tidak perlu mengubah struktur jaringan model, dan pada saat yang sama biaya komputasi relatif ideal, karena merupakan algoritme yang universal dan efisien.

Sepuluh Tahun dalam Puisi: Menulis perubahan-perubahan dalam hidup

Sebelumnya

Angel Guardian dengan senang hati menandatangani proyek "Mulan Kesejahteraan Masyarakat"!

Lanjut

: Daftar unicorn terbaru Hurun dirilis, 4 perusahaan kecerdasan buatan ada dalam daftar, dan cloud telah menjadi pemula dari teknologi

: Bagaimana cara pergi ke Jepang pada bulan Maret? Begitu banyak tempat menarik untuk dipilih!

: Jingdezhen menerapkan kembang api dan petasan untuk melaporkan hadiah! Bonus hingga 2000 yuan! Laporkan nomor telepon

: Untuk jatuh cinta di Yunani, pemandangannya sudah cukup!

: Retail Morning Post JD Mall ditingkatkan menjadi sub-grup ritel, Jack Ma mengungkapkan alasan untuk tidak memasuki Eropa

: Mengapa Megvii Technology berinvestasi dalam Video ++? Perluasan tata letak menciptakan Wawancara loop tertutup AI + IoT dengan Tang Wenbin

: Klasemen putaran CBA 21, Shandong menang kembali ke empat besar, Jiangsu menyusul Liaoning, Sichuan keluar dari bawah

: Penyelidikan atas tragedi Las Vegas yang mengejutkan dunia berakhir, namun hasilnya tidak terduga ...

: Selamat bersenang-senang di Turki! Mungkin perjalanan mengejutkan yang paling terjangkau ...

: Retail Morning Post Zhang Zetian menjual mansion dengan kerugian, Youzan dilaporkan, bisnis penjualan langsung Avon nol

: Jingdezhen: Museum Keramik Cina tidak tutup selama Festival Musim Semi, dan ada wanita cantik yang akan menjelaskan secara gratis!

: Phuket, melewatkan kali ini seperti melewatkan seluruh musim semi

Tidak diperlukan pra-pelatihan untuk melampaui algoritme klasik, Universitas Jiaotong Shanghai mengusulkan model pelatihan kooperatif generatif CoT

Informasi Terkait

Retail Morning Post | Jack Ma: Tidak ada Alibaba tanpa seorang wanita; pembiayaan "Sub-pesawat Militer dan Militer"

Pulau perjalanan mewah yang paling dicintai para selebritas internet, penerbangan langsung bebas visa dan hemat biaya!

Industri snack Nuggets tiga triliun

Pulanglah selama Festival Musim Semi, waspadai 10 bagian rawan kecelakaan ini

Skor tertinggi musim UEA untuk menyelamatkan Guangdong sendiri, gesper kejam + topi besar Zhang Zhaoxu

Teknik budidaya semangka musim panjang di rumah kaca

Facebook bergabung dalam pertempuran inti AI, chip mungkin mengandalkan BAT untuk menyelamatkan negara

Klub Baca Waktu Baik Hanchuan: Apresiasi dan Kreasi Puisi

Retail Morning Post Baidu fokus di B2B e-commerce, Daphne tutup 941 titik penjualan di 2018

Perasaan feminin selalu puisi