Sudut Pandang | Bagaimana saya meneliti pembelajaran penguatan selama 18 bulan saya bekerja di Google Brain?

Peninjauan Teknologi AI: Di bidang pembelajaran penguatan, konten penelitian Google Brain selalu menjadi fokus industri. Marc G. Bellemare adalah peneliti di Google Brain. Arahan penelitiannya adalah pembelajaran penguatan didistribusikan, pembelajaran representasi, dll. Dia menulis dan menerbitkan artikel tentang pengalaman dan pengalaman penelitian selama 18 bulan di Google Brain. Teks lengkap dari AI Technology Review disusun sebagai berikut.

Kembali pada musim panas 2017, selama periode perjalanan perpisahan di Eropa, saya dipekerjakan oleh tim Google Brain yang baru dibentuk di Montreal (saya bekerja dari jarak jauh pada saat itu). Saya dapat melihat pemandangan menakjubkan Belsize Park di London Utara dari kantor pusat saya dan telah menjadi tuan rumah bagi seluruh tim pembelajaran intensif Google Montreal, yang memang benar.

Sejak itu, saya pindah ke benua lain, beralih antara tiga peran magang AI, peneliti mahasiswa, dan karyawan Google penuh waktu. Sekarang, ukuran tim Google telah berkembang pesat (dan terus berkembang: Marlos C. Machado juga bergabung dengan kami). Kalau dipikir-pikir, 2018 adalah tahun yang sangat produktif. Blog ini meninjau hasil penelitian ilmiah kami selama ini, dan memperkenalkan kemajuan penelitian tim Google Brain Montreal dalam pembelajaran penguatan dan kerja sama hebat yang telah kami ikuti dari perspektif panorama, sehingga kami dapat memiliki pandangan yang baik tentang masa depan. Mendapat pengakuan.

Pembelajaran penguatan terdistribusi

"Itu bagus. Tapi bagaimana itu bisa dicapai?"

Dalam pembelajaran penguatan, metode terdistribusi percaya bahwa kita harus memprediksi distribusi pengembalian acak, daripada memprediksi nilai yang diharapkan (Bellemare, Dabney, Munos, ICML 2017 Link: .pdf). Namun, sebagian besar agen terdistribusi masih mengekstrak distribusi nilai tindakan ke masing-masing nilai yang diharapkan, lalu memilih operasi dengan nilai harapan tertinggi untuk dijalankan. Perkiraan, lalu ekstrak. Jadi, mengapa ini bekerja dengan sangat baik dalam praktiknya?

Untuk menjawab pertanyaan ini, kami mengembangkan bahasa formal untuk menganalisis metode pembelajaran penguatan terdistribusi, terutama metode berbasis sampel (Rowland et al., AISTATS 2018). Melalui formulir ini, kami menemukan bahwa algoritma terdistribusi asli (disebut C51) secara implisit meminimalkan jarak antara distribusi probabilitas (jarak Cramér). Tetapi beberapa hasil kami menunjukkan bahwa algoritma terdistribusi harus meminimalkan jarak Wasserstein antar distribusi, bukan jarak Cramér. Kami (maksud saya Will Dabney) menggunakan teknik yang disebut regresi kuantitatif (regresi kuantitatif) untuk mengoreksi ulang sebagian besar C51 guna meminimalkan jarak Wasserstein hingga batas tertentu. Agen yang dihasilkan (yang ini disebut QR-DQN) menunjukkan kinerja yang kuat pada tolok ukur Atari 2600 (Dabney et al., Tautan AAAI 2018: https://arxiv.org/abs/1710.10044). Hasil menarik lainnya adalah bahwa Mark Rowland baru-baru ini menemukan ketidaksesuaian yang menarik antara statistik dan sampel dalam pembelajaran penguatan terdistribusi, yang menjelaskan mengapa algoritme ini efektif, sementara algoritme lain pasti gagal (Rowland et al. al., 2019 tautan: https://arxiv.org/abs/1902.08102).

Berdasarkan analisis Mark tentang C51, kami memperoleh algoritme terdistribusi dari prinsip-prinsip dasar - dalam contoh ini, jarak Cramér yang lebih mudah ditangani digunakan. Tujuan kami adalah mengembangkan algoritme alokasi yang dapat secara eksplisit melakukan penurunan gradien pada kehilangan alokasi (C51 maupun QR-DQN tidak melakukan ini), dan yang akhirnya kami kembangkan adalah algoritme yang kami beri nama S51 (Bellemare et al. People, AISTATS 2019 link: https://arxiv.org/abs/1902.03149); "S" adalah singkatan dari "signed", karena algoritme dapat mengeluarkan probabilitas negatif yang valid. Karena kesederhanaannya yang relatif, kami dapat membuktikan bahwa bila dikombinasikan dengan pendekatan fungsi linier, S51 dapat menjamin konvergensi. Dalam prosesnya, kami juga mengumpulkan beberapa bukti untuk membuktikan bahwa dalam beberapa contoh patologis, metode prediksi + ekstraksi lebih buruk daripada prediksi langsung dari nilai yang diharapkan. Ini adalah hasil alami dari "model yang lebih cenderung salah identifikasi" yang disebutkan oleh pemberi komentar.

Sejak itu, kami juga telah membuktikan bahwa menggabungkan metode prediksi + ekstraksi ke dalam representasi tabel sebenarnya tidak valid, dan pada saat yang sama membuktikan bahwa jika metode tersebut digabungkan ke dalam representasi linier, kinerjanya mungkin lebih buruk dari yang diharapkan pembelajaran penguatan (Lyle, Castro , Bellemare, tautan AAAI 2019: https://arxiv.org/abs/1901.11084). Hal ini memungkinkan kami untuk mengesampingkan penjelasan umum yang tidak bergantung pada pilihan representasi, seperti "pembelajaran penguatan terdistribusi mengurangi varians" atau "prediksi terdistribusi rata-rata mengarah ke estimasi nilai yang lebih akurat". Penjelasan ini entah bagaimana salah mengutip Mr. Holmes. Setelah Anda mengesampingkan yang tidak mungkin, yang tersisa pasti kebenaran: begitu pembelajaran penguatan terdistribusi digabungkan dengan jaringan yang dalam, tampaknya itu menjadi berguna.

Untuk mengumpulkan bukti lebih lanjut dalam hal ini, kami melatih agen di domain Cartpole, atau menggunakan representasi berdimensi rendah tetap (tautan basis Fourier orde pertama: https://people.cs.umass.edu/~pthomas/papers /Konidaris2011a.pdf), atau gunakan jaringan dalam yang serupa. Hasilnya (diringkas seperti yang ditunjukkan pada bagan di bawah) cukup meyakinkan: dalam kasus representasi tetap, kinerja metode terdistribusi lebih buruk daripada yang didasarkan pada ekspektasi; tetapi dengan representasi yang dalam, kinerjanya lebih baik. Makalah ini juga menunjukkan bahwa metode berbasis Cramér harus menghasilkan fungsi distribusi kumulatif (fungsi distribusi kumulatif) daripada fungsi massa probabilitas (PMF).

Seorang praktisi deep learning secara alami akan sampai pada kesimpulan bahwa pembelajaran penguatan terdistribusi berguna karena "membantu untuk mempelajari representasi yang lebih baik." Tapi apa artinya dalam bentuk? Bagaimana membuktikan atau membantah pernyataan ini? Pertanyaan-pertanyaan ini mendorong kami untuk mempelajari topik yang sangat hangat: penerapan pembelajaran representasi untuk pembelajaran penguatan.

Pembelajaran representasi

Musim panas lalu, Will Dabney dan saya merancang eksperimen yang kami sebut "pai apel" untuk pembelajaran representasi dalam pembelajaran penguatan: penyiapan sederhana untuk mempelajari apa artinya mempelajari representasi yang baik. Eksperimen ini mencakup 1) lingkungan yang komprehensif (domain empat ruang); 2) melatih jaringan dalam yang sangat besar; 3) membuat berbagai prediksi. Kami mendefinisikan representasi sebagai pemetaan dari vektor fitur berdimensi-d dan status, dan kemudian secara linier memetakan vektor fitur ini ke prediksi. Dalam semua percobaan, d lebih kecil dari jumlah status. Pengaturan ini memungkinkan kita untuk menjawab pertanyaan seperti: "Saat kita melatih jaringan untuk memprediksi X, representasi apa yang diperoleh?", Di mana X dapat berupa fungsi nilai, distribusi nilai, atau beberapa tugas tambahan.

Melalui eksplorasi berkelanjutan dari masalah kecil ini, kami menyadari bahwa kami dapat merumuskan kriteria representasi yang optimal. Kriteria menyatakan bahwa representasi optimal harus meminimalkan kesalahan perkiraan dari semua fungsi nilai yang "dapat direalisasikan". Di sini saya menggunakan "dapat dicapai" yang berarti "dihasilkan oleh strategi tertentu" (Bellemare et al., Tautan 2019: https://arxiv.org/abs/1901.11530). Faktanya, kita hanya perlu mempertimbangkan subset yang sangat khusus dari fungsi nilai tersebut, yaitu fungsi nilai adversarial (AVF), untuk mencerminkan karakteristik nilai minimum dari kriteria optimalitas. Karena parameter tersebut pada dasarnya geometris maka hasil yang didapat juga sangat menarik. Sepanjang proses, kami menemukan bahwa ruang fungsi nilai itu sendiri sangat terstruktur: Meskipun ada beberapa fitur yang tidak intuitif, ini adalah polihedron secara keseluruhan (Dadashi et al., 2019 tautan: https: // arxiv .org / abs / 1901.11524).

Kami menggunakan "FMRI untuk Karakterisasi" (lihat di atas) untuk memvisualisasikan efek dari metode ini (di atas; kode disediakan oleh Marlos C. Machado). Di sini, setiap sel mendeskripsikan aktivasi fitur yang dinormalisasi sebagai fungsi dari status input. Gambar tersebut membandingkan situasi ketika jaringan dilatih untuk memprediksi satu fungsi nilai atau beberapa AVF. Jika hanya representasi nilai yang digunakan, hasil yang diperoleh agak tidak memuaskan: fitur tunggal tidak aktif di antara status atau salinan fungsi nilai yang diprediksi; selain itu, ada gangguan dalam mode aktivasi. Sebaliknya, struktur yang dihasilkan dengan metode AVFs sangatlah indah.

Kita dapat menggunakan alat yang sama untuk memastikan bahwa pembelajaran penguatan terdistribusi memang mempelajari representasi yang lebih kaya. Gambar di bawah ini adalah visualisasi karakteristik yang dipelajari saat menggunakan C51 (kiri) atau QR-DQN (kanan) untuk memprediksi distribusi nilai strategi acak. Fitur-fitur yang diperoleh dengan regresi kuantitatif menyediakan berbagai respons, dari puncak ketinggian di dekat target (baris kedua di pojok kiri bawah) hingga dispersi relatif (pojok kanan atas). Kedua rangkaian fitur ini lebih terstruktur daripada pembelajaran penguatan yang disebutkan sebelumnya dalam mempelajari fungsi nilai (kiri gambar sebelumnya).

Untuk melengkapi hasil ini, kami memvisualisasikan aktivasi unit tersembunyi di agen game Atari 2600. Ini merupakan bagian dari kerjasama yang sangat baik dengan Pablo Samuel Castro, Felipe Such, Joel Lehman dan banyak lainnya dalam proyek "Kebun Binatang Atari" (misalnya, dkk., Lokakarya RL Mendalam di NeurIPS, 2018 Tautan: https: // arxiv .org / abs / 1812.07069). Untuk menekankan salah satu hasil, karakteristik konvolusi yang dipelajari oleh algoritma terdistribusi (algoritma ini merupakan perpanjangan dari C51 oleh Hessel et al., Disebut Rainbow) biasanya lebih detail dan kompleks daripada karakteristik konvolusi yang dipelajari oleh DQN yang tidak terdistribusi, seperti yang ditunjukkan di bawah ini Contoh game Seaquest ditampilkan:

Sama pentingnya, kami menemukan bahwa memprediksi fungsi nilai dari beberapa tingkat diskon juga merupakan cara yang sederhana dan efektif untuk membuat tugas tambahan di game Atari 2600 (Fedus et al., 2019 tautan: https://arxiv.org/abs /1902.06865).

Tidak diragukan lagi bahwa metode pembelajaran penguatan yang berbeda akan menghasilkan bentuk representasi yang berbeda, dan interaksi yang kompleks akan terjadi antara pembelajaran mendalam dan pembelajaran penguatan. Jika Anda beruntung, kami juga akan mengetahui hubungan antara representasi ini dan kinerja empiris agen di tahun depan.

perangkat lunak

Jika Anda menghadiri salah satu pidato saya tahun lalu, Anda mungkin melihat isi pidato saya sebagai berikut:

Menurut tanggal rilis, sumbu waktu mengatur 60 game yang disediakan oleh Arcade Learning Environment dalam urutan kronologis. Setiap judul mengidentifikasi estimasi (subyektif) agen pembelajaran dengan performa terbaik: Superman (grid hitam), mirip dengan manusia (grid merah dan putih). Terakhir, AI dalam game tidak menyelesaikan game, tetapi murni Skor adalah skor untuk permainan gol (kotak abu-abu). Garis waktu menunjukkan bahwa game dengan label "Superman" di depan lebih penting daripada game di belakang. Menurut saya, ini membuktikan bahwa early game lebih mudah daripada late game, sebagian karena adanya pergeseran pengalaman video game: dari game reaktif (Pong) ke game kognitif (Pitfall!)

Perhatikan bahwa jadwalnya dimulai pada pertengahan 2017 dan sekarang agak ketinggalan jaman. Setelah penyesuaian, kami juga mempertimbangkan game lain, seperti Montezuma's Revenge melalui penggunaan pembelajaran imitasi (Hester et al., 2017 link: https: // arxiv .org / abs / 1704.03732; Aytar et al., 2018 tautan: https://arxiv.org/abs/1805.11592) dan skema non-parametrik (Ecofett et al., 2019 tautan: https://arxiv.org/abs/ 1901.10995) telah mencapai peningkatan performa yang sangat besar, namun meskipun demikian, kami mungkin masih melewatkan beberapa game yang mewakili. Mengingat bahwa ALE telah memainkan peran penting dalam mempromosikan kebangkitan penelitian pembelajaran penguatan mendalam, kita harus secara aktif mencari "Atari berikutnya" di bidang pembelajaran penguatan.

Tetapi bagan ini juga membantu saya mengilustrasikan poin lain: ALE sekarang menjadi patokan yang matang dan harus diperlakukan secara terpisah dari tantangan yang muncul. Dalam kata-kata Miles Brundage: Game Atari, "Jika Anda peduli dengan efisiensi sampel, maka itu dapat digunakan sebagai tolok ukur pembelajaran penguatan." Pembelajaran penguatan yang mendalam sendiri juga semakin matang: Untuk pemahaman yang lebih baik tentang teknologi saat ini, silakan lihat ulasan Vincent François-Lavet (2019) (tautan: https://arxiv.org/abs/1811.12560). Setelah mencapai keberhasilan awal yang menarik, pembelajaran penguatan yang mendalam mungkin siap untuk kembali ke dasar.

Salah satu hasil dari pendewasaan ini adalah update kedua dari makalah ALE yang diketuai oleh murid saya saat itu, Marlos C. Machado, dan hasilnya baru dirilis bersamaan dengan kode baru. Peluncuran kode ini membuka tingkat kesulitan tambahan (rasa), yang membuktikan bahwa hasil baru sangat berguna untuk penelitian pembelajaran transfer (tautan Machado et al., 2018: https://jair.org/index.php/jair/article / view / 11182). Ada terlalu banyak hal baik untuk dicantumkan dalam makalah ini, tetapi hal pertama yang didiskusikan adalah bagaimana mengevaluasi pengulangan dan keadilan pembelajaran algoritma bermain Atari. Contoh yang baik tentang bagaimana komunitas menerima hal ini dapat dilihat di Twitter-eddies yang diposting di blog Go-Explore: Setelah diskusi, penulis menggunakan kembali skema evaluasi "perilaku melekat" yang kami rekomendasikan untuk mengevaluasi metode mereka. (Jika Anda tertarik, ini adalah tautan Twitter dari Jeff Clune: https://twitter.com/jeffclune/status/1088857228222709760).

Pada bulan Agustus tahun lalu, kami juga merilis framework pembelajaran penguatan open source, Dopamine (laporan resmi: Castro et al., 2018 link: https://arxiv.org/abs/1812.06110). Kami ingin memulai dengan dopamin sederhana dan tetap pada pengembangan sejumlah kecil fungsi inti yang berguna untuk penelitian pembelajaran penguatan. Oleh karena itu, versi pertama kerangka kerja terdiri dari sekitar 12 file Python dan menyediakan ALE dengan satu GPU, agen Rainbow yang canggih. Dopamine 2.0 (posting blog Pablo Samuel Castro pada 6 Februari) memperluas versi pertama untuk mendukung lebih luas domain operasi diskrit. Kami menggunakan Dopamin di hampir semua penelitian pembelajaran penguatan baru-baru ini.

Terakhir, perlu juga disebutkan bahwa kami baru-baru ini berkolaborasi dengan DeepMind untuk merilis platform penelitian baru untuk metode kecerdasan buatan berdasarkan permainan kartu populer Hanabi (Bard et al., 2019). Hanabi unik karena menggabungkan kerja sama (bukan persaingan!) Dan observasi parsial. Kode tersebut berisi agen berdasarkan dopamin, sehingga Anda dapat menggunakan kode tersebut kapan saja. Saya telah membahas ini lebih lanjut di posting blog lain ( tetapi pada akhirnya saya Saya ingin mengatakan bahwa ini adalah salah satu pertanyaan paling menarik yang telah saya teliti dalam periode waktu ini. Ngomong-ngomong: tampaknya ada kesenjangan kinerja yang besar antara pembelajaran penguatan terdistribusi dan pembelajaran penguatan tidak terdistribusi, seperti yang ditunjukkan pada kurva pembelajaran di bawah ini. Ini adalah misteri kecil.

Kesimpulan

Artikel ini tidak membahas bagaimana mengeksplorasi pembelajaran reinforcement, meskipun topik ini masih sangat penting bagi saya. Perlu dicatat bahwa melalui Adrien Ali Taiga, kami telah membuat beberapa kemajuan dalam memahami bagaimana penghitungan semu dapat membantu kami menjelajah (Ali Taiga, Courville, Bellemare, 2018 link: https://arxiv.org/abs/1808.09819). Saya senang melihat bahwa semakin banyak peneliti dalam pembelajaran penguatan mengambil tantangan dan mengabdikan diri mereka untuk memecahkan masalah eksplorasi yang sulit seperti Montezumas Revenge. Meskipun algoritma epsilon-greedy (epsilon-greedy) dan regularisasi entropi (regularisasi entropi) masih mendominasi dalam praktiknya, saya rasa kita tidak jauh dari solusi terintegrasi yang secara signifikan meningkatkan efisiensi sampel algoritma.

Meskipun pemandangan di pusat kota Montreal mungkin berbeda dengan pemandangan di London Utara, pengalaman penelitian saya selama ini di Google Brain benar-benar mengasyikkan. Montreal dan Kanada adalah rumah bagi banyak peneliti pembelajaran penguatan mendalam terbaik di dunia. Merupakan suatu kehormatan dapat berkomunikasi dengan begitu banyak talenta lokal dan dari tim Google Brain.

melalui: marcgbellemare

Klik Baca aslinya , Mendaftarlah dalam serangkaian kursus jaringan saraf yang ditawarkan oleh Google Brain

Mobil-mobil ini, yang juga terjangkau dengan gaji bulanan 4000, dapat meningkatkan kualitas hidup Anda dengan level N.

Sebelumnya

Pra-penjualan Hanteng X5 melebihi 10.000 dalam dua bulan, dan kapasitas produksi tahunan Hanteng akan ditingkatkan menjadi 450.000 tahun depan.

Lanjut

: "Dancing Awakening" terlalu kasar, dapatkah "Grup Dansa Jalan Darah Panas" Lu Han mengatasinya?

: Apakah hot pot benar-benar tidak berbudaya? Kurator Museum Hot Pot tidak setuju: Pecinta kuliner Chongqing harus keluar untuk membela martabat mereka!

: 100.000 SUV selalu merupakan gaya yang buruk, bukankah Anda mempertimbangkan poin kepribadian?

: Sumber daya | Metode pelatihan progresif GAN PI-REC: Draf yang digambar dengan tangan dengan cepat direkonstruksi menjadi gambar yang lengkap

: "Dancing Awakening" terlalu kasar, dapatkah "Grup Dansa Jalan Darah Panas" Lu Han mengatasinya?

: Seorang ibu berusia 31 tahun mencekik putranya yang berusia 4 tahun dengan kabel jaringan! Masih memakai gaun pengantin berwarna merah

: Bagaimana cara memilih Mazda CX-4 dan CX-5? Anda punya jawabannya setelah membaca artikel ini

: Satu lagi anggota seri kamuflase nasional! Lihat bagaimana Nike Air Max 97 mengartikan AS!

: Yang mana yang kamu suka?

: "Dimiliki" oleh badut? ! Produk tunggal baru The Hundreds 2018 dirilis!

: Prospek domestik Mitsubishi Eclipse Cross, Binzhi, terimalah langkah tersebut

: Setelah rel berkecepatan tinggi, tim mobil nasional siap menyerang ke luar negeri, dan Dongfeng Motor akan dikerahkan di lebih dari 70 negara di seluruh dunia dalam lima tahun.

Sudut Pandang | Bagaimana saya meneliti pembelajaran penguatan selama 18 bulan saya bekerja di Google Brain?

Pembelajaran penguatan terdistribusi

Pembelajaran representasi

perangkat lunak

Kesimpulan

Klik Baca aslinya , Mendaftarlah dalam serangkaian kursus jaringan saraf yang ditawarkan oleh Google Brain

Informasi Terkait

Renault jadi gila! Dongfeng Renault memperkenalkan 9 mobil, dan penjualan tahunannya di China akan meningkat 7 kali lipat menjadi 400.000 unit dalam lima tahun

Kualitas bagus dan harga murah, Samsung S10 akan menggunakan lebih banyak komponen dari China

Bagaimana sistem G-MC yang dikembangkan oleh GAC dibandingkan dengan Honda Toyota Volkswagen?

Beijing Yintai Centre in01 memulai seni gaya VOGUE FNO menerangi kota modern yang tidak pernah tidur

Bagaimana cara menggambar diagram jaringan deep learning yang keren itu?

Tren | AutoNavi Maps Delphi Perluas Kerja Sama, Bertujuan di China untuk Menerapkan Smart Driving

6 SUV otonom menempuh jarak 3.000 kilometer di segala kondisi jalan. Mobil mana yang memiliki kursi paling nyaman?

Gulat Xi Mengyao, He Sui menyampaikan berita, "hal besar" apa yang terjadi dalam siaran langsung Victoria's Secret Show di China?

Barang kering | Tutorial deteksi langsung OpenCV terlengkap dalam sejarah!

10 pesanan dalam dua tahunNASA miskin, makanan SpaceX, siapa yang memegang paha siapa?