Sebuah langkah besar bagi agen multitasking: DeepMind bisa mendapatkan PopArt untuk 57 game Atari sekaligus

Komentar teknologi AI Lei Feng.com: Pembelajaran multi-tugas, yaitu, membiarkan satu agen belajar memecahkan banyak masalah yang berbeda, adalah tujuan jangka panjang dalam penelitian kecerdasan buatan. Baru-baru ini, banyak kemajuan besar telah dibuat di bidang ini. Agen seperti DQN dapat menggunakan algoritme yang sama untuk memainkan game yang berbeda, termasuk game Atari "Breakout" (batu bata) dan game "Pong" (tenis meja). Algoritme ini sebelumnya melatih agen berbeda untuk setiap tugas. Saat penelitian kecerdasan buatan menembus ke bidang dunia nyata yang lebih kompleks, akan menjadi penting untuk membangun satu agen umum (sebagai lawan dari banyak agen yang pandai dalam tugas yang berbeda) untuk belajar menyelesaikan banyak tugas. Namun, hingga saat ini, tugas ini tetap menjadi tantangan besar. Sebuah studi DeepMind baru-baru ini mengusulkan perbaikan besarnya sendiri. Leifeng.com AI Technology Review menyusun pengenalan penelitian sebagai berikut.

Salah satu kesulitan dalam menciptakan agen yang dapat menguasai banyak tugas berbeda adalah bahwa tingkat penghargaan yang digunakan oleh agen pembelajaran penguatan untuk menilai kesuksesan seringkali berbeda, menyebabkan mereka fokus pada tugas dengan penghargaan yang lebih tinggi. Ambil contoh permainan "Pong" (tenis meja). Agen memiliki tiga kemungkinan hadiah untuk setiap langkah: -1 (AI tidak menangkap bola yang dikirim oleh lawan, tidak hanya tidak mendapatkan poin, tetapi membukukan poin), 0 (AI diterima Menyimpan bola dan memasuki proses pinball berulang dari musuh dan musuh. Butuh banyak usaha tanpa pengembalian), +1 (AI akhirnya menarik satu putaran untuk mencetak 1 poin, yang sangat sulit didapat); tetapi Lain halnya dengan permainan Ms. Pac-Man, selama kamu keluar, kamu bisa makan sederet kacang polong, jadi agen bisa mendapatkan ratusan atau ribuan poin dalam satu langkah. Sekalipun ukuran hadiah tunggal sebanding, karena agen terus berkembang, frekuensi hadiah dapat berubah seiring waktu. Ini berarti selama Anda tidak tertangkap oleh musuh, imbalan makan kacang jauh lebih tinggi daripada bermain tenis meja. Kemudian agen tersebut tentunya akan kecanduan kacang polong (tugas dengan skor tinggi), lupa bahwa ia juga bertanggung jawab untuk mempelajari permainan lain yang tidak mudah untuk mencetak gol.

"Seni pop"

Agar para agen tidak menjadi gila, DeepMind meluncurkan PopArt. Teknologi ini memungkinkan skala reward dari game yang berbeda untuk beradaptasi satu sama lain. Tidak peduli seberapa besar reward yang bisa didapat di setiap game tertentu, agen akan berpikir bahwa setiap game memiliki nilai pembelajaran yang sama. Peneliti menggunakan metode normalisasi PopArt untuk menyesuaikan agen pembelajaran penguatan mutakhir sehingga AI dapat mempelajari hingga 57 game Atari yang berbeda, dan skor dalam game ini juga melebihi skor median manusia. jumlah.

Dalam arti luas, pembelajaran mendalam bergantung pada pembaruan bobot jaringan saraf, dan keluarannya terus-menerus mendekati keluaran target yang ideal. Hal yang sama berlaku ketika jaringan saraf digunakan dalam pembelajaran penguatan mendalam. Prinsip kerja PopArt adalah memperkirakan nilai rata-rata dan derajat penyebaran berbagai gol (misalnya, skor dalam permainan digunakan sebagai tujuan). Kemudian, sebelum memperbarui bobot, gunakan data statistik ini untuk menormalkan target sebagai referensi saat memperbarui bobot jaringan. Dengan demikian, proses pembelajaran menjadi lebih stabil dan tidak mudah berubah karena adanya perubahan faktor seperti skala reward. Untuk mendapatkan perkiraan yang akurat (seperti skor yang diharapkan di masa mendatang), keluaran jaringan dapat diskalakan ke kisaran target sebenarnya dengan membalik proses normalisasi.

Jika Anda mengikuti gagasan ini secara langsung, setiap pembaruan statistik target akan mengubah semua keluaran yang tidak dinormalisasi, termasuk yang sudah baik, yang akan menyebabkan penurunan kinerja. Solusi dari peneliti DeepMind adalah bahwa setelah statistik diperbarui, mereka memperbarui jaringan ke arah yang berlawanan; dan pendekatan ini dapat dilakukan secara akurat. Ini berarti bahwa kita tidak hanya mendapatkan manfaat dari memperbarui skala secara akurat, tetapi juga menjaga keluaran yang dipelajari sebelumnya tidak berubah. Karena alasan inilah metode ini dinamai PopArt: metode ini dapat mempertahankan keluaran secara akurat saat berjalan, dan dapat mengubah skala target secara adaptif.

PopArt sebagai alternatif untuk hadiah pemangkasan

Secara umum, peneliti akan mengatasi masalah variasi reward range dengan menggunakan reward pruning dalam algoritma pembelajaran penguatan. Metode pemangkasan ini memotong terlalu besar dan terlalu kecil ke dalam interval, dan secara kasar menormalkan pahala yang diharapkan. Meskipun metode ini akan mempermudah proses pembelajaran, namun juga akan mengubah tujuan pembelajaran. Masih mencontohkan Ms. Pac-Man, tujuan agen adalah memakan kacang dan musuh.Setiap kacang memiliki 10 poin, dan setiap musuh yang dimakan akan mendapatkan poin mulai dari 200 hingga 1600. Jika Anda menggunakan hadiah untuk menjahit, mungkin tidak ada perbedaan antara makan kacang dan memakan musuh. AI yang dilatih dengan cara ini kemungkinan besar hanya makan kacang dan tidak mengejar musuh sama sekali, karena sangat mudah untuk memakan kacang. Seperti gambar dibawah ini.

Ketika skema pemotongan hadiah dihapus dan normalisasi PopArt digunakan sebagai pengganti langkah pemotongan, efek pelatihannya sama sekali berbeda. Pengalaman cerdas mengejar musuh, dan skornya jauh lebih tinggi.

Gunakan PopArt untuk pembelajaran penguatan mendalam multi-tugas

DeepMind menerapkan PopArt ke Importance-weighted Actor-Learner Architecture (IMPALA), yang merupakan agen pembelajaran penguatan dalam yang paling umum digunakan yang sebelumnya diusulkan oleh DeepMind. Dalam eksperimen tersebut, PopArt secara signifikan meningkatkan kinerja agen dibandingkan dengan agen dasar yang tidak menggunakan PopArt. Terlepas dari apakah ada pemangkasan hadiah dan pemangkasan hadiah dihapus, skor median dari game agen PopArt melampaui skor median pemain manusia. Ini jauh lebih tinggi daripada agen dasar dengan pemangkasan imbalan, dan agen dasar tanpa pemangkasan imbalan tidak dapat mencapai kinerja yang berarti sama sekali, karena tidak dapat secara efektif menangani perubahan skala besar dalam skala imbalan dalam permainan.

Performa standar median pada 57 game Atari. Setiap baris sesuai dengan performa median dari satu agen yang menggunakan jaringan neural yang sama di semua game. Garis solid mewakili agen yang menggunakan pemangkasan reward. Garis putus-putus mewakili agen yang belum menggunakan pemangkasan reward.

Ini adalah pertama kalinya satu agen digunakan untuk mencapai kinerja di luar manusia dalam lingkungan multi-tugas ini, menunjukkan bahwa PopArt dapat memberikan petunjuk untuk pertanyaan penelitian terbuka seperti itu, yaitu bagaimana menyeimbangkan fungsi objektif yang berbeda tanpa pemangkasan manual atau penskalaan hadiah . Kemampuan PopArt untuk secara otomatis beradaptasi dengan normalisasi saat belajar mungkin penting saat menerapkan AI ke bidang multimodal yang lebih kompleks, di mana agen harus belajar untuk menimbang berbagai fungsi objektif yang berbeda dengan berbagai penghargaan.

melalui deepmind.com, Kompilasi Tinjauan Teknologi AI Lei Feng.com

Dipilih sebagai setan gila, tarian Diao Chan menunjukkan kepada penonton

Sebelumnya

Volvo menarik kembali 5 model termasuk S90 / XC90 / S60L

Lanjut