Kepala peneliti AlphaGo secara pribadi mengajar! 10 PPT memperkenalkan 10 aturan emas pembelajaran penguatan!

Sumber: Xinzhiyuan

Artikel ini memiliki banyak gambar, disarankan untuk membaca 10 menit.

Saya akan berbagi dengan Anda 10 poin kunci yang perlu diperhatikan dalam pembelajaran penguatan yang dirangkum oleh Dave Silver dalam keynote speech acara Deep Learning Indaba.

Baru-baru ini, kepala tim riset pembelajaran penguatan DeepMind Google dan kepala peneliti proyek AlphaGo Dave Silver Dalam keynote speech acara Deep Learning Indaba ditutup Sepuluh poin yang harus diperhatikan dalam pembelajaran penguatan. Coba lihat bersama, mungkin Anda bisa menghindari jalan memutar.

Baru-baru ini, di acara Deep Learning Indaba yang diadakan di Stellenbosch, Afrika Selatan, Dave Silver, kepala tim riset pembelajaran penguatan DeepMind Google dan kepala peneliti proyek AlphaGo, merangkum 10 poin penting yang perlu diperhatikan dalam pembelajaran penguatan dalam pidato utama.

Penyelenggara acara memposting screenshot PPT dan poin teks pidato Dave Silver di Twitter, yang memicu diskusi ekstensif.

10 poin kunci pembelajaran penguatan yang diusulkan dalam pengalaman dan saran penutup pidato Silver terkait dengan evaluasi algoritme, kontrol status, fungsi pemodelan, dll., Yang layak untuk referensi bagi pengembang dan penggemar pembelajaran mesin. Mari kita lihat apa yang dia katakan!

1. Buat kemajuan dalam evaluasi

Estimasi obyektif dan kuantitatif akan menghasilkan kemajuan, dan pilihan skala evaluasi akan menentukan arah kemajuan. Ini mungkin keputusan terpenting yang dibuat selama proyek berlangsung.

Penelitian yang digerakkan oleh tujuan: Konfirmasikan bahwa kriteria evaluasi terkait erat dengan tujuan akhir. Hindari penilaian subjektif

Riset berbasis hipotesis: usulkan hipotesis, uji hipotesis dalam kondisi luas, dan bandingkan dengan hasil yang serupa, bukan dengan hasil yang paling canggih. Yang penting adalah memahami hasil, bukan mengejar peringkat.

2. Skalabilitas algoritme menentukan keberhasilan

Skalabilitas algoritme berarti kinerjanya bervariasi dengan gradien sumber daya. Sumber daya di sini mungkin berupa komputasi, penyimpanan, dan data. Skalabilitas algoritme menentukan keberhasilan proyek. Ini hampir selalu lebih penting daripada titik awal algoritme. Pada akhirnya, algoritma yang baik selalu menjadi solusi terbaik dengan sumber daya yang tidak terbatas.

3. Fleksibilitas dari algoritma yang stabil

Keserbagunaan algoritme mengacu pada performa algoritme di lingkungan pembelajaran mendalam yang berbeda. Penggunaan yang berlebihan untuk tugas saat ini harus dihindari. Secara aktif mencari algoritme yang dapat diterapkan pada lingkungan yang tidak diketahui di masa mendatang.

Kesimpulan: Untuk memverifikasi dan membangun lingkungan pembelajaran mesin yang realistis secara ekstensif.

4. Percayai pengalaman agen

Pengalaman (termasuk observasi, tindakan, penghargaan) mengacu pada data pembelajaran mendalam. Percayai pengalaman ini sebagai satu-satunya sumber pengetahuan. Meskipun pengalaman ini mungkin tampak tidak bisa dipelajari, pada akhirnya, dalam jangka panjang, mereka akan berhasil.

5. Status bersifat subjektif

Agen harus menetapkan statusnya sendiri berdasarkan pengalaman. Status agen adalah fungsi dari status sebelumnya dan data observasi baru. Jangan mendefinisikan keadaan "sebenarnya" dari lingkungan tertentu kapan saja.

6. Mengontrol aliran data

Agen berada di lingkungan sejumlah besar sensor aliran data, dan perilaku agen akan memengaruhi aliran data.

Kontrol karakteristik-kontrol aliran data-kontrol masa depan-untuk memaksimalkan pengembalian apa pun.

7. Fungsi nilai dapat memodelkan dunia

Fungsi nilai adalah induksi dan penyimpanan cache yang efisien di masa depan. Lebih fokus pada pencarian untuk jangka waktu tertentu daripada melihat ke depan secara eksponensial. Bisa berhitung dan belajar mandiri. Fungsi multi-nilai dapat digunakan untuk memodelkan semua aspek dunia secara efisien dalam rentang waktu yang berbeda.

Hindari menggunakan langkah waktu asli untuk membuat model dunia.

8. Belajar dari pengalaman yang dibayangkan

Bayangkan apa yang akan terjadi selanjutnya, belajar dari pengalaman imajiner, dan perhatikan estimasi fungsi nilai saat ini.

9. Perkuat aproksimeter fungsi

Arsitektur jaringan yang dibedakan adalah alat yang ampuh yang dapat digunakan untuk: mengekspresikan status dengan cara yang kaya, mewujudkan penyimpanan yang dibedakan, perencanaan yang dibedakan, dan kontrol level.

Mengintegrasikan kompleksitas algoritme ke dalam arsitektur jaringan dapat mengurangi kompleksitas algoritme dan meningkatkan ekspresi arsitektur jaringan.

10. Untuk mempelajari "cara belajar"

Sejarah perkembangan kecerdasan buatan menyajikan konteks perkembangan yang jelas.

Generasi pertama: kecerdasan buatan kuno yang "baik". Kontrol perkiraan secara manual tanpa mempelajari apa pun.

Generasi kedua: pembelajaran yang dangkal. Kontrol fitur secara manual dan pelajari cara memprediksi.

Generasi ketiga: pembelajaran mendalam. Kontrol algoritme secara manual (pengoptimal, sasaran, arsitektur), pelajari fitur dan prediksi ujung ke ujung.

Generasi keempat: Pembelajaran meta. Tidak ada tautan manual, algoritme pembelajaran, fitur, dan prediksi ujung ke ujung.

Tautan referensi: https://twitter.com/DeepIndaba/status/1040234486250782721

Wanita yang memegang anjing di bus ditolak, dimarahi pengemudi sepanjang jalan dan menembakkan foto flash

Sebelumnya

Yu Jian Nian Su Dewa pasca-pria tertua Nian Su, asalnya sangat mengerikan

Lanjut

: Cintai dan bunuh satu sama lain! 80 juta bantuan baru Bayern telah dituduh melakukan kekerasan dalam rumah tangga dan sekarang akan dikirim ke Jerman bersama istrinya

: Membalas keluhan dengan kebajikan! Shukurov berharap Evergrande akan mengurangi hukuman, pernyataan Wei Shihao bahkan lebih mengerikan

: Biro Statistik: Dari Januari hingga Oktober, tingkat pertumbuhan keseluruhan pasar properti nasional turun sedikit

: Pemain pemakan ayam Laporan penelitian gambar: 1.000 pemain, 1.000 gaya makan ayam (dengan laporan)

: langka! Kantor Perdana Menteri Inggris memasang bait dan lentera Festival Musim Semi untuk merayakan Tahun Baru China

: Juventus mengumumkan perpanjangan kontrak selama empat tahun dengan bek tengah berusia 24 tahun, pacar seksinya tidak akan datang ke Liga Inggris.

: Ambil foto East Lake di dunia yang belum pernah Anda lihat sebelumnya, dan "Paguyuban Wuhan" dalam video promosi kota "East Lake"

: Yi Xiaoyuan: "Sembilan Lagu" - Sistem Generasi Otomatis Puisi Klasik Tiongkok Berdasarkan Pembelajaran Mendalam

: Jalankan keluarga lain? Chengdu Jiuding Risheng Decoration berhutang jutaan pembayaran proyek, dan bos kehilangan kontak!

: Eksklusif Ajari Anda cara mengatur proyek sains data! (Dengan kode)

: La Liga-Deulofeu membuat 2 gol, Barcelona 2-0, Bale mengoper air dan mewarnai Real Madrid 3-0

: Daftar sepuluh besar teknologi terobosan di dunia dari MIT Technology Review tahun 2017

Kepala peneliti AlphaGo secara pribadi mengajar! 10 PPT memperkenalkan 10 aturan emas pembelajaran penguatan!

Informasi Terkait

Visualisasi data dari 6000+ tempat indah, analisis lengkap perjalanan Hari Nasional! (Dengan kode)

Pengumuman resmi! Kementerian Pendidikan meluncurkan program percontohan untuk taman kanak-kanak khusus sepak bola, dengan 50-200 sekolah di setiap provinsi

Mengirimkan salinan program sumber terbuka yang harus dimiliki untuk pemrogram!

PPT 68 halaman mengajarkan Anda untuk menulis makalah penelitian pembelajaran mesin yang sangat baik!

Panduan Pria dan Wanita Tsinghua | Saya tidak dapat menemukan pacar saya di Tsinghua

Daftar nominasi karya sci-fi Nebula Awards 2016, datang dan saksikan

Tim U18B Tiongkok kalah dari Vietnam? Tim A bahkan lebih sengsara, dengan kekalahan 5 gol dari West Second Echelon dan satu kekalahan beruntun!

"MIT Technology Review" merilis sepuluh besar teknologi terobosan di dunia pada tahun 2018, patut diketahui!

Ilmuwan dari Amerika Serikat dan Rusia menemukan bahan semikonduktor satu dimensi pertama di dunia

Empat besar rekrutan pelatih Manchester United terungkap! Mengejar 2 bintang baru Inggris sembari memperlihatkan 1 ambisi besar