Sumber: Xinzhiyuan
Artikel ini memiliki banyak gambar, disarankan untuk membaca 10 menit.
Saya akan berbagi dengan Anda 10 poin kunci yang perlu diperhatikan dalam pembelajaran penguatan yang dirangkum oleh Dave Silver dalam keynote speech acara Deep Learning Indaba.
Baru-baru ini, kepala tim riset pembelajaran penguatan DeepMind Google dan kepala peneliti proyek AlphaGo Dave Silver Dalam keynote speech acara Deep Learning Indaba ditutup Sepuluh poin yang harus diperhatikan dalam pembelajaran penguatan. Coba lihat bersama, mungkin Anda bisa menghindari jalan memutar.
Baru-baru ini, di acara Deep Learning Indaba yang diadakan di Stellenbosch, Afrika Selatan, Dave Silver, kepala tim riset pembelajaran penguatan DeepMind Google dan kepala peneliti proyek AlphaGo, merangkum 10 poin penting yang perlu diperhatikan dalam pembelajaran penguatan dalam pidato utama.
Penyelenggara acara memposting screenshot PPT dan poin teks pidato Dave Silver di Twitter, yang memicu diskusi ekstensif.
10 poin kunci pembelajaran penguatan yang diusulkan dalam pengalaman dan saran penutup pidato Silver terkait dengan evaluasi algoritme, kontrol status, fungsi pemodelan, dll., Yang layak untuk referensi bagi pengembang dan penggemar pembelajaran mesin. Mari kita lihat apa yang dia katakan!
1. Buat kemajuan dalam evaluasiEstimasi obyektif dan kuantitatif akan menghasilkan kemajuan, dan pilihan skala evaluasi akan menentukan arah kemajuan. Ini mungkin keputusan terpenting yang dibuat selama proyek berlangsung.
Penelitian yang digerakkan oleh tujuan: Konfirmasikan bahwa kriteria evaluasi terkait erat dengan tujuan akhir. Hindari penilaian subjektif
Riset berbasis hipotesis: usulkan hipotesis, uji hipotesis dalam kondisi luas, dan bandingkan dengan hasil yang serupa, bukan dengan hasil yang paling canggih. Yang penting adalah memahami hasil, bukan mengejar peringkat.
2. Skalabilitas algoritme menentukan keberhasilanSkalabilitas algoritme berarti kinerjanya bervariasi dengan gradien sumber daya. Sumber daya di sini mungkin berupa komputasi, penyimpanan, dan data. Skalabilitas algoritme menentukan keberhasilan proyek. Ini hampir selalu lebih penting daripada titik awal algoritme. Pada akhirnya, algoritma yang baik selalu menjadi solusi terbaik dengan sumber daya yang tidak terbatas.
3. Fleksibilitas dari algoritma yang stabilKeserbagunaan algoritme mengacu pada performa algoritme di lingkungan pembelajaran mendalam yang berbeda. Penggunaan yang berlebihan untuk tugas saat ini harus dihindari. Secara aktif mencari algoritme yang dapat diterapkan pada lingkungan yang tidak diketahui di masa mendatang.
Kesimpulan: Untuk memverifikasi dan membangun lingkungan pembelajaran mesin yang realistis secara ekstensif.
4. Percayai pengalaman agenPengalaman (termasuk observasi, tindakan, penghargaan) mengacu pada data pembelajaran mendalam. Percayai pengalaman ini sebagai satu-satunya sumber pengetahuan. Meskipun pengalaman ini mungkin tampak tidak bisa dipelajari, pada akhirnya, dalam jangka panjang, mereka akan berhasil.
5. Status bersifat subjektifAgen harus menetapkan statusnya sendiri berdasarkan pengalaman. Status agen adalah fungsi dari status sebelumnya dan data observasi baru. Jangan mendefinisikan keadaan "sebenarnya" dari lingkungan tertentu kapan saja.
6. Mengontrol aliran dataAgen berada di lingkungan sejumlah besar sensor aliran data, dan perilaku agen akan memengaruhi aliran data.
Kontrol karakteristik-kontrol aliran data-kontrol masa depan-untuk memaksimalkan pengembalian apa pun.
7. Fungsi nilai dapat memodelkan duniaFungsi nilai adalah induksi dan penyimpanan cache yang efisien di masa depan. Lebih fokus pada pencarian untuk jangka waktu tertentu daripada melihat ke depan secara eksponensial. Bisa berhitung dan belajar mandiri. Fungsi multi-nilai dapat digunakan untuk memodelkan semua aspek dunia secara efisien dalam rentang waktu yang berbeda.
Hindari menggunakan langkah waktu asli untuk membuat model dunia.
8. Belajar dari pengalaman yang dibayangkanBayangkan apa yang akan terjadi selanjutnya, belajar dari pengalaman imajiner, dan perhatikan estimasi fungsi nilai saat ini.
9. Perkuat aproksimeter fungsiArsitektur jaringan yang dibedakan adalah alat yang ampuh yang dapat digunakan untuk: mengekspresikan status dengan cara yang kaya, mewujudkan penyimpanan yang dibedakan, perencanaan yang dibedakan, dan kontrol level.
Mengintegrasikan kompleksitas algoritme ke dalam arsitektur jaringan dapat mengurangi kompleksitas algoritme dan meningkatkan ekspresi arsitektur jaringan.
10. Untuk mempelajari "cara belajar"Sejarah perkembangan kecerdasan buatan menyajikan konteks perkembangan yang jelas.
Generasi pertama: kecerdasan buatan kuno yang "baik". Kontrol perkiraan secara manual tanpa mempelajari apa pun.
Generasi kedua: pembelajaran yang dangkal. Kontrol fitur secara manual dan pelajari cara memprediksi.
Generasi ketiga: pembelajaran mendalam. Kontrol algoritme secara manual (pengoptimal, sasaran, arsitektur), pelajari fitur dan prediksi ujung ke ujung.
Generasi keempat: Pembelajaran meta. Tidak ada tautan manual, algoritme pembelajaran, fitur, dan prediksi ujung ke ujung.
Tautan referensi: https://twitter.com/DeepIndaba/status/1040234486250782721- Cintai dan bunuh satu sama lain! 80 juta bantuan baru Bayern telah dituduh melakukan kekerasan dalam rumah tangga dan sekarang akan dikirim ke Jerman bersama istrinya
- Membalas keluhan dengan kebajikan! Shukurov berharap Evergrande akan mengurangi hukuman, pernyataan Wei Shihao bahkan lebih mengerikan
- Biro Statistik: Dari Januari hingga Oktober, tingkat pertumbuhan keseluruhan pasar properti nasional turun sedikit
- langka! Kantor Perdana Menteri Inggris memasang bait dan lentera Festival Musim Semi untuk merayakan Tahun Baru China
- Juventus mengumumkan perpanjangan kontrak selama empat tahun dengan bek tengah berusia 24 tahun, pacar seksinya tidak akan datang ke Liga Inggris.
- Ambil foto East Lake di dunia yang belum pernah Anda lihat sebelumnya, dan "Paguyuban Wuhan" dalam video promosi kota "East Lake"
- Yi Xiaoyuan: "Sembilan Lagu" - Sistem Generasi Otomatis Puisi Klasik Tiongkok Berdasarkan Pembelajaran Mendalam