Manusia: AI, mari kita rancang sistem lalu lintas untuk Beijing tanpa kemacetan lalu lintas!
AI: Jika ingin menghindari kemacetan, saya harus ...
Cara melatih dan membimbing AI untuk menyelesaikan tugas besar dan kompleks ini merupakan masalah yang sangat serius.
OpenAI hari ini mengusulkan " Amplifikasi berulang "(Iterated amplification), blog resmi mengatakan bahwa ini adalah teknologi keamanan AI. Manusia dapat menggunakan metode ini untuk memandu AI menyelesaikan tugas yang berada di luar jangkauan.
Sederhananya, Dengan menunjukkan cara menguraikan tugas menjadi sub-tugas sederhana, biarkan AI mengenali tujuan dan perilaku tugas kompleks ini .
Teknologi ini menunjukkan tujuan akhir OpenAI ketika didirikan: untuk membuat kecerdasan buatan umum (AGI) lebih aman.
Apa gunanya amplifikasi berulang? Mari kita mulai dengan cara melatih sistem pembelajaran mesin yang biasa digunakan dalam AI saat ini.
Melatih sistem pembelajaran mesin untuk menyelesaikan tugas tertentu mengharuskan manusia memberikan sinyal pelatihan, seperti label data dalam pembelajaran yang diawasi dan penghargaan dalam pembelajaran penguatan, yang semuanya merupakan sinyal pelatihan.
Memberikan sinyal pelatihan adalah hal yang sederhana dan sederhana bagi manusia, tetapi sulit dan sulit untuk dikatakan. Itu tergantung pada tugas apa yang Anda ingin AI pelajari.
Biarkan ia mengenali angka tulisan tangan, dan manusia bisa mengenali angka-angka ini dan menandainya; biarkan AI bermain game, dan manusia bisa menghitung skor game atau menunjukkannya ke AI. Dan bagaimana jika Anda ingin AI memprediksi masa depan?
Manusia tidak bisa mengetahuinya sama sekali, dan sinyal pelatihan bahkan tidak mungkin diberikan. Jika salah, hantu tahu apa yang akan dipelajari AI ...
Amplifikasi berulang digunakan untuk menghasilkan sinyal pelatihan untuk tugas-tugas semacam itu.
Metode ini didasarkan pada dua kondisi berikut: pertama adalah ketika manusia menghadapi tugas yang begitu besar dan kompleks yang tidak dapat dijalankan atau dinilai untuk diselesaikan, mereka setidaknya tahu bagian mana yang lebih kecil yang dapat dipecah; Sebagian bisa dilakukan oleh manusia.
Dengan cara ini, manusia dapat memberikan sinyal pelatihan untuk subtugas kecil ini, dan kemudian mengintegrasikannya untuk memandu keseluruhan tugas.
Tentu saja, ekspansi berulang belum menggunakan tugas-tugas besar yang tidak bisa diselesaikan manusia. Untuk menguji metode ini, OpenAI terlebih dahulu menyiapkan lima kuis untuknya, yaitu:
- permutasi memberdayakan
- tugas berurutan
- pencarian karakter pengganti (pencarian karakter pengganti)
- jalur terpendek
- serikat menemukan
Dalam eksperimen, peneliti OpenAI perlu "berpura-pura tidak tahu" bagaimana tugas ini harus diselesaikan. Alih-alih memberikan data anotasi lengkap ke model pembelajaran mesin, mereka menguraikan setiap tugas menjadi subtugas kecil, lalu memberikan subtugas ini. Sinyal pelatihan memungkinkan AI untuk belajar secara tidak langsung.
Mereka membandingkan hasil pelatihan melalui amplifikasi iteratif dan langsung memberikan sinyal yang diawasi. Hasilnya, pada kelima tugas ini, pelatihan melalui amplifikasi berulang telah mencapai efek yang sama seperti langsung menggunakan supervised learning.
OpenAI mengatakan bahwa mereka berencana untuk menggunakan metode augmentasi berulang di masa depan untuk melatih AI untuk mencapai tugas yang benar-benar kompleks yang tidak dapat ditangani manusia.
Melihat pendekatan ini, Anda mungkin memikirkan iterasi ahli yang digunakan di AlphaGo Zero. Mereka memiliki kesamaan, tetapi juga memiliki perbedaan yang sangat jelas: Para ahli meningkatkan sinyal pelatihan yang ada secara berulang, sementara amplifikasi berulang perlu membangun sinyal pelatihan dari awal.
Lebih detail ada di tulisan ini:
Mengawasi peserta didik yang kuat dengan memperkuat pakar yang lemah
https://arxiv.org/pdf/1810.08575.pdf
- Selesai -
Perekrutan yang tulus
Qubit merekrut editor / reporter dan berbasis di Zhongguancun, Beijing. Kami menantikan siswa berbakat dan antusias bergabung dengan kami! Untuk detail terkait, harap balas dengan kata "perekrutan" di antarmuka dialog QbitAI.
Qubit QbitAI ˇ Toutiao Signing Author
'' Lacak tren baru dalam teknologi dan produk AI
- Musim baru World of Warcraft akan segera dimulai: peningkatan kolektif seperti pakaian, hadiah jaminan minimum Great Secret Realm 410!
- Peringkat dunia terbaru: Fan Zhendong, Chen Meng mendapatkan kembali posisi teratas, Zhang Benzhihe masuk 10 besar
- Untuk diperas hingga kering oleh Tencent! Apakah segala kemungkinan untuk menghasilkan uang bagi pemain game ini, atau bahkan mendapatkan vaksin rabies?
- Akselerasi 3 kali lipat, anotasi gambar: Solusi AI baru Google untuk menghemat data pekerja migran Demo dapat diputar
- Sebuah Piala Italia, Juventus, seluruh tim bekerja sama untuk menyelamatkan satu orang, inilah yang membuat takut pahlawan Serie A.
- Grup pemain parit terbanyak dalam sejarah? Setiap orang tidak meningkatkan versi baru dari gim ini, dan semuanya pergi untuk mengisi ulang dan membeli mode!