Bagaimana cara membuat AI menyelesaikan tugas yang tidak bisa ditangani manusia? OpenAI mengusulkan metode amplifikasi berulang untuk menetapkan tujuan AI

Li Lin menyusun dan mengatur qubit yang diproduksi | nomor publik QbitAI

Manusia: AI, mari kita rancang sistem lalu lintas untuk Beijing tanpa kemacetan lalu lintas!

AI: Jika ingin menghindari kemacetan, saya harus ...

Cara melatih dan membimbing AI untuk menyelesaikan tugas besar dan kompleks ini merupakan masalah yang sangat serius.

OpenAI hari ini mengusulkan " Amplifikasi berulang "(Iterated amplification), blog resmi mengatakan bahwa ini adalah teknologi keamanan AI. Manusia dapat menggunakan metode ini untuk memandu AI menyelesaikan tugas yang berada di luar jangkauan.

Sederhananya, Dengan menunjukkan cara menguraikan tugas menjadi sub-tugas sederhana, biarkan AI mengenali tujuan dan perilaku tugas kompleks ini .

Teknologi ini menunjukkan tujuan akhir OpenAI ketika didirikan: untuk membuat kecerdasan buatan umum (AGI) lebih aman.

Apa gunanya amplifikasi berulang? Mari kita mulai dengan cara melatih sistem pembelajaran mesin yang biasa digunakan dalam AI saat ini.

Melatih sistem pembelajaran mesin untuk menyelesaikan tugas tertentu mengharuskan manusia memberikan sinyal pelatihan, seperti label data dalam pembelajaran yang diawasi dan penghargaan dalam pembelajaran penguatan, yang semuanya merupakan sinyal pelatihan.

Memberikan sinyal pelatihan adalah hal yang sederhana dan sederhana bagi manusia, tetapi sulit dan sulit untuk dikatakan. Itu tergantung pada tugas apa yang Anda ingin AI pelajari.

Biarkan ia mengenali angka tulisan tangan, dan manusia bisa mengenali angka-angka ini dan menandainya; biarkan AI bermain game, dan manusia bisa menghitung skor game atau menunjukkannya ke AI. Dan bagaimana jika Anda ingin AI memprediksi masa depan?

Manusia tidak bisa mengetahuinya sama sekali, dan sinyal pelatihan bahkan tidak mungkin diberikan. Jika salah, hantu tahu apa yang akan dipelajari AI ...

Amplifikasi berulang digunakan untuk menghasilkan sinyal pelatihan untuk tugas-tugas semacam itu.

Metode ini didasarkan pada dua kondisi berikut: pertama adalah ketika manusia menghadapi tugas yang begitu besar dan kompleks yang tidak dapat dijalankan atau dinilai untuk diselesaikan, mereka setidaknya tahu bagian mana yang lebih kecil yang dapat dipecah; Sebagian bisa dilakukan oleh manusia.

Dengan cara ini, manusia dapat memberikan sinyal pelatihan untuk subtugas kecil ini, dan kemudian mengintegrasikannya untuk memandu keseluruhan tugas.

Tentu saja, ekspansi berulang belum menggunakan tugas-tugas besar yang tidak bisa diselesaikan manusia. Untuk menguji metode ini, OpenAI terlebih dahulu menyiapkan lima kuis untuknya, yaitu:

permutasi memberdayakan

tugas berurutan

pencarian karakter pengganti (pencarian karakter pengganti)

jalur terpendek

serikat menemukan

Dalam eksperimen, peneliti OpenAI perlu "berpura-pura tidak tahu" bagaimana tugas ini harus diselesaikan. Alih-alih memberikan data anotasi lengkap ke model pembelajaran mesin, mereka menguraikan setiap tugas menjadi subtugas kecil, lalu memberikan subtugas ini. Sinyal pelatihan memungkinkan AI untuk belajar secara tidak langsung.

Mereka membandingkan hasil pelatihan melalui amplifikasi iteratif dan langsung memberikan sinyal yang diawasi. Hasilnya, pada kelima tugas ini, pelatihan melalui amplifikasi berulang telah mencapai efek yang sama seperti langsung menggunakan supervised learning.

OpenAI mengatakan bahwa mereka berencana untuk menggunakan metode augmentasi berulang di masa depan untuk melatih AI untuk mencapai tugas yang benar-benar kompleks yang tidak dapat ditangani manusia.

Melihat pendekatan ini, Anda mungkin memikirkan iterasi ahli yang digunakan di AlphaGo Zero. Mereka memiliki kesamaan, tetapi juga memiliki perbedaan yang sangat jelas: Para ahli meningkatkan sinyal pelatihan yang ada secara berulang, sementara amplifikasi berulang perlu membangun sinyal pelatihan dari awal.

Lebih detail ada di tulisan ini:

Mengawasi peserta didik yang kuat dengan memperkuat pakar yang lemah

https://arxiv.org/pdf/1810.08575.pdf

- Selesai -

Perekrutan yang tulus

Qubit merekrut editor / reporter dan berbasis di Zhongguancun, Beijing. Kami menantikan siswa berbakat dan antusias bergabung dengan kami! Untuk detail terkait, harap balas dengan kata "perekrutan" di antarmuka dialog QbitAI.

Qubit QbitAI · Toutiao Signing Author

'' Lacak tren baru dalam teknologi dan produk AI

Seberapa sulitkah rekan tim babi di musim baru? Pemain sangat marah sehingga mereka ingin mencopot pemasangan game!

Sebelumnya

Di mana hawa dingin di PlayerUnknown's Battlegrounds? Kulit pot dijual seharga puluhan ribu, dan harga pakaian God of War dilebih-lebihkan!

Lanjut

: Dia adalah seorang legenda, Hamsik!

: Investigasi kebenaran tentang chip yang ditanamkan di tubuh pendiri YY

: Musim baru World of Warcraft akan segera dimulai: peningkatan kolektif seperti pakaian, hadiah jaminan minimum Great Secret Realm 410!

: Peringkat dunia terbaru: Fan Zhendong, Chen Meng mendapatkan kembali posisi teratas, Zhang Benzhihe masuk 10 besar

: Operasi dalam setengah dari tujuh tahun, Sepatu Emas Olimpiade Beijing kembali kemarin

: Untuk diperas hingga kering oleh Tencent! Apakah segala kemungkinan untuk menghasilkan uang bagi pemain game ini, atau bahkan mendapatkan vaksin rabies?

: Akselerasi 3 kali lipat, anotasi gambar: Solusi AI baru Google untuk menghemat data pekerja migran Demo dapat diputar

: Sebuah Piala Italia, Juventus, seluruh tim bekerja sama untuk menyelamatkan satu orang, inilah yang membuat takut pahlawan Serie A.

: Grup pemain parit terbanyak dalam sejarah? Setiap orang tidak meningkatkan versi baru dari gim ini, dan semuanya pergi untuk mengisi ulang dan membeli mode!

: "Cradle", "MVP", "Golden Left Hand", 9 kejuaraan berturut-turut Tenis Meja Putra China!

: Burung ajaib tidak dianiaya! Pembunuh Liga Premier terbalik Manchester United telah membunuh empat tim berturut-turut

: Game paling menguntungkan tahun 2018 bukanlah LOL atau King of Glory! Netizen: Salahkan aku karena main game juga

Bagaimana cara membuat AI menyelesaikan tugas yang tidak bisa ditangani manusia? OpenAI mengusulkan metode amplifikasi berulang untuk menetapkan tujuan AI

Informasi Terkait

Bagaimana rasanya bermain di Olimpiade Tokyo? Kompetisi Pertukaran Persahabatan China-Jepang

Hari Jadi ke-20 "Super Smash Bros." Gaya versi pertama sangat kasar

Kontes Golden Globe Melo tidak pernah berhenti, dia telah memenangkan kesempatan untuk Golden Globe berikutnya

Game menembak paling beraroma! Setelah menonton "Call of Duty", Anda harus tunduk pada angin!

Taruhan Super Mario pada transfer Piala Dunia ke Bundesliga baru dipromosikan

DOTA2: Tim Ehome Cina memiliki kejutan FNC 2: 1! Pemain: Hampir habis!

Bookmark baru Wu Jingping sangat populer, kata-kata jenaka Fan Zhendong meledak menjadi tawa

Makan ayam membunuh game lain! Game menembak paling menjanjikan di China diumumkan untuk ditangguhkan, hanya karena mengikuti

Buka pintu dalam 50 detik, berkendara dalam 3 menit, Tesla Model S menghilang begitu saja

Potensinya tidak kalah dengan Mbappé, jenius seumuran Asia ini banyak diunggulkan oleh Eropa