Leifeng.com AI Technology Review News, pada sore hari tanggal 11 Desember waktu Beijing, DeepMind mengumumkan di twitter peluncuran alat pengajaran Go AlphaGo Teach.
Pada gambar di atas, lingkaran hitam yang ditandai dengan lingkaran putih melambangkan tangan sebelumnya, lingkaran putus-putus melambangkan kemungkinan langkah selanjutnya dari AlphaGo, lingkaran padat melambangkan kemungkinan langkah selanjutnya dari pemain manusia, dan angka di lingkaran melambangkan tingkat kemenangan bintik matahari yang dievaluasi oleh AlphaGo.
Dapat dilihat dari situs resminya bahwa alat ini dapat menganalisis 6000 bukaan umum dalam sejarah modern Go dengan menggunakan data 231.000 game pemain manusia dan 75 game AlphaGo melawan pemain manusia. Dengan alat ini, semua orang dapat menjelajahi misteri Go, membandingkan jumlah cara bermain AlphaGo dengan pemain profesional dan pemain amatir, dan belajar darinya.
Ada juga instruksi terkait tentang penggunaan alat di situs web resmi:
-
Bagaimana cara menggunakan alat ini?
Klik pada lingkaran berwarna di papan catur atau gunakan alat navigasi di bawah papan catur untuk menjelajahi berbagai perubahan pembukaan dan prediksi tingkat kemenangan catur hitam AlphaGo untuk setiap gerakan.
Angka di lingkaran mewakili persentase kemenangan dari gerakan catur hitam. Ketika giliran hitam untuk bergerak, semakin dekat nilainya ke 100, semakin besar keuntungan dari hitam; ketika giliran putih untuk bergerak, semakin dekat nilainya ke 0, semakin besar keuntungan putih. 50 artinya keseimbangan kekuasaan.
-
Pahami prediksi tingkat kemenangan AlphaGo
Gerakan AlphaGo mungkin tidak selalu memiliki tingkat kemenangan tertinggi, karena tingkat kemenangan setiap gerakan diperoleh dari 10 juta pencarian simulasi. Pencarian AlphaGo bersifat acak, jadi AlphaGo dapat memilih metode lain dengan tingkat kemenangan dekat dalam pencarian yang berbeda.
Selain perkenalan singkat di situs web resmi, sebagai duta DeepMind Go dan "pelatih" AlphaGo, Fan Hui juga mengumumkan di Weibo pribadinya bahwa "Alat pengajaran AlphaGo akhirnya online."
Dia berkata,
Ada lebih dari 20.000 perubahan dalam alat pengajaran dan lebih dari 370.000 gerakan. Melalui perspektif AlphaGo, kami menganalisis dan menyarankan banyak cara untuk memulai Go. Pada saat yang sama, AlphaGo akan memberikan analisis tingkat kemenangannya sendiri untuk setiap gerakan. Saya harap pemahaman unik AlphaGo tentang Go dapat memberi kita inspirasi.
Versi yang digunakan oleh alat pengajaran ini adalah AlphaGo Master. Informasi spesifik dapat dilihat di beranda, dan alat ini memiliki banyak bahasa termasuk bahasa Mandarin yang disederhanakan.
Di saat yang sama, Fan Hui juga mengutip beberapa contoh menarik dari ajaran AlphaGo dan memberikan penjelasan yang lucu. "Gambar-gambar berikut ini adalah gambar yang menurut saya lebih berdampak dari ribuan perubahan. Ada banyak perubahan serupa. Anda dapat menemukannya sendiri."
Ternyata Land Rover Kedua tidak begitu bagus!
Cara baru untuk menangani Mini China Stream!
Xiaolin Liu bukan hanya Dafeihang!
Ternyata kamu bisa terbang kesini!
Gaya terakhir pedang iblis!
Setelah melihat Weibo Guru Fan Hui, semua orang mulai tertawa dengan berbagai cara.
@ , "Apakah ada rangkaian kursus selama 21 hari dari mulai masuk hingga master?"
@ Saya adalah awan mengambang, "Sudah berakhir, jumlah pemain sepuluh dan telah meningkat secara drastis."
@ Jalan raya otomatis, "Jadikan itu aplikasi dan Anda bisa menjadi penipu untuk game Go."
@ Yu Bianfeng, "Guru di kelas remedial Go tidak bisa mengajar lagi." (Guru Go berkata dia pusing di toilet sambil menangis)
Setelah menyaksikan ejekan semua orang, mari kita lihat apa yang dikatakan para pemain profesional.
Chang Hao, juara dunia Go dan pecatur profesional sembilan dan, mengatakan bahwa alat bantu mengajar belum tentu merupakan jawaban standar, melainkan memberi kita ruang berpikir yang tidak terbatas.
Zhou Ruiyang, juara pelantikan Piala Aito Piala Dunia Terbuka, berkata, "Jangan hanya mempelajari gaya atau apa pun. Setelah melihat beberapa teknik canggih dengan alat ini, saya merasa dapat lepas landas lagi."
Pemain Go Nasional Li Zhe, Juara Pertempuran Bintang Naga Piala Berlian ke-3, juga memberikan evaluasi yang adil untuk alat pengajaran ini: Banyak orang akan khawatir tentang standarisasi tata letak di masa mendatang, tetapi mereka tidak perlu mengkhawatirkannya. Alat pengajaran tidak memberi tahu semua orang bahwa "Anda hanya bisa bermain seperti ini", tetapi memberi tahu Anda bahwa "beberapa metode tidak baik" dan "Anda bisa bermain seperti ini". Beberapa gerakan yang tidak ada dalam gambar tidak disertakan karena keacakan simulasi, karena mengandung banyak poin dengan tingkat kemenangan yang tinggi, jadi Anda tetap dapat mencobanya dengan berani.
Selain itu, Ke Jie, yang dikalahkan oleh AlphaGo Master pada Mei tahun ini, mem-posting ulang Weibo untuk pertama kalinya, mengatakan "pelajari Pergi lagi." (Juga menggunakan emotikon doge yang rendah hati)
Dan apakah alat ini bagus atau tidak, Anda bisa mencobanya sendiri.
Alamat bahasa Inggris dari situs resmi adalah sebagai berikut: https://alphagoteach.deepmind.com/
Alamat Cina adalah sebagai berikut: https://alphagoteach.deepmind.com/zh-hans
Terlampir David Silver memperkenalkan kunci untuk pengembangan AlphaGo Master:
Mengapa AlphaGo Master begitu kuat?
Kami membiarkan AlphaGo bermain melawan diri kami sendiri. Ini didasarkan pada pembelajaran penguatan, dan kami tidak lagi belajar dari permainan catur manusia. AlphaGo melatih dirinya sendiri dan belajar dari dirinya sendiri. Melalui pembelajaran penguatan, ia belajar bagaimana meningkatkan.
Di setiap putaran permainan, AlphaGo menjalankan pencarian kekuatan penuh untuk menghasilkan rekomendasi gerakan, atau rencana. Ketika ia memilih langkah ini, mengimplementasikan, dan bergabung ke babak baru, ia akan menjalankan pencarian lagi, masih berdasarkan jaringan strategi dan jaringan nilai, dan pencarian penuh dengan daya tembak untuk menghasilkan rencana langkah berikutnya, dan seterusnya, sampai satu Permainan sudah berakhir. Ini akan mengulangi proses ini berkali-kali untuk menghasilkan data pelatihan besar-besaran. Selanjutnya, kami menggunakan data ini untuk melatih jaringan saraf baru.
-
Pertama, saat AlphaGo bermain catur dengan dirinya sendiri, gunakan data pelatihan ini untuk melatih jaringan strategi baru. Faktanya, ini adalah data dengan kualitas tertinggi yang dapat kami peroleh sebelum AlphaGo menjalankan pencarian dan memilih solusi.
-
Pada langkah berikutnya, biarkan jaringan strategis hanya menggunakan dirinya sendiri, tanpa pencarian apa pun, untuk melihat apakah ia dapat menghasilkan solusi yang sama. Idenya di sini adalah: Biarkan jaringan strategis mengandalkan dirinya sendiri, mencoba menghitung rencana penempatan yang sama seperti seluruh hasil pencarian AlphaGo. Dengan cara ini, jaringan strategis seperti itu jauh lebih kuat daripada versi sebelumnya dari AlphaGo.
Kami juga melatih jaringan nilai dengan cara serupa. Ini menggunakan data strategi terbaik untuk pelatihan, dan data ini berasal dari versi lengkap AlphaGo dan data pemenang saat bermain catur. Seperti yang bisa Anda bayangkan, AlphaGo memainkan banyak catur dengan dirinya sendiri. Permainan paling representatif dipilih untuk mengekstrak data pemenang. Oleh karena itu, data pemenang ini adalah penilaian footwork yang sangat berkualitas di babak awal permainan.
-
Akhirnya, kami mengulangi proses ini berkali-kali, dan akhirnya mendapatkan strategi dan jaringan nilai baru. Mereka jauh lebih kuat dari versi lama. Kemudian integrasikan versi baru dari strategi dan jaringan nilai ke dalam AlphaGo untuk mendapatkan versi baru dari AlphaGo yang lebih kuat dari sebelumnya. Ini mengarah pada pengambilan keputusan yang lebih baik, hasil dan data berkualitas lebih tinggi dalam pencarian pohon, dan daur ulang untuk mendapatkan strategi dan jaringan nilai yang baru dan lebih kuat, yang lagi-lagi mengarah ke AlphaGo yang lebih kuat, dan seterusnya.
Untuk informasi lebih rinci, silakan merujuk ke artikel sebelumnya oleh Leifeng.com Tinjauan Teknologi AI: Langsung | Pidato asli David Silver: Mengungkap versi baru dari algoritma AlphaGo dan rincian pelatihan
Tindak lanjut dari tinjauan teknologi AI Lei Feng juga akan membawa laporan berkelanjutan.
- Apakah iPhone 6 tiga tahun lalu masih cukup? Apakah Anda akan memilih Android atau iOS seharga 2000 yuan?
- Memasuki proyek-proyek utamaKereta Api Kecepatan Tinggi Zhengwan (Bagian Chongqing) berkembang dengan mantap, dan hanya membutuhkan waktu 8 jam dari Chongqing ke Beijing setelah dibuka untuk lalu li
- Cocok untuk bisnis dan liburan, ransel ini memiliki kapasitas dan kepraktisan yang besar dan super Xiaomi!