Penulis | Ulasan Teknologi AI Lei Feng.com
Editor | Unta Jaring Lei Feng
Baru-baru ini, ada peningkatan kontroversi di Twitter dan Reddit. Pertama, François Chollet, Yann LeCun, dan lainnya menganalisis "apa itu pembelajaran mendalam", dan kemudian sejumlah besar peneliti memperdebatkan "Apakah jaringan saraf Bayes masuk akal? ". Tahun baru penuh dengan bubuk mesiu. Apakah ini juga berarti penelitian deep learning sedang memasuki periode kacau? Kebenaran tidak jelas tanpa diskriminasi; pengetahuan tidak jelas tanpa argumen.
Yang disebut jaringan saraf Bayesian, secara sederhana, adalah mengubah bobot dan bias dalam jaringan saraf umum dari nilai tertentu menjadi distribusi.
Menurut pemahaman umum, cara pengungkapan parameter dalam bentuk distribusi probabilitas ini dapat memberikan estimasi ketidakpastian untuk penalaran jaringan; selain itu, dengan menggunakan bentuk distribusi probabilitas sebelumnya untuk merepresentasikan parameter, nilai rata-rata dapat dihitung pada banyak model selama pelatihan. Memberikan efek regularisasi ke jaringan untuk mencegah overfitting. Kemudian, sekitar sebulan yang lalu, peneliti OpenAI Carles Gelada menerbitkan serangkaian Twitter:
Dia menunjukkan bahwa mungkin jaringan saraf Bayesian tidak terlalu berguna. Pandangan umumnya adalah: 1) Kita akan menggunakan aturan Bayesian hanya jika kita memiliki parameter prior yang masuk akal, tetapi tidak ada yang tahu apa prior akan menyandikan bobot jaringan saraf, jadi mengapa kita menggunakan ini A priori? 2) Banyak regularisasi yang bisa dijelaskan oleh Bayes, namun nyatanya setiap orang bisa memberikan penjelasan untuk regularisasi. Jadi apa gunanya menggunakan teori Bayesian untuk menjelaskan regularisasi? 3) Beberapa orang mungkin mengatakan bahwa BNN memungkinkan kita untuk secara langsung menggunakan pengalaman untuk menemukan regularisasi. Tapi siapa yang menjamin ruang regularisasi yang ditemukan BNN optimal? 4) BNN dapat digunakan dalam kerangka meta-learning Bayesian. Tetapi tidak ada alasan untuk percaya bahwa aplikasi ini akan lebih baik daripada kerangka pembelajaran meta lainnya. Menanggapi keberatan yang diajukan oleh Carles ini, Twitter dengan cepat menarik sejumlah besar peneliti untuk bergabung dalam diskusi. Kebanyakan dari mereka mengutip klasik dan debat dari berbagai perspektif seperti perkembangan sejarah, penelitian terkini, dan pengalaman praktis, dan setuju atau menentangnya.
1. Apakah jaringan saraf Bayesian berguna?
Untuk memperjelas posisi "Jaringan Bayesian tidak berguna", Carles Gelada dan Jacob Buckman baru-baru ini mengatur ulang ide-ide mereka, dan menulis sebuah blog, dimulai dari prinsip jaringan Bayesian, diuraikan secara rinci "Kebutuhan BNN Pengetahuan apriori dengan informasi awal yang kaya dapat menangani ketidakpastian ", dan menunjukkan bahwa biaya generalisasi tidak dapat diabaikan.
1. Alasan ketidakpastian jaringan saraf Bayesian: generalisasi tidak diketahui sebelumnya
Untuk menggambarkan pentingnya prior dalam jaringan Bayesian, Buckman memperkenalkan prior generalisasi-agnostik di blognya. Menggunakan "prior yang tidak dapat diketahui" ini untuk inferensi Bayes tidak Kurangi ketidakpastian model. Carles dan Buckman percaya bahwa jika Anda ingin menggunakan kerangka Bayesian dalam pembelajaran mendalam, Anda hanya dapat mencapai hasil yang baik jika Anda mengasosiasikan prior dengan karakteristik generalisasi jaringan saraf. Caranya adalah memberikan fungsi dengan kemampuan generalisasi yang baik yang lebih tinggi Kemungkinan. Namun sivitas akademika saat ini belum memiliki kemampuan yang cukup (tebakan penulis) untuk membuktikan situasi apriori mana yang dapat memenuhi kondisi tersebut. Selain itu, Buckman memberikan contoh konkret di blognya: When a set data C
Ini berisi dua pasangan data: satu adalah masukan yang diberikan dan keluarannya benar; yang lainnya adalah masukan yang diberikan dan keluarannya salah. Parameter diperoleh dengan melatih jaringan saraf
Jaringan neural harus dapat mengekspresikan keluaran yang benar dan keluaran yang salah. Bahkan jika model bisa mendapatkan probabilitas bersyarat p (f | c) = 1 setelah pelatihan pada kumpulan data, model mungkin berperforma buruk pada set pengujian. Selain itu, untuk menentukan probabilitas Q sebelumnya, Anda dapat membiarkan Q (f *) = Q (f), yang berarti bahwa jika fungsi yang digeneralisasi dengan baik dan fungsi yang digeneralisasi dengan buruk mendapatkan probabilitas distribusi yang sama. Tetapi jenis prior ini bermasalah: karena probabilitas data f * dan f adalah 1, dan karena probabilitas prior serupa, ini berarti probabilitas posterior juga serupa (rumus berikut).
Catatan: Faktanya, untuk beberapa data, f dapat menghasilkan keluaran yang salah, yaitu Q (f *) tidak sama dengan Q (f)
Singkatnya, Carles dan Buckman percaya bahwa dalam kondisi generalisasi yang tidak dapat diketahui, terlepas dari kumpulan datanya, ketidakpastian model tidak dapat dikurangi. Artinya, faktor kunci dari jaringan saraf Bayesian adalah: apriori dapat membedakan antara fungsi yang digeneralisasi dengan baik dan fungsi yang digeneralisasi dengan buruk.
2. Kemampuan generalisasi jaringan Bayesian saat ini tidak diketahui
Saat membangun jaringan neural Bayesian, semua orang setuju untuk menggunakan probabilitas yang relatif sederhana sebelum, yaitu, dengan asumsi bahwa parameter mematuhi distribusi Gaussian independen. Namun, prior Gaussian jelas akan mengarah ke prior struktural, dan prior tersebut tidak memiliki kemampuan generalisasi. Ada dua alasan: 1. Prioritas Gaussian mendistribusikan probabilitas dengan lancar. 2. Saat melatih jaringan saraf, terlepas dari kumpulan datanya, strategi yang paling masuk akal adalah memberikan bobot yang sama pada fungsi generalisasi yang berbeda. Hal lain adalah bahwa masalah kalkulasi tidak dapat diabaikan Faktanya, bagaimana menghitung inferensi Bayesian q (F | D) dapat menjadi faktor kunci untuk jaringan saraf Bayesian (dengan generalisasi apnostik apriori) untuk memiliki efek yang wajar.
3. Mengkritik BNN secara rasional
Carles dan Buckman juga menyatakan dalam blognya bahwa alasan di atas adalah dugaan, karena tidak mungkin untuk mengetahui faktor-faktor apa yang menentukan kemampuan generalisasi jaringan saraf, sehingga definisi apriori implementasi inferensi Bayesian tidak pasti. Jaringan saraf Bayesian hanyalah jaringan saraf, dan prior hanyalah hyperparameter di dalamnya. Carles dan Buckman percaya bahwa menambahkan Bayes ke jaringan tidak akan membawa manfaat apa pun. Ini hanya akan membantu jika pendahuluan yang baik dapat ditemukan dan keakuratan alasan dapat diverifikasi. Selain itu, mereka juga menyebutkan bahwa sebagai sebuah bidang, transendental memegang peranan penting dalam kerangka Bayesian, hal ini tidak diragukan lagi, oleh karena itu perlu kritik rasional terhadap jaringan Bayesian. "Pengalaman bekerja dengan baik di bawah ketidakpastian" (prior yang tidak informatif bagus dalam ketidakpastian).
2. Sanggahan dan kritik: Twitter dan medan perang ganda Reddit
Blog ini secara bersamaan diposting di Twitter dan Reddit, yang secara alami menarik bantahan di kedua platform.
1. Medan perang Twitter: ada kesalahan teknis
Di Twitter, Andrew Gordon Wilson, seorang profesor matematika dan sains data di New York University, mengatakan bahwa pandangan mereka salah: ada kesalahan dalam blog ini.
1. Jika data berasal dari distribusi yang ingin kita sesuaikan, maka seiring dengan meningkatnya skala data yang kita gunakan, kemungkinan akan menyusut menjadi "fungsi yang baik", karena fungsi yang buruk akan semakin banyak Ini jarang terjadi, yang konsisten dengan pengamatan kami.
2. Tidak ada yang mengejutkan tentang model yang dapat menyesuaikan noise, dan tidak sama dengan "terdapat bias induktif, dan model ini lebih cenderung memilih solusi yang berisik". Cukup menambahkan GP-RBF standar sebelum fungsi tersebut dapat mendukung noise, tetapi masih lebih baik dalam memodelkan solusi terstruktur.
3. Untuk masalah yang biasanya diselesaikan oleh jaringan syaraf tiruan, jumlah solusi yang baik biasanya lebih banyak daripada jumlah solusi buruk. Struktur jaringan saraf mengandung bias induktif yang membantu menghasilkan generalisasi yang lebih baik. Pernyataan bahwa fungsi jaringan saraf "tidak ada hubungannya dengan generalisasi" agak tidak bertanggung jawab.
4. Nyatanya, sangat mudah untuk membuat banyak prior "generalisasi yang tidak relevan" di ruang fungsi, dan perilakunya akan sangat berbeda dari jaringan neural. Mereka dapat terdiri dari struktur biasa, dan mereka pasti tidak akan memiliki kemampuan generalisasi.
5. Kurangnya kontraksi posterior yang ideal akan terjadi pada beberapa situasi:
-
Ruang imajiner tidak mengandung solusi yang baik;
-
A priori terlalu yakin tentang solusi yang buruk (misalnya, memberikan label yang sama p ke sembarang x).
Tetapi jaringan saraf memiliki kemampuan ekspresif yang kuat, dan situasi b di sini benar-benar berlawanan dengan "dengan bobot fuzzy sebelum"! Selain diskusi teknis, saya menyarankan agar Anda berdua dapat mengajukan lebih banyak pertanyaan, mempelajari lebih lanjut, dan memiliki pikiran terbuka untuk pembelajaran mendalam Bayesian.
Mungkin "jaringan saraf Bayesian tidak rasional" apriori Anda terlalu kuat untuk dipahami (tersenyum).
Carles Gelada menjawab pertanyaan ini:
Jika situasinya seperti yang Anda katakan, itu adalah tanggung jawab dukungan Bayesian (bukan orang yang meragukan kami) untuk membuktikannya, terutama ketika mereka mengklaim bahwa model tersebut dapat memberikan ketidakpastian yang baik. Faktanya, alasan kami mempertanyakan adalah bahwa ada fungsi generalisasi baik dan buruk di dekat setiap nilai awal, jadi apa yang mereka klaim juga patut dipertanyakan.
Selain itu, diskusi tentang "pemasangan sampel yang rusak" tidak boleh disamakan dengan "suara pemasangan yang pas". Dalam diskusi kita, kita mengasumsikan bahwa tidak ada gangguan dalam tugas klasifikasi, tetapi meskipun itu adalah tugas klasifikasi yang berisik, pandangan kita valid. Pengujian sederhana dapat menunjukkan bahwa prior yang saat ini digunakan tidak relevan dengan generalisasi: melatih fungsi yang baik, melatih fungsi yang buruk, dan kemudian melihat apakah prior memberikan probabilitas yang lebih tinggi untuk fungsi yang lebih baik. Saya curiga bukan ini masalahnya, tetapi pendukung Bayesian perlu membuktikan kepada saya bahwa apriori mereka baik.
2. Reddit reply: level tidak mencukupi + standar ganda
Netizen di Reddit merespons dengan lebih intens dan emosional, dan bahkan postingan yang paling banyak mendapat persetujuan berisi kritik dan ejekan yang keras.
adversary_argument:
Karena blogger kurang memahami a priori yang sebenarnya dalam inferensi Bayesian, saya merasa diskusi ini sangat membosankan, dan bahkan berbau standar ganda.
Semua peneliti deep learning (dan penulis sendiri) telah menerima penggunaan jaringan neural dalam skala besar. Bahkan jika kami belum menemukan batas generalisasi yang jelas, kami masih memiliki sedikit pemahaman teoretis tentang jaringan saraf. Tetapi karena jaringan saraf bekerja dengan memuaskan, masalah ini diabaikan begitu saja - jaringan saraf itu baik dan adil. Namun, penulis sekarang mensyaratkan bahwa jaringan saraf Bayesian harus memberikan jaminan teoritis yang kuat secara apriori, meskipun mereka juga mengakui bahwa jaringan saraf Bayesian efektif ... emmm, menurut Anda apakah ini seperti pencuri yang berteriak dan menangkap pencuri?
Orang yang melakukan deep learning dapat menyebarkan komentar negatif Terutama, menurut saya cara mereka berdiskusi, membahas test set C yang sewenang-wenang dan korup, hanya menyerang target yang mereka buat. Itu dia.
Izinkan saya menjelaskannya kepada Anda: mereka tidak memberikan jumlah data yang rusak, tetapi mereka mengklaim bahwa f_theta pasti akan berkinerja buruk di D_test? Apa dasar mereka? Misalnya, D adalah kumpulan data yang terdiri dari satu juta titik data yang baik, dan C adalah D ditambah titik data yang rusak Jadi menurut teori mereka, kesalahan pengujian pada D_test pasti sangat buruk?
Mereka banyak berceceran, dan pada akhirnya mereka hanya membuktikan bahwa merusak data pelatihan akan mengurangi akurasi pengujian jaringan saraf Bayesian ... Uh ... Jadi apa yang aneh ...
Blogger itu menjawab:
Mungkin kita kurang jelas menulis di blog. Kami menganggap kumpulan data dengan data yang rusak, bukan untuk menunjukkan bahwa selama ada data yang rusak, akan ada kinerja prediksi yang buruk (terutama untuk kasus satu juta ke satu), tetapi untuk menunjukkan bahwa ada data yang rusak, setelah pemasangan jaringan saraf Ada kumpulan data dengan kinerja generalisasi yang buruk. Kami di sini untuk menggambarkan keberadaan. Jika apriori memberikan probabilitas tinggi ke jaringan seperti itu, maka inferensi Bayes tidak bermanfaat. Blog kami bukan untuk menyatakan bahwa jaringan saraf Bayesian tidak berguna, tetapi untuk mengatakan bahwa "Jika tidak ada yang baik sebelumnya, jaringan saraf Bayesian tidak dapat memberikan perkiraan ketidakpastian yang baik." "Tentang non-informatif Metode diskusi apriori standar bermasalah "dan" Untuk memiliki perkiraan ketidakpastian yang baik, kita perlu memahami generalisasi jaringan saraf. " Selain itu, banyak netizen Reddit lainnya yang juga menganggap sikap diskusi para blogger asli bermasalah, dan sulit untuk menyebutnya tampilan tenang. Beberapa eksperimen sederhana juga bisa dicoba sendiri.
Lei Feng.com melaporkan.
- Abu dari 18 petugas pemadam kebakaran yang dikorbankan dikirim kembali ke Ningnan, dan puluhan ribu orang "membawa pulang pahlawan itu"
- Letakkan bunga untuk batu nisan 2728 martir satu per satu, Biro Urusan Veteran Yantai Laiyang memberi penghormatan kepada para pahlawan
- Area berita hangat | Udara dingin melanda Shandong, suhu terendah turun menjadi 0 ! Ladang lobak paling indah di Jinan sedang mekar
- Masuklah ke Far East Testing Center untuk mendengarkan cerita di balik "Far East Quality Manufacturing"