Anne Bian Ce dari Kuil Aufei
Diproduksi Qubit | Akun Publik QbitAI
Operasi konvolusi tradisional akan menjadi sesuatu dari masa lalu.
Facebook dan National University of Singapore telah bersama-sama mengusulkan generasi baru alternatif: OctConv (Konvolusi Oktaf), efeknya luar biasa dan sangat nyaman digunakan.
OctConv seperti "kompresor" dari Convolutional Neural Network (CNN). Menggunakannya untuk menggantikan konvolusi tradisional dapat meningkatkan efek sekaligus menghemat konsumsi sumber daya komputasi.
Misalnya, untuk algoritma pengenalan gambar klasik, menggantikan konvolusi tradisional, akurasi pengenalan pada ImageNet dapat ditingkatkan sebesar 1,2%, dan pada saat yang sama, hanya 82% dari daya komputasi dan 91% dari ruang penyimpanan yang diperlukan.
Jika tidak ada persyaratan yang tinggi untuk akurasi, dan tingkat aslinya hanya terpenuhi setengah Daya komputasi floating-point sudah cukup.
Ingin mencapai peningkatan seperti itu, saya khawatir jaringan saraf akan terbalik, bukan?
Tidak perlu sama sekali, OctConv Pasang dan mainkan , Tidak perlu memodifikasi arsitektur jaringan asli, dan tidak perlu menyesuaikan hyperparameter, sehingga mudah untuk pulang.
Generasi baru konvolusi inilah yang membuat Ian Goodfellow, pencipta utama GAN dan AI menjadi sapi besar Tidak sabar , Tidak hanya meneruskan rekomendasi, tetapi juga menyatakan untuk terus memperhatikan kemajuan, dan kemudian tweet untuk memberi tahu semua orang ketika open source.
OctConv juga telah diakui oleh banyak netizen. Hanya dalam 5 jam, tweet Goodfellow menerima 700 suka, dan netizen menyebut "Kerja bagus!"
Jadi, jaringan peri seperti apa OctConv itu?
Daya komputasi , tingkat akurasi
Pertama-tama mari kita lihat seberapa efektif itu.
Misalnya, algoritme pengenalan gambar klasik: ResNet-50, perubahan apa yang akan dibawa oleh operasi konvolusi baru?
Garis putus-putus merah muda pada gambar di atas adalah pengaruh OctConv dengan konfigurasi parameter yang berbeda pada ResNet-50. Titik merah muda kedua dari kiri menunjukkan konfigurasi yang lebih seimbang: akurasi sedikit lebih tinggi daripada versi aslinya (titik hitam paling kanan), tetapi daya komputasi floating-point yang dibutuhkan hanya setengah dari versi aslinya.
Berbagai jaringan pengenalan gambar yang diwakili oleh garis putus-putus lainnya, sekecil ResNet-26 dan DenseNet, sebesar ResNet-200, di bawah restu OctConv, semuanya mencerminkan peningkatan kinerja dan penurunan permintaan daya komputasi.
Menyesuaikan parameter dari OctConv dapat menemukan keseimbangan antara peningkatan kinerja dan penghematan daya komputasi.
Sambil mengurangi kebutuhan daya komputasi, OctConv juga dapat mempersingkat waktu yang dibutuhkan untuk inferensi jaringan saraf. Misalnya, waktu inferensi ResNet-50 secara bertahap akan memendek saat parameter meningkat. Menjaga keakuratan tidak berubah, waktu inferensi dapat dikurangi menjadi 74 milidetik, yang merupakan 62% dari aslinya.
Untuk model besar, sedang dan kecil, para peneliti menguji bagaimana OctConv akan mempengaruhi kemampuan klasifikasi gambar mereka.
Setelah menggunakan OctConv untuk jaringan neural skala besar ResNet-152, dengan hanya daya komputasi 22,2GFLOP, akurasi klasifikasi Top-1 dapat mencapai 82,9%.
Ruang lingkup penerapan OctConv tidak terbatas pada pengenalan gambar.
Baik itu 2D atau 3D CNN, peningkatan ini dapat dicapai. Makalah ini tidak hanya menguji kemampuan klasifikasi gambar ResNet, ResNeXt, DenseNet, MobileNet, SE-Net, dan CNN 2D lainnya di ImageNet, tetapi juga menguji perubahan kinerja C2D, I3D, dan algoritme pengenalan perilaku video lainnya setelah beralih ke OctConv.
Kompres konvolusi seperti gambar terkompresi
Dari mana datangnya daya komputasi yang dihemat oleh OctConv?
Untuk operasi konvolusi biasa, semua peta fitur masukan dan keluaran memiliki resolusi spasial yang sama.
Padahal, sebuah gambar dapat dibagi menjadi dua bagian: struktur kasar (bagian frekuensi rendah) dan detail tepi (frekuensi tinggi). Sebagai contoh, foto penguin dapat memisahkan dua komponen:
Bagian penguin yang warna bulunya mirip, warna latar belakang berubah secara perlahan, yang termasuk informasi frekuensi rendah, dan jumlah informasinya lebih sedikit; sedangkan bagian di mana dua warna bulu bertemu, warna tepi tubuh penguin berubah secara drastis, yang termasuk dalam informasi frekuensi tinggi dengan lebih banyak informasi.
Dalam hal ini, kami dapat sepenuhnya memampatkan bagian frekuensi rendah dengan lebih sedikit informasi untuk mengurangi ruang redundan.
Demikian pula, peta fitur keluaran dari lapisan konvolusional sama dengan foto yang diambil, ini juga dapat dianggap sebagai campuran informasi frekuensi yang berbeda, dan pemrosesan serupa dilakukan.
Peneliti terinspirasi oleh pemisahan frekuensi dan kompresi gambar. Konvolusi Oktaf Idenya adalah untuk melakukan operasi serupa pada jaringan konvolusional, memampatkan bagian frekuensi rendah, memproses data bagian frekuensi tinggi dan rendah secara terpisah, dan bertukar informasi di antara keduanya, sehingga mengurangi penyimpanan dan konsumsi kalkulasi operasi konvolusi.
Untuk beradaptasi dengan representasi fitur baru, artikel tersebut mempromosikan konvolusi tradisional dan mengusulkan OctConv . Oktaf artinya Oktaf , Menurunkan oktaf dalam musik berarti mengurangi separuh frekuensi.
Ukuran bagian tensor frekuensi rendah dalam OctConv adalah 0.5h × 0.5w, dan panjang serta lebarnya tepat setengah dari bagian frekuensi tinggi h × w, sehingga menghemat ruang penyimpanan dan perhitungan jumlah tensor.
Meskipun OctConv memampatkan informasi frekuensi rendah, itu juga secara efektif memperluas bidang reseptif di ruang piksel asli, yang dapat meningkatkan kinerja pengenalan.
Proses implementasi
Untuk metode konvolusi umum, W mewakili kernel konvolusi k × k, X dan Y masing-masing mewakili tensor input dan output, dan hubungan pemetaan antara X dan Y adalah:
(p, q) adalah koordinat posisi di tensor X, (i, j) mewakili rentang tetangga yang diambil.
Tujuan dari OctConv adalah untuk memproses bagian frekuensi rendah dan frekuensi tinggi dari tensor secara terpisah, dan untuk mencapai komunikasi yang efektif antara representasi fitur komponen frekuensi tinggi dan frekuensi rendah.
Kami membagi kernel konvolusi menjadi dua komponen:
W =
Pada saat yang sama, komunikasi efektif antara frekuensi tinggi dan rendah terwujud. Oleh karena itu, tensor keluaran juga akan dibagi menjadi dua komponen:
Y =
YH = YH H + YL H, YL = YL L + YH L
Dimana YA B merepresentasikan hasil yang diperbarui setelah pemetaan fitur dari A ke B. YH H dan YL L adalah pembaruan informasi di dalam frekuensi, dan YL H dan YH L adalah pembaruan informasi antar frekuensi.
Oleh karena itu, YH tidak hanya mencakup proses pengolahan informasinya sendiri, tetapi juga mencakup pemetaan dari frekuensi rendah ke frekuensi tinggi.
Untuk menghitung istilah-istilah ini, kami selanjutnya membagi setiap komponen kernel konvolusi menjadi dua bagian: intra-frekuensi dan antar-frekuensi:
WH = WH H + WL H, WL = WL L + WH L
Parameter tensor dapat diekspresikan dengan cara yang lebih jelas:
Kernel konvolusi dari OctConvBentuk ini agak mirip dengan Rumus kuadrat lengkap a ^ 2 + b ^ 2 + ab + ba , Dua suku kuadrat WH H, WL L adalah tensor frekuensi intra, dan dua suku persilangannya adalah tensor antar frekuensi WL H, WH L
Proses "silang" dari kernel konvolusi OctConv, panah merah menunjukkan pertukaran informasi antara frekuensi tinggi dan rendahMetode perhitungan tensor keluaran sama dengan metode konvolusi biasa sebelumnya:
Dalam OctConv, rasio adalah parameter yang dapat disesuaikan, yaitu parameter yang dapat disesuaikan yang disebutkan di atas. Di lapisan dalam dari seluruh jaringan, biarkan in = out = , in = 0, out = di lapisan pertama, dan in = , out = 0 di lapisan terakhir.
Fitur lain yang sangat berguna dari OctConv adalah peta fitur frekuensi rendah memiliki bidang reseptif yang besar. Dibandingkan dengan konvolusi biasa, ini secara efektif memperbesar bidang reseptif sebanyak 2 kali. Ini selanjutnya akan membantu setiap lapisan OctConv untuk menangkap lebih banyak informasi kontekstual dari kejauhan, dan dapat meningkatkan kinerja pengenalan.
Chinese One
Makalah ini diselesaikan bersama oleh Facebook dan National University of Singapore.
Diantaranya, Yunpeng Chen, Haoqi Fang, Bing Xu, Zhicheng Yan, Yannis Kalantidis, Marcus Rohrbach dan lainnya semuanya berasal dari laboratorium AI Facebook.
Salah satunya adalah Yunpeng Chen, yang bernama China Chen Yunpeng. Dia lulus dari Universitas Sains dan Teknologi Huazhong pada tahun 2015 dengan gelar sarjana dan mulai magang di Facebook tahun lalu.
Chen Yunpeng saat ini belajar di National University of Singapore untuk gelar Ph.D. Yan Shuicheng dengan Feng Jiashi Keduanya adalah penulis makalah ini. Setelah lulus tahun ini, Yunpeng Chen akan menjadi peneliti di Facebook.
Seperti karya sebelumnya, Chen Yunpeng telah menerima 4 makalah oleh CVPR, NeurIPS, ECCV dan IJCAI, dll., Dengan fokus pada deep learning di bidang visual intersection.
Yan Shuicheng adalah profesor tetap di National University of Singapore. Yan Shuicheng sekarang adalah wakil presiden 360, dekan dan kepala ilmuwan di Institute of Artificial Intelligence.
Dia terutama meneliti bidang visi komputer, pembelajaran mesin, dan analisis multimedia. Dia telah menerbitkan hampir 500 makalah akademis dan telah dikutip lebih dari 25.000 kali. Dia telah terpilih sebagai sarjana global yang terkenal sebanyak tiga kali. Saat ini, Yan Shuicheng memiliki banyak penghargaan dan berkah, dan telah dinobatkan sebagai IEEE Fellow, IAPR Fellow dan ACM Outstanding Scientist.
Feng Jiashi saat ini menjadi asisten profesor di Departemen Teknik Elektronik dan Komputer di Universitas Nasional Singapura dan kepala Laboratorium Pembelajaran dan Visi Mesin.
Setelah lulus dari Universitas Sains dan Teknologi China, Feng Jiashi belajar untuk gelar PhD di National University of Singapore, lalu pergi ke UC Berkeley Artificial Intelligence Laboratory untuk penelitian pasca doktoral. Arah penelitiannya adalah pengenalan gambar, pembelajaran mendalam, dan pembelajaran mesin yang kuat untuk data besar.
Pintu gerbang
Alamat kertas:
https://export.arxiv.org/abs/1904.05049
Beberapa netizen hanya mereproduksi penelitian ini:
https://github.com/terrychenism/OctaveConv
- Selesai -
Perekrutan yang tulus
Qubit merekrut editor / reporter dan berbasis di Zhongguancun, Beijing. Kami menantikan siswa berbakat dan antusias bergabung dengan kami! Untuk detail terkait, harap balas dengan kata "perekrutan" di antarmuka dialog QbitAI.
Qubit QbitAI · Toutiao Signing Author
'' Lacak tren baru dalam teknologi dan produk AI
- Tontonan lain dalam sejarah Liga Super, tim-tim Liga Champions AFC berada di ambang degradasi di paruh kedua tahun ini, hampir terbawah.
- Anjing jahat menjadi anjing lucu, gadis pejalan kaki menjadi istri: Plug-in GAN open source Jepang, di mana Anda ingin mengarahkannya
- Tiga favorit degradasi utama memiliki kemenangan lengkap untuk mengganggu situasi degradasi Liga Super, dan harapan kedua tim untuk juara secara resmi hancur.
- Game ini tidak hanya membuat hati si pemain meledak, tapi juga menguji IQ si pemain.Apakah kamu harus memulai dari awal jika salah langkah?
- Game mengubah hidup! Terinspirasi oleh karakter gim, pemain bekerja keras untuk mencapai serangan balik besar dalam hidup!
- Perawatan medis AI IBM telah memasuki jalan buntu: Bahkan Bengio tidak optimis menggunakan NLP untuk memecahkan masalah medis