Lei Feng Net Catatan: Artikel ini adalah blog teknis yang disusun oleh grup subtitle Lei Feng, judul aslinya adalah 10 makalah paling keren dari CVPR 2018, dan penulisnya adalah George Seif.
Terjemahan | Cheng Wei dan Liao Ying mengoreksi | Lin Xiao menyusun | SAYA
Computer Vision and Pattern Recognition Conference (CVPR) 2018 diadakan di Salt Lake City, USA minggu lalu, merupakan konferensi top dunia dalam bidang computer vision. Tahun ini, CVPR menerima 3.300 kiriman makalah konferensi utama, 979 di antaranya diterima. Lebih dari 6.500 orang menghadiri pertemuan tersebut! 6.500 orang berkumpul:
Aula konferensi CVPR yang luar biasa 2018
Setiap tahun, CVPR menghadirkan orang-orang luar biasa dan penelitian hebat mereka.Kita selalu bisa melihat dan belajar hal-hal baru. Tentunya beberapa makalah selalu mempublikasikan hasil terobosan baru dan membawa ilmu baru. Makalah ini sering membawa teknologi terbaru ke banyak sub-bidang computer vision.
Baru-baru ini, saya ingin melihat makalah kreatif! Dengan kemajuan pesat dalam pembelajaran mendalam di bidang visi komputer, kami masih menjajaki semua kemungkinan. Banyak makalah akan mengusulkan aplikasi baru dari jaringan dalam dalam visi. Ini mungkin bukan karya yang paling fundamental dan inovatif, tetapi menarik. Mereka memberikan perspektif yang kreatif dan mencerahkan, seringkali memicu ide-ide baru dari perspektif baru. Secara keseluruhan, mereka keren!
Di sini, saya akan menunjukkan kepada Anda apa yang menurut saya adalah 10 makalah paling keren di CVPR 2018. Kami akan melihat aplikasi baru yang mungkin hanya menggunakan jaringan dalam dalam waktu dekat. Selain itu, makalah lain memberikan cara baru dalam penggunaannya. Anda dapat menemukan beberapa ide baru di sepanjang arah ini. Tak perlu dikatakan, mari kita lihat!
Gunakan data komprehensif untuk melatih jaringan dalam: mengisi celah dalam kenyataan melalui pengacakan domain
Makalah ini berasal dari NVIDIA. Ini telah membuat langkah besar dalam menggunakan data sintetis untuk melatih jaringan saraf konvolusional (CNN). Ini membuat plug-in untuk Unreal Engine untuk menghasilkan data pelatihan sintetis. Kunci sebenarnya adalah mereka mengacak variabel data pelatihan, termasuk:
-
Jumlah dan jenis objek
-
Jumlah, jenis, warna dan skala pengalih perhatian
-
Foto tekstur dan latar belakang objek yang menarik
-
Posisi kamera virtual relatif terhadap pemandangan
-
Sudut kamera relatif terhadap pemandangan
-
Jumlah dan lokasi sumber cahaya titik
Mereka menunjukkan beberapa hasil yang menjanjikan dan membuktikan keefektifan pra-pelatihan dengan data sintetis. Hasil ini tidak tercapai sebelumnya. Jika Anda kekurangan beberapa sumber daya penting, mungkin membantu cara membuat dan menggunakan data sintetis.
Gambar muncul di kertas
WISPE: Penguat Foto dengan Pengawasan Lemah untuk Kamera Digital
Sungguh kecerdasan! Mereka melatih Generative Adversarial Network (GAN) untuk mempercantik foto secara otomatis. Bagian yang paling keren adalah pengawasannya lemah, Anda tidak perlu pasangan gambar input-output! Yang Anda perlukan untuk melatih jaringan adalah serangkaian gambar "bagus" (untuk keluaran gambar berlabel) dan satu set gambar "jelek" (untuk gambar masukan) yang ingin Anda tingkatkan. Kemudian, GAN dilatih untuk menghasilkan versi gambar masukan yang dipercantik, biasanya sangat meningkatkan warna dan kontras gambar.
Ini cepat dan mudah digunakan karena Anda tidak memerlukan pasangan gambar yang tepat, dan pada akhirnya Anda akan mendapatkan penguat gambar "universal". Saya juga menyukai metode pengawasan yang lemah ini. Pembelajaran tanpa pengawasan tampaknya cukup jauh. Tetapi untuk banyak subbidang computer vision, pengawasan yang lemah tampaknya menjadi arah yang menjanjikan dan menguntungkan.
Gambar muncul di kertas
Anotasi interaktif Polygon-RNN ++ yang efisien dari kumpulan data tersegmentasi
Salah satu alasan utama mengapa jaringan dalam berfungsi dengan baik adalah karena tersedia kumpulan data yang besar dan lengkap. Namun, untuk banyak tugas computer vision, data seperti itu memakan waktu dan mahal. Secara khusus, data segmentasi memerlukan label kelas untuk setiap piksel pada gambar. Seperti yang dapat Anda bayangkan ... untuk kumpulan data yang besar, proses ini dapat berlanjut selamanya!
Polygon-RNN ++ memungkinkan pengguna untuk mengatur poligon kasar di sekitar setiap target dalam gambar, dan kemudian jaringan saraf akan secara otomatis menghasilkan tanda segmentasi. Makalah ini membahas metode ini dengan baik, yang juga dapat membuat penanda yang cepat dan sederhana dalam tugas-tugas segmentasi.
Gambar muncul di kertas
Buat lemari pakaian kapsul dalam fashion blockbuster
Apa yang harus saya pakai hari ini? Akan sangat bagus jika seseorang atau sesuatu menjawab pertanyaan ini setiap pagi tanpa Anda memikirkannya. Jika Anda ingin memiliki yang seperti itu, datang dan kenali Lemari Kapsul.
Penulis makalah ini merancang sebuah model. Dengan daftar pakaian dan aksesori yang akan dipilih, kapsul menggunakan item paling sedikit untuk membentuk satu set item, dan set ini dapat menyediakan peralatan mix and match paling banyak. Model tersebut menggunakan fungsi objektif untuk pelatihan dasar, dan desain fungsi objektif merupakan faktor kunci untuk memperoleh kompatibilitas visual, keserbagunaan, dan preferensi khusus pengguna. Dengan menggunakan lemari kapsul, Anda dapat dengan mudah menemukan yang paling cocok dengan selera Anda dari lemari pakaian Anda.
Gambar muncul di kertas
Super SloMo: Estimasi kualitas tinggi dari beberapa frame menengah dalam interpolasi video
Pernahkah Anda berpikir untuk merekam beberapa hal yang sangat keren dalam gerakan super lambat? Lihatlah di Nvdia's Super SloMo! Jaringan neural konvolusional mereka memperkirakan bingkai tengah video, dan dapat mengubah video standar 30fps menjadi gerakan lambat yang tampak menakjubkan pada 240fps! Model memperkirakan aliran optik antar bingkai. Dengan model ini, Anda juga dapat memasukkan bingkai video tanpa memengaruhi kualitas gambar, sehingga gerakan lambat terlihat jelas.
Sebuah peluru menembus telur, super SloMo!
Siapa yang mengendalikan anjing itu? Buat model perilaku anjing berdasarkan data visual
Ini mungkin nama makalah penelitian paling keren yang pernah ada! Idenya adalah mencoba dan mencontoh apa yang dilakukan dan dipikirkan anjing. Penulis memasang sejumlah besar sensor pada anggota tubuh anjing untuk mengumpulkan data gerakannya, dan juga memasang kamera di kepalanya untuk mendapatkan perspektif pertama anjing di dunia. Satu set ekstraktor fitur jaringan saraf konvolusional digunakan untuk mengekstrak fitur dalam gambar yang diperoleh dari bingkai video, dan kemudian fitur ini ditransmisikan ke rangkaian jaringan memori jangka panjang dan pendek bersama dengan data sensor untuk mempelajari dan memprediksi perilaku anjing. Ini adalah aplikasi yang sangat baru dan kreatif. Kerangka kerja unik dan implementasi tugas ini membuat artikel ini layak dibaca! Semoga artikel ini dapat merangsang kreativitas dalam penelitian kedepannya, baik itu cara kita mengumpulkan data maupun penerapan teknologi deep learning.
Gambar muncul di kertas
Belajar membagi segalanya
Dalam beberapa tahun terakhir, tim He Kaiming (sebelumnya di Microsoft Research Asia, sekarang di Lab Penelitian Kecerdasan Buatan Facebook) telah melakukan banyak penelitian penglihatan komputer. Kekuatan artikel mereka terletak pada kombinasi efektif antara inovasi dan kesederhanaan. Baik ResNets maupun Mask R-CNN bukanlah ide penelitian paling gila dan paling kompleks. Mereka sangat sederhana, mudah diterapkan, dan sangat efektif dalam praktiknya. Yang ini sama.
Belajar mengelompokkan semuanya merupakan perpanjangan dari Mask R-CNN, sehingga jaringan saraf dapat melakukan segmentasi tanpa melihat kelas selama proses pelatihan! Ini sangat efektif untuk akuisisi tag kumpulan data yang cepat dan murah. Ia dapat memperoleh segmentasi pustaka benchmark yang kuat dari kelas target yang tidak terlihat, yang sangat penting untuk penyebaran jaringan saraf tiruan segmentasi di lapangan, karena dalam lingkungan tersebut, ada sejumlah besar kelas target yang tidak terlihat. Secara keseluruhan, ini adalah langkah ke arah yang benar bagi kami untuk memikirkan tentang cara memaksimalkan penggunaan model jaringan neural dalam.
Gambar muncul di kertas
Secara langsung di buku catatan
Saat Piala Dunia sedang berlangsung, publikasi makalah ini akan memenangkan Penghargaan Waktu Terbaik! Ini benar-benar salah satu aplikasi keren dalam computer vision CVPR. Sederhananya, video game sepak bola dapat menampilkan rekonstruksi dinamis tiga dimensi dari game tersebut, sehingga melatih model tersebut. Artinya, Anda dapat menggunakan teknologi augmented reality untuk menonton game ini di mana saja!
Model yang lebih cerdas adalah penggunaan gabungan dari berbagai jenis informasi. Gunakan data video game untuk melatih jaringan, dan berdasarkan data ini, kisi tiga dimensi dapat diekstraksi dengan sangat mudah. Selama pengujian, kotak pembatas, postur, dan lintasan atlet (di antara beberapa bingkai) diekstraksi untuk menyegmentasikannya. Segmentasi tiga dimensi ini dapat dengan mudah diproyeksikan ke ruang mana pun (sehingga Anda dapat membuat stadion virtual apa pun) untuk menonton pertandingan sepak bola augmented reality! Menurut pendapat saya, pintar menggunakan data sintetis untuk pelatihan, dan ini juga merupakan aplikasi yang sangat menarik!
Gambar muncul di kertas
LayoutNet: Mewujudkan pemodelan 3D tata letak ruangan dari gambar berwarna tunggal
Sebagian besar dari kita memiliki gagasan ini: memotret sesuatu dan kemudian merekonstruksinya dalam 3D digital. Makalah ini adalah aplikasi visi komputer, dan kebetulan mewujudkan ide ini, terutama untuk rekonstruksi ruangan 3D. Mereka menggunakan gambar panorama sebagai input untuk mendapatkan tampilan keseluruhan ruangan, dan outputnya adalah rekonstruksi 3D tata letak ruangan yang sangat akurat! Model ini memiliki kemampuan yang cukup untuk menghasilkan ruangan dengan bentuk berbeda, yang dapat memuat banyak perabotan berbeda. Aplikasi ini sangat menarik dan dapat dibaca dengan baik tanpa melihat hasil kerja banyak peneliti computer vision.
Gambar muncul di kertas
Mempelajari arsitektur konversi untuk pengenalan gambar yang dapat diskalakan
Hal terakhir namun penting adalah memikirkan masa depan deep learning: Neural Architecture Search (NAS). Ide dasar di balik NAS adalah untuk mengganti desain manual dari arsitektur jaringan. Kita dapat menggunakan jaringan neural lain untuk "mencari" struktur model terbaik. Pencarian ini didasarkan pada fungsi reward, yang sangat cerdas. Fungsi penghargaan memberikan model yang berkinerja baik pada kumpulan data validasi. Penulis menunjukkan arsitektur yang lebih tepat daripada desain manual dalam artikel. Ini memiliki banyak ruang untuk pengembangan di masa depan, terutama desain aplikasi khusus. Karena kami hanya perlu memfokuskan semua energi kami untuk merancang algoritme NAS secara manual daripada merancang jaringan khusus untuk aplikasi khusus kami. Algoritme NAS besar yang dirancang dengan baik cukup fleksibel untuk menemukan jaringan yang baik untuk tugas tertentu.
Gambar muncul di kertas
Untuk menyimpulkan
Terima kasih telah membaca! Saya sangat berharap Anda akan mempelajari pengetahuan baru dan berguna, dan suatu hari Anda dapat menggunakan sebagian darinya dalam pekerjaan Anda sendiri. Jika Anda menyukai konten kami, beri kami jempol, biarkan lebih banyak orang melihat poster ini, dan bergabunglah dengan kami dalam perjalanan belajar!
Tautan asli: https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49
Lei Feng Net Lei Feng Net
- Kuda yang baik harus dilengkapi dengan pelana. Film cangkang pelindung kelas atas untuk iPhoneXS tersedia di Apple Store!
- Upgrade konfigurasi Tambahkan fungsi buka kunci sidik jari! Produk notebook baru Xiaomi resmi dirilis
- Saksikan perubahan mode! Seri baru MISBHV SS18 memberi Anda perasaan nostalgia ballroom tahun 80-an!