Menurut AI Technology Review, CVPR 2019 akan diadakan di Long Beach, USA pada bulan Juni. Tahun ini, lebih dari 5.165 makalah konferensi telah diserahkan, dan 1.299 akhirnya diterima. Saat ini, Tencent telah menerima lebih dari 58 makalah yang diterima oleh CVPR ini, antara lain 25 makalah dari Tencent Youtu Lab dan 33 dari Tencent AI Lab.Berikut adalah pengantar detail dari 25 makalah yang diterima dari Tencent Youtu Lab.
1. Identifikasi Ulang Orang yang Tidak Dibimbing dengan Soft Multilabel Learning
Identifikasi ulang pejalan kaki tanpa pengawasan berdasarkan pembelajaran multi-label yang lembut
Dibandingkan dengan metode identifikasi ulang pejalan kaki yang diawasi (RE-ID), RE-ID tanpa pengawasan telah menerima lebih banyak perhatian penelitian karena skalabilitasnya yang lebih baik. Namun, dalam tampilan multi-kamera yang tidak tumpang tindih, pasangan label ( Kurangnya label berpasangan mengarah pada tugas yang sangat menantang untuk mempelajari informasi diskriminatif. Untuk mengatasi masalah ini, kami mengusulkan model pembelajaran multi-label yang lembut untuk RE-ID tanpa pengawasan. Idenya adalah untuk membandingkan orang yang tidak berlabel dengan satu set referensi yang diketahui dalam domain tambahan, dan memberi label orang yang tidak berlabel dengan soft label (seperti vektor kemungkinan dari label bernilai nyata). Berdasarkan fitur visual dan konsistensi soft label pasangan target tak berlabel, kami mengusulkan metode penambangan negatif keras terpandu multi-label untuk mempelajari penyematan diskriminatif. Karena sebagian besar pasangan target berasal dari lintas perspektif, kami mengusulkan metode pembelajaran konsistensi multi-label lembut di bawah perspektif silang untuk memastikan konsistensi label dalam perspektif yang berbeda. Untuk mencapai pembelajaran soft label yang efisien, pembelajaran agen referensi diperkenalkan. Metode kami telah dievaluasi pada Market-1501 dan DukeMTMC-reID, dan secara signifikan lebih baik daripada metode RE-ID tanpa pengawasan terbaik saat ini.
2. Pelacakan Visual melalui Filter Korelasi Teratur Secara Spasial Adaptif
Penelitian tentang pelacakan visual berdasarkan pemfilteran korelasi berbobot spasial adaptif
Makalah ini mengusulkan algoritma penyaringan korelasi kendala spasial adaptif untuk mengoptimalkan bobot filter dan matriks kendala spasial pada saat yang bersamaan. Pertama-tama, mekanisme batasan spasial adaptif yang diusulkan dalam makalah ini dapat mempelajari bobot spasial secara efisien untuk beradaptasi dengan perubahan tampilan target, sehingga dapat diperoleh hasil penelusuran target yang lebih kuat. Kedua, algoritma yang diusulkan dalam makalah ini dapat diselesaikan secara efisien dengan algoritma iteratif bolak-balik Berdasarkan hal tersebut, setiap sub masalah dapat diselesaikan dalam bentuk tertutup. Ketiga, pelacak yang diusulkan dalam makalah ini menggunakan dua model pemfilteran korelasi untuk memperkirakan posisi dan skala target masing-masing, yang secara efektif dapat mengurangi jumlah kalkulasi sambil mendapatkan akurasi pemosisian yang lebih tinggi. Sejumlah besar hasil eksperimental pada kumpulan data komprehensif membuktikan bahwa algoritme yang diusulkan dalam makalah ini dapat mencapai hasil pelacakan yang sebanding dengan algoritme canggih yang ada, dan mencapai kecepatan pelacakan waktu nyata.
3. Serangan Musuh Di Luar Ruang Gambar
Serangan musuh di luar ruang gambar
Menghasilkan contoh permusuhan adalah cara penting untuk memahami mekanisme kerja jaringan saraf dalam. Sebagian besar metode yang ada akan menghasilkan gangguan pada ruang citra, yaitu memodifikasi setiap piksel pada citra secara mandiri. Dalam artikel ini, kami lebih memperhatikan subset dari contoh permusuhan yang sesuai dengan perubahan yang berarti dalam sifat fisik tiga dimensi (seperti rotasi dan terjemahan, kondisi pencahayaan, dll.). Dapat dikatakan bahwa metode konfrontasi ini menimbulkan masalah yang lebih penting, karena metode tersebut membuktikan bahwa hanya mengganggu objek dan pemandangan tiga dimensi di dunia nyata juga dapat menyebabkan jaringan saraf salah mengklasifikasikan instance.
Dalam tugas klasifikasi dan menjawab pertanyaan visual, kami menambahkan modul rendering di depan jaringan saraf yang menerima masukan 2D untuk memperluas jaringan saraf yang ada. Proses metode kami adalah: pertama-tama render adegan 3D (ruang fisik) menjadi gambar 2D (ruang gambar), lalu petakan ke nilai yang diprediksi (ruang keluaran) melalui jaringan saraf. Metode interferensi countermeasure ini dapat melampaui ruang citra. Ini memiliki arti yang jelas di dunia fisik tiga dimensi. Meskipun serangan konfrontatif dalam ruang citra dapat dijelaskan oleh perubahan albedo piksel, namun kami membuktikan bahwa hal tersebut tidak dapat memberikan penjelasan yang baik pada ruang fisik, yang biasanya memiliki efek non-lokal. Akan tetapi, serangan di ruang fisik dapat melampaui serangan di ruang gambar. Meskipun ini lebih sulit daripada serangan di ruang gambar, serangan di dunia fisik memiliki tingkat keberhasilan yang lebih rendah dan membutuhkan gangguan yang lebih besar.
4. Grafik Konteks Pembelajaran untuk Pencarian Orang
Model pengambilan pejalan kaki berdasarkan jaringan grafik konteks
Artikel ini dipimpin oleh Tencent Youtu Lab dan Shanghai Jiaotong University.
Dalam beberapa tahun terakhir, jaringan saraf dalam telah mencapai kesuksesan besar dalam tugas pengambilan pejalan kaki. Namun, metode ini seringkali hanya berdasarkan informasi penampilan satu orang, dan masih sulit untuk menangani situasi seperti perubahan postur, perubahan pencahayaan, dan oklusi tampilan pejalan kaki di seluruh kamera. Makalah ini mengusulkan model pengambilan pejalan kaki baru berdasarkan informasi kontekstual. Model yang diusulkan mengambil pejalan kaki lain secara bersamaan muncul di tempat kejadian sebagai informasi kontekstual, dan menggunakan model grafik konvolusi untuk memodelkan dampak informasi kontekstual ini pada pejalan kaki target. Kami memecahkan rekor dunia pada saat itu pada dua dimensi evaluasi dari dua set data pengambilan pejalan kaki yang terkenal CUHK-SYSU dan PRW, dan mencapai hasil pengambilan pejalan kaki 1 teratas.
5. Penyempurnaan Foto Kurang Cahaya menggunakan Estimasi Iluminasi Dalam
Peningkatan gambar dalam cahaya gelap berdasarkan pembelajaran mendalam untuk mengoptimalkan pencahayaan
Artikel ini memperkenalkan jaringan ujung-ke-ujung baru untuk menyempurnakan foto yang kurang cahaya. Alih-alih langsung mempelajari pemetaan gambar-ke-gambar seperti pada pekerjaan sebelumnya, kami memperkenalkan pencahayaan menengah di jaringan kami untuk menghubungkan input dengan hasil peningkatan yang diharapkan, yang meningkatkan kompleksitas pembelajaran jaringan dari gambar input / output yang dimodifikasi oleh ahli Kemampuan untuk mengatur fotografi. Berdasarkan model ini, kami merumuskan fungsi kerugian yang menggunakan batasan dan apriori pada pencahayaan di tengah.Kami menyiapkan kumpulan data baru dari 3000 pasangan gambar kurang pencahayaan dan melatih jaringan untuk mempelajari berbagai kondisi pencahayaan secara efektif Penyesuaian yang kaya dan beragam. Dengan cara ini, jaringan kami dapat mengembalikan detail yang jelas, kontras yang tajam, dan warna alami dalam hasil yang disempurnakan. Kami melakukan eksperimen ekstensif pada kumpulan data MIT-Adobe FiveK dan kumpulan data baru kami, dan menunjukkan bahwa jaringan kami dapat secara efektif menangani gambar yang sebelumnya sulit.
6. Interpolasi Ruang Laten Homomorfik untuk Terjemahan Gambar-ke-Gambar yang Tidak Dipasangkan
Konversi gambar-ke-gambar yang tidak dipasangkan berdasarkan interpolasi ruang tersembunyi homomorfik
Jaringan permusuhan generatif telah mencapai sukses besar dalam konversi gambar-ke-gambar yang tidak berpasangan. Konsistensi siklik memungkinkan pemodelan hubungan antara dua domain berbeda tanpa data berpasangan. Dalam makalah ini, kami mengusulkan kerangka alternatif sebagai perpanjangan dari interpolasi ruang laten, mengingat bagian tengah antara dua domain dalam konversi gambar. Kerangka kerja ini didasarkan pada fakta bahwa dalam ruang laten yang datar dan mulus, terdapat beberapa jalur yang menghubungkan dua titik pengambilan sampel. Pilihan jalur interpolasi yang benar memungkinkan properti gambar tertentu diubah, yang sangat berguna untuk menghasilkan gambar perantara antara dua domain. Kami juga menunjukkan bahwa kerangka kerja dapat diterapkan ke transformasi multi-domain dan multi-modal. Eksperimen ekstensif menunjukkan bahwa kerangka kerja memiliki universalitas dan penerapan untuk berbagai tugas.
7. X2CT-GAN: Merekonstruksi CT dari Sinar-X Biplanar dengan Jaringan Adversarial Generatif
Sistem pembangkitan sinar X ke CT bidang ganda berdasarkan jaringan penanggulangan generatif
Saat ini, pencitraan CT dapat memberikan tampilan panorama tiga dimensi untuk membantu dokter memahami kondisi jaringan dan organ tubuh pasien serta membantu diagnosis penyakit. Namun, dibandingkan dengan pencitraan sinar-X, pencitraan CT memberikan dosis radiasi yang lebih besar kepada pasien, dan biayanya lebih tinggi. Dalam proses rekonstruksi 3D dari citra CT tradisional, sejumlah besar proyeksi sinar-X dikumpulkan dan digunakan dengan memutar di sekitar pusat objek, yang juga tidak mungkin dilakukan pada mesin sinar-X tradisional. Dalam artikel ini, kami secara inovatif mengusulkan metode berdasarkan jaringan generasi konfrontasi, yang hanya menggunakan dua gambar sinar-X 2D ortogonal untuk merekonstruksi gambar CT 3D yang realistis. Inovasi inti termasuk jaringan generasi yang ditingkatkan dimensi, algoritma fusi fitur multi-tampilan, dll. Melalui eksperimen dan analisis kuantitatif, kami menunjukkan bahwa metode ini jauh lebih baik daripada metode kontras lainnya dalam rekonstruksi 2D X-ray ke 3D CT. Dengan memvisualisasikan hasil rekonstruksi CT, kita juga dapat secara intuitif melihat bahwa detail yang diberikan oleh metode ini lebih realistis. Dalam aplikasi praktis, metode kami dapat memberikan gambar tiga dimensi seperti CT tambahan kepada dokter untuk membantu mereka dalam diagnosis yang lebih baik tanpa mengubah proses pencitraan sinar-X yang ada.
8. Jaringan Regenerasi Semantik
Jaringan regenerasi semantik
Makalah ini mempelajari masalah dasar penggunaan model generatif kedalaman untuk menyimpulkan konteks visual, yaitu menggunakan struktur dan detail yang wajar untuk memperluas batas citra. Tugas yang tampaknya sederhana ini sebenarnya menghadapi banyak tantangan teknis utama dan memiliki sifat uniknya sendiri. Dua masalah utama dalam tugas adalah ukuran yang diperpanjang dan kendala satu sisi. Kami mengusulkan jaringan regenerasi semantik dengan beberapa kontribusi khusus, dan menggunakan beberapa kerugian terkait spasial untuk menyelesaikan masalah ini. Hasil percobaan akhir dalam makalah ini mengandung struktur yang sangat konsisten dan tekstur berkualitas tinggi. Kami telah melakukan eksperimen ekstensif pada berbagai kemungkinan alternatif dan metode terkait. Terakhir, kami juga mengeksplorasi potensi metode kami untuk berbagai aplikasi menarik yang dapat bermanfaat bagi penelitian di berbagai bidang.
9. Menuju Deteksi Objek Satu Tahap yang Akurat dengan AP-Loss
Gunakan fungsi kehilangan AP untuk mencapai deteksi target orde pertama yang akurat
Detektor target orde pertama biasanya dilatih dengan mengoptimalkan fungsi kerugian klasifikasi dan fungsi kerugian pemosisian secara bersamaan. Namun, karena adanya sejumlah besar kotak jangkar, efek dari fungsi kerugian klasifikasi akan sangat dibatasi oleh ketidakseimbangan kelas latar depan-latar belakang. Artikel ini memecahkan masalah ini dengan mengusulkan kerangka pelatihan baru. Kami menggunakan tugas peringkat untuk menggantikan tugas klasifikasi di detektor objek orde pertama, dan menggunakan indeks evaluasi AP dalam masalah peringkat sebagai fungsi kerugian. Karena diskontinuitas dan non-konveksitasnya, fungsi kehilangan AP tidak dapat dioptimalkan secara langsung dengan penurunan gradien. Untuk tujuan ini, kami mengusulkan algoritma pengoptimalan baru yang menggabungkan skema pembaruan berbasis kesalahan dalam pembelajaran perceptron dengan algoritma propagasi balik di jaringan dalam. Kami telah memverifikasi konvergensi yang baik dari algoritme yang diusulkan secara teoritis dan empiris. Hasil eksperimen menunjukkan bahwa, tanpa mengubah arsitektur jaringan, pada berbagai kumpulan data dan detektor target urutan pertama terbaik yang ada, kinerja fungsi kerugian AP meningkat secara signifikan dibandingkan dengan fungsi kerugian klasifikasi dari berbagai kategori.
10. Segmentasi Instance Amodal melalui KINS Dataset
Segmentasi contoh pivot melalui kumpulan data KINS
Perspective instance segmentation adalah arah baru dari segmentasi instance, yang bertujuan untuk meniru kemampuan manusia untuk mensegmentasi setiap instance objek termasuk bagiannya yang tidak terlihat dan tersumbat. Tugas ini membutuhkan kesimpulan dari struktur kompleks objek. Meskipun penting dan futuristik, tugas ini kekurangan data beranotasi berskala besar dan terperinci karena sulit untuk menandai bagian yang tak terlihat dengan benar dan konsisten, yang menciptakan hambatan besar untuk menjelajahi batas pengenalan visual. Dalam artikel ini, kami menggunakan anotasi tingkat piksel untuk lebih banyak contoh dari 8 kategori untuk menambah KITTI, yang kami sebut kumpulan data KITTI INStance (KINS). Kami mengusulkan kerangka kerja multi-tugas baru dengan pengkodean multi-cabang (MBC) untuk menyimpulkan struktur jaringan dari bagian tak terlihat, yang menggabungkan informasi dari berbagai tingkat pengenalan. Sejumlah eksperimen telah menunjukkan bahwa MBC kami secara efektif meningkatkan segmentasi perspektif dan non-perspektif. Kumpulan data KINS dan metode yang kami usulkan akan dirilis ke publik.
11. Identifikasi Ulang Orang Piramidal melalui Pelatihan Dinamis Multi-Loss
Identifikasi ulang pejalan kaki piramida berdasarkan strategi pelatihan dinamis multi-kerugian
Sebagian besar metode identifikasi ulang pejalan kaki yang diusulkan sangat bergantung pada deteksi manusia yang akurat untuk memastikan keselarasan timbal balik antar target. Namun, dalam adegan aktual yang kompleks, model yang ada masih belum dapat menjamin keakuratan pendeteksian, yang tentunya akan memengaruhi kinerja pengenalan ulang pejalan kaki. Pada artikel ini, kami mengusulkan model piramida kasar dan halus baru untuk melonggarkan batasan akurasi pada kerangka deteksi. Model piramida mengintegrasikan informasi transisi lokal, global dan menengah, dan dapat secara efektif cocok pada skala yang berbeda. Bahkan dalam kasus penyelarasan target yang buruk. Selain itu, untuk mempelajari representasi identitas diskriminatif, kami mengusulkan kerangka pelatihan dinamis untuk mengoordinasikan dua fungsi kerugian dan mengekstrak informasi yang sesuai dengan mulus. Kami mencapai hasil terbaik pada tiga database. Perlu disebutkan bahwa ini melebihi metode terbaik saat ini sebesar 9,5 poin persentase pada kumpulan data CUHK03 yang paling menantang.
12. Deblurring Adegan Dinamis dengan Berbagi Selektif Parameter dan Koneksi Lewati Bersarang
Algoritme deblurring gambar berdasarkan berbagi parameter selektif dan koneksi lompat bersarang
Deblurring pemandangan dinamis adalah masalah visual mendasar yang menantang karena keburaman setiap piksel disebabkan oleh banyak faktor, termasuk pergerakan kamera dan pergerakan objek. Baru-baru ini, metode yang didasarkan pada jaringan konvolusional yang dalam telah membuat perbaikan besar pada masalah ini. Dibandingkan dengan strategi parameter independen dan strategi berbagi parameter, kami menganalisis strategi parameter jaringan dan mengusulkan skema berbagi parameter selektif. Di sub-jaringan dari setiap skala, kami mengusulkan struktur koneksi lompatan bersarang untuk modul transformasi non-linier. Selain itu, kami membangun kumpulan data yang lebih besar sesuai dengan metode pembuatan data fuzzy dan melatih jaringan deblurring yang lebih baik. Eksperimen menunjukkan bahwa berbagi parameter selektif, tautan lompat bersarang, dan kumpulan data baru semuanya dapat meningkatkan efek dan mencapai efek deblurring terbaik.
13. Mempelajari Penyematan Shape-Aware untuk Deteksi Teks Scene
Metode deteksi teks berdasarkan segmentasi instance dan fitur yang disematkan
Karena adegan yang kompleks dan dapat diubah, deteksi teks bentuk arbitrer dalam pemandangan alam sangat sulit. Artikel ini terutama mengusulkan solusi untuk mendeteksi teks bentuk arbitrer. Secara khusus, kami menganggap deteksi teks sebagai masalah segmentasi contoh dan mengusulkan kerangka kerja berbasis segmentasi yang menggunakan domain terhubung yang saling independen untuk mewakili contoh teks yang berbeda. Untuk membedakan antara contoh teks yang berbeda, metode kami memetakan piksel gambar ke dalam ruang fitur yang disematkan. Piksel milik contoh teks yang sama akan lebih dekat satu sama lain dalam ruang fitur yang disematkan, sedangkan piksel milik contoh teks yang berbeda akan jauh satu sama lain. Selain itu, kerugian Sadar Bentuk yang kami usulkan memungkinkan model menyesuaikan pelatihan secara adaptif sesuai dengan rasio aspek yang kompleks dan beragam dari contoh teks dan celah sempit di antara contoh. Pada saat yang sama, dengan algoritme pasca-pemrosesan baru, kami Metode tersebut dapat menghasilkan prediksi yang akurat. Hasil eksperimental kami memverifikasi keefektifan pekerjaan kami pada tiga kumpulan data yang menantang (ICDAR15, MSRA-TD500 dan CTW1500).
14. PointWeb: Meningkatkan Fitur Lingkungan Lokal untuk Pemrosesan Awan Titik
PointWeb: Pemrosesan cloud titik yang ditingkatkan dengan fitur tetangga lokal
Makalah ini mengusulkan metode baru untuk mengekstraksi fitur kontekstual dari titik cloud tetangga lokal: PointWeb. Berbeda dengan metode sebelumnya, untuk memperjelas karakteristik setiap titik berdasarkan karakteristik wilayah setempat, kami menghubungkan semua titik yang ada di lingkungan sekitar secara padat, sehingga wilayah tersebut dapat dikarakterisasi dengan lebih baik. Kami telah mengusulkan modul "Adaptive Feature Adjustment" (AFA) untuk menghitung interaksi antara dua titik. Untuk setiap area lokal, "peta pengaruh" yang sesuai dengan tingkat pengaruh setiap elemen antara pasangan titik dihitung dengan peta perbedaan fitur. Menurut faktor pengaruh yang dipelajari secara adaptif, setiap fitur akan "didorong" atau "ditutup" oleh fitur lain di area yang sama. Peta fitur yang disesuaikan mengkodekan informasi regional dengan lebih baik, dan tugas pengenalan cloud titik seperti segmentasi dan klasifikasi cloud titik akan mendapatkan keuntungan darinya. Hasil eksperimen menunjukkan bahwa model kami melampaui algoritme optimal saat ini pada kumpulan data segmentasi semantik dan klasifikasi bentuk. Kode dan model terlatih akan dirilis bersama kertas.
15. Secara Asosiatif Segmentasi Instans dan Semantik di Point Clouds
Segmentasi gabungan dari instance dan semantik di point cloud
Awan titik 3D secara halus dan intuitif mendeskripsikan pemandangan nyata. Namun sejauh ini, cara menyegmentasikan beragam elemen dalam adegan tiga dimensi yang informatif masih jarang dibahas. Pada artikel ini, pertama-tama kami memperkenalkan kerangka kerja yang sederhana dan fleksibel untuk secara bersamaan menyegmentasikan instance dan semantik di cloud titik. Selain itu, kami mengusulkan dua metode yang memungkinkan kedua tugas tersebut mendapatkan keuntungan satu sama lain dan memperoleh peningkatan kinerja yang sama-sama menguntungkan. Secara khusus, kami membuat manfaat segmentasi contoh dari segmentasi semantik dengan mempelajari contoh penyematan vektor yang kaya akan kesadaran semantik. Pada saat yang sama, fitur semantik dari titik-titik yang termasuk dalam instance yang sama digabungkan bersama, sehingga setiap titik dapat diprediksi dengan lebih akurat. Metode kami sangat melebihi metode segmentasi instans 3D mutakhir saat ini, dan juga memiliki peningkatan yang signifikan dalam segmentasi semantik 3D.
Kode dan modelnya adalah open source: https://github.com/WXinlong/ASIS
16. Panduan Siklik untuk Deteksi dan Segmentasi Bersama dengan Pengawasan Lemah
Deteksi sendi dan segmentasi yang diawasi dengan lemah berdasarkan panduan melingkar
Artikel ini dipimpin oleh tim dari Tencent Youtu Lab dan Profesor Ji Rongrong dari Universitas Xiamen.
Untuk pertama kalinya, kami mengusulkan untuk menggunakan mekanisme pembelajaran multi-tugas untuk menggabungkan tugas deteksi dan segmentasi yang diawasi dengan lemah, dan untuk meningkatkan satu sama lain berdasarkan mode kegagalan yang saling melengkapi dari dua tugas. Peningkatan lintas tugas ini membuat dua tugas lebih mampu keluar dari minimum lokal. Metode kami WS-JDS memiliki dua cabang dan berbagi model tulang punggung yang sama, masing-masing sesuai dengan dua tugas. Dalam proses pembelajaran, kami mengusulkan paradigma pedoman melingkar dan fungsi kerugian khusus untuk meningkatkan kedua sisi. Hasil percobaan menunjukkan peningkatan kinerja algoritma.
17. ROI Pooled Correlation Filters untuk Pelacakan Visual
Penelitian Correlation Filter Tracking Berdasarkan Pooling of Region of Interest
Algoritme penggabungan berbasis ROI melakukan operasi penggabungan di wilayah yang diminati tempat sampel diekstraksi, dan telah mencapai kesuksesan besar di bidang deteksi target. Algoritme penggabungan dapat mengompresi ukuran model dengan lebih baik dan mempertahankan keakuratan pemosisian model asli, sehingga sangat cocok untuk bidang pelacakan visual. Meskipun operasi penggabungan berbasis ROI telah terbukti efektif di berbagai bidang, operasi ini masih belum diterapkan dengan baik di bidang pemfilteran terkait. Berdasarkan hal ini, makalah ini mengusulkan algoritma penyaringan korelasi baru dengan fungsi penyatuan ROI untuk pelacakan target yang kuat. Melalui penurunan matematis yang ketat, kami telah membuktikan bahwa penyatuan ROI dalam pemfilteran korelasi dapat dicapai secara setara dengan memperkenalkan batasan tambahan pada filter yang dipelajari, sehingga kami dapat menyelesaikannya tanpa mengekstrak sampel pelatihan secara eksplisit. Operasi penggabungan. Kami mengusulkan algoritma penyaringan korelasi yang efisien dan algoritma berbasis Fourier untuk menyelesaikan fungsi tujuan. Kami menguji algoritma yang diusulkan pada OTB-2013, OTB-2015 dan VOT-2017, dan sejumlah besar hasil eksperimen membuktikan keefektifan algoritma yang diusulkan dalam makalah ini.
18. Memanfaatkan Ketersebaran Kernel dan Entropi untuk Kompresi CNN yang Dapat Ditafsirkan
Metode kompresi jaringan neural berdasarkan convolution kernel sparsity dan density entropy
Artikel ini dipimpin oleh tim dari Tencent Youtu Lab dan Profesor Ji Rongrong dari Universitas Xiamen.
Dari sudut pandang interpretatif jaringan saraf, kami menganalisis masalah redundansi peta fitur jaringan saraf konvolusional dan menemukan bahwa pentingnya peta fitur bergantung pada ketersebaran dan kekayaan informasinya. Namun, secara langsung menghitung ketersebaran dan kekayaan informasi dari peta fitur membutuhkan overhead komputasi yang sangat besar. Untuk mengatasi masalah ini, kami menetapkan hubungan antara peta fitur dan kernel konvolusi dua dimensinya yang sesuai. Pentingnya peta fitur yang sesuai dicirikan oleh entropi ketersebaran dan kepadatan kernel konvolusi, dan pentingnya peta fitur ditentukan. Fungsi skor. Atas dasar ini, kami menggunakan pengelompokan kernel konvolusi terkompresi yang lebih halus daripada model kompresi pemangkasan tradisional. Sejumlah besar hasil eksperimental menunjukkan bahwa metode kompresi yang kami usulkan berdasarkan convolution kernel sparsity dan density entropy dapat mencapai tingkat kompresi dan akurasi yang lebih tinggi.
19. MMFace: Jaringan Regresi Multi-Metrik untuk Rekonstruksi Wajah Tanpa Kendala
MMFace: Jaringan regresi multi-metrik untuk rekonstruksi wajah 3D tanpa batasan
Makalah ini mengusulkan jaringan regresi multi-metrik untuk rekonstruksi wajah 3D tanpa batasan. Ide intinya adalah menggunakan sub-jaringan regresi voxel untuk menghasilkan representasi perantara dari geometri wajah dari gambar masukan, dan kemudian mengembalikan parameter model deformasi wajah tiga dimensi yang sesuai dari representasi perantara. Kami membatasi hasil regresi dari beberapa metrik termasuk identitas wajah, ekspresi, postur kepala, dan voxel, membuat algoritme kami berfungsi dalam ekspresi berlebihan, postur kepala besar, oklusi parsial, dan lingkungan pencahayaan yang kompleks. Ketangguhan yang baik. Dibandingkan dengan algoritme arus utama saat ini, metode kami telah ditingkatkan secara signifikan pada kumpulan data wajah 3D publik LS3D-W dan Florence. Selain itu, metode kami langsung diterapkan pada pemrosesan urutan video.
20. Menuju Pemangkasan CNN Terstruktur yang Optimal melalui Pembelajaran Adversarial Generatif
Metode pemangkasan jaringan saraf konvolusional terstruktur yang optimal berdasarkan pembelajaran adversarial generatif
Artikel ini dipimpin oleh tim dari Tencent Youtu Lab dan Profesor Ji Rongrong dari Universitas Xiamen.
Kami mengusulkan metode pemangkasan jaringan terstruktur yang optimal berdasarkan pembelajaran adversarial generatif, yang menggunakan pelatihan ujung ke ujung tanpa pengawasan dari struktur heterogen yang redundan dalam jaringan pemangkasan, yang secara efektif menyelesaikan efisiensi pemangkasan metode pemangkasan terstruktur tradisional Rendah, kurangnya kelonggaran, ketergantungan label yang kuat, dan masalah lainnya. Metode ini memperkenalkan soft mask ke setiap struktur model, dan menambahkan pembatasan renggang ke dalamnya untuk menandai redundansi setiap struktur. Untuk mempelajari parameter dan masker model dengan lebih baik, kami menggunakan kerangka kerja pembelajaran adversarial pembuatan tag tanpa kelas untuk membangun fungsi tujuan pemangkasan terstruktur baru, dan menggunakan algoritme penyusutan ambang iteratif yang cepat untuk menyelesaikan masalah pengoptimalan dan secara stabil menghapus struktur yang berlebihan. Sejumlah besar hasil eksperimen menunjukkan bahwa dibandingkan dengan metode pemangkasan terstruktur yang paling canggih, metode pemangkasan yang kami usulkan dapat mencapai kinerja yang lebih baik.
21. Dekomposisi Komponen Semantik untuk Manipulasi Atribut Wajah
Pengeditan atribut wajah berdasarkan dekomposisi komponen semantik
Baru-baru ini, metode berdasarkan jaringan saraf dalam telah banyak dipelajari untuk pengeditan atribut wajah. Namun demikian, masih ada dua masalah utama yaitu kualitas visual yang buruk dan sulitnya kontrol pengguna terhadap hasil. Hal ini membatasi penerapan metode yang ada karena pengguna mungkin memiliki preferensi pengeditan yang berbeda untuk atribut wajah yang berbeda. Pada artikel ini, kami memecahkan masalah ini dengan mengusulkan model berdasarkan komponen semantik. Model menguraikan atribut wajah menjadi beberapa komponen semantik, dan setiap komponen semantik sesuai dengan area wajah tertentu. Ini tidak hanya memungkinkan pengguna untuk mengontrol intensitas pengeditan bagian yang berbeda berdasarkan preferensi mereka, tetapi juga memungkinkan untuk secara efektif menghapus efek pengeditan yang tidak diinginkan. Selain itu, setiap komponen semantik terdiri dari dua elemen dasar, yang masing-masing menentukan efek pengeditan dan area pengeditan. Properti ini memungkinkan kami memiliki kontrol interaktif yang lebih detail. Eksperimen menunjukkan bahwa model kami tidak hanya dapat menghasilkan hasil berkualitas tinggi, tetapi juga mencapai interaksi pengguna yang efektif.
22. Jaringan Berulang yang Diperhatikan Memori untuk Pembuatan Teks Video
Jaringan saraf siklik berdasarkan mekanisme memori untuk deskripsi video
Model pembuatan deskripsi video tradisional mengikuti kerangka kerja encoder-decoder, dan video input pertama kali dienkode video, lalu didekodekan untuk menghasilkan deskripsi video yang sesuai. Batasan dari jenis metode ini adalah metode ini hanya dapat fokus pada sepotong video yang sedang diproses. Dalam kasus yang sebenarnya, kata atau frasa dapat muncul di video yang berbeda tetapi secara semantik mirip pada saat yang sama, sehingga metode encoding-decoding tidak dapat menangkap konteks dan informasi semantik dari sebuah kata dalam beberapa video terkait secara bersamaan. Untuk mengatasi keterbatasan ini, kami mengusulkan model jaringan saraf berulang berdasarkan mekanisme memori, dan merancang struktur memori unik untuk menangkap informasi semantik yang sesuai dari setiap kata dalam kosakata dan semua video terkait. Oleh karena itu, model kami dapat memiliki pemahaman yang lebih komprehensif dan mendalam tentang semantik setiap kata, sehingga meningkatkan kualitas deskripsi video yang dihasilkan. Selain itu, struktur memori yang kami rancang dapat mengevaluasi koherensi antara kata-kata yang berdekatan. Eksperimen yang memadai membuktikan bahwa model kami menghasilkan deskripsi video berkualitas lebih tinggi daripada model lain yang ada.
23. Identifikasi Ulang Orang Tersuling: Menuju Sistem yang Lebih Skalabel
Identifikasi ulang pejalan kaki yang disuling: Menuju sistem yang lebih terukur
Pedestrian Re-ID (Re-ID), sebagai teknologi perbandingan pejalan kaki untuk perspektif kamera yang tidak tumpang tindih, telah membuat kemajuan besar di bidang pembelajaran yang diawasi dengan data label yang kaya. Namun, masalah skalabilitas masih menjadi hambatan bagi sistem untuk bergerak menuju aplikasi skala besar. Kami mempertimbangkan skalabilitas Re-ID dari tiga aspek: (1) mengurangi ukuran label untuk mengurangi biaya pelabelan, (2) menggunakan kembali pengetahuan yang ada untuk mengurangi biaya migrasi, dan (3) menggunakan model ringan untuk mengurangi biaya prediksi. Untuk mengatasi masalah ini, kami mengusulkan kerangka kerja distilasi kesamaan adaptif multi-guru.Hanya sejumlah kecil identitas domain target berlabel yang diperlukan untuk mentransfer pengetahuan dari beberapa model guru ke model siswa ringan yang disesuaikan. , Tanpa menggunakan data domain sumber. Untuk memilih model guru secara efektif dan menyelesaikan transfer pengetahuan, kami mengusulkan fungsi kehilangan distilasi kesamaan Log-Euclidean, dan selanjutnya mengintegrasikan Agregator Pengetahuan Adaptif. Sejumlah besar hasil evaluasi eksperimental menunjukkan skalabilitas metode, dan kinerjanya sebanding dengan metode Re-ID tanpa pengawasan dan semi-supervisi terbaik saat ini.
24. DSFD: Detektor Wajah Tembakan Ganda
Detektor wajah cabang ganda
Artikel ini diselesaikan oleh PCALab, Sekolah Ilmu dan Teknik Komputer, Universitas Sains dan Teknologi Nanjing, dan Lab Tencent Youtu.
Dalam beberapa tahun terakhir, jaringan saraf konvolusional telah mencapai kesuksesan besar dalam deteksi wajah. Namun, metode ini masih sulit untuk menangani variabel skala, pose, oklusi, ekspresi, pencahayaan, dan masalah lain di wajah. Makalah ini mengusulkan metode baru yang secara terpisah berhubungan dengan tiga poin kunci dari arah deteksi wajah, termasuk pembelajaran fitur yang lebih baik, desain fungsi kerugian progresif, dan perluasan data berdasarkan penugasan titik jangkar. Pertama, kami mengusulkan unit peningkatan fitur untuk memperluas struktur cabang tunggal ke struktur cabang ganda dengan meningkatkan kapabilitas fitur. Kedua, kami menggunakan fungsi kehilangan jangkar progresif untuk mempromosikan pembelajaran fitur secara lebih efektif dengan memberikan titik jangkar dengan skala berbeda ke kedua cabang. Terakhir, kami menggunakan metode pencocokan jangkar yang ditingkatkan untuk memberikan data inisialisasi yang lebih baik untuk regressor. Karena teknik di atas semuanya terkait dengan desain cabang ganda, kami menamai metode dalam makalah ini sebagai detektor wajah bercabang ganda. Kami memecahkan rekor dunia pada saat itu dalam lima dimensi evaluasi dari dua kumpulan data deteksi wajah terkenal, WIDER FACE dan FDDB, dan meraih 1 hasil deteksi wajah teratas.
25. Dekomposisi Gerakan 3D untuk Sintesis Adegan Dinamis RGBD di Masa Depan
Dekomposisi dan sintesis adegan dinamis masa depan RGBD berdasarkan gerakan 3D
Bingkai momen masa depan dalam video dibentuk dengan memproyeksikan pemandangan 3D setelah pergerakan kamera itu sendiri dan objek dalam pemandangan ke 2D. Oleh karena itu, pada dasarnya, untuk secara akurat memprediksi perubahan video di masa depan, perlu dipahami gerakan 3D dan karakteristik geometris pemandangan. Dalam artikel ini, kami mengusulkan model prediksi adegan RGBD yang diwujudkan dengan dekomposisi gerakan 3D. Kami pertama-tama memprediksi gerakan kamera dan gerakan objek latar depan, yang digunakan bersama untuk menghasilkan pemandangan 3D masa depan, dan kemudian memproyeksikan ke bidang kamera 2D untuk mensintesis gerakan masa depan, gambar RGB, dan peta kedalaman. Kami juga dapat mengintegrasikan informasi segmentasi semantik ke dalam sistem untuk memprediksi peta semantik di masa mendatang. Hasil kami pada KITTI dan Driving menunjukkan bahwa metode kami melebihi metode terbaik saat ini untuk memprediksi skenario RGBD di masa depan
Klik Baca aslinya Untuk melihat informasi lebih lanjut tentang pertemuan cvpr
- Yu Yongfu menelepon platform Youku dan Yang Weidong untuk pertama kalinya: biayanya puluhan miliar dolar untuk turun
- Cloud Media Cao Fang: Di luar industri film dan televisi tradisional, pemikiran Internet menciptakan perusahaan pan-entertainment unicorn
- BAPE punya satu item intim lagi! Teman-teman yang menyukai fotografi ingin lebih bergaya dan mengandalkannya!
- Guangguang Media melaporkan laba bersih 628 juta untuk kuartal ketiga 2017, dan dana jaminan sosial mendukung harga saham