"Set Data Alignment Wajah Terbesar di Dunia" ICCV 2017: Tidak jauh dari menyelesaikan penyelarasan wajah

1 kompilasi Zhiyuan baru

Kumpulan data pelabelan akurat tingkat jutaan ImageNet telah membuka era baru pengenalan gambar, dan orang-orang telah menyadari bahwa data sama pentingnya dengan algoritme. Untuk membangun model dan algoritme yang lebih baik, semakin banyak peneliti mulai mengeksplorasi kumpulan data, dan metode pelabelan data tidak terbatas pada tenaga kerja yang memakan waktu dan padat karya.

Pencapaian terbaru dalam hal ini adalah makalah yang akan dipublikasikan di ICCV 2017 oleh para peneliti dari Computer Vision Laboratory of University of Nottingham. Dalam makalah tersebut, para peneliti menjelaskan kumpulan data penyelarasan wajah 3D terbesar yang telah mereka buat sejauh ini (sekitar 230.000 gambar akurat). Tandai gambar), dan metode mereka menghasilkan tanda menggunakan konversi 2D ke 3D.

Judul makalahnya adalah "Seberapa Jauh Kita Menyelesaikan Penjajaran Wajah 2D3D?" "(Seberapa jauh kita dari menyelesaikan masalah Alignment Wajah 2D dan 3D? Dan kumpulan data 230.000 landmark wajah 3D). Peneliti berharap bahwa berdasarkan kumpulan data ini, masalah kesejajaran wajah akan mengantarkan pembangunan yang lebih besar dan lebih cepat.

Tunjukkan hasil : Gunakan jaringan yang diusulkan di makalah (disebut "jaringan penyelarasan wajah paling akurat di dunia" oleh penulis) untuk mendeteksi titik fitur wajah, koordinat 2D dan 3D dapat diterapkan. Sumber: Github dari proyek

Penjajaran wajah, salah satu topik yang paling banyak dipelajari dalam visi komputer dalam beberapa dekade terakhir

Dengan munculnya pembelajaran mendalam dan pengembangan kumpulan data anotasi skala besar, pekerjaan terbaru menunjukkan akurasi yang belum pernah terjadi sebelumnya bahkan pada tugas-tugas computer vision yang paling menantang. Dalam karya ini, penulis memfokuskan pada lokalisasi landmark, terutama pemosisian titik fitur wajah, yang juga dikenal sebagai penyelarasan wajah. "Penyelarasan wajah" juga bisa dikatakan sebagai komputer dalam beberapa dekade terakhir. Salah satu topik yang paling banyak dipelajari dalam penglihatan.

Pekerjaan terbaru tentang pemosisian titik fitur menggunakan Convolutional Neural Networks (CNN) telah mendorong batasan di bidang lain, seperti estimasi pose manusia, tetapi tidak jelas hasil apa yang telah dicapai dalam penyelarasan wajah.

Secara historis, menurut tugas yang berbeda, teknologi yang berbeda telah digunakan untuk pemosisian titik fitur. Misalnya, sebelum munculnya jaringan saraf, pekerjaan perkiraan pose manusia terutama didasarkan pada struktur gambar dan berbagai ekstensi kompleks, karena mereka dapat mensimulasikan perubahan penampilan yang besar dan beradaptasi dengan berbagai macam pose manusia. Meskipun metode tersebut belum terbukti mampu mencapai akurasi tinggi yang ditunjukkan oleh metode regresi berjenjang yang digunakan untuk tugas penyelarasan wajah, di sisi lain, kinerja metode regresi berjenjang kurang akurat dalam inisialisasi. Atau ada sejumlah besar titik fitur tertutup sendiri atau rotasi bidang besar akan lebih buruk.

Baru-baru ini, arsitektur jaringan neural konvolusional berdasarkan regresi peta panas telah sepenuhnya mengubah estimasi pose manusia, dan telah mencapai akurasi yang sangat tinggi bahkan untuk kumpulan data yang paling menantang. Karena mereka memiliki sedikit kebutuhan untuk pelatihan ujung ke ujung dan teknik manual, metode ini dapat dengan mudah diterapkan untuk menghadapi masalah kesejajaran.

5 kontribusi utama, termasuk membangun tolok ukur yang kuat untuk pertama kalinya, menggunakan metode 2D-3D untuk membuat kumpulan data terbesar hingga saat ini

Menurut penulis, mengikuti jalur ini, kontribusi utama kami adalah untuk membangun dan melatih jaringan penyelarasan wajah yang begitu kuat, dan untuk pertama kalinya menyelidiki jarak antara semua kumpulan data penyelarasan wajah 2D yang ada dan kumpulan data 3D besar yang baru diperkenalkan. Seberapa jauh untuk mendekati kinerja jenuh ".

Secara lebih spesifik, kontribusi mereka adalah:

1. Membangun dasar yang sangat kuat untuk pertama kalinya , Dikombinasikan dengan arsitektur pemosisian titik fitur yang canggih dan blok residu yang canggih, dan melatih pada kumpulan data titik fitur wajah 2D yang diperluas secara komprehensif. Kemudian, kami mengevaluasi semua kumpulan data 2D lainnya (sekitar 230.000 gambar) untuk menyelidiki sejauh mana kami menyelesaikan masalah kesejajaran wajah 2D.

2. Untuk memecahkan masalah set data penyelarasan wajah 3D yang lebih sedikit, kami Ini selanjutnya mengusulkan metode CNN titik fitur 2D yang mengubah anotasi 2D menjadi anotasi 3D, dan menggunakannya untuk membuat set data LS3D-W, yang merupakan set data titik fitur wajah 3D terbesar dan paling menantang hingga saat ini (sekitar 230.000 Image), yang diperoleh dengan menyatukan hampir semua kumpulan data yang ada.

3. Kemudian, kami melatih jaringan penyelarasan wajah 3D dan mengevaluasinya pada kumpulan data titik fitur wajah 3D skala besar baru untuk menyelidiki sejauh mana kami menyelesaikan masalah penyelarasan wajah 3D.

4. Kami mempelajari lebih lanjut semua faktor "tradisional" yang mempengaruhi kinerja penyelarasan wajah, seperti pose besar, inisialisasi dan resolusi, dan memperkenalkan faktor "baru", yaitu ukuran jaringan.

5. Hasil penelitian kami menunjukkan bahwa jaringan penyelarasan wajah 2D dan 3D mencapai performa akurasi yang sangat tinggi, yang mungkin mendekati performa saturasi kumpulan data yang digunakan.

Struktur 2D-FAN : Face Alignment Network (FAN) dibangun dengan menumpuk empat HG, di mana semua blok bottleneck (blok persegi panjang pada gambar) diganti dengan blok hierarki, paralel, dan multi-skala baru.

Metode dan data: 2D, anotasi 3D, dan konversi 2D-3D mendekati kinerja saturasi

Penulis pertama-tama membangun jaringan penyelarasan wajah "FAN" (Jaringan Alignment Wajah), dan kemudian berdasarkan FAN, membangun 2D-ke-3D-FAN, yaitu jaringan yang mengubah landmark wajah 2D dari gambar tertentu menjadi 3D. Menurut penulis, sejauh yang mereka ketahui, ini adalah pertama kalinya melatih dan mengevaluasi jaringan yang kuat seperti FAN dalam eksperimen penyelarasan wajah 2D / 3D skala besar.

Mereka membangun FAN berdasarkan HourGlass (HG), salah satu arsitektur paling canggih untuk estimasi pose manusia, dan menggantikan blok bottleneck modul asli HG dengan struktur multi-skala paralel hierarkis baru (diusulkan oleh peneliti lain).

Arsitektur jaringan 2D-to-3D-FAN : Berdasarkan arsitektur estimasi pose manusia HourGlass, inputnya adalah gambar RGB dan landmark wajah 2D, dan outputnya adalah landmark wajah 3D yang sesuai.

Hasil penandaan 2D-FAN

Hasil penandaan 3D-FAN

Berikut perbandingan dengan metode yang sudah ada (merah), agar akurasi metode baru lebih jelas terlihat:

Selain membangun FAN, tujuan penulis juga mencakup pembuatan kumpulan data landmark wajah 3D super besar pertama. Saat ini data landmark wajah 3D masih sangat langka, sehingga pekerjaan ini juga banyak memberikan kontribusi. Mengingat efek luar biasa dari 2D-FAN, penulis memutuskan untuk menggunakan 2D-ke-3D-FAN untuk menghasilkan kumpulan data landmark wajah 3D.

Namun hal ini juga menimbulkan masalah, yaitu sulitnya mengevaluasi data 2D ke 3D. Kumpulan data terbesar yang ada dari jenisnya adalah AFLW2000-3D. Oleh karena itu, penulis terlebih dahulu menggunakan 2D-FAN untuk menghasilkan anotasi landmark wajah 2D, kemudian menggunakan 2D-ke-3D-FAN untuk mengubah data 2D menjadi landmark wajah 3D, dan terakhir membandingkan data 3D yang dihasilkan dengan AFLW2000-3D.

Ternyata memang ada perbedaan antara keduanya. Gambar berikut menunjukkan 8 gambar hasil pelabelan dengan selisih terbesar (putih adalah hasil kertas):

Menurut penulis, alasan terbesar dari perbedaan tersebut adalah bahwa metode pipa penandaan semi-otomatis sebelumnya tidak memberikan hasil yang akurat untuk beberapa pose kompleks. Oleh karena itu, setelah meningkatkan data, mereka memasukkan AFLW2000-3D ke dalam kumpulan data yang ada dan membuat LS3D-W (kumpulan data Wajah 3D Skala Besar di Liar), yang berisi sekitar 230.000 gambar yang diberi tag, yang merupakan 3D terbesar sejauh ini. Kumpulan data perataan wajah.

Penulis kemudian mengevaluasi performansi dataset LS3D-W dari berbagai aspek. Hasil penelitian menunjukkan bahwa jaringan mereka telah mencapai "kinerja saturasi" dari kumpulan data, dan telah menunjukkan ketahanan yang sangat tinggi dalam hal komposisi, resolusi, inisialisasi dan jumlah parameter jaringan. Lihat kertas untuk informasi lebih lanjut.

Para penulis menyatakan bahwa meskipun mereka belum mengeksplorasi efek dari beberapa gerakan langka dalam kumpulan data ini, selama ada cukup data, mereka yakin bahwa jaringan dapat bekerja sama baiknya.

Paper: Seberapa jauh kita dari menyelesaikan kesejajaran wajah 2D3D?

Ringkasan

Makalah ini mempelajari jaringan saraf yang sangat dalam untuk mencapai kinerja yang mendekati saturasi pada kumpulan data penyelarasan wajah 2D dan 3D yang ada. Untuk tujuan ini, kami mengusulkan untuk memberikan lima kontribusi: (a) Menggabungkan arsitektur lokalisasi landmark yang paling canggih dan blok residual yang paling canggih, kami membangun tolok ukur yang sangat kuat untuk pertama kalinya , Berlatih di kumpulan data landmark wajah 2D yang sangat besar (kumpulan data landmark wajah), dan evaluasi di semua kumpulan data landmark wajah lainnya. (B) Kami membuat anotasi titik fitur 2D ke 3D, dan menyatukan semua kumpulan data yang ada, sehingga menciptakan kumpulan data titik fitur wajah 3D terbesar dan paling menantang LS3D-W (sekitar 230.000 gambar). (C) Kemudian, kami melatih jaringan saraf untuk melakukan penyelarasan wajah 3D dan mengevaluasinya pada set data LS3D-W yang baru. (D) Kami mempelajari lebih lanjut semua faktor "tradisional" yang mempengaruhi kinerja penyelarasan wajah, seperti pose besar, inisialisasi dan resolusi, dan memperkenalkan faktor "baru", yaitu ukuran jaringan. (E) Penelitian kami menunjukkan bahwa jaringan penyelarasan wajah 2D dan 3D mencapai kinerja yang sangat tinggi, yang kemungkinan mendekati kinerja saturasi kumpulan data yang digunakan. Kode pelatihan dan pengujian serta kumpulan data dapat diunduh dari https://www.adrianbulat.com/face-alignment/.

Makalah: https://arxiv.org/pdf/1703.07332.pdf
Github: https://github.com/1adrianb/face-alignment

Dan download model

2D-KIPAS : Https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7
3D-FAN : Https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7
KIPAS 2D-ke-3D : Https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz
Kedalaman 3D-FAN : Https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth

Klik untuk membaca teks asli untuk melihat detail pekerjaan dan berharap Anda bergabung ~

Posisi naik! Alasan mengapa setir mobil bergetar sebenarnya sangat sederhana

Sebelumnya

Pasukan meminjam dari sekolah selama pelatihan, dan banyak hal terjadi dalam semalam!

Lanjut

: "Microsoft AI telah mencapai 8.000" meningkatkan taruhan AI, bekerja sama dengan Amazon untuk bersaing dengan Google dan Apple

: Jangan pernah berpikir untuk mendapatkan kemampuan baru dalam 3 sampai 5 tahun

: Siapa yang paling | Laba Cina, Congee

: Dengan banyaknya pemasaran konten, mengapa Durex hanya memiliki satu?

: Satu-satunya di China dalam daftar! Tempat yang harus dilihat yang dipilih oleh National Geographic, mari kita lihat di hadapan turis dari seluruh dunia

: Empat mobil baru blockbuster diluncurkan dalam satu hari! RS-5, Panduan, Geometri A yang Anda inginkan ada di sini!

: Tesla dan AMD berkolaborasi dalam chip AI untuk mobil self-driving. Apakah ini kerja sama yang mendalam atau hype?

: Hal yang paling mengkhawatirkan The Fed mungkin menjadi kenyataan, dolar AS kembali ke standar emas atau kemajuan baru sedang dibuat

: Tujuan perjalanan orang tua-anak yang pernah dipilih oleh Faye Wong dan orang tua Yang Mi! Manfaatkan tahun baru untuk check-in

: Gong Yan: 0 ke 1, 1 ke N, apa kendala terbesar?

: 300.000 putaran impian Anda? 3 Mobil Dari Jerman, Amerika dan Jepang Ini Berhasil!

: Lenovo E-Health memenangkan tantangan segmentasi citra CT global untuk lesi tumor hati

"Set Data Alignment Wajah Terbesar di Dunia" ICCV 2017: Tidak jauh dari menyelesaikan penyelarasan wajah

Informasi Terkait

Telan 60 "sosis"! Memiliki obat-obatan yang sangat menjijikkan dan rasanya sangat enak ... Bagaimana polisi anti-narkoba memecahkannya?

Pellet tertangkap basah pada hari pengakuan dosa, dan sosok Pei yang menantang tubuh mencuri perhatian lagi!

Kami akan mulai sekarang di 2019, kami akan menjadi tua jika kami tidak gila!

4 Gearbox AT Terbaik di Dunia, Mana yang Mobil Anda Gunakan?

Media asing: 9 tanda atau tanda utama bahwa krisis berikutnya sedang terjadi, Rogers: Bersiap untuk yang terburuk?

6 buah kode Python yang menggambarkan sejarah pembelajaran mendalam: dari kotak terkecil hingga jaringan neural dalam

Wu Jun: Apa inti dari Internet generasi berikutnya?

Setelah Iran menyimpan minyak mentahnya di China dan mengumumkan akan mengganti dolar AS dengan Renminbi, perkembangan baru terjadi

Hei, apa kamu bepergian bersama di Malam Tahun Baru?

Lampu padam | Isi daya di tembok laut