Baru-baru ini, Institut Penelitian Megvii Sains dan Teknologi Nanjing merilis kumpulan data identifikasi produk terbesar di dunia akademis, RPC, dengan jumlah gambar dan kategori terbesar di lapangan. Pada saat yang sama, kumpulan data menentukan masalah baru untuk adegan ritel baru, yaitu check-out otomatis (ACO), yang mensimulasikan adegan penyelesaian ritel yang sebenarnya. Selain itu, satu set lengkap Metode Baseline diberikan untuk tugas ACO, dan serangkaian indikator evaluasi yang diwakili oleh "tingkat akurasi seluruh pesanan" cAcc, serta alat evaluasi versi Python yang dapat diinstal secara langsung. Ada Papan Peringkat di beranda proyek GitHub dengan nama yang sama. Selamat datang semuanya untuk menyegarkan daftar!
Tautan ke makalah: https://arxiv.org/abs/1901.07249
Tautan proyek: https://rpc-dataset.github.io/
Industri ritel merupakan industri padat karya, di mana penyelesaian kasir membutuhkan biaya yang relatif tinggi. Dengan perkembangan pembelajaran yang mendalam, penggunaan teknologi pengenalan gambar menjadi tren umum untuk mengurangi biaya dan meningkatkan efisiensi di industri ritel. Check-out otomatis (Automatic Check-Out / ACO) adalah salah satu skenario inti, yang bertujuan untuk menghasilkan daftar penyelesaian berdasarkan gambar adegan kasir, dan integrasi dengan teknologi visi komputer terus diperdalam.
Teknologi CV + skenario tidak pernah mulus. Dari perspektif pengenalan citra, pendaratan ACO penuh dengan Jin Ji, yang meliputi masalah data itu sendiri dan faktor pelatihan model. Akhirnya, ini dapat dikaitkan dengan empat aspek: 1) skala besar, 2) berbutir halus, 3 ) Few-shot dan 4) lintas-domain.
Terlepas dari permasalahan di atas, ACO masih memiliki potensi penelitian dan nilai komersial. Jika ada kumpulan data yang diberi label dengan baik, masalah ini mungkin terpecahkan. Untuk tujuan ini, Megvii Technology Nanjing Research Institute telah menciptakan kumpulan data identifikasi produk terbesar-RPC (Checkout Produk Ritel) untuk mempromosikan penelitian dan kemajuan teknologi dari kasir otomatis ritel baru. Kategori produknya setinggi 200. Jumlah totalnya adalah 83k, yang benar-benar mensimulasikan adegan ritel, dan ketepatannya melebihi kumpulan data serupa yang ada, sekaligus sepenuhnya mencerminkan karakteristik terperinci dari masalah ACO.
Gambar 2: Set data RPC dibandingkan dengan set data serupa.
Kumpulan data RPC memiliki dua jenis gambar: 1) gambar contoh, yang diambil dalam lingkungan terbatas dan hanya berisi satu produk, sesuai dengan gambar produk belanja online; 2) gambar pembayaran, yang mencakup pembelian pengguna Berbagai komoditas di tempat kejadian membantu peneliti untuk memecahkan sub-masalah terkait, seperti deteksi atau penghitungan.
Tolok ukur kumpulan data masih dalam proses, dan baseline terbaik saat ini berasal dari metode sintesis data berbasis Cycle-GAN.
Misi ACO
Saat pelanggan masuk ke toko dan meletakkan barang yang akan dibeli di meja kasir, sistem ACO yang ideal dapat secara otomatis mengidentifikasi setiap produk dan memberikan daftar belanja yang akurat pada satu waktu, seperti yang ditunjukkan pada Gambar 1.
Gambar 1: Diagram ACO.
Oleh karena itu, ACO pada dasarnya adalah sistem yang mengenali dan menghitung kemunculan setiap produk dalam kombinasi produk apa pun.
Secara umum, untuk memastikan performa, gambar yang digunakan untuk melatih sistem pengenalan ACO harus sama persis dengan gambar adegan kasir yang sebenarnya. Namun, karena banyaknya kategori produk dan pembaruan berkelanjutan, tidak realistis bagi model pengenalan untuk menghabiskan semua kombinasi produk. Oleh karena itu, solusi yang layak adalah mengumpulkan gambar produk tunggal di lingkungan tertentu dan menggunakannya kembali dalam penyelesaian aktual. .
Karakteristik kumpulan data RPC
Dataset RPC yang diusulkan oleh Megvii memiliki enam karakteristik.
besar: Terlepas dari jumlah gambar atau jenis produk (SKU), RPC adalah yang terbaik di lapangan: 200 SKU, 83.739 gambar, di mana 53.739 adalah gambar produk tunggal dan 30.000 adalah gambar penyelesaian.
Lintas domain: Data citra dalam RPC dibagi menjadi dua bentuk yaitu citra produk tunggal dan citra penyelesaian. Model perlu dilatih pada grafik produk tunggal, tetapi lingkungan pengujian yang sebenarnya adalah grafik penyelesaian.
Gambar 3: Diagram produk tunggal.
Gambar 4: Diagram penyelesaian.
nyata: Saat membuat dan mengumpulkan bagan penyelesaian, coba simulasikan adegan ritel sebenarnya sebanyak mungkin, terlepas dari kategori komoditas, jumlah komoditas, sudut penempatan dan oklusi, serta faktor lain yang mendekati lokasi kasir sebenarnya.
Tingkat: 200 kategori komoditas tersebut termasuk dalam 17 kategori komoditas (seperti mie instan, tisu, minuman, dll.), Yang secara alami membentuk struktur hierarki dan dapat digunakan sebagai informasi pengawasan tambahan untuk pelatihan lebih lanjut.
Gambar 6: 17 kategori komoditas.
Kesulitan: Tiga tingkat kesulitan dirancang untuk grafik penyelesaian: Mudah, Sedang dan Sulit Jumlah dan kuantitas kategori produk yang disertakan adalah:
Tabel 2: Tiga tingkat kesulitan dari grafik penyelesaian.
Kekuatan: Pada tingkat informasi pengawasan, kami menyediakan tiga jenis informasi pengawasan intensitas dari lemah (Daftar Belanja) hingga sedang (Titik) hingga kuat (Produk BBox) untuk setiap grafik penyelesaian RPC.
Gambar 5: Tiga jenis informasi pengawasan intensitas dari bagan penyelesaian.
Tolok ukur set data RPC
Metode dasar ACO
Megvii mengusulkan empat metode baseline ACO dalam artikel ini, yaitu 1) Single, 2) Syn, 3) Render dan 4) Syn + Render.
Hanya gunakan informasi label dari gambar produk tunggal dari kumpulan data RPC, dan gunakan gambar produk tunggal ini untuk pelatihan secara langsung. Strategi ini adalah metode dasar pertama, yang disebut Tunggal. Selain itu, detektor yang digunakan dalam makalah ini adalah ResNet101 sebagai fitur jaringan piramida Backbone FPN.
Dengan menempelkan item yang dipotong secara acak di latar belakang untuk mensintesis 10.000 peta pemukiman, dan kemudian menggunakannya untuk melatih detektor, ini adalah metode baseline kedua, dilambangkan sebagai Syn.
Untuk membuat peta pemukiman yang disintesis di atas lebih realistis, Megvii menggunakan Cycle-GAN untuk mengubah peta yang disintesis, seperti yang ditunjukkan pada Gambar 9. Kemudian gunakan 10.000 gambar yang telah dirender ini untuk melatih detektor. Ini adalah metode baseline ketiga, dilambangkan sebagai Render.
Gambar 9: Contoh perbandingan grafik penyelesaian sintetik dan grafik penyelesaian yang dirender.
Selain itu, Anda juga dapat mencampur gambar sintetis dan gambar yang dirender untuk melatih detektor. Ini adalah metode dasar keempat, yang dilambangkan dengan Syn + Render.
Pipeline dari seluruh metode yang diusulkan untuk tugas ACO ditunjukkan pada Gambar 10:
Gambar 10: Pipeline metode baseline.
Hasil percobaan
Sebelum memasuki hasil eksperimen, perlu dicatat bahwa indikator evaluasi yang optimal bukanlah mAP50, mmAP dan indikator lain dalam tugas deteksi tradisional, tetapi cAcc (Akurasi Checkout) yang diusulkan dalam artikel ini, yaitu, verifikasi yang benar dari semua produk dalam gambar Secara sederhana, akurasi adalah "tingkat akurasi seluruh pesanan".
Di sini, hasil percobaan tugas ACO pada kumpulan data RPC diuji sesuai dengan mode Mudah, Sedang, dan Keras yang disebutkan di atas, seperti yang ditunjukkan pada Tabel 3:
Tabel 3: Hasil Eksperimen.
Riset Outlook
Meskipun metode deteksi lintas domain kumpulan data RPC cocok untuk memecahkan masalah ACO, bukan berarti metode lain tidak layak. Arah penelitian lainnya juga dapat terinspirasi oleh kumpulan data RPC:
Pembelajaran online untuk memecahkan masalah ACO. Di kancah ritel sebenarnya, jenis barang akan terus direnovasi. Mengulangi model dengan cepat tanpa pelatihan ulang menjadi masalah utama, saat pembelajaran online menjadi berguna.
Solusi potensial untuk tugas ACO adalah mendapatkan daftar komoditas langsung dari grafik penyelesaian tanpa menggunakan teknologi deteksi komoditas. Ini pada dasarnya mengubah masalah ACO menjadi masalah penghitungan item.
Gunakan informasi pemantauan dari grafik penyelesaian. Kumpulan data RPC memiliki tingkat informasi pengawasan grafik penyelesaian yang berbeda. Cara menggunakannya untuk menyelesaikan tugas ACO dengan lebih baik masih perlu dipelajari lebih lanjut.
Sebagai kumpulan data tambahan untuk tugas-tugas computer vision lainnya. Meskipun kumpulan data RPC dirancang untuk masalah ACO, kotak pemosisian / pembatas kebenaran dasar yang ditandai dengan produk juga cocok untuk penelitian di bidang pengambilan objek, beberapa bidikan / pengawasan lemah / deteksi objek pengawasan penuh.
Kesimpulannya
Dalam artikel ini, Megvii menerbitkan RPC, kumpulan data pengenalan produk terbesar di dunia akademis, dan tugas ACO yang ditentukan serta indikator evaluasi yang sesuai. Kumpulan data RPC berisi 200 kategori produk, 83.739 gambar, termasuk dua bentuk gambar produk tunggal dan gambar penyelesaian, dan dilengkapi dengan label dengan kekuatan pengawasan yang berbeda. Dengan kumpulan data ini, artikel ini dengan jelas mendefinisikan masalah ACO dan membandingkan kumpulan data ini dengan menggunakan 4 metode dasar. Hasil eksperimen menunjukkan bahwa masih banyak ruang untuk perbaikan ACO pada kumpulan data ini. Pada saat yang sama, kumpulan data juga cocok untuk berbagai arah penelitian potensial.
Klik Baca aslinya , Lihat 10 makalah + 5 dunia pertama, ingat perjalanan Megvii Technology ECCV
- Apa saja dilema "bias" dalam sistem pengenalan wajah? Jeff Dean mau tidak mau menyukai pidato pemuda ini