Dalam visi komputer, apa algoritma pelacakan target yang lebih baik? (di)

Lei Feng Net Catatan: Penulis artikel ini YaqiLYU, artikel ini disusun oleh Lei Feng Net dari penulis di "Computer Vision, apa algoritma pelacakan target klasik saat ini? Jawab di bawah pertanyaan. Leifeng.com telah diotorisasi untuk mencetak ulang.

Saya yakin banyak orang yang datang ke sini sama seperti saya yang pertama kali datang ke sini, mereka ingin mencari algoritma pelacakan target yang lebih baik, atau ingin lebih memahami bidang pelacakan target, walaupun masalah ini adalah algoritma pelacakan target klasik. Namun kenyataannya, mungkin kita tidak membutuhkan pelacak tersebut (algoritme pelacakan target) yang dulunya brilian tetapi telah difoto di pantai, tetapi yang akan menjadi klasik, atau yang terbaik untuk penggunaan, kecepatan, dan kinerja. Pelacak sebelumnya. Saya lebih memperhatikan arah pemfilteran terkait dalam pelacakan target. Selanjutnya, saya akan membantu Anda memperkenalkan pelacakan target yang saya tahu, terutama metode pemfilteran terkait, berbagi beberapa algoritma yang menurut saya lebih baik, dan berbicara tentang pandangan saya.

Bagian 1: Ikhtisar singkat tentang pelacakan sasaran

Mari berkenalan dengan beberapa pelacak SOTA terlebih dahulu, dan mungkin memahami apa arah pelacakan target. Semuanya dimulai dengan database pada tahun 2013. . Jika Anda bertanya kepada orang lain apa algoritma pelacakan yang lebih niubility dalam beberapa tahun terakhir, kebanyakan orang akan memberi Anda makalah oleh Wu Yi. OTB50 dan OTB100 (OTB50 di sini mengacu pada OTB-2013, OTB100 di sini mengacu pada OTB-2015, 50 dan 100 masing-masing mewakili jumlah video, yang nyaman untuk memori):

Wu Y, Lim J, Yang M H. Pelacakan objek online: Tolok ukur // CVPR, 2013.

Wu Y, Lim J, Yang M H. Tolok ukur pelacakan objek TPAMI, 2015.

Perlakuan teratas dari edisi teratas majalah teratas, ditambah lebih dari 1480 + 320 kutipan, terbukti dengan sendirinya. Ini sudah menjadi database yang harus dijalankan untuk pelacakan. Kode dan urutan tes dapat diunduh: Visual Tracker Benchmark, OTB50 termasuk 50 urutan, semuanya diberi label secara manual:

Kedua makalah tersebut dibandingkan di database Termasuk 29 pelacak top dari tahun 2012 dan sebelumnya , Ada OAB, IVT, MIL, CT, TLD, Struck, dll yang sudah dikenal, yang sebagian besar adalah mahakarya dari majalah-majalah top. Karena tidak ada database yang lebih dikenal sebelumnya, koran-koran itu menjual sendiri dan membanggakan, dan semua orang tidak tahu mana yang lebih baik. Oleh karena itu, pentingnya database ini sangat penting, secara langsung mempromosikan pengembangan algoritma pelacakan, kemudian diperluas ke OTB100 dan dikirim ke TPAMI. Ada 100 urutan yang lebih sulit dan lebih berwibawa. Mari kita simak di sini. OTB100 Hasilnya, pertama-tama kecepatan dan waktu publikasi 29 pelacak (menandai beberapa algoritme dengan performa dan kecepatan yang lebih baik):

Selanjutnya lihat hasilnya (untuk informasi lebih detail, saya sarankan baca makalahnya untuk kejelasannya):

Kesimpulan langsung: rata-rata Dipukul, SCM, ASLA Performanya relatif tinggi, peringkat di tiga besar, belum lagi banyak, menekankan CSK, untuk pertama kalinya menunjukkan kepada dunia potensi pemfilteran terkait, Peringkat keempat 362FPS Itu hanya berlawanan dengan langit. Tercepat kedua adalah algoritma klasik CT (64fps) (SCM, ASLA, dll. Adalah representasi jarang terpanas di era itu). Jika Anda tertarik dengan algoritma sebelumnya, saya merekomendasikan survei klasik lainnya (saya tidak tertarik dan belum membacanya):

Yilmaz A, Javed O, Shah M. Pelacakan objek: Survei CSUR, 2006.

Algoritme sebelum tahun 2012 pada dasarnya seperti ini. Sejak kemunculan AlexNet di tahun 2012, CV telah mengalami perubahan yang luar biasa di berbagai bidang, jadi saya rasa Anda pasti masih ingin tahu apa yang terjadi dari tahun 2013 hingga 2017, maaf saya tidak tahu (izinkan saya menjual A key), tetapi kami dapat yakin bahwa makalah setelah 2013 pasti akan mengutip makalah OTB50, dengan bantuan Fungsi penghitungan kutipan di Google Cendekia , Dapatkan hasil sebagai berikut:

Berikut adalah beberapa kutipan teratas, secara berurutan Struck Untuk TPAMI, tiga metode penyaringan terkait KCF, CN, DSST, dan VOT kompetisi Ini hanya demo, jika tertarik bisa mencobanya sendiri. ( Dasar teoritis untuk ini adalah : Untuk makalah, Anda dapat merujuk ke kutipannya untuk karya sebelumnya, dan siapa yang mengutipnya untuk karya berikutnya; meskipun jumlah kutipan tidak menjelaskan apa pun, semua orang pada dasarnya akan mengutip metode yang baik (rasa hormat dan persetujuan) ; Nantinya, Anda juga dapat melihat makalah terkait untuk jangka waktu tertentu melalui waktu yang terbatas. Misalnya, Anda dapat menemukan makalah terbaru 2016-2017. Sedangkan untuk kualitas kertas, Anda perlu menyaring dengan cermat; kertas penting di arah lain juga dapat digunakan dengan cara ini. Mengetahui siapa Daniels itu, dan kemudian memperhatikan pelacakan pekerjaan mereka) Dengan cara ini, kita umumnya tahu bahwa perkembangan terbaru di bidang pelacakan target harus terkait dengan pemfilteran, dan kami dapat melihat algoritme pemfilteran terkait di masa mendatang. SAMF, LCT, HCF, SRDCF dan masih banyak lagi. Tentu saja, jumlah kutipan juga berkaitan dengan waktu, dan disarankan untuk melihatnya setiap tahun. Selain itu, versi terbaru OPENCV3.2, selain TLD, juga menyertakan beberapa algoritme pelacakan yang sangat baru OpenCV: API Pelacakan:

Antarmuka TrackerKCF diimplementasikan KCF dengan CN , Pengaruhnya bisa dilihat, ada metode GOTURN lain berdasarkan deep learning, meski kecepatannya cepat tapi akurasinya sedikit lebih buruk, ada baiknya dicoba. Makalah terbaru dalam arah pelacakan dapat ditindaklanjuti dengan tiga konferensi besar (CVPR / ICCV / ECCV) dan arXiv.

Bagian 2: Pengenalan Latar Belakang

Selanjutnya, kami akan memperkenalkan pelacakan sasaran secara umum . Pelacakan target yang disebutkan di sini adalah pelacakan target tunggal umum. Bingkai pertama diberi kotak persegi panjang. Kotak ini ditandai secara manual dalam database. Dalam situasi aktual, ini sebagian besar merupakan hasil dari algoritme deteksi. Kemudian algoritme pelacakan harus mengikuti bingkai berikutnya. Tetap di kotak ini, berikut adalah persyaratan VOT untuk algoritma pelacakan:

Biasanya target pelacakan wajah Beberapa kesulitan (Wu Yi masuk VALSE Slide): Distorsi penampilan, perubahan pencahayaan, gerakan cepat dan gerakan kabur, gangguan latar belakang serupa:

Rotasi di luar bidang, rotasi dalam bidang, perubahan skala, oklusi dan tidak terlihat, dll .:

Justru karena kondisi inilah pelacakan menjadi sulit.Saat ini, database yang lebih umum digunakan adalah OTB , Dan yang ditemukan sebelumnya PILIH Basis data kompetisi (ImageNet analog) telah diadakan selama empat tahun. Baik VOT2015 dan VOT2016 mencakup 60 urutan. Semua urutan juga gratis untuk diunduh. VOT Challenge | Tantangan:

Kristan M, Pflugfelder R, Leonardis A, dkk. Hasil tantangan visual object tracking vot2013 // ICCV, 2013.

Kristan M, Pflugfelder R, Leonardis A, dkk. Hasil Tantangan Visual Object Tracking VOT2014 // ECCV, 2014.

Kristan M, Matas J, Leonardis A, dkk. Objek visual pelacakan hasil tantangan vot2015 // ICCV, 2015.

Kristan M, Ales L, Jiri M, dkk. Hasil Tantangan Visual Object Tracking VOT2016 // ECCV, 2016.

Perbedaan antara OTB dan VOT : OTB menyertakan 25% urutan skala abu-abu, tetapi PILIHAN adalah urutan warna, yang merupakan alasan untuk perbedaan kinerja dari banyak algoritme fitur warna; indikator evaluasi dari dua pustaka berbeda, silakan lihat makalah untuk detailnya; resolusi urutan pustaka VOT umumnya lebih tinggi Tinggi, poin ini akan disebutkan nanti dalam analisis. Untuk pelacak, jika makalah memiliki hasil yang baik di kedua perpustakaan (sebaiknya OTB100 dan VOT2016), itu pasti sangat bagus (Anda dapat menyesuaikan parameter kedua perpustakaan, saya akan menerimanya, saya akan mengenalinya ~~), Jika Anda hanya menjalankan satu, individu lebih cenderung ke VOT2016, karena urutannya berlabel halus dan indikator evaluasinya lebih baik (bagaimanapun juga, itu adalah kompetisi, dan indikator evaluasi telah dikirim ke TPAMI). Perbedaan terbesar , OTB mempunyai start frame random, atau frame segi empat plus inisialisasi interferensi random yang akan dijalankan. Penulis mengatakan ini lebih sesuai dengan frame yang diberikan oleh algoritma pendeteksian; sedangkan VOT adalah frame pertama yang diinisialisasi untuk dijalankan, dan setiap pelacakan gagal (frame prediksi dan frame label tidak tumpang tindih ), inisialisasi ulang setelah 5 frame, VOT sebagian besar bersifat jangka pendek, dan dianggap bahwa deteksi pelacakan harus digabungkan dan tidak dipisahkan, dan detektor akan menginisialisasi pelacak beberapa kali.

Suplemen: OTB Diterbitkan pada 2013. Algoritme setelah 2013 bersifat transparan, dan makalah akan disesuaikan, terutama makalah yang hanya menjalankan OTB. Jika parameter kunci diberikan langsung dan akurat ke dua tempat desimal, Anda disarankan untuk menguji terlebih dahulu (Ini tidak kuno ~ banyak diadu). PILIH Basis data kompetisi diperbarui setiap tahun, dan diberi label ulang setiap kali, dan indeks evaluasi berubah setiap waktu. Lebih sulit untuk algoritme tahun ini, sehingga hasilnya relatif lebih dapat diandalkan. (Saya yakin banyak orang seperti saya. Membaca setiap makalah akan merasa bahwa karya ini terlalu bagus dan penting. Tanpa makalah ini, bumi akan meledak dan alam semesta akan dimulai kembali ~~ Jadi sama seperti semua orang tahu kedalaman melalui hasil kompetisi ILSVRC selama bertahun-tahun. Seperti perkembangan pembelajaran, hasil pihak ketiga lebih meyakinkan, jadi saya juga menggunakan peringkat kompetisi + kode sumber terbuka + kinerja terukur sebagai standar, dan saya lebih suka beberapa analisis algoritma)

Pelacakan Objek Visual , Secara umum diakui bahwa ini dibagi menjadi dua kategori: Generasi (generatif) Metode model dan Diskriminatif Metode model yang paling populer adalah metode diskriminatif atau disebut juga pelacakan dengan deteksi.Untuk menjaga keutuhan jawaban, berikut adalah pengantar singkatnya.

Hasilkan metode kelas , Modelkan area target pada frame saat ini, dan temukan area yang paling mirip dengan model pada frame berikutnya adalah posisi prediksi. Yang lebih terkenal adalah Kalman filter, particle filter, mean-shift, dll. Misalnya, diketahui dari frame saat ini bahwa 80% area target berwarna merah dan 20% hijau, lalu di frame berikutnya, algoritma pencarian seperti lalat tanpa kepala, di mana-mana untuk menemukan area yang paling cocok dengan rasio warna ini, algoritma yang direkomendasikan ASMSvojirt / asms :

Vojir T, Noskova J, Matas J. Pergeseran rata-rata adaptif skala yang kuat untuk pelacakan Pola Pengakuan Surat, 2014.

ASMS melawan DAT Juga dikenal sebagai "color duo" (hak cipta harus diselidiki), mereka adalah algoritma dengan hanya fitur warna dan sangat cepat. Mereka masing-masing berada di peringkat 20 dan 14 di VOT2015, dan 32 dan 31 (level sedang) di VOT2016. ASMS adalah algoritme waktu nyata yang secara resmi direkomendasikan oleh VOT2015, frekuensi gambar rata-rata 125FPS , Dalam kerangka pergeseran rata-rata klasik, estimasi skala dan fitur histogram warna klasik ditambahkan, dan dua prior (skala tidak berubah drastis + deviasi maksimum yang mungkin) ditambahkan sebagai istilah reguler, dan pemeriksaan konsistensi skala terbalik. Penulis memberikan kode C ++. Di era terkait pemfilteran dan pembelajaran mendalam, tidak mudah untuk melihat peringkat rata-rata bergeser dan kinerja biaya tinggi. Kinerja yang diukur tidak buruk. Jika Anda memiliki titik lemah untuk metode generatif , Ini sangat disarankan untuk Anda coba.

Metode diskriminan , Sebagian besar metode di OTB50 adalah jenis ini, rutinitas klasik di CV Fitur gambar + pembelajaran mesin , Bingkai saat ini mengambil area target sebagai sampel positif dan area latar belakang sebagai sampel negatif. Metode pembelajaran mesin melatih pengklasifikasi, dan bingkai berikutnya menggunakan pengklasifikasi terlatih untuk menemukan area optimal:

Perbedaan terbesar dengan metode kelas yang dihasilkan adalah bahwa pengklasifikasi menggunakan pembelajaran mesin dan informasi latar belakang digunakan dalam pelatihan, sehingga pengklasifikasi dapat fokus untuk membedakan latar depan dan latar belakang, sehingga metode kelas diskriminan umumnya lebih baik daripada kelas yang dihasilkan. Misalnya, selama pelatihan, saya memberi tahu pelacak bahwa 80% dari target berwarna merah dan 20% hijau. Saya juga mengatakan bahwa ada oranye di latar belakang. Harap beri perhatian khusus agar tidak ada kesalahan. Pengklasifikasi semacam itu mengetahui lebih banyak informasi, dan efeknya relatif lebih baik. ini baik. pelacakan dengan deteksi dengan Algoritme deteksi Sangat mirip, seperti HOG + SVM untuk deteksi pejalan kaki klasik, Struck SVM keluaran terstruktur Haar + digunakan, dan penelusuran traversal multi-skala juga diperlukan untuk adaptasi skala dalam pelacakan. Satu-satunya perbedaan adalah bahwa algoritme pelacakan memerlukan kecepatan fitur dan pembelajaran mesin online yang lebih tinggi, serta rentang dan skala deteksi lebih kecil. Hal ini tidak terduga. Dalam banyak kasus, kompleksitas algoritme deteksi dan pengenalan relatif tinggi dan tidak mungkin dilakukan di setiap frame. Saat ini, sudah sesuai untuk menggunakan algoritme pelacakan dengan kompleksitas yang lebih rendah. Hanya perlu dilacak saat pelacakan gagal (drift) atau interval tertentu. Periksa lagi untuk menginisialisasi pelacak di masa mendatang. Sebenarnya, saya hanya ingin mengatakan, FPS adalah indikator terpenting, TMD adalah indikator terpenting, algoritma lambat dan sekarat bisa mati (Siswa jangan terlalu ekstrim, kecepatannya bisa dioptimalkan). Rekomendasi metode diskriminan klasik Struck dengan TLD Performa real-time tidak apa-apa, Struck adalah metode terbaik sebelum 2012, TLD adalah perwakilan klasik jangka panjang, idenya sangat berharga untuk dipelajari:

Hare S, Golodetz S, Saffari A, dkk. Struck: Pelacakan keluaran terstruktur dengan kernel . IEEE TPAMI, 2016.

Kalal Z, Mikolajczyk K, Matas J. Deteksi pelacakan-pembelajaran IEEE TPAMI, 2012.

Gelombang belakang Sungai Yangtze mendorong gelombang depan, gelombang depan telah berbaris di pantai, gelombang belakang ini Pemfilteran korelasi Dan pembelajaran yang mendalam. Metode filter korelasi disingkat CF, dan filter korelasi diskriminatif disingkat DCF. Perhatikan bahwa ini berbeda dari algoritme DCF berikut, termasuk yang disebutkan di atas, yang akan diperkenalkan nanti. Metode pembelajaran mendalam (Berbasis Konvolusi Dalam), karena pembelajaran mendalam tidak cocok untuk pendaratan saat ini, metode ini tidak disarankan secara membabi buta. Anda dapat merujuk ke beberapa Naiyan Wang-Home of Winsty, dan Jaringan Neural Konvolusional Multidomain MDNet Learning untuk Pelacakan Visual, juara VOT2015 , Dan juara TCNN dari VOT2016, yang lebih menonjol dalam hal kecepatan, seperti pelacak SiamFCSiameseFC 80FPS dan 100FPS GOTURNdavheld / GOTURN, perhatikan bahwa semuanya ada di GPU. SiamFC-R (ResNet) berdasarkan ResNet berkinerja baik di VOT2016 dan sangat optimis dengan pengembangan tindak lanjutnya. Jika tertarik, Anda juga dapat pergi ke VALSE untuk mendengarkan penjelasan penulis sendiri tentang VALSE-20160930-LucaBertinetto-Oxford-JackValmadre-Oxford-pu. Sedangkan untuk GOTURN, efeknya relatif buruk. Tapi kelebihannya bisa berjalan di 100FPS dengan sangat cepat, alangkah baiknya jika efeknya juga bisa naik dikemudian hari. Pembelajaran mendalam adalah kunci bagi siswa yang melakukan penelitian ilmiah, dan lebih baik memperhitungkan kecepatan.

Nam H, Han B. Mempelajari jaringan saraf konvolusional multi-domain untuk pelacakan visual // CVPR, 2016.
Nam H, Baek M, Han B. Pemodelan dan penyebaran cnns dalam struktur pohon untuk pelacakan visual . arXiv pracetak arXiv: 1608.07242, 2016.
Bertinetto L, Valmadre J, Henriques J F, dkk. Jaringan Siam yang sepenuhnya konvolusional untuk pelacakan objek // ECCV, 2016.
Diadakan D, Thrun S, Savarese S. Belajar melacak pada 100 fps dengan jaringan regresi yang dalam // ECCV, 2016.

Terakhir, kekuatan yang kuat dari deep learning END2END masih jauh dari digunakan dalam arah pelacakan target, dan tidak jauh berbeda dari metode pemfilteran terkait (kecepatan lambat bawaan dan saya tidak menyalahkan Anda, tetapi efeknya harus selalu baik, jika tidak, Anda Apa arti keberadaan? Revolusi belum berhasil, kawan-kawan masih harus kerja keras). Masalah lain yang perlu diperhatikan adalah bahwa database pelacakan target tidak memiliki set pelatihan dan pengujian yang ketat. Metode pembelajaran mendalam yang memerlukan pelatihan offline harus sangat memperhatikan apakah set pelatihannya memiliki urutan yang sama, dan tidak sampai pejabat VOT2017 menentukan bahwa itu harus dibatasi. Set pelatihan tidak dapat menggunakan urutan yang sama untuk melatih model.

Terakhir, dua sumber daya sangat disarankan. Benchmark_results dikelola oleh Wang Qiang: Perbandingan kinerja sejumlah besar metode teratas di perpustakaan OTB, semua jenis kode kertas, CSK, KCF dan DAT diimplementasikan dalam C ++ dan open source oleh Tuhan, dan kertas DCFNet miliknya ditambah kode sumber, siswa yang tidak dapat menemukan jalan Mohon ikuti.

@H Hakase memelihara sumber daya pemfilteran terkait, klasifikasi terperinci, dan sumber daya kode kertas, jangan lewatkan ketika Anda lewat, algoritme pemfilteran terkait sangat komprehensif dan sangat hati-hati!

Bagian 3: Penyaringan Korelasi

Memperkenalkan algoritma pelacakan penyaringan korelasi kecepatan tinggi paling klasik CSK, KCF / DCF, CN. Banyak orang yang pertama kali mengetahui tentang CF, seperti saya, tertarik dengan gambar berikut:

Ini adalah algoritma KCF / DCF pada OTB50 ( ArVix ditautkan pada April 2014 , Pada saat itu, OTB100 belum dipublikasikan.) Hasil eksperimental, Presisi dan FPS mengalahkan Struck terbaik di OTB50, saya biasa melihat Struck dan TLD yang nyaris real-time, dan KCF / DCF berkecepatan tinggi tiba-tiba membuat orang tidak bisa dipercaya. Faktanya, KCF / DCF adalah versi perbaikan dari fitur multi-saluran CSK yang bersinar di OTB. Perhatikan MOSSE dengan kecepatan ultra-tinggi 615FPS (kecepatan tinggi adalah tiket Anda). Ini adalah metode penyaringan terkait pertama di bidang pelacakan target. Ini sebenarnya pertama kalinya potensi penyaringan terkait telah ditampilkan. Pada periode yang sama dengan KCF, ada juga CN. Metode fitur warna yang menyebabkan respon kekerasan pada CVPR 2014 sebenarnya adalah algoritma peningkatan fitur warna multi-channel CSK. Dari MOSSE (615) ke CSK (362) ke KCF (172FPS), DCF (292FPS), CN (152FPS), CN2 (202FPS) , Meskipun kecepatan semakin lambat dan lambat, efeknya semakin baik dan lebih baik, dan selalu dipertahankan pada tingkat kecepatan tinggi:

Bolme D S, Beveridge J R, Draper B A, dkk. Pelacakan objek visual menggunakan filter korelasi adaptif // CVPR, 2010.
Henriques J F, Caseiro R, Martins P, dkk. Memanfaatkan struktur peredaran pelacakan-demi-deteksi dengan kernel // ECCV, 2012.
Henriques J F, Rui C, Martins P, dkk. Pelacakan Kecepatan Tinggi dengan Filter Korelasi Kernel IEEE TPAMI, 2015.
Danelljan M, Shahbaz Khan F, Felsberg M, dkk. Atribut warna adaptif untuk pelacakan visual waktu nyata // CVPR, 2014.

Baik CSK dan KCF adalah Henriques JF (Universitas Oxford) João F. Henriques. Mereka memiliki dua makalah berturut-turut, yang memengaruhi banyak karya selanjutnya, seperti bagian inti dari regresi ridge, perkiraan pengambilan sampel padat dari pergeseran siklik, dan detail dari seluruh algoritme pemfilteran korelasi. Memperoleh. Ada juga solusi tertutup dari regresi ridge plus kernel-trick, fitur HOG multi-saluran.

Martin Danelljan (Linköping University) menggunakan fitur warna multi-channel Color Names (CN) untuk memperluas CSK dan mendapatkan hasil yang bagus. Algoritma ini juga disebut sebagai CN .

MOSSE adalah pemfilteran korelasi fitur abu-abu saluran tunggal. CSK memperluas pengambilan sampel padat (plus padding) dan kernel-trick berdasarkan MOSSE. KCF memperluas fitur HOG dari gradien multi-channel berdasarkan CSK. CN didasarkan pada CSK. Nama Warna untuk warna multi-saluran telah diperluas. HOG adalah fitur gradien, dan CN adalah fitur warna, keduanya dapat saling melengkapi, sehingga HOG + CN telah menjadi fitur standar kerajinan tangan dalam algoritma pelacakan selama dua tahun terakhir. Akhirnya, berdasarkan hasil eksperimen KCF / DCF, dua masalah dibahas:

1. Mengapa perbedaan kecepatan antara KCF yang hanya menggunakan fitur grayscale saluran tunggal dan KCF yang menggunakan fitur HOG multi saluran sangat kecil?

Pertama, penulis menggunakan algoritma cepat HOG fHOG, dari Computer Vision Matlab Toolbox Piotr, kode C dan optimasi SSE. Jika Anda memiliki pertanyaan tentang fHOG, lihat halaman 12 makalah Deteksi Objek dengan Model Berbasis Bagian yang Dilatih Diskriminatif. Kedua, ukuran cell fitur HOG yang umum digunakan adalah 4, artinya untuk gambar 100 * 100, dimensi peta fitur HOG hanya 25 * 25, sedangkan Raw pixel adalah normalisasi gambar grayscale, dan dimensinya masih 100 * 100. Mari kita lakukan penghitungan sederhana: kompleksitas fitur HOG 27 saluran adalah 27 * 625 * log (625) = 47180, dan kompleksitas fitur skala abu-abu saluran tunggal adalah 10.000 * log (10.000) = 40000, yang serupa secara teori dan sesuai dengan tabel.

Melihat kodenya, Anda akan menemukan bahwa penulis pertama-tama akan menurunkan sampel blok gambar yang diekstraksi dengan faktor 2 hingga 50 * 50 ketika area area target besar setelah ekspansi, sehingga kompleksitasnya menjadi 2500 * log (2500) = 8495 , Turun banyak. Kemudian Anda mungkin berpikir bahwa jika Anda menurunkan sampel sedikit lebih banyak, kerumitannya akan lebih rendah, tetapi hal ini mengorbankan akurasi pelacakan. Misalnya, jika area blok gambar adalah 200 * 200, pertama turunkan sampel ke 100 * 100, lalu ekstrak fitur HOG, resolusinya dikurangi menjadi 25 * 25, artinya resolusi peta respon juga 25 * 25, artinya setiap peta respon digeser 1 piksel, frame pelacakan di gambar asli harus bergerak 8 Piksel, yang mengurangi akurasi pelacakan. Jika persyaratan akurasi tidak tinggi, Anda dapat sedikit mengorbankan akurasi untuk meningkatkan frekuensi gambar (tetapi tampaknya downsampling benar-benar tidak mungkin).

2. Mana yang lebih baik, KCF atau DCF dengan fitur HOG?

Kebanyakan orang mengira bahwa efek KCF melebihi DCF, dan akurasi setiap atribut lebih tinggi dari DCF. Namun, jika dilihat dari perspektif lain, ambil DCF sebagai benchmark, dan kemudian lihat KCF dengan kernel-trick, presisi rata-rata hanya ditingkatkan. 0,4%, dan FPS turun 41%. Bukankah itu mengejutkan? Selain jumlah total piksel dalam blok gambar, kompleksitas KCF terutama terkait dengan trik kernel. Oleh karena itu, metode CF di bawah ini Jika tidak ada kernel-trick, singkatnya didasarkan pada DCF, Jika kernel-trick ditambahkan, ini akan didasarkan pada KCF (Spoiler pada dasarnya dibagi menjadi dua). Tentu saja, CN di sini juga memiliki kernel-trick, tetapi perlu diketahui bahwa ini adalah pertama kalinya dan terakhir kali Martin Danelljan menggunakan kernel-trick. . .

Ini akan menimbulkan pertanyaan, bagaimana cara memperbaiki kernel-trick yang begitu kuat? Di sini saya harus menyebutkan mahakarya lain oleh Winsty:

Wang N, Shi J, Yeung D Y, dkk. Memahami dan mendiagnosis sistem pelacakan visual // ICCV, 2015.

Ringkasan satu kalimat, Terlepas dari berbagai metode pembelajaran mesin, semuanya virtual, dan fitur dalam algoritme pelacakan target adalah yang paling penting (Karena artikel ini, saya penggemar paman WIN haha), di atas adalah tiga algoritma kecepatan tinggi paling klasik, CSK, KCF / DCF dan CN, direkomendasikan.

Bagian 4: adaptasi skala 14 tahun

VOT dan OTB pertama kali muncul pada tahun 2013, tetapi urutan VOT2013 terlalu sedikit, dan kode PLT urutan pertama tidak ditemukan, jadi saya melewatkannya tanpa nilai referensi. Langsung ke kompetisi VOT2014 ( Tahun ini, ada 25 urutan yang dipilih dengan cermat dan 38 algoritma. Pada saat itu, peperangan pembelajaran yang dalam belum terbakar menjadi pelacakan, jadi protagonisnya hanya CF yang baru saja muncul dan mendominasi pesta. Berikut ini adalah yang teratas. Rincian:

Tiga teratas adalah semua metode CF penyaringan terkait, dan KCF ketiga sudah familiar. Perbedaan kecil di sini adalah penambahan deteksi multi-skala dan estimasi puncak sub-piksel, ditambah resolusi yang lebih tinggi dari urutan VOT (deteksi gambar yang diperbarui Resolusi blok relatif tinggi), sehingga kecepatan KCF dalam kompetisi hanya 24,23 (konversi EFO 66,6FPS). Di sini kecepatan adalah EFO (Operasi Filter Ekuivalen). Parameter ini juga digunakan untuk mengukur kecepatan algoritme di VOT2015 dan VOT2016. Ini tercantum di sini untuk referensi (kecepatan aktual pelacak yang diterapkan oleh MATLAB lebih tinggi):

Faktanya, selain fitur yang sedikit berbeda dari tiga teratas, intinya adalah KCF berdasarkan perluasan deteksi multi-skala, ringkasannya adalah sebagai berikut:

Perubahan skala Ini adalah masalah yang relatif mendasar dan umum dalam pelacakan. KCF / DCF dan CN yang disebutkan di atas tidak memiliki pembaruan skala. Jika target dikurangi, filter akan mempelajari banyak informasi latar belakang. Jika target diperbesar, filter akan mengikuti tekstur lokal target. Dalam kedua kasus tersebut, hasil yang tidak diharapkan mungkin terjadi, yang mengarah ke penyimpangan dan kegagalan.

SAMF , Karya Yang Li dari Universitas Zhejiang, berdasarkan KCF, menampilkan HOG + CN, metode multiskala adalah filter terjemahan melakukan deteksi target pada blok gambar yang diperbesar berskala banyak, dan mengambil posisi terjemahan dan skala dengan respons terbesar:

Li Y, Zhu J. Pelacak filter korelasi kernel adaptif skala dengan integrasi fitur // ECCV, 2014.

Martin Danelljan DSST , Hanya fitur HOG yang digunakan, DCF digunakan untuk deteksi posisi terjemahan, dan filter terkait yang mirip dengan MOSSE dilatih secara khusus untuk mendeteksi perubahan skala, membuat filter terjemahan + filter skala, dan kemudian ditransfer ke TPAMI untuk membuat serangkaian versi yang dipercepat fDSST , Sangat + sangat + sangat direkomendasikan:

Danelljan M, Häger G, Khan F, dkk. Estimasi skala yang akurat untuk pelacakan visual yang kuat // BMVC, 2014.
Danelljan M, Hager G, Khan F S, dkk. Pelacakan Ruang Skala Diskriminatif . IEEE TPAMI, 2017.

Perbandingan sederhana dari dua metode adaptasi skala ini:

Metode deteksi skala mana yang diadopsi oleh DSST dan SAMF yang lebih baik?

Izinkan saya memberi lelucon: Setelah Martin Danelljan mengusulkan DSST, makalah tindak lanjutnya tidak pernah digunakan (sampai CVPR ECO-HC terbaru menggunakan fDSST untuk mempercepat).

Meskipun SAMF dan DSST dapat mengikuti perubahan skala target umum, SAMF hanya memiliki 7 skala yang relatif kasar, sedangkan DSST memiliki 33 skala yang relatif halus dan akurat;

DSST pertama-tama mendeteksi terjemahan terbaik dan kemudian mendeteksi skala terbaik, yang merupakan langkah demi langkah terbaik, sementara SAMF mendeteksi skala terjemahan bersama-sama, dan terjemahan serta skala dioptimalkan pada saat yang sama, dan optimal lokal dan optimal global seringkali berbeda;

DSST membagi pelacakan menjadi dua masalah: pelacakan terjemahan dan pelacakan skala. Metode dan fitur yang berbeda dapat digunakan, yang lebih fleksibel, tetapi diperlukan filter tambahan. Setiap deteksi skala bingkai perlu mengambil sampel 33 blok gambar, lalu menghitung fitur dan menambahkan Jendela, FFT, dll., Filter skala jauh lebih lambat daripada filter terjemahan; SAMF hanya membutuhkan satu filter, tidak diperlukan pelatihan dan penyimpanan tambahan, dan fitur serta FFT diekstraksi sekali untuk setiap deteksi skala, tetapi ketika blok gambar besar, jumlah kalkulasi lebih banyak DSST tinggi.

Jadi DSST deteksi standar tidak selalu lebih baik dari SAMF SAMF melebihi DSST di VOT2015 dan VOT2016 Tentu saja, ini terutama karena fiturnya yang lebih baik, tetapi setidaknya itu menunjukkan bahwa metode skala tidak buruk. Secara umum, pendekatan DSST sangat baru dan lebih cepat, dan SAMF sama baiknya dan lebih akurat.

Apakah DSST harus memiliki 33 standar?

Standar 33 skala DSST sangat sensitif, dan mudah untuk mengurangi jumlah timbangan. Meskipun Anda menambah panjang langkah yang sesuai, filter skala tidak akan mengikuti perubahan skala. Penjelasan yang mungkin untuk poin ini adalah bahwa filter skala pelatihan menggunakan sampel satu dimensi, dan tidak ada pergeseran siklik, yang berarti hanya ada 33 sampel dalam pembaruan pelatihan. Jika jumlah sampel dikurangi, akan menyebabkan pelatihan yang tidak memadai dan diskriminasi serius pada pengklasifikasi. Tolak, tidak seperti filter terjemahan, yang memiliki banyak contoh pergeseran (pendapat pribadi dipersilakan untuk dikomunikasikan). Singkatnya, tolong jangan mencoba terlalu banyak mengurangi jumlah timbangan, jika Anda harus menggunakan filter skala 33 dan 1.02, itu akan bagus.

Di atas adalah dua metode deteksi skala yang direkomendasikan. Disingkat sebagai multi-skala mirip DSST dan multi-skala mirip SAMF . Jika kecepatan lebih penting, versi akselerasi fDSST dan SAMF hanya 3 standar (seperti VOT2014 KCF ) Adalah pilihan yang lebih baik; jika lebih banyak penekanan ditempatkan pada akurasi, DSST skala 33 dan SAMF 7 skala lebih sesuai.

(Bersambung)

Pada tahun 2018, karakter chongqing he bo: "panjang sungai" membangun pedesaan yang indah

Sebelumnya

"Bunga Aneh" Zhang Ruoyun Menjadi "Sopir Tua" Menggoda Ma Sichun, Apa Ou Hao Tahu Ini?

Lanjut

: Vetements membantu Anda menghindari kedinginan, seri merek bersama Canada Goose secara resmi diluncurkan

: Bisakah itu menjadi model panas baru di tahun 2018? Uji coba mobil pintar baru Dongfeng Yueda Kia

: Pameran Parade Budaya Rakyat Nasional Xishuangbanna

: Lima sorotan dari "The Queen of Figure Skating" akan ditampilkan

: Setelah layanan E -Commerce, ritel, dan cloud, Amazon akan memasuki "triliun dolar"? Berita Lei No. 48

: Akan memperkosa setelah syuting dengan istrinya Dong Xuan? Gao Yunxiang ditangkap karena pelecehan seksual di Sydney, media asing menonton lelucon

: Masih mengejar drama "Everything is Good"? Untuk mempelajari data besar sejak dini

: Bagaimana cara memilih model Accord, Lacrosse dan Magotan seharga 200.000 yuan?

: Pengembangan perangkat lunak, komputasi awan, analisis data besar, dan alat pembelajaran mesin terbaik pada tahun 2018

: 1 juta unit yang terjual dengan membakar uang subsidi adalah ambang batas industri yang ditetapkan oleh Tmall Wizard

: Orang yang menyentuh Chongqing pada tahun 2018Chen Jiushu: Xinxiangxian yang menengahi kontradiksi di lingkungan sekitar dan memberikan energi positif

: Aku merindukan YEEZY dan A (Ann) V (Comfort), aku akan memberimu gelombang besar YEEZY Girl

Dalam visi komputer, apa algoritma pelacakan target yang lebih baik? (di)

Bagian 2: Pengenalan Latar Belakang

Bagian 4: adaptasi skala 14 tahun

Informasi Terkait

Orang yang Memindahkan Chongqing pada Tahun 2018Xie Binrong: "Burung Migran" yang Membawa Pengetahuan kepada Kebangsaan Yi di Liangshan

Tian Fuzhen menyanyikan debut sutradara Liu Ruoying "Little Lucky" dan kemudian menyanyikan "Teman yang telah lama mencintai"

Apa yang terjadi dengan mobil saat melaju dengan kecepatan tinggi?

Bagaimana programmer biasa berubah menjadi talenta terkait data besar yang saat ini kekurangan pasokan?

Pecahkan misteri bersama teman-teman Anda, "Shadow of the Tomb Raider" akan segera bergabung dalam mode kooperatif

Menjengkelkan! "Pacific Rim: Resurrection of Thunder" memenangkan 488 juta pemboman dengan efek khusus

Cincin sepatu itu jadi viral, saya tidak pernah membayangkan petir AJ1 harga 59,99 dolar AS

Bujet 350.000 untuk membeli A6 atau Huiang atau Aurora?

Pengoptimalan kompresi mesin waktu OpenTSDB Cloud HBase

Kantor Berita Xinhua: Data memberi tahu Anda apa yang ditangisi pemilik Mercedes