[Panduan Xin Zhiyuan] Hari ini saya akan membagikan makalah yang diterima oleh CVPR tahun ini. Algoritma yang diusulkan dalam makalah ini dapat secara efisien memproses awan titik 3D pemandangan besar yang terdiri dari jutaan titik. Pada saat yang sama, ia memiliki efisiensi komputasi yang tinggi dan jejak memori yang rendah. Dapat langsung memproses awan titik skala besar tanpa pra-pemrosesan / pasca-pemrosesan yang rumit. Metode berbasis grafik SPG hampir 200 kali lebih cepat, yang sangat penting untuk mengemudi otonom dan AR.
Makalah berjudul "RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds" yang ditulis bersama oleh University of Oxford dan National University of Defense Technology telah diterima oleh CVPR tahun ini. Hari ini saya akan menafsirkan makalah ini untuk semua orang.
Alamat kertas: https://arxiv.org/pdf/1911.11236.pdf
Kode TensorFlow: https://github.com/QingyongHu/RandLA-Net
Makalah ini mengusulkan algoritma segmentasi semantik cloud titik ringan dan efisien baru RandLA-Net untuk adegan cloud titik 3D skala besar. Melalui analisis komprehensif dari strategi pengambilan sampel yang ada, makalah ini menggunakan pengambilan sampel acak sederhana dan efisien untuk secara signifikan mengurangi jumlah penghitungan dan konsumsi memori, dan memperkenalkan modul agregasi fitur lokal baru untuk terus meningkatkan bidang reseptif yang efektif di setiap titik. , Untuk menyimpan sebagian besar informasi yang valid.
RandLA-Net dapat langsung memproses point cloud berskala besar tanpa pra-pemrosesan / pasca-pemrosesan yang rumit. Ini hampir 200 kali lebih cepat daripada metode berbasis grafik SPG, dan membantu menyelesaikan masalah inti di berbagai bidang seperti autonomous driving dan AR.
Proses secara efisien gambar awan titik 3D pemandangan besar yang terdiri dari jutaan titik, hampir 200 kali lebih cepat daripada SPG berbasis grafik
pengantar
Menyadari segmentasi semantik yang efisien dan akurat dari titik cloud 3D dalam pemandangan besar adalah salah satu masalah utama dalam pemahaman pemandangan 3D saat ini dan persepsi kecerdasan lingkungan. Namun, karena point cloud asli yang diperoleh langsung oleh sensor kedalaman biasanya tidak teratur, tidak terstruktur, dan tidak teratur, jaringan neural konvolusional yang saat ini banyak digunakan tidak dapat langsung diterapkan ke jenis data ini.
Motivasi
Sejak PointNet yang dapat langsung memproses awan titik tidak beraturan diusulkan pada tahun 2017, semakin banyak peneliti mulai mencoba mengusulkan struktur jaringan yang dapat langsung memproses awan titik tidak beraturan, dan sudah banyak seperti PointNet ++, PointCNN, PointConv, dll. Serangkaian pekerjaan representatif. Meskipun metode ini telah mencapai hasil yang baik dalam tugas-tugas seperti pengenalan target 3D dan segmentasi semantik, sebagian besar metode masih terbatas pada awan titik yang sangat kecil (skala kecil) (misalnya, PointNet, PointNet ++, Pointconv, dll.) Serangkaian metode harus terlebih dahulu memotong point cloud menjadi blok cloud titik 1m × 1m kecil saat memproses kumpulan data S3DIS, dan kemudian mengambil sampel 4096 titik ke jaringan dari setiap blok cloud titik). Meskipun metode prapemrosesan ini nyaman untuk pelatihan dan pengujian jaringan berikutnya, metode ini juga memiliki masalah tertentu. Misalnya, apakah memotong seluruh pemandangan menjadi awan titik yang sangat kecil akan menghilangkan geometri keseluruhan? Dapatkah jaringan yang dilatih dengan awan titik kecil secara efektif mempelajari struktur geometris di ruang angkasa?
Gambar 1. Hasil segmentasi PointNet di Area 5
Dengan pertanyaan ini, kami memvisualisasikan hasil segmentasi PointNet pada kumpulan data S3DIS Area 5. Seperti yang ditunjukkan di area yang disorot pada gambar di atas, PointNet secara keliru mengenali bagian kiri meja sebagai meja dan bagian kanan sebagai kursi. Apa penyebab dari hasil yang tampaknya tidak konsisten tersebut? Dapat dilihat bahwa tabel ini telah dipotong menjadi beberapa blok cloud titik kecil ketika melakukan pra-pemrosesan blok (gambar kiri), dan kemudian dimasukkan ke jaringan secara tidak relevan. Dengan kata lain, di bawah premis bahwa struktur geometris dari point cloud target telah dihancurkan dengan dicing, Sulit bagi jaringan untuk mempelajari keseluruhan struktur geometris tabel secara efektif .
Karena potongan yang dipotong terlalu kecil untuk menghancurkan seluruh struktur geometris, dapatkah saya memotong potongan yang lebih besar? Tidakkah mungkin untuk lebih melindungi informasi point cloud asli sampai batas tertentu?
Gambar 2. Hasil percobaan perbandingan PointNet dan PointNet ++ di S3DIS Area5. Data di S3DIS dipotong menjadi blok cloud point dari 1m × 1m hingga 5m × 5m, dan kemudian dimasukkan ke dalam jaringan untuk pelatihan dan pengujian.
Dalam hal ini, kami telah merancang lebih lanjut eksperimen komparatif, meningkatkan ukuran blok potong dari awal 1m × 1m menjadi 5m × 5m (jumlah titik di setiap blok juga telah ditingkatkan dari 4096 menjadi 102400), dan hasil eksperimen yang diperoleh seperti yang ditunjukkan pada gambar di atas. Seperti yang ditunjukkan, Anda dapat melihat:
- Hasil mIoU PointNet telah turun secara signifikan. Kami menganalisis ini terutama karena dalam kerangka kerja PointNet, fitur setiap titik terdiri dari fitur per titik yang diekstrak oleh MLP bersama dan fitur global yang diekstraksi oleh penggabungan maks global. Ketika skala cloud titik masukan semakin besar dan besar, fitur global yang diperoleh melalui penggabungan maksimal global sederhana dapat memainkan peran yang semakin kecil, yang mengakibatkan penurunan kinerja segmentasi secara terus menerus seiring dengan peningkatan ukuran blok.
- Performa segmentasi PointNet ++ telah meningkat dengan peningkatan block_size, yang sejalan dengan ekspektasi kami. Namun, dari kurva waktu di sebelah kanan, kita dapat melihat lebih jauh bahwa waktu inferensi jaringan juga meningkat secara signifikan seiring dengan peningkatan block_size, dari peningkatan awal setiap 3s / juta poin menjadi mendekati 100s / juta. titik.
Hasil percobaan di atas menunjukkan bahwa hanya menambah block_size tidak dapat menyelesaikan masalah ini secara efektif. Melalui analisis lebih lanjut kami menemukan itu Ada tiga alasan utama yang menghalangi sebagian besar metode saat ini untuk memproses langsung awan titik pemandangan besar:
- Jaringan Strategi downsampling . Strategi down-sampling yang diadopsi oleh sebagian besar algoritma yang ada relatif mahal dalam perhitungan atau penggunaan memori yang besar. Misalnya, pengambilan sampel titik terjauh yang saat ini banyak digunakan memerlukan lebih dari 200 detik untuk mengambil sampel awan titik yang terdiri dari 1 juta titik hingga 10% dari skala aslinya.
- Banyak jalan Modul pembelajaran fitur Mengandalkan kernelisasi atau konstruksi grafik yang mahal secara komputasi.
- Saat sebagian besar metode yang ada mengekstrak fitur Rasakan alam liar (bidang reseptif) relatif terbatas, sulit untuk secara efisien dan akurat mempelajari informasi struktur geometris kompleks di awan titik dari pemandangan besar
Tentu saja, beberapa pekerjaan baru-baru ini mulai mencoba menangani point cloud skala besar secara langsung. Misalnya, SPG menggunakan grafik super dan titik super untuk mengkarakterisasi awan titik adegan besar, dan metode FCPN serta PCT menggabungkan keunggulan voxel dan titik untuk memproses awan titik skala besar. Meskipun metode ini juga mencapai hasil segmentasi yang baik, sebagian besar metode memiliki terlalu banyak perhitungan praproses atau footprint memori yang tinggi, yang sulit diterapkan dalam aplikasi praktis.
Tujuan artikel ini adalah merancang struktur jaringan yang ringan, hemat komputasi, dan hemat memori yang dapat langsung memproses point cloud 3D skala besar tanpa perlu voxelization / partisi blok. / konstruksi grafik dan operasi pra / pasca-pemrosesan lainnya . Namun, tugas ini sangat menantang karena struktur jaringan ini memerlukan:
- Metode pengambilan sampel dengan memori tinggi dan efisiensi komputasi untuk mencapai pengambilan sampel terus menerus dari titik cloud skala besar untuk memastikan bahwa jaringan dapat beradaptasi dengan memori GPU saat ini dan batasan daya komputasi;
- Modul pembelajaran fitur lokal yang efektif yang mempelajari dan memahami struktur spasial geometris yang kompleks dengan secara bertahap meningkatkan bidang reseptif setiap titik.
Berdasarkan tujuan ini, kami mengusulkan struktur jaringan (RandLA-Net) berdasarkan downsampling acak dan agregasi fitur lokal yang sederhana dan efisien. Metode ini tidak hanya mencapai hasil yang sangat baik pada kumpulan data segmentasi cloud scene point besar seperti Semantic3D dan SemanticKITTI, tetapi juga memiliki efisiensi yang sangat tinggi (misalnya hampir 200 kali lebih cepat daripada metode berbasis grafik SPG). Kontribusi utama artikel ini mencakup tiga poin berikut:
- Kami telah menganalisis dan membandingkan metode pengambilan sampel yang ada dan percaya bahwa pengambilan sampel secara acak adalah metode yang sesuai untuk pembelajaran yang efisien dari point cloud skala besar.
- Kami mengusulkan modul agregasi fitur lokal yang efektif untuk lebih mempelajari dan mempertahankan struktur geometris kompleks di awan titik pemandangan besar dengan secara bertahap meningkatkan bidang reseptif setiap titik
- RandLA-Net telah menunjukkan hasil yang sangat baik dan efisiensi memori yang sangat baik serta efisiensi komputasi pada beberapa kumpulan data cloud titik pemandangan yang besar.
Pengambilan sampel acak kombinasi modul agregasi fitur lokal untuk membentuk RandLA-Net
Gambaran
Seperti yang ditunjukkan pada gambar di bawah ini, untuk scene point cloud besar yang mencakup rentang ratusan meter dan terdiri dari jutaan titik, jika Anda ingin langsung memasukkannya ke deep neural network untuk diproses, point cloud akan terus efektif. Sangatlah penting untuk melakukan down-sampling langkah demi langkah sambil mempertahankan sebanyak mungkin informasi struktur geometris yang berguna.
Gambar 3. Diagram alir umum dari struktur jaringan
Pencarian untuk pengambilan sampel yang efisien
Untuk menemukan metode downsampling yang efisien. Kami pertama-tama mempelajari metode downsampling yang ada: metode ini dapat dibagi menjadi dua kategori: Heuristic Sampling dan Learning-based Sampling:
(1) Pengambilan Sampel Heuristik
- Farthest Point Sampling (FPS): Sesuai dengan namanya, setiap kali sampel diambil sampelnya, titik yang paling jauh dari titik k-1 yang sebelumnya diambil sampelnya dipilih. FPS dapat lebih memastikan bahwa titik sampel memiliki cakupan yang lebih baik, sehingga banyak digunakan di bidang segmentasi cloud titik (misalnya, PointNet ++, PointCNN, PointConv, PointWeb). Namun, kompleksitas komputasi FPS adalah bahwa jumlah kalkulasi terkait erat dengan jumlah titik di cloud titik input. Ini menunjukkan bahwa FPS slave mungkin tidak cocok untuk memproses point cloud skala besar. Misalnya, saat memasukkan awan titik pemandangan besar dengan jutaan titik, dibutuhkan hingga 200 detik untuk menurunkannya menjadi 10% dari skala asli menggunakan FPS.
- Inverse Density Importance Sampling (IDIS): Ini juga lebih mudah untuk dipahami, singkatnya adalah menyusun ulang setiap titik menurut kepadatannya, dan sebisa mungkin menjaga titik-titik dengan kepadatan rendah. Kompleksitas komputasi IDIS kira-kira (tergantung pada bagaimana menghitung kepadatan setiap titik). Dibandingkan dengan FPS, IDIS jelas lebih efisien, tetapi IDIS juga lebih sensitif terhadap pencilan.
- Random Sampling (RS): Random downsampling secara seragam memilih titik K dari titik masukan N, dan setiap titik memiliki probabilitas yang sama untuk dipilih. Kompleksitas komputasi RS adalah, jumlah komputasi tidak ada hubungannya dengan jumlah total poin dari input point cloud, tetapi hanya terkait dengan jumlah poin K setelah downsampling, yaitu kompleksitas waktu yang konstan. Sehingga memiliki efisiensi yang sangat tinggi dan skalabilitas yang baik. Dibandingkan dengan FPS dan IDIS, RS hanya membutuhkan 0,004 untuk menyelesaikan tugas pengambilan sampel yang sama seperti FPS.
(2) Pengambilan Sampel Berbasis Pembelajaran
- Pengambilan Sampel Berbasis Generator (GS): Tidak seperti metode pengambilan sampel turun tradisional, jenis metode ini belajar membuat subset untuk mendekati titik cloud asli. GS adalah metode downsampling yang dapat dipelajari dan berorientasi pada tugas, tetapi masalahnya adalah subset yang dihasilkan harus dicocokkan dengan point cloud asli dalam fase inferensi. Langkah ini bergantung pada pencocokan FPS, yang memperkenalkan lebih banyak tambahan Perhitungan. Diperlukan waktu hingga 1200 detik untuk menggunakan GS untuk menurunkan scene point cloud yang besar dengan jutaan poin menjadi 10% dari skala aslinya.
- Continuous Relaxation Based Sampling (CRS): CRS menggunakan trik reparameterisasi untuk melonggarkan operasi downsampling yang tidak dapat dibedakan ke domain berkelanjutan, sehingga memungkinkan pelatihan end-to-end. Setiap titik pengambilan sampel yang diperoleh setelah pengambilan sampel CRS sebenarnya adalah jumlah tertimbang dari keseluruhan titik cloud. Secara khusus, untuk input point cloud (ukuran: N × 3) dari scene besar, CRS mendapatkan matriks sampling (ukuran: K × N) melalui pembelajaran (pada akhirnya akan sangat jarang), dan terakhir matriks sampling dibiarkan dikalikan dengan input point cloud. Downsampling dapat dicapai. Namun, jika N adalah nilai yang sangat besar (misalnya 10 ^ 6), matriks pengambilan sampel yang dipelajari dengan cara ini akan menyebabkan konsumsi memori yang sangat besar. Misalnya, menggunakan CRS untuk men-downsample cloud titik adegan besar dengan jutaan poin hingga 10% dari skala asli memerlukan hingga 300GB memori GPU.
- Policy Gradient Based Sampling (PGS): SJP merepresentasikan operasi down-sampling sebagai proses keputusan Markov, yang bertujuan untuk mempelajari strategi down-sampling yang efektif. Metode ini secara berurutan mempelajari probabilitas untuk setiap poin untuk memutuskan apakah akan menyimpannya. Namun, jika inputnya adalah awan titik pemandangan yang besar, seluruh jaringan memiliki ruang eksplorasi yang sangat besar. Misalnya, ruang pencarian untuk menyelesaikan tugas yang sama seperti metode pengambilan sampel di atas. Melalui eksperimen lebih lanjut, kami menemukan bahwa ketika PGS diterapkan ke cloud titik besar, jaringan sangat sulit untuk berkumpul.
Kesimpulannya:
Untuk scene point cloud yang besar, biaya komputasi FPS, IDIS dan GS relatif tinggi, CRS membutuhkan terlalu banyak memori GPU, dan sulit bagi PGS untuk mempelajari kebijakan pengambilan sampel yang efektif. Sebaliknya, pengambilan sampel acak memiliki dua keuntungan berikut: 1) Efisiensi komputasi yang tinggi, karena merupakan kompleksitas komputasi yang konstan, tidak bergantung pada jumlah titik input 2) Lebih sedikit overhead memori, dan proses pengambilan sampel tidak memerlukan konsumsi memori tambahan. Oleh karena itu, untuk awan titik pemandangan besar sebagai masukan, mengapa tidak mencoba downsampling acak?
Tapi ada masalah baru: downsampling point cloud secara acak pasti akan menyebabkan hilangnya informasi yang berguna Bagaimana mengatasi masalah ini?
Agregasi Fitur Lokal
Untuk mengatasi masalah ini, kami selanjutnya mengusulkan modul agregasi fitur lokal yang melengkapi pengambilan sampel acak (agregasi fitur lokal). Seperti yang ditunjukkan pada gambar, modul ini terutama mencakup tiga sub-modul: 1) pengkodean spasial lokal (LocSE), 2) pengumpulan perhatian, dan 3) blok residu yang dilatasi.
Gambar 4. Modul agregasi fitur lokal. Ini mencakup tiga sub-modul: Pengkodean Spasial Lokal, Pengumpulan Perhatian, dan Blok Residu Dilatasi.
(1) Pengkodean Spasial Lokal
Modul ini digunakan untuk secara eksplisit menyandikan informasi koordinat tiga dimensi dari input point cloud. Berbeda dengan memasukkan langsung koordinat tiga dimensi setiap titik sebagai fitur saluran umum ke dalam jaringan, modul LocSE bertujuan untuk secara eksplisit menyandikan informasi bentuk geometris spasial dari titik cloud tiga dimensi, sehingga jaringan dapat menentukan posisi dan jarak relatif setiap titik. Struktur geometris ruang dapat dipelajari dengan lebih baik dari informasi tersebut. Secara khusus, ini dibagi menjadi langkah-langkah berikut:
- Pertama, kami menggunakan algoritma pencarian tetangga terdekat untuk menemukan titik tetangga terdekat di ruang Euclidean untuk setiap titik
- Untuk tetangga terdekat, kami secara eksplisit menyandikan posisi relatif titik, menghubungkan koordinat tiga dimensi dari titik pusat, koordinat tiga dimensi dari titik tetangga, koordinat relatif dan jarak Euclidean bersama-sama (penggabungan). Sebagai berikut:
- Akhirnya, kami menghubungkan fitur titik yang sesuai dari titik lingkungan dengan posisi titik relatif yang dikodekan untuk mendapatkan fitur titik baru.
Eksperimen pada beberapa kumpulan data seperti Semantic3D, S3DIS dan SemanticKITTI: keuntungan yang jelas
Eksperimen
(1) Efisiensi Pengambilan Sampel Acak
Pertama-tama, kami mengevaluasi strategi pengambilan sampel yang disebutkan di atas, terutama dari dua aspek waktu komputasi dan konsumsi memori GPU. Secara khusus, kami melakukan eksperimen berikut: meniru kerangka kerja utama PointNet ++, kami terus-menerus menurunkan sampel awan titik, total lima downsampling, setiap pengambilan sampel hanya mempertahankan 25% titik awan titik asli. Hasil percobaan ditunjukkan pada gambar di bawah ini, yang dapat dilihat:
- Untuk point cloud skala kecil ~ 10 ^ 3, metode pengambilan sampel di atas tidak memiliki perbedaan yang signifikan dalam waktu kalkulasi dan konsumsi memori, dan secara umum dapat diterima
- Untuk point cloud skala besar ~ 10 ^ 6, waktu kalkulasi yang diperlukan untuk FPS / IDIS / GS meningkat secara signifikan, sedangkan CRS membutuhkan memori GPU dalam jumlah besar (garis putus-putus pada Gambar b).
- Sebaliknya, RS memiliki keunggulan yang signifikan dalam hal waktu komputasi dan konsumsi memori, sehingga sangat cocok untuk pemrosesan point cloud skala besar. Hasil ini juga menjelaskan lebih jauh mengapa sebagian besar algoritme memilih untuk memproses dan mengoptimalkan pada point cloud skala kecil, terutama karena mereka mengandalkan metode pengambilan sampel yang mahal.
Gambar 7. Konsumsi waktu dan memori dari metode pengambilan sampel yang berbeda. Garis putus-putus mewakili nilai perkiraan karena memori GPU terbatas
(2) Efisiensi RandLA-Net
Kami mengevaluasi lebih lanjut efisiensi RandLA-Net dalam memproses point cloud 3D skala besar dalam pemandangan nyata. Secara khusus, kami memilih set verifikasi dari kumpulan data SemanticKITTI (urutan 8: total 4071 bingkai) untuk pengujian komparatif. Evaluasi utama tiga indikator berikut: total waktu, parameter model dan jumlah poin maksimum yang dapat ditangani jaringan. Agar adil, kami memasukkan jumlah poin yang sama (81920) ke dalam baseline dan RandLA-Net kami di setiap frame. Hasil percobaan ditunjukkan pada tabel berikut, yang dapat dilihat:
Tabel 1. Perbandingan total waktu, parameter model, dan jumlah titik maksimum yang dapat diproses dengan metode yang berbeda dalam memproses urutan 8 dari dataset SemanticKITTI.
- SPG memiliki parameter model paling sedikit tetapi memakan waktu paling lama. Alasan utamanya adalah tingginya biaya komputasi untuk langkah-langkah seperti partisi geometris dan konstruksi super-graph;
- PointNet ++ dan PointCNN juga membutuhkan waktu lama, terutama karena FPS relatif memakan waktu saat memproses awan titik pemandangan yang besar
- PointNet dan KPConv tidak dapat menangani point cloud berskala sangat besar pada satu waktu, terutama karena tidak ada operasi downsampling (PointNet) atau modelnya lebih rumit.
- Berkat pengambilan sampel acak sederhana dan modul agregasi fitur lokal yang efisien berdasarkan MLP, RandLA-Net memerlukan waktu paling sedikit (~ 23 frame per detik) dan dapat memproses hingga 10 ^ 6 titik cloud sekaligus.
(3) Hasil evaluasi set data publik
Semantic3D terdiri dari 30 awan titik pemandangan luar ruangan berskala besar, termasuk pemandangan 160 × 240 × 30 meter dalam ruang tiga dimensi nyata, dengan total 4 miliar titik. Setiap titik berisi koordinat 3D, informasi RGB, dan informasi intensitas. RandLA-Net hanya menggunakan koordinat tiga dimensi dan informasi warna yang sesuai untuk pemrosesan. Dapat dilihat dari tabel bahwa metode kami telah mencapai hasil yang sangat baik, yang secara signifikan meningkat dibandingkan dengan metode SPG, KPConv, dan metode lainnya.
Tabel 2. Perbandingan Hasil Kuantitatif Semantic3D (dikurangi-8) dengan Metode Berbeda
Dataset SemanticKITTI terdiri dari 21 urutan dan 43552 frame point cloud. Awan titik dari setiap bingkai terdiri dari ~ 10 ^ 5 titik, termasuk pemandangan 160 × 160 × 20 meter di ruang tiga dimensi yang sebenarnya. Kami mengklasifikasikan menurut train-validation-test, di mana urutan 00 ~ 07 dan 09 ~ 10 (19130 frame) digunakan sebagai set pelatihan, urutan 08 (4071 frame) digunakan sebagai set validasi, dan urutan 11 ~ 21 (20351 frame) digunakan secara online uji. Perlu dicatat bahwa point cloud dalam kumpulan data ini hanya berisi koordinat tiga dimensi dari setiap titik, tanpa informasi warna yang sesuai. Hasil percobaan ditunjukkan pada tabel berikut, terlihat bahwa RandLA-Net mengalami peningkatan yang signifikan dibandingkan dengan metode berbasis titik (bagian atas tabel), dan juga lebih baik daripada kebanyakan metode berbasis proyeksi, dan dibandingkan dengan parameter model Ini memiliki keunggulan yang jelas dibandingkan DarKNet53Seg.
Tabel 3. Perbandingan hasil kuantitatif dari berbagai metode pada kumpulan data SemanticKITTI
Kumpulan data S3DIS terdiri dari 271 ruangan di 6 area. Setiap titik awan berisi pemandangan dalam ruangan berukuran 20 × 15 × 5 meter dalam ruang tiga dimensi yang nyata. Hasil eksperimen validasi silang 6 kali lipat juga lebih jauh menegaskan keefektifan metode kami.
Tabel 4. Perbandingan hasil kuantitatif dari berbagai metode pada kumpulan data S3DIS
Dalam studi Ablasi, kami juga mengonfirmasi lebih lanjut kontribusi setiap sub-modul terhadap kinerja keseluruhan. Lihat makalah dan tambahan untuk analisis rinci.
Tabel 5. Perbandingan Hasil Studi Ablasi
Terakhir, untuk meringkas, kami mengusulkan algoritme segmentasi semantik cloud titik yang ringan dan efisien untuk adegan cloud titik 3D skala besar. Tidak seperti kebanyakan algoritme saat ini yang didasarkan pada FPS dan strategi pengambilan sampel mahal lainnya, artikel ini mencoba menggunakan metode sederhana Pengambilan sampel acak yang efisien dapat secara signifikan mengurangi jumlah penghitungan dan konsumsi memori, dan modul agregasi fitur lokal diperkenalkan untuk terus meningkatkan bidang reseptif yang efektif dari setiap titik untuk memastikan bahwa informasi yang paling efektif tidak akan hilang karena pengambilan sampel acak. Sejumlah besar percobaan pada beberapa kumpulan data seperti Semantic3D, S3DIS dan SemanticKITTI telah membuktikan keefektifan metode kami. Pada langkah berikutnya, kami dapat mencoba memperluas pekerjaan kami ke segmentasi instance cloud titik 3D adegan besar dan pemrosesan cloud titik dinamis real-time.
Kata-kata terakhir
- Untuk tugas segmentasi semantik awan titik 3D, daripada mengajukan algoritme yang sangat kompleks pada awan titik potong untuk meningkatkan kinerja, lebih baik mencoba langsung memproses pada awan titik pemandangan besar, yang lebih praktis.
- Skalabilitas jaringan segmentasi cloud titik 3D juga merupakan poin penting dalam aplikasi praktis. yaitu, Idealnya, jaringan yang terlatih baik harus dapat digunakan untuk menyimpulkan sejumlah awan titik masukan, karena jumlah titik yang dikumpulkan pada setiap waktu tidak selalu sama. Ini juga merupakan alasan mengapa RandLA-Net tidak menggunakan fitur global, yaitu memastikan bahwa parameter yang dipelajari bersifat agnostik terhadap sejumlah poin.
- Omong-omong, ada gelombang iklan.Untuk siswa yang baru memasuki bidang pemrosesan cloud titik 3D, ada makalah ulasan terbaru (Pembelajaran Mendalam untuk Awan Titik 3D: Survei) untuk referensi, yang berisi sejumlah besar klasifikasi target cloud titik arus utama, target 3D Deteksi, kemajuan penelitian terbaru dan ringkasan algoritme segmentasi adegan tiga-bit.
Diproduksi oleh Universitas Oxford, tim penulis memperkenalkan
Rekan penulis makalah ini termasuk mahasiswa doktoral Hu Qingyong, Yang Bo, Xie Linhai, dan Wang Zhihua dari Universitas Oxford; rekan pascadoktoral Stefano Rosa; Profesor Rekanan Guo Yulan dari Universitas Teknologi Pertahanan Nasional; dan Profesor Niki Trigoni dan Andrew Markham dari Universitas Oxford.
Hu Qingyong
Yang Bo
Di antara mereka, arah penelitian Hu Qingyong adalah visi 3D dan pembelajaran mesin, dengan fokus pada pemahaman dan segmentasi cloud titik 3D skala besar, pemrosesan dan pelacakan cloud titik dinamis. Makalah kedua (penulis terkait) Yang Bo berfokus pada memungkinkan mesin cerdas untuk memahami dan merekonstruksi adegan 3D lengkap dari gambar 2D atau awan titik 3D. Untuk informasi lebih lanjut, lihat beranda pribadi:
https://qingyonghu.github.io
https://yang7879.github.io
Referensi
Charles R Qi, Hao Su, Kaichun Mo, dan Leonidas J Guibas. PointNet: Pembelajaran mendalam tentang kumpulan poin untuk klasifikasi dan segmentasi 3D. CVPR, 2017.
Charles R Qi, Li Yi, Hao Su, dan Leonidas J Guibas. PointNet ++: Pembelajaran fitur hierarki yang mendalam pada kumpulan poin dalam ruang metrik. NeurIPS, 2017
Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, dan Baoquan Chen. PointCNN: Konvolusi pada titik-titik yang diubah X. NeurIPS, 2018.
Wenxuan Wu, Zhongang Qi, dan Li Fuxin. PointConv: Jaringan konvolusional dalam pada point cloud 3D. CVPR, 2018.
Fabian Groh, Patrick Wieschollek, dan Hendrik P. A. Lensch. Flex-convolution (pembelajaran point-cloud berskala jutaan di luar dunia-grid). ACCV, 2018
Oren Dovrat, Itai Lang, dan Shai Avidan. Belajar sampel. CVPR, 2019.
Itai Lang, Asaf Manor, dan Shai Avidan. SampleNet: Pengambilan Sampel Awan Titik Berbeda. ArXiv pracetak arXiv: 1912.03663 (2019).
Abubakar Abid, Muhammad Fatih Balin, dan James Zou. Autoencoder beton untuk pemilihan fitur dan rekonstruksi yang dapat dibedakan. ICML, 2019
Jiancheng Yang, Qiang Zhang, Bingbing Ni, Linguo Li, Jinxian Liu, Mengdie Zhou, dan Qi Tian. Modeling point cloud dengan self-attention dan Gumbel subset sampling. CVPR, 2019.
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, dan Yoshua Bengio. Tunjukkan, hadiri, dan beri tahu: Pembuatan teks gambar neural dengan perhatian visual. ICML, 2015
Hugues Thomas, Charles R Qi, Jean-Emmanuel Deschaud, Beatriz Marcotegui, Franc ois Goquarters, dan Leonidas J Guibas. Kpconv: Konvolusi fleksibel dan dapat dideformasi untuk point cloud. ICCV, 2019.
- Google membatalkan Konferensi Pengembang Global I / O! Ringkasan konferensi teknologi 2020 dibatalkan karena epidemi
- Salah satu pendiri Apple mengatakan dia telah terinfeksi! Tim AI Zhong Nanshan memprediksi karantina yang terlambat 5 hari akan meningkatkan infeksi sebanyak 3 kali lipat
- Anda dapat membuka kunci iPhone Anda bahkan dengan topeng! Netizen Tiongkok menipu ID Wajah dengan kertas kosong
- Intel mengakuisisi Habana senilai US $ 2 miliar, wakil presiden AI Rao mengumumkan kepergiannya, Nervana tersingkir
- Jia Jiaya secara resmi mengundurkan diri dari Youtu, mengatakan bahwa itu adalah keputusan yang sulit, dan epidemi saat ini menciptakan "Teknologi Simou"
- Di saat-saat yang luar biasa, raja pena AI generasi baru Sogou muncul! Mendukung interpretasi simultan, tingkat akurasi 98%
- "Supermarket tak berawak" pertama di dunia dibuka! Amazon diam-diam mengembangkan supermarket Amazon Go online
- WHO mengatakan Redecive adalah obat yang sangat efektif! Akankah Olimpiade Tokyo dibatalkan karena epidemi?