Baru-baru ini, "KTT Keamanan Kecerdasan Buatan China Kedua" yang diselenggarakan oleh Leifeng.com dan AI Nuggets diadakan di Hangzhou.
Pada KTT tersebut, Profesor Quan Long dari Universitas Sains dan Teknologi Hong Kong, CVPR 2022, Ketua ICCV 2011, dan pendiri Altizure Profesor Quan Long menyampaikan pidato berjudul "Visi 3D Mendefinisikan Ulang Keamanan Kecerdasan Buatan".
Profesor Quan berkata, Inti dari kecerdasan buatan adalah visi, yang mendefinisikan keamanan cerdas, tetapi penglihatan saat ini masih terbatas pada pengenalan dua dimensi. Ke depan, rekonstruksi penglihatan tiga dimensi akan menjadi tugas terpenting, dan juga akan mendefinisikan kembali keamanan cerdas.
Profesor Quan juga menyebutkan bahwa visi komputer pada dasarnya adalah klasifikasi dan pengenalan dalam arti statistik dari data besar.
"Tujuan utama kami adalah untuk memahami gambar, yaitu, kognisi, tetapi visi komputer saat ini hanya dalam tahap persepsi, kami tidak tahu bagaimana cara memahami, visi komputer selalu menjelajahi fitur visual yang paling dasar, putaran konvolusi visual ini. Jaringan saraf CNN pada dasarnya mengubah karakteristik penglihatan komputer. Tetapi manusia adalah hewan binokuler yang hidup dalam lingkungan tiga dimensi, yang membuat pengenalan penglihatan biologis manusia tidak hanya pengenalan, tetapi juga persepsi dan interaksi tiga dimensi dengan lingkungan. "
"Jadi kita harus berurusan dengan 3D, apa yang dapat dilakukan pengenalan 2D masih jauh dari cukup dalam adegan kompleks saat ini. Tetapi rekonstruksi 3D bukanlah tujuan akhir, dan ini adalah untuk mengintegrasikan rekonstruksi dan pengenalan 3D. "
Berikut ini adalah isi dari pidato langsung Profesor Quan Long. Lei Feng.com telah mengedit dan mengatur maksud aslinya:
Terima kasih atas undangan Leifeng.com, hari ini saya terutama akan membagikan status saat ini dan arah pengembangan visi komputer di masa depan pada tahap ini, serta penerapan visi 3D dalam keamanan kecerdasan buatan.
Kita tahu bahwa inti dari AI security pada dasarnya adalah computer vision, dan computer vision terbagi menjadi dua bagian yaitu pengenalan dan rekonstruksi.
"Identifikasi" sekarang menjadi arah yang sangat populer Sebaliknya, pemahaman setiap orang tentang "rekonstruksi" tidak begitu menyeluruh. Hal ini perlu kita ketahui, visi komputer tidak hanya terbatas pada pengenalan saja, peran rekonstruksi 3D bahkan lebih penting. .
Ini adalah kasus praktis rekonstruksi 3D dan integrasi keamanan:
Semua adegan ini dibuat dalam 3D. Kami memproyeksikan video real-time ke 3D, dan pengguna juga dapat menyeret antarmuka "depan, belakang, kiri, dan kanan".
Selanjutnya, saya ingin berbicara tentang masalah penglihatan komputer saat ini dan mengapa penglihatan tiga dimensi akan mendefinisikan kembali penglihatan komputer dan mendefinisikan kembali keamanan kecerdasan buatan.
Inti dari kecerdasan buatan adalah memungkinkan komputer untuk mendengarkan, melihat, dan membaca.Di antara semua informasi, informasi visual menyumbang 80% dari semua indera, jadi penglihatan pada dasarnya adalah inti dari kecerdasan buatan modern.
Bagi kita sebenarnya tidak ada kecerdasan buatan yang umum. Kecerdasan buatan perlu dibedakan menurut dimensi teknis dan dimensi pemandangan. Perkembangan, revolusi dan penerapan kecerdasan buatan harus bergantung dan dibatasi oleh perkembangan visi komputer. , Revolusi dan aplikasi.
Dan keamanan kecerdasan buatan juga meningkat seiring dengan perkembangan visi komputer.
2012 adalah tahun yang sangat penting. Pada saat itu, dalam kompetisi ImageNet, tim menggunakan jaringan saraf konvolusional CNN untuk meningkatkan akurasi pengenalan gambar dari 75% menjadi 85%. Insiden "sangat kecil" ini mendorong putaran kedalaman ini. Kecerdasan buatan sedang dipelajari, jadi kita juga bisa menyebut tahun 2012 sebagai tahun pertama putaran kecerdasan buatan ini diwakili oleh pembelajaran yang dalam.
Hal ini kembali ke tahun 1998, ketika Yann Lecun telah mempublikasikan jaringan saraf konvolusional LeNet. Jaringan ini, pertama-tama, gambar masukan relatif kecil, hanya saluran tunggal hitam putih 32 * 32, hanya beberapa karakter dan huruf yang dapat dikenali ; Karena tidak ada GPU, seluruh jaringan hanya memiliki 600.000 parameter pada saat itu.
Pada 2012, kebangkitan jaringan saraf konvolusional muncul AlexNet. Dibandingkan dengan jaringan saraf konvolusional LeNet pada tahun 1998, AlexNet pada dasarnya memiliki struktur internal yang sama, tetapi ukuran gambar masukan berbeda: model tahun 1998 memiliki ukuran masukan 32 * 32 dan hanya satu saluran. Ukuran input model baru telah diperluas menjadi 224 * 224, dan ada tiga saluran. Yang terpenting ada GPU di dalamnya, waktu itu dua GPU digunakan untuk training, dan parameternya mencapai hampir 60 juta.
Selama bertahun-tahun, struktur dasar dari jaringan saraf konvolusional visi komputer, algoritma dan struktur telah berubah sangat sedikit.
Namun dalam lima belas tahun dari tahun 1998 hingga 2012, dua hal yang sangat penting terjadi: satu adalah Nvidia mengembangkan GPU; yang kedua adalah Li Feifei mendirikan ImageNet. Dia memposting jutaan foto di Internet dan memobilisasi massa untuk melakukannya. Label. Justru karena kekuatan komputasi dan data, pencapaian AlexNet tercipta.
Pada 2015, tingkat pengenalan penglihatan mesin pada dasarnya telah melampaui tingkat pengenalan manusia. Faktanya, manusia tidak begitu kuat dalam pengenalannya, dan ingatan kita sangat mudah membuat kesalahan. Menurut statistik, tingkat kesalahan manusia dalam klasifikasi telah mencapai 5%. Sedangkan untuk mesin, sejak 2015, Anda dapat melihat bahwa tingkat kesalahan berbagai ImageNet pada kumpulan data domain publik jauh di bawah 5%.
Tetapi mengapa ImageNet menghentikan persaingan dua tahun lalu, karena sekarang persaingan pada dasarnya didasarkan pada kekuatan komputasi dan data.
Pada tahun 2015, dengan kematangan teknologi kecerdasan buatan di bawah jaringan saraf konvolusional, AI telah mencapai puncak tertentu, dan visi komputer atau pasar keamanan yang lebih luas juga telah didefinisikan ulang.
Selama periode ini, beberapa perusahaan vision, Megvii dan SenseTime, memasuki pasar keamanan.
Dalam kurun waktu 7 tahun dari tahun 2012 hingga 2019, semua datanya meningkat seribu kali lipat, kecepatan penghitungannya seribu kali lebih cepat dari sebelumnya, dan modelnya juga seribu kali lebih besar dari sebelumnya. Pada tahun 2012, melatih model AlexNet membutuhkan dua GPU dan membutuhkan waktu dua minggu; untuk melakukan hal yang sama hari ini hanya membutuhkan DGX-2, yang dapat diselesaikan dalam sepuluh menit.
Dilihat dari parameter seluruh model, AlexNet pada tahun 2012 sudah sangat mengesankan, dengan 60 juta parameter menjadi sangat besar, dan kami tidak berani membayangkan angka ini pada saat itu. Saat ini, jaringan ini harus diperbesar ribuan kali, mencapai nilai parameter satu miliar. Tetapi dalam hal algoritme dan arsitektur, mereka pada dasarnya adalah jaringan neural konvolusional standar, tetapi tidak membuat banyak kemajuan.
Kita juga bisa memikirkan sejauh mana pengenalan dalam visi komputer. Faktanya, itu tidak sekuat itu, itu hanya pengakuan dalam arti statistik dari data besar.
Setiap orang pernah mendengar tentang pembelajaran tanpa pengawasan, namun hasil dan skenario penerapan pembelajaran tanpa pengawasan tidak terlalu banyak. Apa yang tersedia dan dilakukan dengan baik dapat diawasi, yaitu CNN.
Izinkan saya meringkas secara singkat bahwa visi komputer saat ini didasarkan pada jaringan saraf konvolusional. Seluruh arsitektur CNN sangat sederhana, dan tidak banyak hal yang dapat dilakukan. Ia mengekstrak fitur berdimensi tinggi, dan kemudian menggabungkan metode lain untuk menyelesaikan visi tersebut masalah.
Jika Anda memiliki cukup data dan dapat dengan jelas menentukan apa yang Anda inginkan, CNN berfungsi dengan baik, tetapi apakah itu cerdas? Sebenarnya tidak.
Anda mengatakan itu bodoh, itu sama bodohnya dengan sebelumnya. Ia dapat mengenali kucing dan anjing, namun perlu kita ketahui bahwa klasifikasi kucing dan anjing ditentukan oleh manusia kita sendiri. Kita dapat memisahkan kucing dan anjing, atau menggabungkan dan mengklasifikasikan hewan anjing yang kompleks. Hal-hal ini pada dasarnya adalah Itu tidak obyektif, tapi subyektif.
Cita-cita kami untuk riset visi komputer adalah memungkinkan mesin memahami gambar. Bagaimana membuatnya mengerti? Ini sangat sulit, dan tidak ada yang tahu bagaimana memahaminya sampai sekarang. Yang bisa dilakukannya sekarang hanya bisa melakukan kognisi. Tujuan penelitian kami tentang computer vision adalah untuk mendapatkan fitur visual, dan serangkaian pekerjaan dapat dilakukan setelah memiliki fitur visual.
Mengapa fitur visual begitu penting? Di bidang pengenalan suara, ciri-ciri ucapan telah didefinisikan dengan sangat jelas-fonem. Tetapi jika kita mengambil gambar dan bertanya apa fitur visual terpentingnya, jawabannya tidak jelas. Semua orang tahu bahwa gambar mengandung piksel, tetapi piksel bukanlah fitur nyata. Pixel hanyalah operator digital, yang mengekspresikan gambar secara digital. Tujuan akhir dari visi komputer adalah menemukan fitur visual yang efektif.
Di bawah premis memiliki fitur visual, visi komputer hanya memiliki dua tujuan praktis, satu pengenalan dan rekonstruksi tiga dimensi.
Kata bahasa Inggris mereka diawali dengan "re", menunjukkan bahwa ini adalah masalah yang terbalik.
Visi komputer bukanlah pertanyaan yang tidak tepat, dan tidak ada jawaban atau metode yang sempurna.
Hal terpenting dari putaran jaringan saraf konvolusional (CNN) ini adalah untuk mendefinisikan kembali karakteristik visi komputer. Sebelumnya, semua fitur dirancang secara manual. Apa yang telah dipelajari CNN hari ini, telah mempelajari jutaan dimensi fitur, yang tidak dapat dilakukan tanpa jaringan seperti itu sebelumnya.
Meskipun kemampuan ekstraksi ciri CNN sangat kuat, namun kita tidak boleh lupa bahwa computer vision berbasis CNN adalah pengenalan monokuler, sedangkan manusia adalah binokuler. Dunia nyata kita berada dalam ruang tiga dimensi, dan kita harus berurusan dengan tiga dimensi. Jauh dari cukup untuk menahan gambar dua dimensi untuk dikenali.
Di bawah visi binokular, tiga konsep kedalaman, paralaks dan rekonstruksi harus dimasukkan. Mereka pada dasarnya setara. Kosakata apa yang Anda gunakan bergantung pada kelompok mana Anda berada.
Dalam pengertian tradisional, rekonstruksi 3D adalah sebelum pengenalan. Ini adalah masalah yang paling penting. Pengenalan juga digunakan dalam penglihatan 3D, tetapi pengenalannya adalah pengenalan objek yang sama dari sudut pandang yang berbeda, jadi pengenalannya lebih dari itu. Pengenalan yang bagus juga disebut pencocokan.
Penglihatan teropong sangat ketat dalam mengklasifikasikan seluruh dunia biologis. Semua orang tahu bahwa ketika mata kuda melihat ke luar, adalah mungkin untuk mendapatkan bagian dari informasi tiga dimensi pada bagian diagonal, tetapi sudut pandang tiga dimensinya sangat kecil, tidak seperti manusia. Mata ikan juga melihat dari kedua sisi, garis pandang utamanya adalah monokuler, dan area pandang teropong yang bisa dilihatnya juga bagian yang sangat sempit.
Manusia memiliki dua mata, dan hanya melalui dua mata kita dapat memperoleh informasi tiga dimensi yang dalam. Tentunya melalui mata bergerak, informasi yang mendalam juga bisa didapat.
Tantangan untuk mendapatkan informasi yang mendalam sangat besar, ini pada dasarnya adalah masalah triangulasi. Langkah pertama adalah mencocokkan dua gambar atau apa yang dilihat kedua mata, yaitu pengenalan. "Pengenalan" di sini berbeda dengan yang sebelumnya. Yang saya sebutkan sebelumnya adalah pengenalan dengan anotasi. "Pengenalan" di sini adalah pengenalan antara dua gambar, dan tidak ada database. Ia tidak hanya mengenali objek, tetapi juga mengenali setiap piksel, sehingga persyaratan komputasinya sangat tinggi.
Dalam dunia biologi, penglihatan binokuler sangatlah penting. Mamalia memiliki penglihatan binokuler, dan semakin ganas hewan karnivora maka semakin besar pula area tumpang tindih teropong tersebut. Informasi kedalaman yang diperoleh teropong digunakan untuk menangkap mangsa secara aktif. Penglihatan hewan yang merumput atau dimakan adalah penglihatan monokuler, dengan bidang pandang yang luas, hanya pengenalan tetapi tidak ada kedalaman, tujuannya untuk lari cepat saat diserang!
Sebelum CNN putaran ini, masalah yang paling banyak diteliti dalam computer vision adalah rekonstruksi 3D. Sebelum CNN, terdapat fitur visual yang dirancang dengan sangat baik. Hal-hal tersebut pada awalnya dirancang untuk rekonstruksi 3D, seperti fitur SIFT. . "Pengenalan" setelah ini hanya untuk mencarinya dalam database gambar yang tidak terstruktur. Ini menunjukkan bahwa penglihatan 3D modern ditentukan oleh rekonstruksi 3D. Sebelum lahirnya CNN, ia merupakan penggerak utama perkembangan visual dari geometri, karena definisinya relatif jelas.
Mari kita lihat status dan tantangan teknologi rekonstruksi 3D saat ini.
Visi tiga dimensi memiliki teori dan algoritma, satu bagian adalah statistik, bagian lainnya adalah deterministik, non-statistik, yaitu matematika terapan tradisional.
Rekonstruksi tiga dimensi dalam computer vision mengandung tiga masalah utama:
1. Pemosisian. Jika saya memberikan gambar, computer vision perlu mengetahui dimana gambar itu diambil.
Dua, banyak mata. Informasi tiga dimensi diperoleh melalui paralaks multiguna, setiap piksel diidentifikasi dan dicocokkan, dan rekonstruksi tiga dimensi dilakukan.
3. Pengenalan semantik. Setelah rekonstruksi 3D geometris selesai, diperlukan pengenalan semantik dari informasi 3D ini, yang merupakan tujuan akhir rekonstruksi.
Di sini saya tegaskan lagi, kita perlu menangkap kembali pemandangan 3D, Tetapi rekonstruksi 3D bukanlah tujuan akhir, Anda harus menambahkan pengenalan, sehingga aplikasi akhir harus mengintegrasikan rekonstruksi dan pengenalan 3D.
Tantangan utama rekonstruksi 3D sekarang adalah daya komputasi tidak cukup dan akuisisi juga sulit. Mari saya beri sebuah contoh, lebih mudah bagi keamanan kita untuk mengenali sebuah kamera, tetapi jika pemandangan sebenarnya dari kamera N direkonstruksi secara real time, hal ini membutuhkan daya komputasi yang sangat tinggi. Pembatasan ini juga membuat aplikasi monokuler saat ini lebih banyak, tapi menurut saya teropong masa depan pasti akan menjadi tren.
Di bawah pengaruh pembelajaran mendalam, rekonstruksi tiga dimensi telah menghasilkan prestasi yang relatif besar. Pada tahun-tahun setelah 2012, CNN belum memberikan dampak yang besar pada rekonstruksi 3D. Namun sejak 2017, CNN memiliki dampak penting pada rekonstruksi 3D. Di bidang rekonstruksi 3D, ada kumpulan data yang disebut KITTI. Sejak 2017, kami sudah mulai menggunakan jaringan neural konvolusional 3D.
Di masa lalu, ini dianggap sebagai CNN dua dimensi yang terkait dengan pengenalan. Algoritme binokuler yang lebih modern didasarkan pada jaringan neural konvolusional tiga dimensi yang lengkap. Pada tahap ini, kinerja jaringan saraf konvolusional 3D juga sangat kuat. Untuk dua gambar, tingkat kesalahan hanya 2 hingga 3%.
Skenario aplikasi yang tercakup dalam visi komputer sekarang didefinisikan ulang oleh visi komputer, tetapi aplikasi ini juga mengalami hambatan teknis dari visi komputer.
Walaupun computer vision memiliki peran besar dalam mempromosikan industri keamanan, pada dasarnya tidak lebih dari mengidentifikasi aplikasi seperti wajah, mobil, dan objek. Jika computer vision dikembangkan lebih lanjut, industri keamanan akan didefinisikan ulang lagi.
Dan menurut saya, penglihatan 3D akan berdampak sangat besar pada keamanan.
Penerapan pertama rekonstruksi 3D di bidang keamanan adalah rekonstruksi 3D tingkat kota skala besar.
Setiap kota besar memiliki jutaan kamera. Hanya dengan mengintegrasikan kamera ke dalam pemandangan tiga dimensi yang nyata, efek kontrol tingkat kota dapat dicapai. Ini adalah bentuk keamanan AI yang paling ideal.
Sekarang pemerintah menggunakan peta nyata untuk mengelola kota, peta ini dulunya dua dimensi, tapi ke depan harus nyata dan tiga dimensi.
Altizure, perusahaan start-up bervisi 3D dari HKUST, adalah perusahaan platform dan rekonstruksi 3D dunia nyata tingkat kota. Rekonstruksi skala besar sangat menantang dalam dua aspek:
Yang pertama karena jumlah datanya sangat besar. Kami sekarang memodelkan gambar definisi tinggi pada jutaan level. Kami membutuhkan algoritme paralel dan terdistribusi yang kuat untuk menyelesaikannya dalam beberapa minggu.
Kedua adalah visualisasi Tampilan gambar nyata juga sangat menantang, karena gambar nyata memiliki jumlah data yang sangat besar, bahkan melihat tampilan 3D nyata di port mana pun sangat menantang.
Saat ini hanya Altizure yang dapat memenuhi tantangan ini.
Kasus khas yang kami lakukan adalah membuat platform cloud informasi spasiotemporal untuk Distrik Pingshan, Shenzhen. Kami merekonstruksi area perumahan besar di Pingshan dalam 3D. Pengguna back-end dapat memperbesar dan memperkecil gambar dunia nyata 3D , Kiri, Kanan "seret dan pindahkan untuk melihat pemandangan sebenarnya dari area tersebut.
Pengguna latar belakang juga dapat menggunakan mouse untuk memilih beberapa area dalam gambar waktu nyata tiga dimensi, dan kemudian gambar pengawasan video utama di area ini ditampilkan secara waktu nyata pada layar besar. Tampilan video pemantauan waktu nyata dari fase pertama proyek Pingshan mirip dengan efek tampilan belakang panggung pemantauan video konvensional, dan umumnya lebih tradisional.
Pada fase kedua dan ketiga, kami mulai menampilkan semua video pada platform 3D.
Saat ini, banyak distrik di Shenzhen sudah menerapkan platform informasi ruang-waktu 3D tampilan nyata.
Dengan platform seperti itu, tidak hanya video, tetapi juga beberapa data lain juga dapat ditambahkan ke dalam aplikasi.
Sistem kontrol utama ini mengintegrasikan kamera pengintai, pintu putar, toko, wifi, dan fasilitas umum lainnya di tempat yang indah untuk memvisualisasikan arus orang dan lokasi mobil baterai secara real time. Pemandangan nyata tiga dimensi memberikan kemudahan bagi kontrol utama tempat pemandangan dan pemandu wisata berikutnya.
Gambar di bawah ini adalah kasus pertama kami di Guangzhou, melindungi bangunan bersejarah dan tata kota.
Platform visi 3D tampilan nyata Altizure sekarang memiliki konten 3D tampilan nyata di 180 negara dan 300.000 pengguna profesional.
Laboratorium Visi Komputer Universitas Sains dan Teknologi Hong Kong dan perusahaan rintisan Altizure memimpin penelitian dan penerapan rekonstruksi visual 3D di dunia. Tujuan kami bukan untuk menyikat peringkat demi peringkat, tetapi di beberapa peringkat 3D utama, kami telah berada di peringkat teratas sejak April lalu!
Akhirnya, untuk meringkas, "pengenalan" dalam visi komputer mendefinisikan keamanan cerdas, tetapi "penglihatan" dan "pengenalan" saat ini masih terbatas pada dua dimensi. Rekonstruksi tiga dimensi adalah tugas terpenting dalam visi komputer di masa depan, sehingga rekonstruksi tiga dimensi juga akan dibangun kembali Tentukan kecerdasan buatan dan keamanan cerdas.
Dalam penelitian visual saat ini, fenomena homogenitas sangat jelas terlihat.
Kami mulai melakukan kecerdasan buatan pada 1980-an. Status quo saat ini seperti pengulangan sejarah. Sifat visi komputer tidak berbeda dengan masa lalu, kecuali alat perangkat keras yang Anda gunakan berbeda.
Walaupun computer vision sedang dalam masa keemasannya, perkembangannya masih sangat terbatas.Saya kira yang disebut kecerdasan buatan umum dan computer vision umum masih jauh.
Terima kasih semua!
Klik Baca aslinya , Dapatkan Unduhan Paket Kertas Poster Sesi Berbagi Kertas Microsoft Asian Research Institute CVPR 2019
- Kepada Feng Xiaogang: Medan perang sutradara yang baik ada di studio, jadi sebaiknya Anda memiliki lebih sedikit senjata dan lebih banyak reputasi!
- Menonton acara Victoria's Secret, media asing ditolak dan berteriak di toilet, Viacom mengurangi utangnya menjadi 11,2 miliar tahun ini
- Terbatas untuk 23 pasang di seluruh dunia! Detail rilis Eminem x Air Jordan 4 "Encore" telah diungkap!