Panduan Xin Zhiyuan Manusia tidak hanya dapat "melihat" hal-hal di lingkungan sekitarnya melalui mata mereka, tetapi juga "mengenali dan memahami" hal-hal ini, dan membentuk "kognisi dan pengambilan keputusan" dari hal-hal tersebut. Sekarang, para peneliti sedang bekerja keras untuk membuat AI melakukan hal yang sama. Pidato yang luar biasa dari Profesor Terhormat Boya Universitas Peking dan Direktur Eksekutif Pusat Penelitian Komputasi Perbatasan, Chen Baoquan, membuat analisis yang luar biasa dari penelitian domestik saat ini di bidang kecerdasan visual 3D, arah penerapan teknologi, dan prospek masa depan.
Seperti kita ketahui bersama, kecerdasan buatan adalah teknologi yang mensimulasikan kecerdasan manusia.Menyadari reproduksi lengkap kecerdasan manusia adalah tujuan akhir kecerdasan buatan. Dan kecerdasan manusia dimulai dari indera dan kognisi manusia. Oleh karena itu, indra manusia seringkali menjadi titik awal untuk mempelajari kecerdasan buatan, seperti penglihatan.
Bagi manusia, mereka tidak hanya dapat "melihat" hal-hal di lingkungan sekitarnya dengan mata mereka, mereka juga dapat "mengenali dan memahami" hal-hal ini, dan membentuk "kognisi dan pengambilan keputusan" dari hal-hal ini. Kini, semakin banyak peneliti di bidang AI yang mencoba membuat AI melakukan hal yang sama. Dimulai dari penglihatan tiga dimensi manusia, kecerdasan visual tiga dimensi telah menjadi bidang penelitian dan aplikasi kecerdasan buatan yang populer.
Pada KTT Teknologi AI "Intelligent Cloud · Dunia Baru" yang diadakan oleh Xinzhiyuan pada tanggal 27 Maret tahun ini, Profesor Terhormat Boya Universitas Peking dan Direktur Eksekutif Pusat Penelitian Komputasi Frontier Chen Baoquan menyampaikan pidato berjudul "Kecerdasan Visual dan Aplikasi Tiga Dimensi", Dari perspektif peneliti, analisis luar biasa dari situasi penelitian domestik saat ini, arah aplikasi teknis, dan prospek masa depan di bidang kecerdasan visual 3D di Cina.
Berikut ini adalah konten pidato yang disusun oleh Xinzhiyuan:
Saya sangat senang mendapat kesempatan untuk berbicara di sini hari ini! Pembicara siang ini sebagian besar dari perusahaan. Dari perspektif penelitian akademis, saya akan memperkenalkan kecerdasan visual, salah satu cabang penting dari teknologi kecerdasan buatan yang sangat populer sekarang.
Dalam hal kecerdasan visual, semua orang sudah mengenalnya. Banyak teknologi kecerdasan buatan yang didasarkan pada berbagai indera manusia, di mana indra visual merupakan bagian yang sangat penting. Banyak teknologi dalam kecerdasan visual telah diterapkan dengan sangat baik di industri. Dengan pendalaman aplikasi, semakin banyak teknologi kecerdasan visual yang memasuki tahap "kecerdasan visual tiga dimensi". Dengan kata lain, Mata kita tidak hanya harus melihat sesuatu dengan jelas, mengenali sesuatu, tetapi juga berjalan ke tempat kejadian dan merasakan pemandangan di dunia tiga dimensi, seolah-olah berada di tempat itu.
Ini membutuhkan Kecerdasan dengan persepsi spasial tiga dimensi dan kognisi, yaitu kecerdasan visual tiga dimensi. Munculnya arah penelitian baru tidak muncul begitu saja, tetapi bersinggungan dengan banyak disiplin ilmu lainnya. Penelitian kecerdasan visual 3D adalah untuk mengintegrasikan teknologi grafik komputer, visi komputer, dan bidang lainnya dengan kecerdasan buatan tradisional, pembelajaran, data besar, dan sebagainya.
Perkembangan teknologi penglihatan 3D telah mendapatkan keuntungan dari perkembangan pesat sensor visual, dan telah mempromosikan banyak aplikasi. Contoh representatif termasuk kendaraan tak berawak, robot, dan aplikasi lain dalam hiburan, film dan televisi.
Apa itu penelitian penglihatan 3D? Singkatnya, ada beberapa petunjuk utama:
pertama-tama Persepsi tiga dimensi , Yaitu untuk memahami ruang tiga dimensi, memperoleh dan memproses kedalaman tiga dimensi, dll .; kemudian Kesadaran lokasi , Seperti merasakan lokasi kamera, dll.; Yang ketiga adalah model 3D , Tidak hanya memiliki persepsi kedalaman dasar dari pemandangan, tetapi juga mendapatkan deskripsi model geometris lengkap dari pemandangan tersebut. Hal yang paling penting adalah Pemahaman tiga dimensi , Untuk memahami pemandangan dan objek di dalamnya dari ruang tiga dimensi.
Pengembangan penglihatan tiga dimensi mendapat manfaat dari pengembangan sensor visual, dan sensor secara kasar dapat dibagi menjadi dua kategori, satu adalah Sensor pasif , Sekarang semua jenis kamera yang kami gunakan adalah sensor pasif. Kategori lainnya adalah Sensor aktif , Seperti pemindaian laser, dan semua jenis sensor yang mengambil sinyal emisi aktif sebagai pengukuran utama. Seperti kita ketahui bersama, dengan pesatnya perkembangan ponsel, ponsel masa depan akan dilengkapi dengan dua jenis sensor sekaligus, yaitu sensor kedalaman dan sensor warna tradisional.
Berikut adalah pengantar singkat untuk beberapa pekerjaan eksplorasi kami di area ini. Pada tahun 2009 drone DJI masih membuat produk custom, kami meminta DJI untuk membuat custom drone. Tujuannya untuk digunakan sebagai tilt angle aerial photography. Drone tersebut digunakan untuk mendapatkan gambar udara dari udara. Setelah penghitungan rekonstruksi, data gambar 3D diperoleh (perhatikan bahwa ini bukan model 3D lengkap). Dengan deskripsi 3D, Anda dapat dengan bebas menjelajahi pemandangan dari perspektif mana pun. Terlihat bahwa meskipun hanya menggunakan sensor dua dimensi, deskripsi data tiga dimensi tetap dapat diperoleh melalui perhitungan visual.
Persepsi 3D implisit: kamera dinamis mewujudkan penyatuan video yang mulus
Sebelum saya berbicara tentang cara menggunakan sensor aktif untuk secara langsung mendapatkan model geometris pemandangan 3D, saya ingin memperkenalkannya terlebih dahulu. Faktanya, persepsi gambar 3D tidak harus diekspresikan secara eksplisit. Tingkat 3D tertentu dapat diperoleh melalui metode implisit. Persepsi juga dapat mencapai beberapa fungsi yang dianalogikan secara langsung dengan menggunakan informasi tiga dimensi.
Ini seperti persepsi visual manusia, meskipun persepsi penglihatan kita adalah tiga dimensi, tidak semuanya didasarkan pada pengukuran tiga dimensi yang akurat. Berikut ini beberapa contoh. Contoh di atas adalah penggalan dari sebuah film. Kita dapat menempatkan karakter dan pertunjukan dalam sebuah adegan baru. Karena kameranya bersifat dinamis, maka perlu ada pemulihan posisi 3D kamera implisit untuk membuat suatu dinamika Latar depan dan latar belakang video dinamis berpadu mulus.
Di atas adalah video pertunjukan. Kita dapat mengekstrak sebagian dari informasi kerangka 3D-nya dan mendorong seseorang yang tidak bisa menari untuk menari. Orang di sebelah kiri menganggap dia tidak bisa menari. Dia hanya melakukan beberapa gerakan. Sudut kiri atas gambar besar di sebelah kanan adalah penari yang benar-benar bisa menari. Kami menggunakan gerakan profesionalnya untuk mendorong orang yang tidak bisa menari untuk menari. Melalui pemahaman tiga dimensi dari video "mengemudi" dan "migrasi" aksi tiga dimensi ke karakter dalam video referensi untuk mensintesis video baru, maka dalam gambar besar di sebelah kanan, wanita ini akan menari.
Kita tidak hanya dapat mentransfer tindakan satu orang ke orang lain dengan kerangka serupa, tetapi juga mentransfer tindakan anak-anak ke orang dewasa, dan bahkan mentransfer tindakan hewan kepada manusia. Ini membutuhkan kemampuan tertentu untuk mengarahkan ulang kerangka tiga dimensi.
Misalnya, ada dua orang yang menari pada animasi di bawah ini, tetapi arah gerakan, orientasi wajah, dan tinggi setiap orang berbeda. Perbedaan orientasi gerakan tersebut diwujudkan melalui pemahaman dan pengkodean tiga dimensi yang tersirat.
Mari Bicara tentang Penggunaan sensor aktif Dalam beberapa tahun terakhir, perkembangan penginderaan aktif sangat, sangat cepat. Khususnya persyaratan perkembangan teknologi kendaraan tak berawak telah mendorong perkembangan pesat teknologi sensor. Jauh sebelum kendaraan tak berawak menjadi populer, kami mulai menggunakan pemindai laser seluler yang dipasang di kendaraan untuk memindai pemandangan skala besar tingkat kota pada tahun 2009 untuk membangun model pemandangan perkotaan tiga dimensi.
Kami telah memperoleh data point cloud dalam jumlah besar melalui teknologi penginderaan 3D yang dipasang di kendaraan, dan menggunakan data ini untuk pemodelan geometris guna mendapatkan model 3D yang sangat bagus. Kami memodelkan berbagai jenis objek kompleks dalam pemandangan perkotaan, seperti pengenalan tiga dimensi pohon dan target lainnya, mengidentifikasi berbagai jenis pohon, dan kemudian melakukan pemodelan pohon tiga dimensi dengan presisi tinggi berdasarkan karakteristik geometris pohon yang berbeda.
CCTV pernah memberi kami laporan khusus- "Memindahkan Kota ke Komputer". Saat itu, kami melakukan pemodelan 3D lengkap dari sebuah distrik di Shenzhen. Setelah itu, kami menerima banyak panggilan, menanyakan kami: Bisakah Anda mendapatkan model 3D kota kami setelah mengemudi di mobil Anda? Faktanya, kami tidak bisa melakukannya, alasannya bukan karena masalah pemrosesan data, tetapi karena akuisisi data front-end.
Penghijauan kota kami sangat bagus sehingga mobil hanya dapat memindai pepohonan tetapi tidak bangunannya. Jika Anda ingin benar-benar menyelesaikan masalah ini, Anda harus memindahkan solusi ke ujung depan dan menemukan cara untuk mendapatkan data secara lengkap.
Oleh karena itu, kami mulai mengusulkan penggunaan robot untuk mendapatkan data guna mengatasi masalah ini lebih lanjut. Robot melakukan analisis data sambil mengumpulkan data di tempat untuk melihat apakah datanya hilang.Jika ada yang hilang, robot akan pergi ke tempat yang sesuai untuk mendapatkan informasi yang diperlukan, sehingga membentuk putaran tertutup dari akuisisi dan pemrosesan data.
Biar robot tidak hanya melihat, tapi juga mengerti
Mulailah dengan percobaan satu objek, Robot tersebut memegang Kinect (sensor aktif yang menggunakan cahaya terstruktur untuk memperoleh informasi model 3D) untuk memindai objek, seperti mainan cetak 3D, yang dapat memperoleh data 3D serba guna dari objek target. Robot merencanakan jalur pemindaian dengan sendirinya hingga akhirnya mendapatkan model tiga dimensi yang lengkap.
Eksperimen selanjutnya adalah masalah pengenalan adegan. Tidak hanya perlu untuk mendapatkan data tiga dimensi yang lengkap dari pemandangan, tetapi juga untuk mengetahui apa itu setiap objek, untuk memahami setiap objek dalam pemandangan, dan untuk mendapatkan informasi semantik dari objek tersebut. Dengan cara yang sama, proses kognitif harus membentuk loop tertutup, dan pengambilan keputusan real-time robot dapat mengidentifikasi objek berdasarkan data tiga dimensi yang ada. Jika tidak, kita harus pergi ke sudut pandang baru untuk mendapatkan data.
Selanjutnya, algoritme kami dapat diperluas ke pemandangan dalam ruangan yang lebih besar. Dalam hal ini, hanya satu robot saja tidak cukup, kita dapat menggunakan banyak robot. Agar robot ini dapat berkolaborasi, diperlukan algoritme kerja kolaboratif waktu nyata. Di lingkungan dalam ruangan, kami sudah memiliki solusi kolaborasi robot yang sangat baik.
Robot tidak hanya dapat menavigasi dan berjalan di ruang tiga dimensi, tetapi juga harus menjadi anggota dunia nyata. Untuk mencapai hal ini, robot perlu berinteraksi dengan pemandangan yang sebenarnya, seperti membiarkan robot mengambil cangkir, membuka pintu, atau bahkan berjabat tangan dengan orang. Interaksi tiga dimensi langsung ini sangat penting. Ini membutuhkan lebih banyak penelitian tentang penentuan posisi spasial robot dan perencanaan jalur, dan kami telah melakukan beberapa pekerjaan baru-baru ini.
Biarkan robot memiliki kemampuan pengambilan keputusan dan eksekusi, dan melakukan lebih banyak pekerjaan untuk manusia
Kami menjelajahi rute teknis ini, dan pemikiran kami menjadi lebih jernih. Melalui kombinasi visi 3D dan teknologi kecerdasan buatan, kami membuat robot lebih cerdas dan fungsional, dan membiarkan robot melakukan lebih banyak hal yang dapat dilakukan manusia di kehidupan nyata. Robot memiliki kemampuan untuk membuat dan melaksanakan keputusan otonom di lokasi, seperti membantu merakit suku cadang di jalur perakitan industri, dan memindahkan kotak dalam skenario logistik. Aplikasi semacam itu melibatkan teknologi yang sangat canggih, seperti perencanaan gerakan yang akurat dan efisien, berbagai kontrol, dan eksekusi cerdas. Kami juga memiliki beberapa pekerjaan eksplorasi di area ini.
Dengan popularitas sensor 3D dan semakin banyak data 3D, cara mencapai pemahaman yang lebih baik tentang pemandangan 3D menjadi sangat penting. Salah satu cara untuk memahami scene yang penting dan efektif adalah deep learning. Semua pembelajaran mendalam paling awal adalah untuk gambar dua dimensi. Jaringan neural konvolusional berorientasi pada gambar dua dimensi, dan untuk pemandangan tiga dimensi, data masukan berupa awan titik tiga dimensi.
Karena tidak ada jaringan neural konvolusional yang secara alami dapat memproses awan titik 3D tidak terstruktur, kami merancang jaringan saraf konvolusional PointCNN untuk masalah ini. Kinerjanya cukup baik. Kami juga sangat senang melihat banyak perusahaan yang menggunakan kami jaringan.
Untuk aplikasi di bidang logistik, kami juga mencoba uji coba robot pembawa boks. Tahun lalu, JD.com melakukan uji stres 10 hari selama periode "Ganda 11". Robot tersebut menggantikan sekelompok orang (sekelompok dua orang) untuk mengidentifikasi kotak, memindahkan kotak, dan memindahkan kotak dengan ukuran berbeda ke ban berjalan. Ini adalah pertama kalinya teknologi kita memasuki dunia nyata dari laboratorium sekolah. Tapi kami juga merasa bahwa semakin dekat kami dengan adegan sebenarnya, semakin rumit masalahnya. Ada banyak orang dalam dunia bisnis di sini, dan Anda dipersilakan untuk datang dan berkomunikasi dengan kami.
Penelitian dan penerapan kecerdasan penglihatan 3D sangat penting, tetapi tidak ada komunitas yang didasarkan pada penglihatan 3D di Cina. Pada akhir tahun lalu, saya mengadakan dan membentuk Komite Profesional Visi 3D di bawah Masyarakat Gambar dan Grafik Cina, dengan tujuan menyatukan orang-orang yang relevan di kalangan akademis dan bisnis. Sambut lebih banyak perusahaan terkait untuk bergabung dan bersama-sama mempromosikan pengembangan teknologi visi 3D.
Terima kasih semua!
- Pemain top 4 Piala Dunia No. 10 memiliki PK yang besar, ketiga tim benar-benar hebat, tetapi Inggris malu
- Test drive Camry generasi kedelapan versi sport: setelannya lebih memilih warna hitam, tapi hati masih remaja
- Penandatanganan berturut-turut Talisca + Paulinho, mahkota ke-8 Evergrande hampir tanpa ketegangan, impian gelar pertama SIPG akan hancur
- Baojun 5102019 ada di pasaran dengan tampilan yang lebih muda, tetapi apakah cukup dengan hanya memiliki 4 konfigurasi?