Menurut situs web Lei Feng: AR / VR sering dibandingkan sebagai kembar, dan umumnya dianggap sebagai teknologi baru di lapisan aplikasi atau sebagai "perangkat yang dapat dikenakan pintar". Dibandingkan dengan label "algoritme" kecerdasan buatan, ini tidak cukup dalam dan kaya akan konotasi. Di atas, apa hubungan AR dan kecerdasan buatan? Apakah AR termasuk dalam kecerdasan buatan dalam persepsi kita saat ini? Artikel ini dikontribusikan oleh Liangfengtai dan diterbitkan oleh Leifeng.com dengan otorisasi.
Pertama, mari kita bahas secara singkat teknologi inti AR
AR (Augmented Reality) adalah untuk melapisi informasi virtual di dunia nyata, yaitu untuk "meningkatkan" realitas. Peningkatan ini dapat datang dari penglihatan, pendengaran dan bahkan sentuhan. Tujuan utamanya adalah untuk membuat dunia nyata dan virtual Dunia bergabung bersama.
Diantaranya, kognisi dunia nyata terutama tercermin dalam penglihatan, yang membutuhkan penggunaan kamera untuk membantu memperoleh informasi, dan umpan balik dalam bentuk gambar dan video. Melalui analisis video, menyadari persepsi dan pemahaman tentang lingkungan dunia tiga dimensi, seperti struktur 3D pemandangan, objek apa yang ada di dalamnya, dan di mana dalam ruang. Tujuan dari pemahaman interaktif 3D adalah untuk menginformasikan sistem apa yang harus "ditingkatkan".
Gambar. Proses AR khas
Ada beberapa poin penting:
Yang pertama adalah pemahaman tentang lingkungan 3D. Untuk memahami apa yang Anda lihat, Anda terutama mengandalkan pengenalan objek / pemandangan dan teknologi pemosisian. Pengenalan terutama digunakan untuk memicu respons AR, sedangkan pemosisian adalah untuk mengetahui di mana harus menempatkan konten AR. Positioning juga dapat dibagi menjadi coarse positioning dan fine positioning menurut akurasi yang berbeda, Coarse positioning adalah memberikan posisi kasar, seperti area dan trend. Penentuan posisi yang bagus mungkin perlu akurat ke titik, seperti koordinat XYZ dalam sistem koordinat 3D, dan sudut objek. Menurut lingkungan aplikasi yang berbeda, pemosisian di kedua dimensi memiliki persyaratan aplikasi dalam AR. Di bidang AR, tugas deteksi dan pengenalan umum adalah deteksi wajah manusia, deteksi pejalan kaki, deteksi kendaraan, pengenalan gerakan, pengenalan biometrik, pengenalan emosi, pengenalan pemandangan alam, dll.
Setelah memahami dunia 3D nyata dan menggabungkannya dengan konten virtual, informasi fusi virtual dan nyata ini perlu disajikan dengan cara tertentu. Yang diperlukan di sini adalah teknologi kunci kedua dalam AR: teknologi tampilan. Saat ini, sebagian besar sistem AR menggunakan perspektif. Layar yang dipasang di kepala, yang dibagi menjadi perspektif video dan perspektif optik. Perwakilan lainnya termasuk teknologi medan cahaya (terutama dikenal sebagai Magic Leap), proyeksi holografik (yang sering muncul dalam film fiksi ilmiah dan karya drama televisi), dll.
Teknologi kunci ketiga dalam AR adalah interaksi manusia-komputer, yang memungkinkan orang untuk berinteraksi dengan informasi virtual yang dilapiskan. AR mengejar metode interaksi manusia-komputer alami selain tombol sentuh, seperti suara, gerak tubuh, gerak tubuh, dan wajah. Gunakan lebih banyak suara dan gerakan.
Hubungan teknis antara kecerdasan buatan dan AR
Beberapa konsep yang sering disebutkan dalam bidang kecerdasan buatan, seperti deep learning (DL) dan machine learning (ML). Dalam bidang akademik, beberapa bidang termasuk kecerdasan buatan (AI) memiliki batasan penelitian sendiri-sendiri, dan secara umum Dalam arti tertentu, kita sering berbicara tentang kecerdasan buatan secara umum, yang mencakup semua arah aplikasi "membuat mesin seperti manusia".
Dari gambar ini, Anda juga bisa melihat sekilas sekilas tentang hubungan antara ketiganya. Pembelajaran mendalam adalah cara teknis untuk mewujudkan pembelajaran mesin, dan pembelajaran mesin adalah membuat mesin menjadi pintar dan mencapai kecerdasan buatan. Dapat dikatakan bahwa kecerdasan buatan adalah tujuan akhir, dan pembelajaran mesin adalah arahan teknis yang diperluas untuk mencapai tujuan ini. Diantaranya, ada konsep penting lain dari computer vision (CV), yang utamanya mempelajari bagaimana membuat mesin "melihat" seperti manusia. Ini merupakan cabang penting dari konsep kecerdasan buatan saat ini. Ini juga karena yang terpenting bagi manusia untuk memperoleh informasi Salah satu caranya adalah dengan visi. Saat ini, computer vision telah memberikan nilainya di pasar komersial, seperti pengenalan wajah; mengemudi otomatis membaca sinyal lalu lintas dan memperhatikan pejalan kaki untuk navigasi; robot industri digunakan untuk mendeteksi masalah dan mengontrol proses; pengolahan citra rekonstruksi lingkungan tiga dimensi dan masih banyak lagi. Konsep-konsep ini dibedakan dan tumpang tindih sampai batas tertentu.
Diantaranya, mulai tahun 2006, ledakan pembelajaran mendalam yang dipicu oleh Hinton mulai menyebar, yang sampai batas tertentu menyebabkan kebangkitan AI lagi. Dalam sepuluh tahun terakhir, pencapaian signifikan telah diraih di berbagai bidang termasuk pengenalan ucapan, visi komputer, dan pemrosesan bahasa alami. Terobosan dan perluasan ke bidang aplikasi sedang berjalan lancar.
Di antara teknologi inti AR, pemahaman lingkungan 3D, pemahaman interaktif 3D, visi komputer, dan pembelajaran mendalam terkait erat. Pemahaman lingkungan 3D di dunia akademis terutama berhubungan dengan bidang visi komputer, dan dalam beberapa tahun terakhir pembelajaran mendalam telah banyak digunakan dalam visi komputer. Dalam hal interaksi, penggunaan metode interaksi yang lebih alami seperti gerakan dan suara di terminal perangkat keras telah memperoleh manfaat dari terobosan dalam pembelajaran mendalam di bidang terkait dalam beberapa tahun terakhir. Dapat juga dikatakan bahwa penerapan pembelajaran mendalam di AR terutama pada teknologi kunci visi.
Saat ini, bentuk paling umum dari pemindaian gambar 2D dan pengenalan AR, seperti yang terlihat di sebagian besar pemasaran AR seperti kampanye obor Tencent QQ-AR, Alipay Wufu, dll., Menggunakan ponsel untuk memindai peta pengenalan muncul konten yang ditumpangkan, tetapi arah penelitian dan pengembangan utama masih objek 3D Pengakuan dan pemodelan adegan 3D.
Objek nyata ada dalam bentuk 3D, dengan sudut dan orientasi spasial yang berbeda. Jadi ekstensi alami berasal dari Pengenalan gambar 2D Untuk pengenalan objek 3D, untuk mengenali kategori dan postur objek, dapat digunakan deep learning di sini. Mengambil pengenalan buah sebagai contoh, berbagai jenis buah dikenali, dan area pemosisian diberikan, yang mengintegrasikan fungsi pengenalan dan deteksi objek.
Pemodelan pemandangan 3D , Memperluas dari mengenali objek 3D ke area 3D yang lebih besar dan lebih kompleks. Misalnya, untuk mengidentifikasi apa yang ada di pemandangan, lokasi spasial dan hubungan timbal balik, dll. Ini adalah pemodelan pemandangan 3D, yang merupakan teknologi inti AR. Ini melibatkan SLAM yang saat ini populer (penentuan posisi waktu nyata dan konstruksi peta). Dengan memindai adegan tertentu, lalu menumpangkan konten virtual tiga dimensi seperti medan perang virtual di atasnya. Jika hanya berdasarkan pengenalan gambar 2D biasa, diperlukan gambar tertentu, dan pengenalan akan gagal jika gambar tidak terlihat. Dalam teknologi SLAM, meskipun bidang tertentu tidak ada, penentuan posisi spasial masih sangat akurat karena bantuan lingkungan 3D di sekitarnya.
Di sini saya ingin membahas integrasi pembelajaran mendalam dan teknologi SLAM. Visi komputer secara kasar dapat dibagi menjadi dua sekolah, ide berbasis pembelajaran, seperti ekstraksi fitur-fitur analisis-klasifikasi. Saat ini, teknologi pembelajaran mendalam telah memimpin dalam rute ini. Status seksual. Jenis rute lainnya didasarkan pada penglihatan geometris, yang menyimpulkan informasi struktur spasial objek dari garis, tepi, dan bentuk 3D, teknologi representatifnya adalah SFM / SLAM. Dalam arah pembelajaran, pembelajaran dalam pada dasarnya mendominasi dunia, tetapi dalam bidang visi geometris, masih sangat sedikit kemajuan di lapangan. Dari kalangan akademisi, kemajuan penelitian teknologi deep learning bisa dikatakan berubah dari hari ke hari, sedangkan kemajuan teknologi SLAM dalam dekade terakhir relatif kecil. Pada simposium teknologi SLAM yang diselenggarakan oleh konferensi visi internasional teratas ICCV pada tahun 2015, berdasarkan perkembangan pesat pembelajaran mendalam di bidang visi lain dalam beberapa tahun terakhir, beberapa pakar telah mengusulkan kemungkinan untuk menggunakan pembelajaran mendalam di SLAM, tetapi belum ada ide yang matang. . Secara umum, perpaduan antara deep learning dan SLAM dalam jangka pendek merupakan arah yang layak untuk diteliti Dalam jangka panjang, penggabungan informasi semantik dan geometris merupakan tren yang sangat berharga. Oleh karena itu, SLAM + DL layak untuk dinantikan.
Dalam hal interaksi, yang utama termasuk pengenalan ucapan dan pengenalan gerakan. Pengenalan ucapan telah membuat kemajuan besar. Perusahaan domestik seperti Baidu, HKUST iFLYTEK, dan Yunzhisheng termasuk yang terbaik. Perusahaan AR ingin menerobos Komersialisasi pengenalan gerakan yang matang, seperti sistem pengenalan gerakan berbasis pembelajaran mendalam yang ditunjukkan oleh Liangfengtai, terutama mendefinisikan enam gerakan ke atas, bawah, kiri, dan kanan, searah jarum jam, dan berlawanan arah jarum jam. Pertama, deteksi dan pemosisian tangan manusia direalisasikan, dan kemudian pengenalan Lintasan gerakan yang sesuai menyadari pengenalan gerakan manusia. Area lain dari kecerdasan buatan yang populer seperti pengenalan wajah juga digunakan dalam AR, tetapi bukan merupakan arah penelitian dan pengembangan penting perusahaan AR.
Tidak sulit untuk melihat dari atas bahwa teknologi yang mendasari atau bagian dasar dari AR adalah integrasi visi komputer dan bidang terkait, dan kombinasi dari pembelajaran mendalam yang populer dan AR juga merupakan arahan dari para insinyur algoritma. Ini juga merupakan persimpangan antara visi komputer dan interaksi manusia-komputer. Fondasi AR adalah dasar dari kecerdasan buatan dan visi komputer.
Gambar: Computer Vision dan AR Process Association
Dalam "Laporan Dampak Kecerdasan Buatan" yang dirilis oleh Toutiao tahun lalu, itu juga hanya menghitung distribusi ilmuwan kecerdasan buatan. Ini termasuk perusahaan dan lembaga Litbang besar di bidang pengenalan wajah, pengenalan suara, robotika, AR, dan chip. Distribusi personel R&D juga menggambarkan arah segmentasi di bidang AI.
Apakah kecerdasan buatan AR?
Bagi praktisi AR, kondisi ideal adalah menggunakan terminal AR yang lebih cerdas untuk menggantikan smartphone. Oleh karena itu, bagi pengguna, hal pertama yang akan terpengaruh oleh penggunaan AR adalah kontennya, lalu terminalnya. Jika rantai industri AR secara kasar dibagi, itu akan mencakup penyediaan teknologi. Perusahaan, perusahaan R&D terminal cerdas, dan penyedia konten AR. Di antara mereka, penyedia peralatan AR pasti memperhatikan teknologi perangkat keras, seperti chip yang mendasari, baterai, lensa optik, dll., Serta pengoptimalan kinerja perangkat keras itu sendiri, sementara penyedia konten lebih cenderung untuk mengoptimalkan konten dan kinerja berdasarkan teknologi yang ada. Jadi kita dapat mengatakan bahwa penyedia teknologi AR, atau perusahaan AR dengan pencapaian tertentu dalam penelitian dan pengembangan algoritme yang mendasari, adalah perusahaan kecerdasan buatan.
Untuk perusahaan, terutama startup, mereka akan mengubah teknologi yang mendasari menjadi produk atau layanan yang matang, yang dapat berupa drone, terminal pintar AR, robot, dll., Atau solusi industri untuk mencapai tujuan bisnis. Ini telah menjadi harapan dan persyaratan media, perusahaan, dan publik untuk perusahaan AI setelah suara mendidih. Dalam waktu dekat, buku "Artificial Intelligence Wave: 100 Cutting-Edge AI Applications That Science and Technology Change Life" yang diterbitkan oleh Artificial Intelligence Industry Development Alliance (AIIA) akan dirilis ke publik, serta mencakup pencapaian mutakhir dari raksasa dan perusahaan rintisan saat ini dalam komersialisasi. Ini juga secara langsung mencerminkan arah komersialisasi utama AI saat ini.
Sebagai bidang bisnis yang digerakkan oleh teknologi, apakah itu AR atau kecerdasan buatan di banyak arah lainnya, teknologi masih memiliki jalan panjang sebelum sepenuhnya matang. Karena seluruh rantai industri secara bertahap berkembang, sambil berfokus pada komersialisasi, itu juga membutuhkan lebih banyak Perusahaan terus memperluas batas-batas teknologi, membangun daya saing inti, dan memungkinkan industri ini meledak dengan nilai dan potensi yang lebih besar.Dengan cara ini, penyaluran sudut China di era AI dapat diharapkan.
- Penggemar direktur pabrik membuat keributan besar di ruang live uzi, dan omelan kedua belah pihak terus meningkat! Uzi terlihat jelek!
- Penghargaan ICRA 2018 diumumkan, dan tim Universitas Hong Kong memenangkan makalah konferensi terbaik
- Bank of China Samsung Note 7 masih mendorong firmware baru: batas pengisian 60%, tidak ada "firmware mati"
- Huya mengacaukan? Buat versi laki-laki dari "Feng Timo"! Netizen: Mengapa Huya memukul bar dengan Douyu lagi?