Rahasia Mendalam Sebuah startup AI China yang ingin memasukkan efek khusus Hollywood ke dalam ponsel

Adegan efek khusus dalam blockbuster Hollywood "Avatar" (Avatar) masih segar dalam ingatan. Saya yakin banyak orang yang telah menonton di teater akan dikejutkan oleh adegan efek khusus yang megah: Pada kenyataannya, manusia dapat terhubung ke antarmuka otak-komputer dan memasuki dunia asing, yang ada di ruang dan waktu lain dalam bentuk yang sama sekali berbeda.

Gambar | Gambar dari film "Avatar"

Fiksi ilmiah tergolong dalam fiksi ilmiah.Dari sudut pandang konsep produk, yang disebut Avatar adalah gambar 3D virtual, bukan gambar statis. Sebaliknya, dapat didorong oleh pengguna untuk melakukan berbagai interaksi melalui terminal pintar seperti telepon seluler.

Padahal, konsep Avatar sudah cukup lama ada di bidang animasi, game, film dan televisi, dan bukan hal baru. namun, Teknologi ini tidak pernah benar-benar memasuki aplikasi tingkat konsumen Alasannya adalah masih terdapat hambatan teknis yang cukup besar dalam pembuatan dan interaksi Avatar, yang sulit dipopulerkan oleh pengguna C-end, dan pengalaman saat ini juga sangat sulit digunakan.

Pada tahun 2016, Facebook mengakuisisi MSQRD, aplikasi yang "mengubah wajah", dan memulai tata letak teknisnya di bidang ini. Namun dalam hal membuat avatar, produk kelas konsumen belum muncul.

Namun, baru-baru ini, sebuah perusahaan China yang sederhana telah berjalan di depan rekan-rekannya di Amerika. Perusahaan telah menyelesaikan tata letak komprehensif pembuatan Avatar, interaksi dan teknologi rendering, dan telah mengembangkan produk yang memiliki lebih dari 20 pengguna B-end. Pertama lihat tampilan video yang dirilis oleh perusahaan berikut:

Dalam video ini, pengguna biasa dapat membuat Avatar 3D dari satu gambar di ponsel yang sangat cocok dengan karakter dalam gambar. Avatar ini dapat mengubah gaya rambut, pakaian, latar belakang, dll, dan berinteraksi dengan pengguna.

Baru-baru ini, Mr. DT mewawancarai Xiangxin Technology Co., Ltd. (faceunity.com) yang berbasis di Hangzhou, Ini juga pertama kalinya tim menerima wawancara media eksklusif.

Berikut adalah highlight dari wawancara tersebut:

Tn. DT: Pertanyaan yang paling langsung adalah, dapatkah Anda memberi tahu saya kesulitan menerapkan produk kelas konsumen dengan teknologi ini?

Teknologi Phasecore: Kesulitan teknologi Avatar terutama tercermin dalam tiga aspek: pembuatan Avatar, interaksi yang digerakkan oleh Avatar, dan tampilan Avatar.

Pertama-tama, Ada banyak cara untuk menghasilkan Avatar, seperti pemindaian 3D Saat ini, sebagian besar seniman menjadi model. Bahkan, Avatar sendiri bukan lagi barang langka, yang sudah ada sebelumnya, seperti film "Avatar". Tentu saja, "Avatar" lebih dalam, Ada juga bagian dari antarmuka otak-komputer, Mari kita kesampingkan ini.

Biaya pembuatan Avatar semacam itu sangat tinggi. Misalnya, Anda mengambil gambar Bruce Lee ke perusahaan yang melakukan pemodelan animasi 3D di luar untuk membuat model 3D yang sangat mirip dengan Bruce Lee dan dapat memperoleh semua efek dinamis seperti ekspresi. Mungkin diperlukan waktu 2-3 minggu dan biaya setidaknya 2.000 yuan, ini adalah situasi pasar saat ini.

Gambar | Gambar virtual 3D Bruce Lee yang dibuat oleh Xiangxin

Oleh karena itu, meskipun Avatar sudah tersedia dalam animasi, game, serta film dan televisi, Avatar tidak pernah benar-benar masuk ke aplikasi konsumen. Salah satu alasan utamanya adalah Pembuatan avatar merupakan kendala besar, dan sulit bagi pengguna konsumen untuk melakukan ini.

Teknologi pertama kami untuk menghasilkan tata letak bidang ini di Avatar adalah FaceUnity P2A, Yaitu, Foto menjadi Avatar (dari foto ke avatar). Ini adalah teknologi revolusioner. Anda hanya perlu memberi saya foto dan saya dapat secara otomatis membuat Avatar dalam waktu kurang dari satu menit. Dalam hal model bisnis, biaya dapat dikurangi setidaknya tiga kali lipat.

Gambar | Kumpulkan gambar pengguna

Setelah memecahkan generasi Avatar, masalah selanjutnya adalah pengemudi, yang merupakan teknologi lain. Teknologi ini sebenarnya sudah ada di industri film dan televisi. Misalnya, dalam film seperti "Avatar" dan "World of Warcraft", seorang aktor perlu menangkap ekspresi wajah aktor tersebut jika dia ingin menggerakkan karakter virtual untuk membuat animasi.

Teknik ini disebut "Tangkapan Wajah" , Diperlukan peralatan dan lingkungan pemotretan profesional untuk membuatnya. Yang paling umum digunakan adalah meletakkan banyak penanda di wajah aktor untuk membantu sistem optik menemukan lokasi.

Gambar | Menghasilkan gambar 3D untuk pengguna dalam waktu singkat

Peralatan dan lingkungan khusus ini sulit dipenuhi dalam aplikasi tingkat konsumen. Oleh karena itu, dalam driver Avatar, kami menggunakan lensa optik biasa yang dipasang di smartphone, tanpa titik penanda, langsung melalui gambar untuk menangkap ekspresi wajah yang akurat, dan memetakan serta menggerakkan Avatar, sehingga ekspresi Avatar dapat mengikuti pengguna dengan setia. ekspresi.

Ini adalah pekerjaan yang sangat menantang. Yang pertama adalah masalah akurasi dan stabilitas , Karena hal-hal ini dilakukan di terminal seluler, lingkungan sekitarnya akan menjadi kaya dan dapat diubah, seperti sinar matahari langsung di luar ruangan, atau dalam kondisi redup di dalam bar. Karena itu, persyaratan ketahanan teknis akan sangat tinggi.

Gambar | Buat gambar Bruce Lee untuk pengguna

Kedua adalah masalah daya komputasi Bagaimanapun, sumber daya komputasi ponsel masih jauh lebih buruk daripada PC. Ada juga konsumsi penyimpanan, Sebagai sebuah aplikasi, itu tidak dapat menempati terlalu banyak memori.

Oleh karena itu, dalam kasus sumber daya yang terbatas, untuk mencapai konsumsi penyimpanan yang kuat, cepat, rendah, dan presisi tinggi, tantangannya menjadi sangat besar. Ini adalah teknologi Teknologi Xiangxin dalam driver Avatar.

Setelah menyelesaikan pembuatan dan penggerak Avatar, masalah terakhir yang harus diselesaikan adalah rendering, dengan kata lain bagaimana menampilkan avatar . Ini termasuk rendering dalam berbagai kondisi pencahayaan, dan cara membuat Avatar tampil lebih baik di berbagai lingkungan cahaya dan bayangan yang kompleks.

Gambar 1 | Teknologi pengambilan wajah multi-titik yang digunakan dalam film "World of Warcraft"; Gambar 2 | Pengambilan wajah, pemodelan, dan rendering wajah dalam film "Pirates of the Caribbean"

Tn. DT: Karena pembuatan Avatar melibatkan begitu banyak solusi teknis yang kompleks, apakah sulit untuk masuk ke sisi konsumen?

Teknologi Phasecore: Dari pembuatan Avatar, mengemudi, hingga rendering, ada banyak teknologi 3D yang terlibat. Seperti kita ketahui bersama, Hollywood merepresentasikan teknologi industri film yang paling maju, dan film adalah perwujudan dari integrasi sains dan seni.

Teknologi Hollywood sangat kuat, tetapi membutuhkan aktor profesional, peralatan mahal, pemodel berpengalaman, dan studio yang dibangun secara khusus.

Yang disebut teknologi konsumen, Yang pertama adalah mengizinkan orang biasa untuk menggunakannya, yang kedua adalah menggunakannya di peralatan biasa, dan yang ketiga adalah untuk dapat digunakan di lingkungan manapun. Cara membuat teknologi canggih yang semula milik Hollywood ini memasuki aplikasi tingkat konsumen, inilah yang dilakukan Xiangxin.

Gambar | Studio studio efek khusus top Hollywood "Industrial Light & Magic"

Mengenai bagaimana kami menyelesaikan masalah ini, Ini sebenarnya adalah inovasi teknologi di bidang yang sangat berpotongan , Termasuk grafik komputer, visi komputer, dan pembelajaran mesin. Dan di setiap teknologi, dibutuhkan penelitian mendalam. Misalnya, pembuatan Avatar akan menggunakan jaringan neural dalam 3D ujung ke ujung. Sederhananya, Anda mengambil foto, melewati kotak hitam, dan yang keluar adalah model 3D.

Kotak hitam ini sebenarnya adalah jaringan saraf dalam 3D, atau dalam istilah awam, kecerdasan buatan saat ini. Kotak hitam ini perlu melakukan banyak hal, seperti mengambil poin fitur, mengidentifikasi jenis kelamin, mengidentifikasi aksesori, dan sebagainya. Selain pengenalan wajah biasa, gambar 3D harus dibuat, dan gambar ini harus sangat cocok dengan foto 2D masukan. Inilah yang perlu dilakukan oleh deep neural network 3D.

Mengenai pengemudi Avatar, banyak teknologi computer vision yang terlibat. Langkah terakhir adalah rendering, terutama grafik komputer. Jadi kamu bisa lihat, Seluruh proses sebenarnya adalah tata letak teknis interdisipliner .

Gambar | Gambar virtual 3D yang dibuat oleh Xiangxin Company berdasarkan foto

Tn. DT: Mengapa Anda mempertimbangkan untuk membuat gambar virtual 3D yang sangat tersimulasi? Akankah teknologi ini dapat menghasilkan produk tingkat konsumen yang mengganggu? Dari level produk, di manakah skenario penerapan Avatar?

Teknologi Phasecore: Teknologi ini harus mampu menghasilkan produk kelas konsumen baru yang mengganggu, dan sudah dekat.

Dari segi teknis murni, dapat dibayangkan bahwa Avatar sebenarnya memberikan kemungkinan. Dalam dunia fisik, kita masing-masing memiliki citra tertentu, dan setelah bertahun-tahun berkembangnya Internet, kita masing-masing sebenarnya memiliki banyak citra di dunia maya. Misalnya, WeChat, Weibo, dll. Anda akan memiliki ID dan avatar yang berbeda, dan gambar ini jelas tidak sama persis dengan kesan yang Anda berikan kepada teman di kehidupan nyata.

Jadi, apakah mungkin bagi kami untuk mewujudkan citra semua orang di dunia maya, Tidak hanya terbatas pada ID, string atau foto? Apakah ini mirip dengan gambar 3D yang kita lihat di kehidupan nyata? Ini masalah yang ingin kami selesaikan.

Gambar | Berbagai gambar virtual 3D yang dibuat oleh Xiangxin

Kenyataannya, seseorang harus memiliki suara dan senyum, yang sedang kita selesaikan sekarang "Rong", "Tertawa", "Penampilan", Masalah "suara" mungkin bisa diselesaikan di masa depan. Tujuan utamanya adalah untuk menciptakan citra yang hidup dan hidup.

Oleh karena itu, teknologi ini sebenarnya menjadi dasar dari banyak aplikasi. Skenario aplikasi yang paling relevan secara langsung yang dapat dipikirkan adalah Sosial, Baik itu jejaring sosial maupun media sosial. Misalnya, di platform seluler saat ini, Anda ingin memainkan "game pembunuhan". Jenis game ini sebenarnya muncul dari offline, dan perlu mewaspadai emosi selama game, yang melibatkan banyak interaksi antar pemain.

Tetapi jika game-game ini dipindahkan ke online, berapa banyak orang yang bersedia memainkan video game? Terlepas dari tekanan pada lalu lintas pengguna dan bandwidth operator yang disebabkan oleh semua orang yang mengarahkan video bersama, berapa banyak orang yang bersedia untuk menunjukkan kepada orang-orang dalam gambar nyata di lingkungan sosial online?

Tetapi jika Anda memiliki Avatar sendiri, segalanya menjadi lebih mudah. Misalnya, jika Anda menyukai Bruce Lee, Anda dapat sepenuhnya menggunakan gambarnya, dan melalui drive, ekspresi wajahnya mengikuti pengguna dengan setia, dan tidak akan memengaruhi fungsi mengamati kata-kata dalam game di atas. Ini adalah contoh orang asing yang bersosialisasi secara online.

Jika Anda sedang berkomunikasi dengan teman dan kenalan, terkadang Anda mungkin tidak mau menunjukkan lingkungan sekitar Anda kepada satu sama lain, seperti ruangan yang berantakan atau kondisi pribadi yang buruk. Pengguna mungkin ingin menampilkan gambar yang lebih baik yang cocok dengan mereka kepada pihak lain. Ini mirip dengan fungsi kecantikan foto dan video saat ini, mengapa tidak menampilkan diri yang lebih baik?

Tn. DT: Dari sudut pandang teknis murni, apa keuntungan potensial Avatar? Bagaimana prospek lamarannya?

Teknologi Phasecore: Yang besar lainnya menggunakan Avatar Keuntungannya adalah menghemat bandwidth . Karena pengguna tidak perlu mengupload video, tetapi hanya perlu mengupload parameter yang mengontrol Avatar, dan parameter tersebut langsung dihitung secara lokal di ponsel, dan penggunaan bandwidth akan sangat rendah.

Sebagai gambar virtual di dunia maya, Avatar sebenarnya bisa Jadikan lebih ekspresif daripada gambar di dunia fisik . Seperti ekspresi berlebihan dan bahkan beberapa fitur animasi. Lagi pula, tidak semua orang telah dilatih secara profesional, dan beberapa bentuk ekspresi yang lebih kuat mungkin dapat diterapkan dengan baik di bidang sosial dan hiburan, dan bahkan pendidikan online di masa mendatang.

Gambar | Penangkapan ekspresi wajah nyata Xiangxin

Teknologi Xiangxin saat ini berfokus pada platform seluler, masih sulit untuk mengatakan kapan VR dan AR benar-benar akan diterapkan di masa depan. Tapi begitu teknologi ini matang, Avatar akan menjadi kebutuhan. Karena di lingkungan virtual reality, pengguna tidak bisa tetap eksis dalam bentuk KTP ataupun foto, Dan harus ada gambar beton 3D dengan fungsi interaktif lengkap.

Saat ini, tata letak Facebook di bidang ini adalah contoh yang bagus, tetapi gambar yang dibuat oleh Facebook bersifat kartun. Yang sangat sulit dilakukan adalah membuat avatar yang sesuai dengan foto.

Teknologi Xiangxin bersikeras untuk melakukan teknologi yang lebih sulit ini, pada kenyataannya, karena pasar Cina tidak sama dengan pasar Barat, dan orang-orang Cina mungkin lebih menyukai cara berekspresi yang mendekati citra orang sungguhan. Jadi, dalam hal teknologi, kami memimpin. Tentu saja, kami juga akan mendukung Avatar bergaya kartun.

Rui tidak bisa dihentikan! Chery bekerja sama dengan Federasi Bulu Tangkis Dunia untuk menciptakan "merek Cina" kelas dunia

Sebelumnya

Review Konferensi OPPO Reno, Zoom Optik 10 Kali + Snapdragon 855 Hanya 3999!

Lanjut

: Battle Report-Higuain mencetak gol Juventus 2-2 Dzeko World Wave Roma 2-0 Milan Liverpool 1-1 Newcastle

: Pesanan tahunan melebihi 20 juta unit! Huawei P30 sedang dijual, dan banyak negara telah mengantri dan bergegas!

: La Liga-Messi 2 tembakan 1 lolos Barcelona 3-0 untuk memenangkan tujuh berturut-turut Isco 2 gol Cristiano Ronaldo Misfire Real Madrid 2-0

: Teknologi Zigong Jingyanhei menakjubkan di Salt Expo, 31 proyek ditandatangani di tempat dengan total investasi 9,46 miliar yuan

: Pernahkah Anda direkrut untuk 5 ponsel klasik "Snapdragon 660" yang sekarang menjadi "jalanan buruk"?

: Terapi gen senilai 4,5 juta diberikan pada pasien pertama, dapatkah ini membuka babak baru dalam pengobatan komersial?

: Memenangkan kejuaraan setelah kembali, Peng Shuai bagus

: 4 ponsel "secepat kilat" di kampus memiliki keindahan dan kinerja yang berdampingan, dan model ketiga tidak memanas saat makan ayam!

: Kesal! Milan terpilih sebagai kota paling layak huni di Italia pada 2018! Roma hanya berada di peringkat 22

: Artis Wan Shanhe menggunakan kuas untuk mendukung perlindungan lingkungan "Seri Gletser" menghadirkan ritme alam

: Sebuah bus turis Italia menabrak tembok dekat Zurich dengan kecepatan tinggi, 1 tewas dan 44 luka-luka

: "Robot Pelarian Burung Unta" memiliki kecepatan 16 kilometer per jam, menunjukkan inovasi besar di bidang robot olahraga

Rahasia Mendalam Sebuah startup AI China yang ingin memasukkan efek khusus Hollywood ke dalam ponsel

Informasi Terkait

Dibandingkan dengan versi giok Z3, Apple XS "Gold Inlaid Jade" sangat lemah! Netizen: Maafkan warnanya!

Tiga ponsel andalan vivo "terindah", yang satu lebih memukau dari yang lain, yang termurah hanya 1.000 yuan!

Redmi 855 akan datang: lensa pengangkat + sidik jari layar + masa pakai baterai super, harganya menyentuh!

Ponsel vivo yang paling "berumur pendek", pernah terjual pertama kali saat diluncurkan, dan terlupakan hanya dalam 7 bulan!

Permainan antara privasi dan teknologi! Bagaimana cara "anti-memantau" aplikasi seluler yang memantau Anda?

40 akademisi berkumpul di Konferensi Inovasi Sains dan Teknologi Wuhan untuk mempercepat pengembangan berkualitas tinggi dengan inovasi teknologi

Perubahan Cui Yongyuan: Menjadi tuan rumah membuatnya menderita depresi; kewirausahaan membuatnya "gila"

Mesin 4 ribu yuan yang sangat populer di kampus, makan ayam dengan lancar tanpa ketinggalan, dan memiliki tampilan dan performa 3 kamera!

Bitcoin melonjak menembus 1.500 dolar AS, industri AS memprediksi akan meroket 350 kali lipat?

Versi zoom OPPO Reno 10x dikonfirmasi, dengan harga 5.000 yuan, menyatakan perang terhadap Huawei P30!