Sumber: CSDN

Artikel ini adalah tentang 1993 kata , Dianjurkan untuk membaca 4 menit

Artikel ini memperkenalkan pendahulu Siri, cara kerjanya, dan algoritme di baliknya.

Berikut terjemahannya:

Saat ini, ponsel Apple dapat mendeteksi dan menjawab perintah "Hey Siri" kapan saja. Beberapa orang mungkin bertanya-tanya, apakah itu merekam percakapan sehari-hari kita kapan saja?

jawabannya negatif!

"Hei Siri" tidak bisa melakukan sebanyak yang kita pikirkan!

Mari kita lihat sejarah perkembangan "Hey Siri!"

"Hai Siri!" Sebagai fungsi tambahan dari asisten suara yang sudah diinstal sebelumnya, Siri, ini dirilis di iOS 8 pada September 2014. Namun, di iOS 9 (September 2015) telah ditingkatkan untuk memungkinkan hanya suara yang dipersonalisasi yang digunakan untuk mengidentifikasi pengguna.

Asisten Google memiliki fitur ini sebelum tahun 2013, tetapi tidak dapat mendukung fitur ini saat layar Anda mati. Bahkan sekarang, banyak ponsel Android yang tidak mendukung fitur ini.

Mari bandingkan pengalaman pengguna, seperti yang ditunjukkan di bawah ini:

Cara biasa vs. "Hai Siri!"

Cara konvensionalnya adalah ini: pengguna mengangkat telepon- > Tekan lama tombol home- > Siri dimulai.

Dalam mode "Hey Siri!", Pengguna hanya perlu mengucapkan "Hey Siri!" Tanpa menekan tombol untuk memulai Siri.

Ini memiliki keuntungan, karena ketika pengguna tidak nyaman menggunakan operasi tangan (seperti mengemudi), pengguna juga dapat menggunakan beberapa fungsi dari ponsel.

Pendahulu Siri: M9 motion coprocessor

"Koprosesor" dapat dipahami sebagai prosesor tambahan dengan fungsi dan konsumsi baterai terbatas untuk mendukung fungsi "selalu hidup" bahkan saat telepon dalam keadaan idle (layar mati).

Koprosesor gerakan M9 adalah produk generasi ketiga dari keluarga koprosesor Apple, yang diluncurkan bersama dengan iPhone 6s pada September 2015. Berkat sistem berbasis ARM, 64-bit A9-on-chip dengan kemampuan pemrosesan yang kuat dan konsumsi baterai minimal, fungsi "bangun" yang terkenal dari ponsel Apple ini dapat direalisasikan. M9 terkadang digambarkan sebagai "selalu di prosesor (AOP-Selalu di Prosesor) tertanam di koprosesor gerak".

Bagaimana cara kerja "Hai Siri!"?

Saat Anda mengaktifkan fitur ini untuk pertama kali, Anda akan diminta untuk mengatakan "Hey Siri!" Beberapa kali. Kemudian iPhone Anda menyimpan suara ini dan menggunakannya sebagai "tombol pemicu" untuk mengenali suara pribadi Anda di masa mendatang.

"Kunci pemicu" yang dipersonalisasi ini disimpan di koprosesor, meskipun ponsel Anda dalam keadaan menganggur, koprosesor akan mendengarkan (bukan mendengar) semua suara yang jatuh pada mikrofon.

Oleh karena itu, ketika suara jatuh ke mikrofon dan berhasil mencocokkan "tombol pemicu", koprosesor akan mengaktifkan prosesor utama untuk mulai merekam (seperti kita menekan lama tombol layar utama untuk menyalakan Siri). Kemudian, rekaman dikirim ke server dan dijelaskan dalam proses yang mirip dengan setiap asisten suara.

Bayangkan proses ini seolah-olah Anda memiliki ribuan kunci dan Anda mencoba menemukan kunci mana yang sama persis dengan kunci yang ingin Anda buka.

Hal penting yang perlu diperhatikan di sini adalah bahwa prosesor AOP (A9) selalu "mendengarkan" daripada "mendengarkan" suara pengguna. Ini seperti bayi. Dia telah mendengarkan orang, tetapi dia tidak dapat sepenuhnya memproses apa yang dia dengar. Hanya ketika namanya dipanggil, itu akan dipicu dan mulai bekerja.

Koprosesor gerakan M9 dirilis bersama dengan iPhone 6s pada September 2015. Namun seperti yang dinyatakan di awal artikel ini, fungsi "Hey Siri!" Diluncurkan paling cepat September 2014. Jadi, bagaimana versi awal iPhone dapat mendengarkan "secara pasif"?

Nah, jika Anda kebetulan mengenal seseorang yang memiliki iPhone 6, Anda dapat mencentang "Hey Siri!". Meskipun ponsel Anda dalam keadaan idle (layar mati), fungsi ini hanya dapat berfungsi dalam mode pengisian daya. Seperti yang bisa kita simpulkan, itu hanya bisa mendapatkan sejumlah kecil daya ekstra saat mengisi daya. Lihatlah tangkapan layar pengaturan Siri iPhone 6 berikut:

Algoritme di balik "Hai Siri!"

Suara pengguna diambil sampelnya dalam satuan 0,01 detik sebagai bingkai, kemudian 20 bingkai tersebut (0,2 detik) terus-menerus dimasukkan ke dalam jaringan neural dalam (DNN) setiap kali, dan jaringan neural mengubah suara ini menjadi fungsi kepadatan probabilitas , Jika nilai fungsi melebihi ambang batas minimum, prosesor utama diaktifkan.

Pelatihan DNN

Ambang batas di sini tidak tetap, tetapi bervariasi menurut kebisingan latar belakang. Oleh karena itu, untuk pemahaman yang jelas, Anda dapat mengatakan bahwa DNN selalu menghitung ambang batas.

Selain itu, saat Anda merekam sampel suara untuk pertama kalinya dan membuat "kunci pemicu", Anda sebenarnya melatih DNN dan menentukan bobot untuk menghitung probabilitas.

Untuk aksen berbeda, pelatihan DNN berbeda. Misalnya, pengucapan "Hai Siri" agak mirip dengan "Serius" dalam bahasa Inggris Amerika, kecuali tidak ada tanda baca. Huruf "i" dalam "Hey Siri!" Diucapkan dengan panjang yang berbeda dan memiliki tanda seru.

Matematika di balik "Hey Siri"

Konten berikut ditujukan untuk semua penggemar pembelajaran mesin :).

Ini adalah model Deep Neural Network (DNN):

Model DNN

Fungsi probabilitas total adalah sebagai berikut:

diantara mereka:

F (i, t) adalah skor kumulatif negara i dalam model
q (i, t) adalah output dari model akustik. Output ini adalah skor logaritmik dari kategori ucapan, yang terkait dengan keadaan ke-i dari pola bicara yang diberikan di dekat waktu t
s (i) adalah biaya yang terkait dengan tinggal di negara bagian i
m (i) adalah biaya mundur dari keadaan i

Berikut s (i) dan m (i) terkait dengan bobot latihan saat mendefinisikan "kunci pemicu". Dapat diasumsikan sebagai berikut:

s (i) - Ditentukan oleh bingkai tunggal "kunci pemicu", bergantung pada parameter seperti nada dan volume.

m (i) - tergantung pada frekuensi "kunci pemicu", atau singkatnya, kecepatan, dan ukuran serta kecepatan perubahan parameter s (i).

Misalnya: m (i) dan s (i) sangat berbeda untuk Eminem dan Adele, karena Eminem bernyanyi lebih cepat (sebenarnya, lebih cepat) , Sedangkan perubahannya kecil. Adele bernyanyi lebih lambat dan lebih banyak berubah.

Dengan mempertimbangkan daya pemrosesan dan konsumsi baterai, untuk koprosesor (32 lapisan) dan prosesor utama (192 lapisan), ukuran hierarki di DNN berbeda.

Meskipun fitur "Hey Siri!" Belum dipromosikan secara luas, ini merupakan langkah revolusioner menuju otomatisasi dan meningkatkan kemudahan penggunaan ponsel. Ini juga dapat dilihat sebagai contoh yang baik tentang bagaimana perubahan kecil dapat berdampak besar pada pengalaman pengguna, dan bahwa perubahan revolusioner kecil ini terkadang memerlukan penelitian ekstensif.

Tautan asli: https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

-Selesai-

Ikuti platform publik WeChat resmi dari Institut Ilmu Data Tsinghua-Qingdao " Pai Data AI "Dan nomor saudara perempuan" Data Pie THU "Dapatkan lebih banyak manfaat kuliah dan konten berkualitas.

Di mana menemukan data penelitian mahkota baru? Tempat yang harus dilihat untuk pekerja penelitian ilmiah (dengan tautan)

Sebelumnya

Pembelajaran mesin grafis: prinsip algoritme yang dapat dipahami semua orang

Lanjut