AAAI 2020 | Institute of Automation, Chinese Academy of Sciences: Buat model terjemahan suara yang lebih baik melalui interaksi pengenalan dan terjemahan

Penulis | Liu Yuchen, Zhang Jiajun

Artikel ini menjelaskan makalah laporan lisan "Pengenalan Ucapan Sinkron dan Terjemahan Ucapan ke Teks dengan Dekode Interaktif" yang diselesaikan oleh tim Zong Chengqing dan Zhang Jiajun dari Akademi Ilmu Pengetahuan China dan diterima oleh AAAI-20.

Makalah: https://arxiv.org/abs/1912.07240

Teknologi terjemahan ucapan mengacu pada proses penerjemahan otomatis dari ucapan satu bahasa ke ucapan atau teks bahasa lain dengan menggunakan komputer. Teknologi ini dapat digunakan secara luas di berbagai bidang dan skenario seperti pidato konferensi, pembicaraan bisnis, layanan pelanggan lintas batas, dan perjalanan ke luar negeri, serta memiliki nilai penelitian yang penting dan prospek aplikasi yang luas.

Dalam beberapa tahun terakhir, dengan perkembangan pesat teknologi kecerdasan buatan dalam pidato, terjemahan, dan bidang terkait lainnya, teknologi terjemahan ucapan secara bertahap telah menjadi topik hangat di kalangan akademis dan bisnis. Sistem terjemahan ucapan saat ini biasanya terdiri dari beberapa modul seperti pengenalan suara, terjemahan mesin, dan sintesis ucapan. Metodenya sederhana, tetapi menghadapi serangkaian masalah teknis seperti toleransi kebisingan, tanda baca jeda kalimat, dan penundaan waktu.

Model terjemahan ucapan ujung ke ujung secara teoritis dapat mengurangi kekurangan sistem kaskade. Model ini secara langsung menetapkan hubungan pemetaan antara ucapan bahasa sumber dan teks bahasa target untuk mencapai terjemahan lintas-modal dan lintas bahasa dalam satu langkah. Setelah teknologinya matang, secara teoritis dapat memungkinkan Terjemahan suara lebih akurat dan lebih cepat, yang sangat meningkatkan kinerja model. Kami menemukan bahwa dua tugas pengenalan ucapan dan terjemahan ucapan saling melengkapi.

Seperti yang ditunjukkan pada Gambar 1,

Gambar 1 Contoh interaksi pengenalan ucapan dan terjemahan ucapan Dibandingkan dengan input langsung dari ucapan asli, jika informasi teks yang dikenali dapat diperoleh secara dinamis, terjemahan ucapan akan menjadi lebih mudah; dan hasil terjemahan juga akan membantu menghilangkan pengenalan homophone. Divergence, membuat hasil pengenalan lebih akurat. Oleh karena itu, kami berharap dapat merancang model interaktif sehingga dua tugas pengenalan suara dan terjemahan ucapan dapat dipelajari secara interaktif dan terwujud dalam berbagi dan transfer pengetahuan.

metode

Menanggapi masalah di atas, mahasiswa doktoral Liu Yuchen, peneliti Zhang Jiajun, peneliti Zong Chengqing dan Baidu di Natural Language Processing Group dari Institute of Automation of the Chinese Academy of Sciences dan Baidu bersama-sama mengusulkan pengenalan suara sinkron dan model terjemahan ucapan berdasarkan decoding interaktif.

seperti terlihat pada gambar 2,

Gambar 2 Pengenalan ucapan sinkron dan terjemahan ucapan berdasarkan dekode interaktif

Kami menggunakan model Transformer yang didasarkan pada mekanisme perhatian-diri sebagai kerangka kerja utama. Tugas pengenalan ucapan dan tugas dekode terjemahan ucapan berbagi encoder yang sama, dan lapisan mekanisme perhatian interaktif ditambahkan ke dekoder untuk mewujudkan interaksi pengetahuan dan transfer dari dua tugas.

Seperti yang ditunjukkan pada Gambar 3,

Gambar 3 Lapisan mekanisme perhatian interaktif

Lapisan mekanisme perhatian interaktif berisi modul perhatian diri dan modul perhatian lintas tugas. Yang pertama digunakan untuk mengekstrak representasi fitur dari keluaran tugas saat ini, dan yang terakhir digunakan untuk mengekstrak representasi fitur dari keluaran tugas lain. Keduanya digabungkan oleh fungsi interpolasi linier untuk mendapatkan representasi fitur yang berisi dua informasi tugas.

Pada fase pelatihan, kedua tugas tersebut dioptimalkan secara bersamaan; pada fase decoding, kedua tugas tersebut dilakukan secara bersamaan. Dengan cara ini, dalam proses memprediksi kata berikutnya, kata yang dihasilkan dari tugas saat ini dan kata yang dihasilkan di tugas lain dapat digunakan. Untuk lebih meningkatkan kinerja terjemahan ucapan, kami mengadopsi metode menunggu-k, yang membuat tugas terjemahan ucapan tertunda oleh k kata dibandingkan dengan tugas pengenalan ucapan untuk mendapatkan informasi teks yang lebih andal sebagai bantuan.

Hasil percobaan

Saat ini, data terjemahan ucapan sangat langka dan berkualitas rendah. Oleh karena itu, kami telah membuat kumpulan data terjemahan ucapan baru. Kami merayapi file video dan subtitle dari situs web TED, mengekstrak audio, subtitle bahasa Inggris, dan subtitle terjemahan multi-bahasa, dan memperoleh korpus ucapan yang selaras, teks yang dikenali, dan teks terjemahan. Empat bahasa, Inggris-Jerman, Inggris-Prancis, Inggris-Mandarin, dan Inggris-Jepang digunakan di sini. Dua bahasa pertama adalah pasangan bahasa yang relatif mirip, dan dua bahasa terakhir adalah pasangan bahasa yang berbeda.

Hasil pengenalan ucapan dan terjemahan ucapan masing-masing diukur dengan tingkat kesalahan kata (WER) dan BLEU. Kami telah membandingkan dengan beberapa model dasar yang kuat, termasuk sistem kaskade (Pipeline) yang terdiri dari pengenalan ucapan dan model terjemahan mesin, model terjemahan ucapan (E2E) ujung ke ujung yang telah dilatih sebelumnya pada korpus pengenalan ucapan, pengenalan ucapan Bagikan model multi-tugas encoder dengan terjemahan ucapan, dan model dua tahap (dua tahap) (decoder tahap pertama digunakan untuk mendapatkan representasi perantara dari teks yang dikenali, dan decoder tahap kedua didasarkan pada representasi encoder Dan representasi perantara dari dekoder tahap pertama menghasilkan terjemahan yang sesuai).

Tabel 1 Hasil percobaan model yang berbeda pada beberapa pasangan bahasa

Tabel 1 menunjukkan pengenalan dan efek terjemahan dari model yang berbeda pada pasangan bahasa Inggris-Jerman, Inggris-Prancis, Inggris-Mandarin, dan Inggris-Jepang. Dapat dilihat bahwa dalam banyak kasus, kinerja pengenalan bahasa sinkron dan model terjemahan ucapan berdasarkan dekode interaktif secara signifikan lebih tinggi daripada model ujung-ke-ujung dan model multi-tugas yang dilatih sebelumnya dalam tugas pengenalan ucapan dan tugas terjemahan ucapan. Dan model dua tahap. Model yang didasarkan pada dekode interaktif pada pasangan bahasa yang mirip dapat melampaui sistem kaskade, dan juga sebanding dengan sistem kaskade pada pasangan bahasa yang berbeda. Perlu dicatat bahwa hampir semua model terjemahan ucapan ujung-ke-ujung sebelumnya sulit untuk mencapai kinerja sistem bertingkat.

Tabel 2 Dampak menunggu-k pada kinerja terjemahan

Untuk lebih meningkatkan kinerja terjemahan ucapan, kami membiarkan tugas terjemahan ucapan ditunda oleh k kata dibandingkan dengan tugas pengenalan ucapan untuk mendapatkan lebih banyak informasi teks sebagai bantuan. Tabel 2 menunjukkan dampak dari kata-kata tertunda yang berbeda pada set pengembangan dan set pengujian pada kinerja model. Dapat dilihat bahwa meskipun kata-kata yang tertunda akan sedikit mempengaruhi kinerja tugas pengenalan, kinerja tugas terjemahan ucapan dapat ditingkatkan.

Tabel 3 Parameter model, kecepatan pelatihan dan kecepatan decoding

Kami juga membandingkan parameter, pelatihan, dan kecepatan decoding model yang berbeda. Tabel 3 menunjukkan ukuran parameter model, jumlah langkah pelatihan per detik, dan jumlah kalimat yang diterjemahkan per detik. Terlihat bahwa model kami memiliki keseimbangan yang baik antara jumlah parameter dan laju decoding. Dibandingkan dengan sistem kaskade, jumlah parameter yang diperoleh sangat berkurang; tingkat pelatihan dan dekode jauh lebih rendah daripada model dua tahap; meskipun tingkat dekode sedikit lebih rendah daripada pra-pelatihan Model ujung-ke-ujung dan model multi-tugas, tetapi metode kami dapat mencapai decoding simultan dari dua tugas.

Untuk detail yang relevan, silakan merujuk ke makalah yang diterbitkan dalam konferensi akademis teratas tentang kecerdasan buatan AAAI2020:

Yuchen Liu, Jiajun Zhang, Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, dan Chengqing Zong. Pengenalan Ucapan Sinkron dan Terjemahan Ucapan-ke-Teks dengan InteractiveDecoding. AAAI-2020. (Tersedia di https: // arxiv .org / abs / 1912.07240)

Para sarjana di Youtube juga memperkenalkan karya kami: https://www.youtube.com/watch?v=ZgbUBmVFcBc

Laporan Tinjauan Teknologi AI Leifeng.com Leifeng.com Leifeng.com

VPF: Kerangka pemrosesan video sumber terbuka untuk Python yang mempercepat tugas video dan meningkatkan pemanfaatan GPU

Sebelumnya

Tencent menanggapi "pemutusan hubungan kerja yang hebat"; Apple jarang berpartisipasi dalam CES; Samsung berencana untuk memproduksi chip 3nm pertama Lei Feng Morning Post

Lanjut

: Tmall Elf "meninggalkan" AI Labs, IoT "menyatu" ke cloud

: Tiga tahun setelah ditinggalkan, Imagination dan Apple bersatu kembali

: Enam kata kunci chip AI pada 2019 dan empat tren pada 2020

: Today Paper | Sistem Tanya Jawab; bentuk dan postur manusia 3D; Deteksi pemalsuan wajah; AdderNet, dll.

: Berat! Akademi Ali Dharma merilis `` Sepuluh Tren Teknologi Teratas di 2020 ''

: Debut "Induction Cooker Combination"! Lei Jun mengumumkan bahwa dia akan bergabung dengan Xiaomi secara teratur, ulang tahun pertama Lu Weibing

: Rencana pemotongan pra-pasar pada 10 April

: Lima buku yang harus dibaca investor muda

: Bisakah "data palsu" melatih model yang baik? Uber berkata: Tidak hanya itu mungkin, tetapi juga 9 kali lebih cepat

: Voting dimulai! Berpartisipasilah dalam pemungutan suara, dapatkan iPad gratis, kursus 1.000 yuan, dan penghargaan lainnya | pemberi kerja AI terbaik 2019-2020

: Interpretabilitas jaringan saraf, metode pembelajaran mendalam baru, apa tren penelitian AI yang luar biasa pada tahun 2020?

: Penelitian dan pengembangan "mengatasi yang tangguh" dan menggerogoti tulang "biaya" yang keras, Zhixingzhe meluncurkan kit produksi massal autopilot L4 berkecepatan rendah

AAAI 2020 | Institute of Automation, Chinese Academy of Sciences: Buat model terjemahan suara yang lebih baik melalui interaksi pengenalan dan terjemahan

metode

Hasil percobaan

Informasi Terkait

Film "Tank News" "Pet Love": Hewan yang tidak dapat disempurnakan setelah pendirian Republik Rakyat Tiongkok ada di sini

Roti, kopi, dan bir, makanan ini lebih sehat dari yang Anda kira

36Kr Reading | Daftar Buku Investor Triwulan Pertama: Menghadapi Ketidakpastian, Mereka Mencari Ke Dalam

Laporan Mingguan Venture Capital Vol.59 | Ruixing Exposes Financial Fraud Disebabkan oleh Pembukaan Fuse, 31 Proyek Pembiayaan Besar dan 10 Proyek Awal yang Layak Menjadi Perhatian

Analisis Fokus | "The Sideburns Are Not Begonia Red" juga populer, tapi "Dangai Opera" masih dilarang untuk memiliki cinta

Analisis fokus | Lei Jun tahu takdir, bagaimana Xiaomi akan bergerak menuju dekade berikutnya

7 Buku Bisnis Hebat yang Wajib Dibaca Para Pengusaha

Shengli Street mengadakan kelas cloud pembangunan komunitas pertama

Legenda Wisata Budaya Binzhou "3" gagal mencetak ulang "Pertempuran Jingnan", Le'an berubah menjadi Wuding

Makalah Hari Ini | Deteksi Berita Palsu; Proses Keputusan Markov; Pengenalan Teks Adegan; Kerangka Teori Game, dll.