Penulis | Liu Yuchen, Zhang Jiajun
Artikel ini menjelaskan makalah laporan lisan "Pengenalan Ucapan Sinkron dan Terjemahan Ucapan ke Teks dengan Dekode Interaktif" yang diselesaikan oleh tim Zong Chengqing dan Zhang Jiajun dari Akademi Ilmu Pengetahuan China dan diterima oleh AAAI-20.
-
Makalah: https://arxiv.org/abs/1912.07240
Teknologi terjemahan ucapan mengacu pada proses penerjemahan otomatis dari ucapan satu bahasa ke ucapan atau teks bahasa lain dengan menggunakan komputer. Teknologi ini dapat digunakan secara luas di berbagai bidang dan skenario seperti pidato konferensi, pembicaraan bisnis, layanan pelanggan lintas batas, dan perjalanan ke luar negeri, serta memiliki nilai penelitian yang penting dan prospek aplikasi yang luas.
Dalam beberapa tahun terakhir, dengan perkembangan pesat teknologi kecerdasan buatan dalam pidato, terjemahan, dan bidang terkait lainnya, teknologi terjemahan ucapan secara bertahap telah menjadi topik hangat di kalangan akademis dan bisnis. Sistem terjemahan ucapan saat ini biasanya terdiri dari beberapa modul seperti pengenalan suara, terjemahan mesin, dan sintesis ucapan. Metodenya sederhana, tetapi menghadapi serangkaian masalah teknis seperti toleransi kebisingan, tanda baca jeda kalimat, dan penundaan waktu.
Model terjemahan ucapan ujung ke ujung secara teoritis dapat mengurangi kekurangan sistem kaskade. Model ini secara langsung menetapkan hubungan pemetaan antara ucapan bahasa sumber dan teks bahasa target untuk mencapai terjemahan lintas-modal dan lintas bahasa dalam satu langkah. Setelah teknologinya matang, secara teoritis dapat memungkinkan Terjemahan suara lebih akurat dan lebih cepat, yang sangat meningkatkan kinerja model. Kami menemukan bahwa dua tugas pengenalan ucapan dan terjemahan ucapan saling melengkapi.
Seperti yang ditunjukkan pada Gambar 1,
Gambar 1 Contoh interaksi pengenalan ucapan dan terjemahan ucapan Dibandingkan dengan input langsung dari ucapan asli, jika informasi teks yang dikenali dapat diperoleh secara dinamis, terjemahan ucapan akan menjadi lebih mudah; dan hasil terjemahan juga akan membantu menghilangkan pengenalan homophone. Divergence, membuat hasil pengenalan lebih akurat. Oleh karena itu, kami berharap dapat merancang model interaktif sehingga dua tugas pengenalan suara dan terjemahan ucapan dapat dipelajari secara interaktif dan terwujud dalam berbagi dan transfer pengetahuan.
metode
Menanggapi masalah di atas, mahasiswa doktoral Liu Yuchen, peneliti Zhang Jiajun, peneliti Zong Chengqing dan Baidu di Natural Language Processing Group dari Institute of Automation of the Chinese Academy of Sciences dan Baidu bersama-sama mengusulkan pengenalan suara sinkron dan model terjemahan ucapan berdasarkan decoding interaktif.
seperti terlihat pada gambar 2,
Gambar 2 Pengenalan ucapan sinkron dan terjemahan ucapan berdasarkan dekode interaktif
Kami menggunakan model Transformer yang didasarkan pada mekanisme perhatian-diri sebagai kerangka kerja utama. Tugas pengenalan ucapan dan tugas dekode terjemahan ucapan berbagi encoder yang sama, dan lapisan mekanisme perhatian interaktif ditambahkan ke dekoder untuk mewujudkan interaksi pengetahuan dan transfer dari dua tugas.
Seperti yang ditunjukkan pada Gambar 3,
Gambar 3 Lapisan mekanisme perhatian interaktif
Lapisan mekanisme perhatian interaktif berisi modul perhatian diri dan modul perhatian lintas tugas. Yang pertama digunakan untuk mengekstrak representasi fitur dari keluaran tugas saat ini, dan yang terakhir digunakan untuk mengekstrak representasi fitur dari keluaran tugas lain. Keduanya digabungkan oleh fungsi interpolasi linier untuk mendapatkan representasi fitur yang berisi dua informasi tugas.
Pada fase pelatihan, kedua tugas tersebut dioptimalkan secara bersamaan; pada fase decoding, kedua tugas tersebut dilakukan secara bersamaan. Dengan cara ini, dalam proses memprediksi kata berikutnya, kata yang dihasilkan dari tugas saat ini dan kata yang dihasilkan di tugas lain dapat digunakan. Untuk lebih meningkatkan kinerja terjemahan ucapan, kami mengadopsi metode menunggu-k, yang membuat tugas terjemahan ucapan tertunda oleh k kata dibandingkan dengan tugas pengenalan ucapan untuk mendapatkan informasi teks yang lebih andal sebagai bantuan.
Hasil percobaan
Saat ini, data terjemahan ucapan sangat langka dan berkualitas rendah. Oleh karena itu, kami telah membuat kumpulan data terjemahan ucapan baru. Kami merayapi file video dan subtitle dari situs web TED, mengekstrak audio, subtitle bahasa Inggris, dan subtitle terjemahan multi-bahasa, dan memperoleh korpus ucapan yang selaras, teks yang dikenali, dan teks terjemahan. Empat bahasa, Inggris-Jerman, Inggris-Prancis, Inggris-Mandarin, dan Inggris-Jepang digunakan di sini. Dua bahasa pertama adalah pasangan bahasa yang relatif mirip, dan dua bahasa terakhir adalah pasangan bahasa yang berbeda.
Hasil pengenalan ucapan dan terjemahan ucapan masing-masing diukur dengan tingkat kesalahan kata (WER) dan BLEU. Kami telah membandingkan dengan beberapa model dasar yang kuat, termasuk sistem kaskade (Pipeline) yang terdiri dari pengenalan ucapan dan model terjemahan mesin, model terjemahan ucapan (E2E) ujung ke ujung yang telah dilatih sebelumnya pada korpus pengenalan ucapan, pengenalan ucapan Bagikan model multi-tugas encoder dengan terjemahan ucapan, dan model dua tahap (dua tahap) (decoder tahap pertama digunakan untuk mendapatkan representasi perantara dari teks yang dikenali, dan decoder tahap kedua didasarkan pada representasi encoder Dan representasi perantara dari dekoder tahap pertama menghasilkan terjemahan yang sesuai).
Tabel 1 Hasil percobaan model yang berbeda pada beberapa pasangan bahasa
Tabel 1 menunjukkan pengenalan dan efek terjemahan dari model yang berbeda pada pasangan bahasa Inggris-Jerman, Inggris-Prancis, Inggris-Mandarin, dan Inggris-Jepang. Dapat dilihat bahwa dalam banyak kasus, kinerja pengenalan bahasa sinkron dan model terjemahan ucapan berdasarkan dekode interaktif secara signifikan lebih tinggi daripada model ujung-ke-ujung dan model multi-tugas yang dilatih sebelumnya dalam tugas pengenalan ucapan dan tugas terjemahan ucapan. Dan model dua tahap. Model yang didasarkan pada dekode interaktif pada pasangan bahasa yang mirip dapat melampaui sistem kaskade, dan juga sebanding dengan sistem kaskade pada pasangan bahasa yang berbeda. Perlu dicatat bahwa hampir semua model terjemahan ucapan ujung-ke-ujung sebelumnya sulit untuk mencapai kinerja sistem bertingkat.
Tabel 2 Dampak menunggu-k pada kinerja terjemahan
Untuk lebih meningkatkan kinerja terjemahan ucapan, kami membiarkan tugas terjemahan ucapan ditunda oleh k kata dibandingkan dengan tugas pengenalan ucapan untuk mendapatkan lebih banyak informasi teks sebagai bantuan. Tabel 2 menunjukkan dampak dari kata-kata tertunda yang berbeda pada set pengembangan dan set pengujian pada kinerja model. Dapat dilihat bahwa meskipun kata-kata yang tertunda akan sedikit mempengaruhi kinerja tugas pengenalan, kinerja tugas terjemahan ucapan dapat ditingkatkan.
Tabel 3 Parameter model, kecepatan pelatihan dan kecepatan decoding
Kami juga membandingkan parameter, pelatihan, dan kecepatan decoding model yang berbeda. Tabel 3 menunjukkan ukuran parameter model, jumlah langkah pelatihan per detik, dan jumlah kalimat yang diterjemahkan per detik. Terlihat bahwa model kami memiliki keseimbangan yang baik antara jumlah parameter dan laju decoding. Dibandingkan dengan sistem kaskade, jumlah parameter yang diperoleh sangat berkurang; tingkat pelatihan dan dekode jauh lebih rendah daripada model dua tahap; meskipun tingkat dekode sedikit lebih rendah daripada pra-pelatihan Model ujung-ke-ujung dan model multi-tugas, tetapi metode kami dapat mencapai decoding simultan dari dua tugas.
Untuk detail yang relevan, silakan merujuk ke makalah yang diterbitkan dalam konferensi akademis teratas tentang kecerdasan buatan AAAI2020:
Yuchen Liu, Jiajun Zhang, Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, dan Chengqing Zong. Pengenalan Ucapan Sinkron dan Terjemahan Ucapan-ke-Teks dengan InteractiveDecoding. AAAI-2020. (Tersedia di https: // arxiv .org / abs / 1912.07240)
Para sarjana di Youtube juga memperkenalkan karya kami: https://www.youtube.com/watch?v=ZgbUBmVFcBc
Laporan Tinjauan Teknologi AI Leifeng.com Leifeng.com Leifeng.com
- Today Paper | Sistem Tanya Jawab; bentuk dan postur manusia 3D; Deteksi pemalsuan wajah; AdderNet, dll.
- Debut "Induction Cooker Combination"! Lei Jun mengumumkan bahwa dia akan bergabung dengan Xiaomi secara teratur, ulang tahun pertama Lu Weibing
- Bisakah "data palsu" melatih model yang baik? Uber berkata: Tidak hanya itu mungkin, tetapi juga 9 kali lebih cepat
- Voting dimulai! Berpartisipasilah dalam pemungutan suara, dapatkan iPad gratis, kursus 1.000 yuan, dan penghargaan lainnya | pemberi kerja AI terbaik 2019-2020