Sumber: Big Data Digest

Artikel ini adalah tentang 2297 kata , Dianjurkan untuk membaca 5 menit

Artikel ini memperkenalkan bahwa bos AI Daniel Whitenack menggunakan metode multibahasa tanpa pengawasan untuk melatih vektor kata lintas bahasa di lebih dari 500 bahasa, dan menghasilkan terjemahan frasa "cuci tangan" dalam 510 bahasa melalui ekstraksi.

Ada berapa bahasa di dunia ini?

7117 jenis . Ya, ini bukan dialek, tapi bahasa yang digunakan.

Pembawa transmisi informasi manusia adalah bahasa, dan komunikasi antara bahasa yang berbeda bergantung pada terjemahan.Misalnya, dalam pencegahan dan pengendalian epidemi, Organisasi Kesehatan Dunia mengeluarkan pengumuman di situs resminya yang meminta setiap orang untuk sering mencuci tangan untuk mencegah infeksi.

Sebagai organisasi internasional, bahasa default yang digunakan di sini adalah bahasa Inggris, tetapi ada juga tempat untuk mengganti bahasa di sudut kanan atas situs web, menyediakan 6 bahasa termasuk bahasa Cina untuk dipilih.

Meskipun 6 bahasa ini mencakup lebih dari 3,5 miliar orang di dunia, mereka jelas masih jauh dari cukup.

Mencari software terjemahan? Mengambil Google Terjemahan, yang paling banyak diterapkan di dunia, itu hanya dapat mendukung Lebih dari 100 bahasa , Juga merupakan sebagian kecil dari bahasa yang ada.

Berita tentang epidemi global seperti rilis WHO pasti diharapkan dapat menjangkau lebih banyak orang, namun saat ini banyak daerah yang menghadapi kendala bahasa yang menghambat penyebaran informasi, meskipun mereka hanya ingin menyuruh orang untuk sering mencuci tangan.

Untuk memungkinkan lebih banyak orang memahami pentingnya mencuci tangan, bos AI bernama Daniel Whitenack menggunakan metode multibahasa tanpa pengawasan untuk Latih vektor kata lintas bahasa dalam lebih dari 500 bahasa , Dan kemudian ekstrak dari dokumen bahasa target yang ada "cuci tangan ", lalu gabungkan bagian ini untuk menghasilkan frasa" cuci tangan "dalam 510 bahasa.

Daniel menggunakan perpustakaan MUSE (Multilingual Unsupervised and Supervised Embeddings) yang dikembangkan oleh Facebook untuk melatih 544 vektor kata lintas bahasa dan bahasa Inggris, dan vektor ini memungkinkan ekstraksi frase target "mencuci tangan" dari dokumen yang ada. frasa.

Daniel bekerja dengan kolega dari komunitas bahasa SIL International untuk menyelesaikan pekerjaan ini, dan hasilnya dapat dilihat di halaman panduan Ethnologue Panduan virus corona baru dengan 454 terjemahan.

tautan:

https://www.ethnologue.com/guides/health

Mari kita lihat bagaimana dia melakukannya dengan data bakteria!

Bongkar "cuci kaki" dan "tangan Anda" menjadi "cuci tangan"

Pertama-tama, SIL International telah menyelesaikan pekerjaan semantik dalam lebih dari 2.000 bahasa dan saat ini mengelola dokumen proyek dalam lebih dari 1.600 bahasa. Jadi saya pikir mereka mungkin telah menerjemahkan "cuci tangan" atau frasa serupa ke dalam ratusan bahasa berkali-kali. Dugaan ini telah dikonfirmasi!

Jadi saya dapat dengan cepat mengumpulkan dokumen dari 900 lebih arsip bahasa kami, terutama bahan ajar lengkap dan Alkitab. Masing-masing dokumen ini memiliki terjemahan bahasa Inggris, yang harus mengandung frasa "mencuci tangan" atau frasa serupa, seperti "mencuci muka". Selain itu, dokumen-dokumen ini berkualitas tinggi, dan telah diterjemahkan serta diverifikasi bekerja sama dengan komunitas bahasa setempat.

Dataset bahasa sekarang tersedia!

Namun, ada dua masalah yang harus diatasi di sini. Pertama-tama, data ini hanya memiliki ribuan sampel dalam banyak bahasa. Terlalu sedikit dibandingkan dengan jutaan sampel yang digunakan untuk melatih model terjemahan mesin Kedua, meskipun dokumen itu mengandung kata "cuci tangan" dalam bahasa target, kami tetap melakukannya Tidak tahu lokasi pasti kata tersebut di teks sekitarnya .

Untuk kumpulan data bahasa sumber daya rendah, tentu saja kami dapat menggunakan beberapa teknologi terbaru dalam terjemahan mesin, tetapi perlu beberapa waktu untuk menyesuaikan metode otomatis agar cepat beradaptasi dengan model terjemahan di setiap pasangan bahasa. Selain itu, banyak bahasa yang kami targetkan tidak memiliki tolok ukur yang ada, dan dapat dibandingkan dengan indikator evaluasi, seperti skor BLEU.

Jadi saya memilih untuk mencoba Bangun istilah "cuci tangan" dengan menemukan frasa itu sendiri atau bagian dari frasa (seperti "cuci tangan" atau "tangan Anda") di dokumen yang ada .

Untuk menemukannya, saya menggunakan perpustakaan Multilingual Unsupervised and Supervised Embedding (MUSE) dari Facebook Research untuk melatih setiap vektor kata lintas bahasa. MUSE mengambil vektor kata satu bahasa sebagai input (saya menggunakan fasttext untuk menghasilkan vektor ini) dan menggunakan metode adversarial untuk mempelajari pemetaan dari bahasa Inggris ke ruang vektor target. Output dari proses ini adalah vektor kata lintas bahasa.

Setelah vektor kata lintas bahasa dihasilkan, kita dapat menemukan frasa tersebut dalam dokumen bahasa target. Ternyata kata "mencuci muka" dan contoh terpisah dari "tangan" dan "mencuci tangan" digunakan dengan sangat jelas di seluruh dokumen.

Untuk setiap bahasa, saya mencari N-gram di wilayah di mana frasa diharapkan (berdasarkan penggunaan dalam pencocokan paralel bahasa Inggris). N-gram adalah vektorisasi menggunakan vektor kata lintas bahasa, dan berbagai ukuran jarak digunakan untuk membandingkannya dengan versi vektor dari frasa bahasa Inggris. N-gram dalam ruang vektor yang paling dekat dengan frasa bahasa Inggris ditentukan sebagai kecocokan bahasa target.

Terakhir, frasa konstituen yang cocok dengan padanan bahasa Inggrisnya digabungkan untuk menghasilkan frasa "cuci tangan" dalam bahasa target. Kombinasi ini sekali lagi menggunakan vektor lintas bahasa untuk memastikan kombinasi yang tepat.

Misalnya, jika kita mencocokkan frase "washing feet" dalam bahasa target, kita harus mengganti N-gram yang sesuai dengan "feet" dengan N-gram yang sesuai dengan "hand", di bawah ini adalah Belize Creo Contoh bahasa Inggris Belize Kriol:

Tentu saja, kami membuat beberapa asumsi selama proses pencocokan ini, sehingga proses ini mungkin tidak menghasilkan prediksi yang benar secara tata bahasa. Sebagai contoh, saya berasumsi bahwa dalam kebanyakan bahasa, kata "tangan" dan kata "kaki" adalah satu kata yang panjang (kata-kata dipisahkan oleh spasi dan tanda baca). Asumsi ini harus berbeda dari kenyataan. Di masa mendatang, kami dapat mengatasi beberapa keterbatasan ini dan memperluas sistem, tetapi untuk saat ini, metode ini dapat memberikan hasil terjemahan multibahasa yang relatif dapat diandalkan tanpa dukungan sistem terjemahan.

Jelajahi metode terjemahan frasa dalam kondisi data rendah

Sejauh ini, saya telah mampu melatih vektor kata lintas bahasa untuk 544 bahasa, dan saya menggunakan metode di atas untuk mencoba mencari tahu bagaimana arti bahasa-bahasa ini "cuci tangan".

Karena kurangnya data yang konsisten untuk banyak pasangan bahasa, saya menggunakan dokumen terpisah yang ditahan, yang juga berisi komponen "cuci tangan" untuk membantu memverifikasi tag dalam frasa yang dibuat.

Berikut ini adalah contoh terjemahan dari statistik bahasa Ethnologue:

Frase yang dibangun mirip dengan terjemahan referensi, atau ekspresi alternatif dari "cuci tangan." Misalnya, dalam bahasa Bulgaria, saya memprediksi "", dan di Google Terjemahan, saya memprediksi "". Namun, jika saya menggunakan Google Translate untuk menerjemahkan kembali prediksi saya, saya masih mendapatkan "cuci tangan".

Di bawah ketidakpastian tertentu, saya tidak dapat membandingkan dengan terjemahan referensi (misalnya, Pijin di Kepulauan Solomon atau kategori dengan penjelasan manual, tetapi saya masih dapat memverifikasi perbedaan antara "mencuci" (wasim) dan "tangan" (han) Digunakan dalam dokumen referensi lain yang selalu berbicara tentang mencuci atau tangan. Sekitar 15% terjemahan dapat diverifikasi dengan metode ini, dan saya berharap lebih banyak verifikasi dapat dilakukan saat mengumpulkan kamus referensi.

Harap perhatikan bahwa bahkan untuk bahasa sumber daya tinggi seperti Italia, saya menggunakan paling banyak sekitar 7000 kalimat dalam setiap bahasa untuk mendapatkan terjemahan di atas, dan saya tidak mengandalkan penyelarasan kalimat di antara pasangan bahasa. Meskipun ada data yang sangat langka dan skenario yang tidak diawasi, untuk bahasa yang didukung oleh kedua sistem, saya masih bisa mendapatkan frasa dengan kualitas yang mirip dengan Google Terjemahan.

Sampai batas tertentu, ini membuktikan bahwa metode "hibrid" yang saya gunakan (penyelarasan vektor kata tanpa pengawasan + pencocokan berbasis aturan) efektif dalam menerjemahkan frasa ke dalam bahasa dengan sedikit data. .

Laporan terkait:

https://datadan.io/blog/wash-your-hands

-Selesai-

Ikuti platform publik WeChat resmi dari Institut Ilmu Data Tsinghua-Qingdao " Pai Data AI "Dan nomor saudara perempuan" Data Pie THU "Dapatkan lebih banyak manfaat kuliah dan konten berkualitas.

Mesin terjemahan pertama di dunia telah kembali dari evolusi, dan "detail gila" menangani dialek China klasik

Sebelumnya

Tim AI Tsinghua meluncurkan platform keamanan AI untuk menipu algoritme bagian atas dan kemudian memperbaiki kerentanan dengan kuat

Lanjut

: Batasan keputusan berbagai model pembelajaran mesin (dengan kode)

: Robot kecil membantu mengambil! Taman Sains dan Teknologi Zhongguancun Dongsheng, "senjata pencegahan" ini membantu melanjutkan pekerjaan dan produksi

: Pipa pemanas tidak panas, pipa air bocor ... "tim parkour" komunitas memperbaiki lebih dari 1.000 kali dalam 60 hari

: Bagaimana Anda mengevaluasi "Properti Sains dan Inovasi" dari Dewan Inovasi Sains dan Teknologi? Panduan SFC ada di sini

: Chen Yixin: Perang pertahanan Wuhan telah memasuki tahap baru pertempuran dan kemenangan yang menentukan

: Jam tangan pintar pertama OPPO OPPO Watch akan diluncurkan, dengan harga atau mendekati 3.000 yuan

: Kehidupan di Zhouzhuang Kota ini di musim semi lagi, hujan berkabut turun ke selatan

: Reporter CCTV menyaksikan lokasi kecelakaan Iran, lebih detail diumumkan

: Kementerian Pertanian dan Pedesaan: Pasokan dan permintaan daging babi diharapkan secara umum stabil selama Festival Musim Semi

: Apakah bahasa latihan militer gabungan Sino-Pakistan tidak jelas? Masih menundukkan "teroris" dalam sepuluh menit

: Di mana menemukan sastra asing? Unduh gratis dari delapan situs web utama!

: Ini mungkin aset yang lebih berharga daripada rumah? Metode tujuh langkah untuk membangun model evaluasi nilai aset data

Sebarkan "informasi" bukan "virus"! Programmer menerjemahkan "cuci tangan" ke lebih dari 500 bahasa

Bongkar "cuci kaki" dan "tangan Anda" menjadi "cuci tangan"

Jelajahi metode terjemahan frasa dalam kondisi data rendah

Informasi Terkait

Penerapan model negatif sampling berdasarkan grafik pengetahuan dalam sistem rekomendasi (open source)

Ajari Anda untuk menggunakan jaringan saraf untuk menyelesaikan persamaan matematika tingkat lanjut!

Google Terjemahan dihancurkan! Mesin terjemahan pertama di dunia, DeepL, telah kembali, dan "detail gila" telah selesai

Mengirimi Anda 16 tip praktis untuk menggambar matplotlib (kode terlampir)

University of Science and Technology of China × MSRA | Catatan Kuliah Dr. Zhou Ming: Pemrosesan Bahasa Alami Membuat Hidup Lebih Baik

Tonggak sejarah yang "menyeramkan": AI ilmuwan China menerjemahkan gelombang otak dengan akurasi 97%

Di mana menemukan data penelitian mahkota baru? Tempat yang harus dilihat untuk pekerja penelitian ilmiah (dengan tautan)

Teknologi hitam di balik "Hey Siri" terungkap!

Pembelajaran mesin grafis: prinsip algoritme yang dapat dipahami semua orang

Menggunakan gerbang logika protein untuk mengubah sel menjadi komputer, cendekiawan muda Tiongkok belajar tentang Sains