Google mengusulkan algoritme pengoptimalan urutan kedua untuk "sampo", yang mengurangi waktu pelatihan Transformer sebesar 40%

Xiaocha dari kuil cekung Laporan Qubit | Akun Publik QbitAI

Langkah-langkah pengoptimalan pembelajaran mesin saat ini didominasi oleh metode orde pertama.

Apakah itu SGD atau Adam, jenis algoritme pengoptimalan ini menghitung turunan pertama dari fungsi kerugian-gradien, dan kemudian membuat bobot beriterasi di sepanjang arah gradien dengan cara yang ditentukan.

Faktanya, gradien kedua memiliki karakteristik yang lebih baik, karena merupakan turunan dari gradien yang dihitung, yang dapat menemukan arah dan kecepatan penurunan yang paling sesuai dengan lebih cepat.

Namun karena pertimbangan perhitungan dan biaya penyimpanan, algoritma optimasi orde kedua jarang digunakan.

Baru-baru ini, Google Brain telah mengusulkan metode preprocessing orde kedua baru, yang membawa peningkatan besar dan lebih unggul dari algoritme orde pertama seperti SGD, Adam, dan AdaGrad, dan mempersingkat waktu pelatihan jaringan neural.

Ini jauh lebih cepat daripada metode orde pertama dalam tugas pelatihan Transformer, dan dapat mencapai akurasi yang sama atau bahkan lebih tinggi. Bahkan Jeff Dean tidak bisa membantu tetapi suka di Twitter.

Algoritme "sampo"

Artikel ini didasarkan pada metode orde kedua sebelumnya Algoritma sampo (Algoritma sampo) membuat peningkatan praktis.

Mengapa disebut "algoritma sampo"? Ini sebenarnya adalah istilah lucu untuk algoritme semacam itu. Slogan sampo umumnya adalah "menggosok, membilas, mengulang", yang berarti pengulangan sederhana yang tak terbatas, yang akhirnya mengarah pada botol sampo yang habis.

Dan algoritma ini digunakan untuk pengoptimalan pembelajaran mesin. Ini pertama kali berasal dari artikel yang disertakan oleh penulis terkait Yoram Singer di ICML pada tahun 2018. Shampoo: Pengoptimalan Tensor Stochastic yang Telah Dikondisikan .

Algoritme sampo perlu melacak 2 Prekondisi (Preconditioner) nilai statistik Lt dan Rt.

Kemudian hitung akar keempat dari kedua operator pengkondisian awal ini dan temukan inversnya. Kalikan kedua matriks ini masing-masing ke kiri dan ke kanan untuk mendapatkan gradien dari langkah t + 1 lalu dapatkan rumus berikut:

Proses di atas tidak terlihat seperti pengulangan yang sederhana, sehingga penulis menyebut dirinya "sampo".

Makalah 2018 lebih berfokus pada penjelasan teoritis, tetapi bahkan langkah "mencuci rambut" yang sederhana akan menghadapi banyak kesulitan dalam aplikasi praktis.

Jumlah penghitungan terbesar pada langkah ini berasal dari Lt-1/4 dan Rt-1/4. Menghitung kedua angka ini membutuhkan dekomposisi nilai singular yang mahal.

Nyatanya, akar invers orde empat dapat dihitung tidak hanya dengan metode SVD, tetapi juga dengan algoritma Schur-Newton, dan seiring dengan bertambahnya dimensi matriks, metode yang terakhir menghemat lebih banyak waktu.

Metode Shure-Newton dapat dihitung pada CPU biasa tanpa menggunakan sumber daya komputasi akselerator jaringan saraf seperti GPU dan TPU.

Namun demikian, menghitung invers dari matriks root masih cukup memakan waktu. Jika masalah ini tidak teratasi, kecepatan latihan tidak dapat ditingkatkan.

Jadi penulis menggunakan metode perhitungan asynchronous dan menggunakan Lingvo di TensorFlow untuk meningkatkan training loop.

CPU bertanggung jawab untuk mengumpulkan dan memproses data pelatihan dan aktivitas tambahan seperti pos pemeriksaan dan ringkasan status pelatihan. Saat GPU, TPU, dan akselerator lainnya menjalankan siklus pelatihan, mereka biasanya dalam status idle atau pemanfaatan rendah, dan secara otomatis menyediakan penghitungan presisi ganda.

Hal ini membuat mereka ideal untuk menghitung operator yang mengkondisikan sebelumnya tanpa menambah sumber daya yang dikonsumsi oleh pelatihan.

Gunakan kalkulasi asinkron

Mereka menghitung operator prakondisi dari semua tensor di setiap langkah, tetapi gradien pra-pemrosesan dihitung setiap langkah N dan diproses oleh CPU.

Selama periode ini, GPU atau TPU masih menghitung, dan operator pra-kondisi sebelumnya akan digunakan dalam proses pelatihan hingga diperoleh operator pra-pelatihan yang diperbarui.

Proses kalkulasi seperti pipeline dan berjalan secara asinkron tanpa memblokir loop pelatihan. Hasilnya adalah langkah tersulit dalam algoritme sampo hampir tidak meningkatkan total waktu pelatihan.

Ini saja tidak cukup. Penulis telah melakukan beberapa perbaikan pada algoritme sampo sehingga dapat beradaptasi dengan pelatihan model besar. Termasuk arah dan ukuran langkah decoupling, pemrosesan awal tensor besar, dan pembagian tensor besar menjadi beberapa blok.

67% peningkatan kecepatan

Dalam tugas pelatihan Transformer dari terjemahan WMT'14 Bahasa Inggris ke Bahasa Prancis, algoritme mencapai percepatan 1,67 kali dan mengurangi waktu sebesar 40%.

Jika algoritme sampo memiliki keakuratan yang sama dengan Adam atau AdaGrad, hanya dua yang terakhir yang perlu mencapai sekitar setengah keakuratan AdaGrad atau Adam dalam banyak langkah, dan kecepatan pemelajaran lebih toleran daripada AdaGrad.

Pada kalkulasi asynchronous sebelumnya, N adalah parameter yang dapat diatur yang menentukan jumlah kalkulasi untuk pelatihan. Semakin besar N, semakin kecil jumlah kalkulasi. Tentu saja, N juga akan mempengaruhi hasil. Kita perlu melakukan trade-off antara kinerja proses pelatihan dan kualitas hasilnya.

Eksperimen menunjukkan bahwa metode ini dapat menahan penundaan hingga 1200 langkah tanpa menyebabkan penurunan kualitas yang signifikan.

Shampo juga dapat digunakan dalam tugas klasifikasi gambar.

Penulis juga melatih model ResNet-50 pada kumpulan data ImageNet-2012. Hasilnya lebih cepat daripada SGD yang digerakkan oleh momentum, tetapi kerugian pelatihannya mirip dengan SGD, tetapi efeknya pada set pengujian tidak sebaik yang terakhir.

Adapun kekurangan dalam kemampuan generalisasi, algoritma shampoo perlu ditingkatkan lebih lanjut.

Alamat kertas:

https://arxiv.org/abs/2002.09018

https://arxiv.org/abs/1802.09568

- Selesai -

Qubit QbitAI · Toutiao Signing Author

'' Lacak tren baru dalam produk dan teknologi AI

Lanskap tiga dimensi berubah menjadi animasi Hayao Miyazaki dalam hitungan detik, dan itu juga dapat mengubah Rimi Ishihara menjadi Ghibli | Open Source

Sebelumnya

Tencent Tsinghua merilis pencapaian terbaru di bidang infrastruktur baru: layanan diagnostik AI peralatan baterai pusat data

Lanjut

: Donor darah gratis mencapai 29.840 ml. Lebih dari 100 tenaga medis di Gongshu "bantu pertempuran"

: "Modal Komoditas Kecil" dunia menyambut 245 pengusaha asing dari 41 negara ke Yiwu untuk "membeli barang"

: Tinggal di rumah! Volkswagen mereproduksi pameran mobil 1: 1 online

: Weilai Automobile mengirimkan total 1.533 kendaraan pada bulan Maret, total volume kuartal pertama melebihi ekspektasi

: Tantang peringkat "Raja" dari CLA! Seri 2 Gran Coupe sangat menantang. Siapa yang harus saya pilih untuk olahraga kepribadian?

: Penjualan Chevrolet Bolt EV di Amerika Utara mencapai rekor tertinggi, hampir 6.000 unit terjual di Q1

: Apakah Anda ingat BMW 2 Series Touring? Interior yang diperbarui sama dengan seri 3 baru

: Wuhan, saya akan terus melindungi Anda

: Pilihan terbaik untuk ngelaju! Tak lagi takut telat macet dengan mobil ini

: Foto mata-mata domestik BMW Seri 4 baru telah terungkap Selain ginjal gril yang lebih besar, perubahan apa yang telah dilakukan?

: Lampu depan split, knalpot di mana-mana, SUV berukuran sedang ini mungkin kurang dari 100.000

: Pesanan Anda telah dikirim. SUV baru ini akan dikirim akhir bulan

Google mengusulkan algoritme pengoptimalan urutan kedua untuk "sampo", yang mengurangi waktu pelatihan Transformer sebesar 40%

Algoritme "sampo"

Gunakan kalkulasi asinkron

67% peningkatan kecepatan

Informasi Terkait

Semuanya bisa menjadi cincin kebugaran, NAIK adalah ledakan utama untuk mengubah sakelar: "Legenda Zelda Wilderness" Tangguh "

Yu Chengdong: Di China, Anda dapat mengambil foto dan mengukur suhu tubuh dengan Huawei P40 Pro +, yang juga sangat akurat

Bahaya epidemi, dan peluang bagi dua jenis kendaraan tak berawak untuk mendarat | Berbagi seri Lokakarya Inovasi "Pasca-epidemi"

Tencent open source algoritma penilaian kualitas video domestik pertama DVQA, dan konferensi Tencent menggunakannya

Investasi US $ 200 juta + layanan perangkat lunak dan perangkat keras baru! Huawei mempercepat pembangunan ekosistem industri komputasi

Hapus petugas keamanan dan hanya mengandalkan pengemudi AI untuk menghasilkan uang. Saya tidak berharap perusahaan ini yang memimpin

Saingan Musk mengajukan kebangkrutan! Menghabiskan 3,4 miliar dolar AS dan pernah banyak diinvestasikan oleh Sun Zhengyi

Penelitian baru tentang COVID-19: berbaring telungkup dapat meningkatkan fungsi paru-paru pada pasien dengan COVID-19 yang parah

Kerangka kerja AI yang dikembangkan sendiri oleh Huawei, MindSpore! Satu sesi pelatihan dapat diterapkan dalam berbagai skenario

Mahkota penelitian baru Westlake University muncul di sampul Science, analisis pertama di dunia dari struktur full-length ACE2