Xiaocha dari kuil cekung Laporan Qubit | Akun Publik QbitAI
Langkah-langkah pengoptimalan pembelajaran mesin saat ini didominasi oleh metode orde pertama.
Apakah itu SGD atau Adam, jenis algoritme pengoptimalan ini menghitung turunan pertama dari fungsi kerugian-gradien, dan kemudian membuat bobot beriterasi di sepanjang arah gradien dengan cara yang ditentukan.
Faktanya, gradien kedua memiliki karakteristik yang lebih baik, karena merupakan turunan dari gradien yang dihitung, yang dapat menemukan arah dan kecepatan penurunan yang paling sesuai dengan lebih cepat.
Namun karena pertimbangan perhitungan dan biaya penyimpanan, algoritma optimasi orde kedua jarang digunakan.
Baru-baru ini, Google Brain telah mengusulkan metode preprocessing orde kedua baru, yang membawa peningkatan besar dan lebih unggul dari algoritme orde pertama seperti SGD, Adam, dan AdaGrad, dan mempersingkat waktu pelatihan jaringan neural.
Ini jauh lebih cepat daripada metode orde pertama dalam tugas pelatihan Transformer, dan dapat mencapai akurasi yang sama atau bahkan lebih tinggi. Bahkan Jeff Dean tidak bisa membantu tetapi suka di Twitter.
Algoritme "sampo"
Artikel ini didasarkan pada metode orde kedua sebelumnya Algoritma sampo (Algoritma sampo) membuat peningkatan praktis.
Mengapa disebut "algoritma sampo"? Ini sebenarnya adalah istilah lucu untuk algoritme semacam itu. Slogan sampo umumnya adalah "menggosok, membilas, mengulang", yang berarti pengulangan sederhana yang tak terbatas, yang akhirnya mengarah pada botol sampo yang habis.
Dan algoritma ini digunakan untuk pengoptimalan pembelajaran mesin. Ini pertama kali berasal dari artikel yang disertakan oleh penulis terkait Yoram Singer di ICML pada tahun 2018. Shampoo: Pengoptimalan Tensor Stochastic yang Telah Dikondisikan .
Algoritme sampo perlu melacak 2 Prekondisi (Preconditioner) nilai statistik Lt dan Rt.
Kemudian hitung akar keempat dari kedua operator pengkondisian awal ini dan temukan inversnya. Kalikan kedua matriks ini masing-masing ke kiri dan ke kanan untuk mendapatkan gradien dari langkah t + 1 lalu dapatkan rumus berikut:
Proses di atas tidak terlihat seperti pengulangan yang sederhana, sehingga penulis menyebut dirinya "sampo".
Makalah 2018 lebih berfokus pada penjelasan teoritis, tetapi bahkan langkah "mencuci rambut" yang sederhana akan menghadapi banyak kesulitan dalam aplikasi praktis.
Jumlah penghitungan terbesar pada langkah ini berasal dari Lt-1/4 dan Rt-1/4. Menghitung kedua angka ini membutuhkan dekomposisi nilai singular yang mahal.
Nyatanya, akar invers orde empat dapat dihitung tidak hanya dengan metode SVD, tetapi juga dengan algoritma Schur-Newton, dan seiring dengan bertambahnya dimensi matriks, metode yang terakhir menghemat lebih banyak waktu.
Metode Shure-Newton dapat dihitung pada CPU biasa tanpa menggunakan sumber daya komputasi akselerator jaringan saraf seperti GPU dan TPU.
Namun demikian, menghitung invers dari matriks root masih cukup memakan waktu. Jika masalah ini tidak teratasi, kecepatan latihan tidak dapat ditingkatkan.
Jadi penulis menggunakan metode perhitungan asynchronous dan menggunakan Lingvo di TensorFlow untuk meningkatkan training loop.
CPU bertanggung jawab untuk mengumpulkan dan memproses data pelatihan dan aktivitas tambahan seperti pos pemeriksaan dan ringkasan status pelatihan. Saat GPU, TPU, dan akselerator lainnya menjalankan siklus pelatihan, mereka biasanya dalam status idle atau pemanfaatan rendah, dan secara otomatis menyediakan penghitungan presisi ganda.
Hal ini membuat mereka ideal untuk menghitung operator yang mengkondisikan sebelumnya tanpa menambah sumber daya yang dikonsumsi oleh pelatihan.
Gunakan kalkulasi asinkron
Mereka menghitung operator prakondisi dari semua tensor di setiap langkah, tetapi gradien pra-pemrosesan dihitung setiap langkah N dan diproses oleh CPU.
Selama periode ini, GPU atau TPU masih menghitung, dan operator pra-kondisi sebelumnya akan digunakan dalam proses pelatihan hingga diperoleh operator pra-pelatihan yang diperbarui.
Proses kalkulasi seperti pipeline dan berjalan secara asinkron tanpa memblokir loop pelatihan. Hasilnya adalah langkah tersulit dalam algoritme sampo hampir tidak meningkatkan total waktu pelatihan.
Ini saja tidak cukup. Penulis telah melakukan beberapa perbaikan pada algoritme sampo sehingga dapat beradaptasi dengan pelatihan model besar. Termasuk arah dan ukuran langkah decoupling, pemrosesan awal tensor besar, dan pembagian tensor besar menjadi beberapa blok.
67% peningkatan kecepatan
Dalam tugas pelatihan Transformer dari terjemahan WMT'14 Bahasa Inggris ke Bahasa Prancis, algoritme mencapai percepatan 1,67 kali dan mengurangi waktu sebesar 40%.
Jika algoritme sampo memiliki keakuratan yang sama dengan Adam atau AdaGrad, hanya dua yang terakhir yang perlu mencapai sekitar setengah keakuratan AdaGrad atau Adam dalam banyak langkah, dan kecepatan pemelajaran lebih toleran daripada AdaGrad.
Pada kalkulasi asynchronous sebelumnya, N adalah parameter yang dapat diatur yang menentukan jumlah kalkulasi untuk pelatihan. Semakin besar N, semakin kecil jumlah kalkulasi. Tentu saja, N juga akan mempengaruhi hasil. Kita perlu melakukan trade-off antara kinerja proses pelatihan dan kualitas hasilnya.
Eksperimen menunjukkan bahwa metode ini dapat menahan penundaan hingga 1200 langkah tanpa menyebabkan penurunan kualitas yang signifikan.
Shampo juga dapat digunakan dalam tugas klasifikasi gambar.
Penulis juga melatih model ResNet-50 pada kumpulan data ImageNet-2012. Hasilnya lebih cepat daripada SGD yang digerakkan oleh momentum, tetapi kerugian pelatihannya mirip dengan SGD, tetapi efeknya pada set pengujian tidak sebaik yang terakhir.
Adapun kekurangan dalam kemampuan generalisasi, algoritma shampoo perlu ditingkatkan lebih lanjut.
Alamat kertas:
https://arxiv.org/abs/2002.09018
https://arxiv.org/abs/1802.09568
- Selesai -
Qubit QbitAI · Toutiao Signing Author
'' Lacak tren baru dalam produk dan teknologi AI
- "Modal Komoditas Kecil" dunia menyambut 245 pengusaha asing dari 41 negara ke Yiwu untuk "membeli barang"
- Weilai Automobile mengirimkan total 1.533 kendaraan pada bulan Maret, total volume kuartal pertama melebihi ekspektasi
- Tantang peringkat "Raja" dari CLA! Seri 2 Gran Coupe sangat menantang. Siapa yang harus saya pilih untuk olahraga kepribadian?
- Penjualan Chevrolet Bolt EV di Amerika Utara mencapai rekor tertinggi, hampir 6.000 unit terjual di Q1