Catatan komentar teknologi AI Lei Feng.com: Untuk insinyur pembelajaran mesin, salah satu situasi yang paling umum adalah bahwa mereka dapat dengan mudah mengumpulkan data dalam jumlah besar, tetapi mereka memiliki sumber daya yang sangat terbatas untuk anotasi data. Setiap orang yang menghadapi situasi yang memalukan ini hanya dapat menenangkan diri dan meringkas situasi mereka menjadi "tidak banyak data yang diawasi, tetapi banyak data yang tidak berlabel", dan kemudian setelah membaca makalah, temukan kategori yang sesuai dengan gambar. Solusi yang layak: pembelajaran semi-supervised.
Kemudian segalanya mulai berubah.
Kedengarannya indah, tapi itu lubang besar
Untuk waktu yang lama, pembelajaran semi-supervisi telah menjadi lubang besar dalam bidang pembelajaran mesin. Setiap insinyur yang mencoba mengambil untung darinya hanya dapat menambah pemahaman lebih pada anotasi data tradisional dan kuno. Masalah yang berbeda mungkin memiliki penampilan yang berbeda, namun pada akhirnya sama saja, mari kita lihat gambar berikut ini:
Jika tidak banyak data berlabel, pembelajaran semi-supervisi memang dapat membawa peningkatan kinerja tertentu. Namun dalam penggunaan aktual, Anda akan menemukan bahwa peningkatan tersebut hanya dapat membantu Anda meningkatkan kinerja model dari "buruk dan tidak dapat diterima" menjadi "sedikit lebih baik, tetapi tetap tidak ada cara untuk menggunakannya". Lagi pula, jika skala data anotasi Anda sangat kecil sehingga pembelajaran semi-supervisi dapat membantu, itu juga menunjukkan bahwa kinerja pengklasifikasi Anda masih pada tingkat yang sangat buruk dan tidak dapat digunakan dalam praktik.
Selain itu, pembelajaran semi-supervisi juga membutuhkan beberapa biaya sumber daya tambahan, dan ketika metode pembelajaran semi-supervisi digunakan untuk menghadapi lebih banyak data berlabel, kurva pertumbuhan kinerja akan lebih mulus daripada pembelajaran yang diawasi; salah satu alasannya adalah tidak Data beranotasi dapat menimbulkan bias (lihat bagian 4 dari MITPress-% 20SemiSupervised% 20Learning.pdf). Pada hari-hari awal deep learning, praktik pembelajaran semi-supervised sangat populer. Pertama, autoencoder dipelajari pada data yang tidak berlabel, lalu fine-tune dilakukan pada data berlabel. Hampir tidak ada yang melakukan ini sekarang, karena melalui eksperimen yang tak terhitung jumlahnya, setiap orang telah menemukan bahwa representasi yang dipelajari melalui autoencoder akan mempengaruhi peningkatan kinerja yang dibawa oleh data berlabel tambahan dalam tahap penyesuaian halus, dan ini adalah batasan. Yang menarik adalah meskipun kami telah sangat meningkatkan metode generatif saat ini, ini masih gagal membuat model ini lebih baik; ini mungkin karena, untuk membuat formula dan model generatif yang baik dan membuat Pengklasifikasi bukanlah hal yang sama. Hasilnya adalah saat para insinyur saat ini melakukan penyempurnaan, mereka menyempurnakan dasar pembelajaran yang diawasi (bahkan untuk model bahasa, mempelajari teks sebenarnya adalah proses pembelajaran yang diawasi sendiri) Dari sudut pandang praktis, efek pembelajaran migrasi dari model pra-pelatihan terbimbing lainnya jauh lebih baik daripada efek migrasi dari model pembelajaran tanpa pengawasan. .
Oleh karena itu, insinyur pembelajaran mesin yang harus mencoba pembelajaran semi-supervisi kemungkinan besar akan mengikuti jalur seperti itu:
Karena kurangnya data, kinerja model menjadi buruk. Mari kita coba pembelajaran semi-supervised (lagipula, ini masih agak teknis, data standarnya terlalu membosankan);
Soalnya, tingkat akurasinya telah meningkat! Namun angkanya masih cukup sedikit, sepertinya kita masih harus menandai lebih banyak data
Toh data standar masih berguna, setelah saya mengalikan data beberapa kali, kinerja model pembelajaran semi supervisi meningkat. Tapi saya agak penasaran, saya sudah menandai begitu banyak data, apa yang akan terjadi jika saya menggunakan pembelajaran yang diawasi secara langsung
Praktik telah membuktikan bahwa dengan begitu banyak data, pembelajaran yang diawasi masih lebih sederhana dan lebih langsung, dan efeknya lebih baik. Lalu mengapa kita tidak memberi label lebih banyak data di awal? Setelah menghabiskan begitu banyak waktu dan upaya untuk mencoba pembelajaran semi-supervisi, hasilnya masih belum tersedia ...
Jika Anda beruntung, masalah Anda mungkin memiliki kurva kinerja seperti itu:
Dalam hal ini, efek semi-supervised learning akan lebih baik dalam skala data tertentu, dan meningkatkan efisiensi penggunaan data. Tetapi menurut pengalaman saya, pada awalnya sulit untuk mencapai situasi seperti itu; kedua, peningkatan pembelajaran semi-supervisi selalu tidak banyak. Tidak apa-apa untuk menyikat poin dalam makalah akademis, yang berdampak kecil pada aplikasi praktis. Jika Anda mempertimbangkan penggunaan Kompleksitas metode dan penggunaan lebih banyak sumber daya komputasi tidak sebaik rasio input-output dari beberapa data tanda baca secara langsung.
Revolusi akan datang
Tapi jangan khawatir, bukankah judul artikel kita "Revolusi Pembelajaran dengan Pengawasan Semi Datang Diam-diam"?
Satu hal yang menarik bagi Weiwei saat ini adalah kurva peningkatan kinerja pembelajaran semi-supervisi secara bertahap menjadi seperti ini:
Ini akan membuat perbedaan nyata. Pertama-tama, kurva ini memenuhi harapan semua orang untuk pembelajaran semi-supervisi: lebih banyak data memiliki performa yang lebih baik, dan untuk data berlabel yang sama, performanya selalu lebih baik daripada metode pembelajaran yang diawasi; meskipun jumlah datanya cukup besar , Sejauh pembelajaran terawasi telah mampu membuahkan hasil yang baik, pembelajaran semi terbimbing masih mengalami peningkatan. Selain itu, kompleksitas komputasi tambahan dan sumber daya yang diperlukan untuk mencapai peningkatan ini sudah sangat kecil. "Area ajaib" ini memiliki titik awal yang lebih rendah dan tidak dibatasi oleh ukuran datanya.
Jadi apa yang terjadi? Ada peningkatan baru di banyak bidang, seperti banyak cara yang sangat cerdas untuk memberi label sendiri pada data, dan cara baru untuk merepresentasikan kehilangan, sehingga kehilangan dan kebisingan dalam data dan bias yang mungkin dibawa oleh pelabelan sendiri dikoordinasikan satu sama lain. Kedua makalah ini adalah contoh umum dari peningkatan terbaru, dan juga dapat mengarahkan Anda untuk menelusuri makalah terkait lainnya:
MixMatch: Pendekatan Holistik untuk Pembelajaran Semi-Supervisi
-
MixMatch: pendekatan holistik untuk pembelajaran semi-supervisi
-
https://arxiv.org/abs/1905.02249
-
Makalah Abstrak: Metode pembelajaran semi-supervised diusulkan untuk memanfaatkan data tak berlabel dengan lebih baik dan mengurangi ketergantungan pada kumpulan data berlabel skala besar; sekarang ini juga telah membuktikan bahwa ini adalah paradigma pembelajaran yang kuat. Dalam makalah ini, penulis menyatukan praktik saat ini dalam berbagai tugas untuk pembelajaran semi-supervised, dan mendapatkan algoritma baru, MixMatch, yang bekerja dengan menggunakan sampel tak berlabel yang dihasilkan oleh metode amplifikasi data tebak MixUp. Pelabelan entropi rendah digabungkan dengan data yang tidak berlabel dan data berlabel. Para penulis menunjukkan melalui eksperimen bahwa MixMatch dapat memimpin semua metode sebelumnya dengan margin besar dalam berbagai set data yang berbeda dan berbagai ukuran data berlabel berbeda. Misalnya, dalam kasus hanya 250 label pada kumpulan data CIFAR, penulis mengurangi tingkat kesalahan menjadi 1/4 dari metode sebelumnya, dan pada kumpulan data STL-10 juga mengurangi setengah dari metode sebelumnya. Penulis juga menunjukkan bahwa MixMatch dapat mencapai keseimbangan yang lebih baik antara akurasi dan perlindungan privasi untuk tujuan privasi diferensial. Akhirnya, penulis melakukan eksperimen terkontrol untuk menganalisis komponen mana dari metode MixMatch yang paling kritis.
Augmentasi Data Tanpa Pengawasan
-
Augmentasi data tanpa pengawasan
-
https://arxiv.org/abs/1904.12848
-
Abstrak makalah: Dalam menghadapi pembelajaran mendalam yang haus akan data dalam jumlah besar, metode augmentasi data dapat mengurangi sebagian dari permintaan, tetapi metode augmentasi data sering kali hanya digunakan dalam pengaturan pembelajaran yang diawasi, dan peningkatan yang dihasilkan relatif terbatas. Dalam makalah ini, penulis mengusulkan metode baru untuk menerapkan augmentasi data ke data tak berlabel dalam pengaturan pembelajaran semi-supervisi. Metodenya, UDA augmentasi data tanpa pengawasan, akan mendorong model untuk menghasilkan prediksi yang konsisten saat dihadapkan dengan data tanpa label dan data tanpa label yang ditambah. Tidak seperti metode sebelumnya yang menggunakan noise Gaussian dan noise dropout, UDA memiliki beberapa penyesuaian kecil, yang menggunakan metode amplifikasi data paling canggih untuk menghasilkan noise yang lebih sulit dan lebih realistis. Penyesuaian kecil ini memungkinkan UDA membawa peningkatan kinerja yang signifikan dalam enam tugas bahasa dan tiga tugas visual, meskipun kumpulan data berlabel yang digunakan sangat kecil. Misalnya, dalam uji klasifikasi kumpulan data IMDb, UDA hanya menggunakan 20 label untuk mendapatkan hasil yang lebih baik daripada pelatihan metode terbaik sebelumnya pada 25.000 data berlabel. Dalam tes pembelajaran semi-diawasi standar (CIFAR-10, 4000 tag; dan SVHN, 1000 tag), UDA mengalahkan semua metode sebelumnya dan mengurangi tingkat kesalahan setidaknya 30%. UDA juga memiliki performa yang baik pada kumpulan data skala besar. Misalnya, di ImageNet, hanya diperlukan tambahan 1,3 juta gambar tanpa label. Dibandingkan dengan metode sebelumnya, UDA juga dapat terus meningkatkan lima rasio klik pertama dan teratas.
Setelah seluruh dunia pembelajaran semi-supervisi telah diinovasi, semua orang juga mulai menyadari bahwa pembelajaran semi-supervisi mungkin dapat melakukan banyak hal dalam hal masalah privasi dalam pembelajaran mesin. Misalnya, digunakan dalam PATE (data yang diawasi adalah data pribadi yang perlu dilindungi, dan model siswa dengan kemampuan perlindungan privasi yang kuat hanya dapat dilatih pada data yang tidak berlabel). Metode penyulingan pengetahuan yang mampu melindungi privasi juga merupakan salah satu komponen kunci dari pembelajaran federasi, dan efek pembelajaran federasi adalah pembelajaran terdistribusi yang efisien. Tidak memerlukan model untuk menghubungi semua data pengguna, dan memiliki perlindungan privasi yang kuat secara matematis. . (Untuk informasi lebih lanjut, silakan merujuk ke artikel Leifeng.com AI Technology Review sebelumnya tentang perlindungan privasi diferensial PATE dan pembelajaran federasi)
Saat ini, mempertimbangkan pembelajaran semi-supervised dalam skenario penggunaan nyata telah menjadi hal yang sangat berharga lagi. Penghinaan peneliti sebelumnya untuk semi-supervised learning sekarang ditantang, yang juga menunjukkan pesatnya perkembangan teknologi di bidang ini. Belum lama tren ini muncul, dan kami masih perlu mengamati bahwa metode ini dapat bertahan dalam ujian waktu. Namun, jika fitur dan paradigma machine learning yang umum digunakan dapat membuat kemajuan besar dari perkembangan baru ini, tidak diragukan lagi hal itu sangat menggoda.
melalui directiondatascience.com, kompilasi ulasan teknologi AI Leifeng.com
- Wanita Australia tertidur di rumah larut malam dan terbangun oleh ular piton liar yang menjilati wajahnya dan menciumnya di tengah malam
- Peluang baru dalam industri peralatan rumah tangga: permainan antara pengamat dan peserta, tangan kiri dan tangan kanan
- Satu-satunya film kompetisi berbahasa Mandarin "Pertemuan di Stasiun Selatan" tayang di Cannes. Hu Ge dan Liao Fan disiksa dengan dialek Wuhan.
- Trotoar yang sangat sempit memaksa Anda menjadi "foto"! Apa yang hilang di balik fasilitas kota yang indah?
- Bea Cukai menyita kasus penyelundupan solid-state senilai 3 miliar yuan Apakah harga solid-state domestik akan segera naik?