Tiga belas dari candi cekung Laporan Qubit | Akun Publik QbitAI
apa kamu tahu Bahkan ImageNet mungkin memiliki setidaknya 100.000 masalah label.
Mendeskripsikan atau menemukan kesalahan tag dalam sejumlah besar kumpulan data adalah tugas yang sangat menantang, dan begitu banyak pahlawan menderita karenanya.
Baru-baru ini, para peneliti di MIT dan Google telah mengusulkan sebuah generalisasi Confident Learning (CL) Metode, dapat langsung memperkirakan distribusi gabungan antara label yang diberikan dan label yang tidak diketahui.
CL umum ini juga merupakan paket Python Lab Bersih sumber terbuka, dan kinerjanya pada ImageNet dan CIFAR 30% lebih tinggi daripada teknologi mutakhir lainnya.
Seberapa kuat metode ini? Beri kastanye.
Gambar di atas adalah contoh kesalahan label yang ditemukan menggunakan pembelajaran percaya diri di set pelatihan ImageNet ILSVRC 2012. Peneliti membagi masalah yang ditemukan oleh CL menjadi tiga kategori:
1. Biru: Ada beberapa tag pada gambar; 2. Hijau: Harus ada satu kelas dalam kumpulan data; 3. Merah: label salah.
Melalui pembelajaran yang percaya diri, Anda dapat menggunakan model yang sesuai di kumpulan data apa pun untuk menemukan kesalahan label. Gambar di bawah ini adalah contoh dari tiga kumpulan data umum lainnya.
Saat ini ada contoh kesalahan label di Amazon Reviews, MNIST, dan kumpulan data Quickdraw yang menggunakan pembelajaran percaya diri untuk mengidentifikasi pola dan model data yang berbeda.
Metode yang sangat bagus, mengapa tidak datang lebih awal?
Apa itu belajar percaya diri?
Pembelajaran percaya diri telah menjadi bagian dari pembelajaran yang diawasi.
Tidak sulit untuk melihat dari gambar di atas bahwa CL membutuhkan 2 input:
1. Probabilitas prediksi di luar sampel; 2. Label kebisingan;
Untuk pengawasan yang lemah, CL mencakup tiga langkah:
1. Perkirakan distribusi gabungan dari label yang berisik dan potensial (tidak diketahui) label yang tidak rusak, sehingga kebisingan label bersyarat dapat dijelaskan sepenuhnya; 2. Temukan dan hapus contoh berisik dengan masalah label; 3. Lakukan pelatihan untuk menghilangkan kesalahan, lalu bobot kembali contoh berdasarkan perkiraan potensi sebelumnya.
Lantas apa prinsip kerja CL?
Kami berasumsi bahwa ada kumpulan data yang berisi gambar anjing, rubah, dan sapi. Prinsip kerja CL adalah mengestimasi distribusi gabungan label berisik dan label nyata (matriks Q di sebelah kanan pada gambar di bawah).
Kiri: Contoh penghitungan percaya diri; Kanan: Contoh distribusi gabungan label berisik dan label sebenarnya dari tiga jenis kumpulan data.
Selanjutnya, CL menghitung 100 gambar yang ditandai sebagai "anjing", gambar ini kemungkinan besar adalah "anjing kelas", seperti yang ditunjukkan pada matriks C di sisi kiri gambar di atas.
CL juga menghitung 56 gambar yang diberi label anjing tetapi milik rubah dengan probabilitas tinggi, dan 32 gambar yang diberi label anjing tetapi milik sapi dengan probabilitas tinggi.
Maka gagasan utamanya adalah bahwa ketika probabilitas prediksi sampel lebih besar dari ambang batas setiap kelas, kami dapat yakin bahwa sampel ini termasuk dalam kelas ambang ini.
Selain itu, threshold untuk setiap kelas adalah rata-rata prediksi kemungkinan sampel di kelas tersebut.
Lab Bersih yang mudah digunakan
Seperti disebutkan sebelumnya, CL umum yang disebutkan dalam artikel ini sebenarnya adalah paket Clean Lab Python. Dan itu disebut Lab Bersih karena dapat "membersihkan" label.
Lab Bersih memiliki keuntungan sebagai berikut:
kecepatan tinggi : Algoritme paralel-shot, non-iteratif, paralel (misalnya, dibutuhkan kurang dari 1 detik untuk menemukan kesalahan label di ImageNet); Kekokohan : Jaminan minimisasi risiko, termasuk estimasi probabilitas yang tidak lengkap; Fleksibilitas : Cocok untuk semua pengklasifikasi probabilitas, termasuk PyTorch, Tensorflow, MxNet, Caffe2, scikit-learn, dll .; unik : Satu-satunya paket perangkat lunak untuk pembelajaran multi-kelas dengan label berisik atau untuk menemukan kesalahan label kumpulan data / pengklasifikasi.
Temukan kesalahan label dalam 1 baris kode!
Pelajari tag kebisingan dalam 3 baris kode!
Selanjutnya, Clean Lab dilakukan di MNIST. 50 kesalahan tag dapat diidentifikasi secara otomatis pada kumpulan data ini.
Kesalahan label dari kumpulan data pelatihan MNIST asli diidentifikasi menggunakan algoritma pemangkasan peringkat. Jelaskan 24 label yang paling tidak yakin, disusun dari kiri ke kanan, dari atas ke bawah untuk meningkatkan keyakinan (kemungkinan menjadi bagian dari label tertentu), yang dinyatakan sebagai conf in teal. Label dengan prediksi probabilitas tertinggi berwarna hijau. Kesalahan yang jelas ditunjukkan dengan warna merah.
Pintu gerbang
alamat proyek: https://github.com/cgnorthcutt/cleanlab/
Blog belajar percaya diri: https://l7.curtisnorthcutt.com/confident-learning
- Selesai -
Qubit QbitAI · Toutiao Ditandatangani
Perhatikan kami dan dapatkan perkembangan terbaru dalam teknologi mutakhir
- Ini Kanada lagi! Peserta yang menolak menandatangani NeurIPS selama bertahun-tahun dituduh tidak masuk akal, dan Hinton tidak ada hubungannya dengan itu.
- Sekelompok anjing robot muncul di MIT, membalikkan badan secara kolektif, dan bermain sepak bola. Netizen: Pergi lihat cermin hitam dan kaget
- Jika Anda terlihat tidak menyenangkan, AI akan menutup telepon dalam wawancara? Jutaan pencari kerja di seluruh dunia mengalami wawancara "lihat wajah" AI
- Bermimpi kembali 10 tahun yang lalu! Lakers dan Green Army telah memenangkan enam kemenangan berturut-turut, memimpin Timur dan Barat
- Lenovo mengajukan kartu laporan transformasi cerdas: laba bersih meningkat 20%, pendapatan cerdas industri naik 300%
- Gunakan AI untuk mereplikasi jangkar jaringan dan membangun ekosistem program kecil dengan 1 miliar wool. Ini adalah tindakan baru Huya AI
- Adubi Annual Showcase Conference: Atas nama saya, di mana pun saya ingin matahari terbit, ia pun terbit