Pembelajaran percaya diri yang sangat mudah digunakan: 1 baris kode untuk menemukan kesalahan label, 3 baris kode untuk mempelajari label derau

Tiga belas dari candi cekung Laporan Qubit | Akun Publik QbitAI

apa kamu tahu Bahkan ImageNet mungkin memiliki setidaknya 100.000 masalah label.

Mendeskripsikan atau menemukan kesalahan tag dalam sejumlah besar kumpulan data adalah tugas yang sangat menantang, dan begitu banyak pahlawan menderita karenanya.

Baru-baru ini, para peneliti di MIT dan Google telah mengusulkan sebuah generalisasi Confident Learning (CL) Metode, dapat langsung memperkirakan distribusi gabungan antara label yang diberikan dan label yang tidak diketahui.

CL umum ini juga merupakan paket Python Lab Bersih sumber terbuka, dan kinerjanya pada ImageNet dan CIFAR 30% lebih tinggi daripada teknologi mutakhir lainnya.

Seberapa kuat metode ini? Beri kastanye.

Gambar di atas adalah contoh kesalahan label yang ditemukan menggunakan pembelajaran percaya diri di set pelatihan ImageNet ILSVRC 2012. Peneliti membagi masalah yang ditemukan oleh CL menjadi tiga kategori:

1. Biru: Ada beberapa tag pada gambar; 2. Hijau: Harus ada satu kelas dalam kumpulan data; 3. Merah: label salah.

Melalui pembelajaran yang percaya diri, Anda dapat menggunakan model yang sesuai di kumpulan data apa pun untuk menemukan kesalahan label. Gambar di bawah ini adalah contoh dari tiga kumpulan data umum lainnya.

Saat ini ada contoh kesalahan label di Amazon Reviews, MNIST, dan kumpulan data Quickdraw yang menggunakan pembelajaran percaya diri untuk mengidentifikasi pola dan model data yang berbeda.

Metode yang sangat bagus, mengapa tidak datang lebih awal?

Apa itu belajar percaya diri?

Pembelajaran percaya diri telah menjadi bagian dari pembelajaran yang diawasi.

Tidak sulit untuk melihat dari gambar di atas bahwa CL membutuhkan 2 input:

1. Probabilitas prediksi di luar sampel; 2. Label kebisingan;

Untuk pengawasan yang lemah, CL mencakup tiga langkah:

1. Perkirakan distribusi gabungan dari label yang berisik dan potensial (tidak diketahui) label yang tidak rusak, sehingga kebisingan label bersyarat dapat dijelaskan sepenuhnya; 2. Temukan dan hapus contoh berisik dengan masalah label; 3. Lakukan pelatihan untuk menghilangkan kesalahan, lalu bobot kembali contoh berdasarkan perkiraan potensi sebelumnya.

Lantas apa prinsip kerja CL?

Kami berasumsi bahwa ada kumpulan data yang berisi gambar anjing, rubah, dan sapi. Prinsip kerja CL adalah mengestimasi distribusi gabungan label berisik dan label nyata (matriks Q di sebelah kanan pada gambar di bawah).

Kiri: Contoh penghitungan percaya diri; Kanan: Contoh distribusi gabungan label berisik dan label sebenarnya dari tiga jenis kumpulan data.

Selanjutnya, CL menghitung 100 gambar yang ditandai sebagai "anjing", gambar ini kemungkinan besar adalah "anjing kelas", seperti yang ditunjukkan pada matriks C di sisi kiri gambar di atas.

CL juga menghitung 56 gambar yang diberi label anjing tetapi milik rubah dengan probabilitas tinggi, dan 32 gambar yang diberi label anjing tetapi milik sapi dengan probabilitas tinggi.

Maka gagasan utamanya adalah bahwa ketika probabilitas prediksi sampel lebih besar dari ambang batas setiap kelas, kami dapat yakin bahwa sampel ini termasuk dalam kelas ambang ini.

Selain itu, threshold untuk setiap kelas adalah rata-rata prediksi kemungkinan sampel di kelas tersebut.

Lab Bersih yang mudah digunakan

Seperti disebutkan sebelumnya, CL umum yang disebutkan dalam artikel ini sebenarnya adalah paket Clean Lab Python. Dan itu disebut Lab Bersih karena dapat "membersihkan" label.

Lab Bersih memiliki keuntungan sebagai berikut:

kecepatan tinggi : Algoritme paralel-shot, non-iteratif, paralel (misalnya, dibutuhkan kurang dari 1 detik untuk menemukan kesalahan label di ImageNet); Kekokohan : Jaminan minimisasi risiko, termasuk estimasi probabilitas yang tidak lengkap; Fleksibilitas : Cocok untuk semua pengklasifikasi probabilitas, termasuk PyTorch, Tensorflow, MxNet, Caffe2, scikit-learn, dll .; unik : Satu-satunya paket perangkat lunak untuk pembelajaran multi-kelas dengan label berisik atau untuk menemukan kesalahan label kumpulan data / pengklasifikasi.

Temukan kesalahan label dalam 1 baris kode!

Pelajari tag kebisingan dalam 3 baris kode!

Selanjutnya, Clean Lab dilakukan di MNIST. 50 kesalahan tag dapat diidentifikasi secara otomatis pada kumpulan data ini.

Kesalahan label dari kumpulan data pelatihan MNIST asli diidentifikasi menggunakan algoritma pemangkasan peringkat. Jelaskan 24 label yang paling tidak yakin, disusun dari kiri ke kanan, dari atas ke bawah untuk meningkatkan keyakinan (kemungkinan menjadi bagian dari label tertentu), yang dinyatakan sebagai conf in teal. Label dengan prediksi probabilitas tertinggi berwarna hijau. Kesalahan yang jelas ditunjukkan dengan warna merah.

Pintu gerbang

alamat proyek: https://github.com/cgnorthcutt/cleanlab/

Blog belajar percaya diri: https://l7.curtisnorthcutt.com/confident-learning

- Selesai -

Qubit QbitAI · Toutiao Ditandatangani

Perhatikan kami dan dapatkan perkembangan terbaru dalam teknologi mutakhir

Wanita muda front-end membantu Anda menangkap hati sang dewi, double sebelas mengambil artefak lipstik di sini | proyek sumber terbuka

Sebelumnya

Pengendalian pikiran menjadi kenyataan: Anda dapat bermain game tanpa berbicara, tanpa tangan, "lumpuh"

Lanjut

: Ini Kanada lagi! Peserta yang menolak menandatangani NeurIPS selama bertahun-tahun dituduh tidak masuk akal, dan Hinton tidak ada hubungannya dengan itu.

: Pasar menunjukkan fleksibilitas dan koreksi Dukascopy: analisis teknis euro, pound, yen, emas

: Sekelompok anjing robot muncul di MIT, membalikkan badan secara kolektif, dan bermain sepak bola. Netizen: Pergi lihat cermin hitam dan kaget

: Clippers kembali ke paruh atas! Barat ramai, yang pertama dan kesembilan hanya tertinggal 2 game.

: Jika Anda terlihat tidak menyenangkan, AI akan menutup telepon dalam wawancara? Jutaan pencari kerja di seluruh dunia mengalami wawancara "lihat wajah" AI

: Bermimpi kembali 10 tahun yang lalu! Lakers dan Green Army telah memenangkan enam kemenangan berturut-turut, memimpin Timur dan Barat

: Lenovo mengajukan kartu laporan transformasi cerdas: laba bersih meningkat 20%, pendapatan cerdas industri naik 300%

: Gunakan AI untuk mereplikasi jangkar jaringan dan membangun ekosistem program kecil dengan 1 miliar wool. Ini adalah tindakan baru Huya AI

: Mengapa beberapa gambar yang tidak akan pernah Anda lupakan? GAN akan memberi tahu Anda alasannya

: Adubi Annual Showcase Conference: Atas nama saya, di mana pun saya ingin matahari terbit, ia pun terbit

: Apakah semuanya dirasuki oleh Zhou Qi? CBA melakukan 2 kali perputaran bola sampingan dalam 2 hari, dan dua pelatih terkenal semuanya mencetak gol. Berhenti memarahi Li Nan

: Dunia telah berubah! Kompetisi AI ini tidak lagi membutuhkan hasil pemeringkatan, lihat saja rencana pendaratan komersialnya

Pembelajaran percaya diri yang sangat mudah digunakan: 1 baris kode untuk menemukan kesalahan label, 3 baris kode untuk mempelajari label derau

Informasi Terkait

Robekan meniskus + robekan fasia! CBA berturut-turut terkena cedera serius, padatnya jadwal telah menjadi mimpi buruk bagi pemain

Pasar tiba-tiba! Emas, yen, dan kenaikan cepat jangka pendek, dolar dan minyak mentah keduanya turun

Akui penilaian yang salah! Laporan resmi CBA dirilis, Jiangsu menderita kerugian bodoh

Kritik rahasia Zhou Qi dipertanyakan? Yang Yi dengan marah menegur para pembicara rumor! Tegaskan kembali bahwa pemain harus layak untuk dirinya sendiri

Tim tidak puas dengan wasit! Pelatih menolak untuk menekan konferensi, bos menyindir: lain kali dia berlutut dan berkata Yao Ming harus bergerak

Jangan belajar Guangdong tanpa Ulhlen! Tim playoff dua musim kalah 3 pertandingan berturut-turut, dan dua pemain kecil bermain di luar rumah.

Untuk pertama kalinya dalam sejarah! 3 pilihan teratas memperebutkan Wang Shaojie untuk mengajar senior, memenangkan CIC membuat Marbury gila

Sinar laser berpura-pura menjadi suara manusia, speaker pintar diretas sejauh 110 meter, dan ponsel, komputer, atau tablet juga ditampar

Veteran itu belum mati! 542 blok, 1431 assist, kedua veteran itu membuat tonggak sejarah bersama-sama Sayangnya, Zhang Qingpeng

MLPerf merilis peringkat tes penalaran chip AI pertama: Ali Hanguang 800 memenangkan banyak peringkat pertama