Apakah penelitian keadilan machine learning berada di jalur yang benar?

Apakah penelitian tentang keadilan machine learning benar-benar berada di jalur yang benar?

Dengan perkembangan kecerdasan buatan, teknologi pembelajaran mesin semakin banyak diterapkan di berbagai bidang masyarakat untuk membantu orang membuat keputusan, dan potensi pengaruhnya menjadi semakin besar, terutama dalam pengaruh penting. Area, seperti hukuman pidana, penilaian kesejahteraan, alokasi sumber daya, dll.

Oleh karena itu, dapat dikatakan bahwa dari perspektif dampak sosial, penting untuk mempertimbangkan apakah sistem pembelajaran mesin akan memiliki efek yang lebih merugikan pada kelompok rentan saat membuat keputusan (berdampak tinggi).

Jadi, bagaimana cara mengevaluasi keadilan sistem pembelajaran mesin? Metode umum saat ini adalah dengan menjalankan beberapa kumpulan data statis (dengan penekanan khusus) dengan sistem yang akan dievaluasi, dan kemudian melihat indikator kesalahan. Faktanya, ada banyak toolkit untuk menguji keadilan machine learning, seperti AIF360, Fairlearn, Indikator-Keadilan, Perbandingan-Keadilan, dll.

Meskipun toolkit ini dapat memainkan peran panduan tertentu dalam beberapa tugas, kekurangannya juga terlihat jelas: mereka ditujukan untuk skenario statis tanpa umpan balik dan dampak jangka pendek. Ini dapat tercermin dalam metode evaluasi, karena kumpulan data bersifat statis.

Namun, dalam kehidupan nyata, sebagian besar merupakan skenario dinamis dan umpan balik. Latar belakang pengoperasian algoritme pembelajaran mesin sering kali memiliki pengaruh kunci jangka panjang pada pengambilan keputusan algoritme.

Oleh karena itu, penelitian tentang keadilan algoritme pembelajaran mesin, dari keadilan statis hingga keadilan dinamis, dari keadilan baris tunggal hingga keadilan dengan umpan balik, dan dari keadilan jangka pendek ke keadilan jangka panjang, merupakan langkah penting dan perlu.

Baru-baru ini, beberapa peneliti dari Google telah membahas masalah ini dan menerbitkan makalah pada konferensi ACM FAT 2020 baru-baru ini (konferensi internasional tentang keadilan teknologi komputer) yang diadakan di Spanyol, dan mengembangkan makalah berdasarkan penelitian makalah ini. Komponen simulasi grup ML-fairness-gym dapat membantu dalam mengeksplorasi potensi dampak dinamis jangka panjang dari keputusan sistem pembelajaran mesin pada masyarakat.

Tautan kertas dan kode: https://github.com/google/ml-fairness-gym

1. Mulai dari case

Mari kita mulai dengan kasus-masalah peminjaman.

Masalah ini merupakan kasus klasik dari keadilan machine learning. Masalah ini dikemukakan oleh Lydia T. Liu dari University of California, Berkeley, dan lainnya dalam artikel "Delayed Impact of Fair Machine Learning" yang diterbitkan pada tahun 2018.

Mereka telah sangat menyederhanakan dan memformalkan proses peminjaman, memungkinkan kami untuk fokus pada satu putaran umpan balik dan dampaknya.

Dalam representasi gaya dari masalah ini, kemungkinan bahwa pemohon individu akan membayar kembali pinjaman adalah fungsi dari nilai kreditnya.

Setiap pelamar termasuk dalam satu grup, dan setiap grup memiliki sejumlah anggota grup. Bank pemberi pinjaman akan mengamati kemampuan meminjam dan membayar kembali setiap anggota kelompok.

Setiap kelompok memiliki distribusi skor kredit yang berbeda pada awalnya. Bank mencoba untuk menentukan ambang batas skor kredit. Ambang batas tersebut dapat diterapkan secara lintas kelompok dan disesuaikan untuk setiap kelompok agar bank dapat mencapai tujuannya dengan sebaik-baiknya.

Pelamar dengan skor kredit di atas ambang batas bisa mendapatkan pinjaman, dan pelamar dengan skor kredit di bawah ambang akan ditolak pinjamannya. Ketika sistem simulasi memilih pemohon, apakah mereka akan melunasi pinjaman ditentukan secara acak berdasarkan kemungkinan pembayaran kembali kelompok mereka.

Dalam hal ini, individu yang saat ini mengajukan pinjaman dapat mengajukan pinjaman lebih banyak di masa mendatang, sehingga mereka dapat meningkatkan nilai kredit dan nilai kredit rata-rata kelompok mereka dengan membayar kembali pinjaman tersebut. Begitu pula jika pemohon tidak mengembalikan pinjaman, nilai kredit rata-rata kelompok akan menurun.

Pengaturan ambang batas yang paling efektif bergantung pada tujuan bank.

Jika bank berusaha untuk memaksimalkan keuntungan total, itu mungkin mengevaluasi apakah pemohon akan membayar kembali pinjaman dan menetapkan ambang batas yang memaksimalkan pengembalian yang diharapkan.

Jika faktor lain tidak dipertimbangkan, bank akan berusaha memaksimalkan keuntungan totalnya. Keuntungan tergantung pada rasio jumlah yang diterima bank dari pembayaran kembali pinjaman dengan jumlah kerugian bank dari pinjaman default. Pada gambar di atas, rasio untung-rugi ini adalah 1 banding 4. Karena kerugian menjadi lebih besar dibandingkan dengan keuntungan, bank akan memberikan pinjaman secara lebih konservatif dan menaikkan ambang batas pinjaman. Di sini, bagian yang melebihi ambang batas ini disebut tingkat pemilihan.

Beberapa bank mungkin mencari keadilan untuk semua kelompok. Oleh karena itu, mereka akan mencoba untuk menetapkan ambang batas yang menyeimbangkan maksimalisasi keuntungan total dan kesempatan yang sama Tujuan dari kesempatan yang sama adalah untuk mencapai tingkat positif benar yang sama (TPR, juga dikenal sebagai tingkat sensitivitas dan penarikan kembali, yang mengukur aplikasi yang telah melunasi pinjaman. Orang akan diberi pinjaman).

Dalam skenario ini, bank menerapkan teknologi pembelajaran mesin untuk menentukan ambang batas yang paling efektif berdasarkan pinjaman dan pendapatan yang dilepaskan. Namun, karena teknologi ini sering berfokus pada tujuan jangka pendek, mereka dapat memberikan hasil yang tidak terduga dan tidak adil untuk kelompok yang berbeda.

Dua gambar di atas: mengubah distribusi nilai kredit untuk dua kelompok lebih dari 100 langkah simulasi. Kelompok 2 awalnya memiliki nilai kredit yang rendah dan oleh karena itu termasuk dalam kelompok yang kurang beruntung. Dua gambar berikut ini: Gambar kiri menunjukkan kas bank kelompok pertama dan kedua selama proses simulasi, dan gambar kanan menunjukkan TPR kelompok pertama dan kelompok kedua selama proses simulasi.

Kedua, kekurangan dari analisis kumpulan data statis

Di bidang pembelajaran mesin, metode standar untuk mengevaluasi dampak skenario peminjaman dan peminjaman adalah dengan menggunakan sebagian data sebagai "set pengujian" dan menggunakan set pengujian ini untuk menghitung indikator kinerja terkait. Kemudian dengan melihat perbedaan indikator kinerja tersebut antar kelompok signifikan dilakukan evaluasi kewajaran. Namun, kami sangat menyadari bahwa ada dua masalah utama dengan menggunakan set pengujian semacam itu dalam sistem dengan umpan balik:

Pertama, jika set pengujian dibuat oleh sistem yang ada, mereka mungkin tidak lengkap atau menunjukkan penyimpangan yang melekat di sistem lain. Dalam kasus peminjaman, test set mungkin tidak lengkap, karena hanya mencakup informasi apakah pemohon yang diberi pinjaman telah melunasi pinjaman. Oleh karena itu, kumpulan data mungkin tidak termasuk pelamar yang sebelumnya belum disetujui untuk pinjaman atau belum diberikan pinjaman.
Kedua, keluaran dari sistem pembelajaran mesin akan mempengaruhi masukannya di masa mendatang. Ambang batas yang ditentukan oleh sistem pembelajaran mesin digunakan untuk memutuskan apakah akan menerbitkan pinjaman. Apakah pemohon melunasi pinjaman atau tidak akan memengaruhi skor kredit mereka di masa mendatang, yang juga akan dimasukkan kembali ke sistem pembelajaran mesin. Semua masalah ini menyoroti kekurangan penggunaan kumpulan data statis untuk mengevaluasi keadilan, dan mendorong peneliti untuk menganalisis keadilan algoritme dalam sistem dinamis tempat algoritme diterapkan.

3. Alat simulasi untuk analisis jangka panjang: ML-fairness-gym

Berdasarkan persyaratan di atas, peneliti Google telah mengembangkan kerangka kerja ML-fairness-gym, yang dapat membantu praktisi pembelajaran mesin memperkenalkan analisis berbasis simulasi ke dalam sistem pembelajaran mesin mereka. Komponen ini telah terbukti di banyak bidang dan efektif dalam menganalisis sistem dinamis yang sulit untuk melakukan analisis tertutup.

ML-fairness-gym menggunakan framework Open AI's Gym untuk mensimulasikan pengambilan keputusan berurutan. Dalam kerangka kerja ini, agen berinteraksi dengan lingkungan simulasi secara siklik. Pada setiap langkah, agen memilih tindakan yang selanjutnya dapat mempengaruhi keadaan lingkungan. Kemudian, lingkungan akan menunjukkan pengamatan, dan agen akan menggunakannya untuk memandu tindakan selanjutnya.

Dalam kerangka kerja ini, lingkungan memodelkan dinamika sistem dan masalah, dan pengamatan dimasukkan ke agen sebagai data, dan agen dapat dianggap sebagai sistem pembelajaran mesin.

Dalam lending case, peran yang dimainkan oleh bank adalah sebagai agen. Ia mengamati dari lingkungan untuk menerima informasi tentang pemohon pinjaman dan nilai kredit mereka dan anggota kelompok, dan melaksanakan tindakan berdasarkan keputusan biner untuk menerima atau menolak pinjaman. Kemudian, lingkungan memperagakan apakah pemohon berhasil membayar kembali pinjaman dan menyesuaikan skor kredit pemohon. ML-fairness-gym dapat mensimulasikan hasil ini untuk mengevaluasi dampak jangka panjang dari kebijakan bank terhadap keadilan semua pelamar.

4. Keadilan tidak statis: perluas analisis untuk dampak jangka panjang

Karena formula asli Liu et al. Untuk masalah pinjaman hanya mempertimbangkan efek jangka pendek dari kebijakan bank, termasuk strategi maksimisasi keuntungan jangka pendek (yaitu, memaksimalkan agen hadiah) dan strategi yang tunduk pada kendala kesempatan yang sama (EO). Dengan menggunakan ML-fairness-gym, peneliti dapat memperluas analisis ke efek jangka panjang melalui simulasi.

Di atas: Maksimalkan jumlah pinjaman kumulatif dari agen hadiah dan agen peluang yang sama, dibagi menurut grup tempat pemohon berada, biru mewakili grup pertama, dan hijau mewakili grup kedua. Bawah: Nilai kredit rata-rata kelompok selama proses simulasi (diukur dengan kemungkinan pembayaran kembali bersyarat dari masing-masing kelompok). Agen dengan kesempatan yang sama meningkatkan tingkat kelulusan pinjaman dari kelompok kedua, tetapi meningkatkan kesenjangan skor kredit antara kelompok kedua dan kelompok pertama.

Peneliti Google membuat dua temuan berdasarkan analisis jangka panjang dari masalah pinjaman yang disebutkan di atas:

Pertama, seperti yang ditemukan oleh Liu et al., Agen kesempatan yang sama (agen EO) terkadang menetapkan ambang batas yang lebih rendah untuk kelompok yang kurang beruntung (kelompok 2, dengan skor kredit awal yang lebih rendah) daripada agen yang memaksimalkan imbalan. Akan memberi mereka pinjaman melebihi apa yang seharusnya mereka berikan. Hal ini menyebabkan skor kredit kelompok kedua turun lebih dari kelompok pertama, dan akhirnya menyebabkan kesenjangan skor kredit antara kedua kelompok yang disimulasikan oleh agen peluang yang sama lebih besar dari pada simulasi agen hadiah maksimum.

Pada saat yang sama, mereka juga menemukan dalam analisis mereka bahwa meskipun agen dengan peluang yang sama membuat situasi kelompok kedua tampak lebih buruk, dari perspektif grafik pinjaman kumulatif, kelompok yang lebih lemah 2 memperoleh lebih banyak secara signifikan dari agen peluang yang sama. Pinjaman.

Oleh karena itu, jika indikator kesejahteraan adalah jumlah total pinjaman yang diterima, jelas agen peluang yang sama akan lebih menguntungkan bagi kelompok yang kurang beruntung (kelompok 2); Namun, jika indikator kesejahteraan adalah skor kredit, maka agen peluang yang sama jelas akan membuat kredit kelompok rentan. Semakin buruk dan semakin buruk.

Kedua, dalam proses simulasi, persamaan kendala peluang (memberlakukan TPR yang sama antara setiap kelompok di setiap langkah) tidak membuat TRP sama secara keseluruhan. Hasil yang berpotensi berlawanan dengan intuisi ini dapat dianggap sebagai salah satu kasus paradoks Simpson.

Salah satu kasus Simpson's Paradox. TP adalah klasifikasi positif benar, FN sesuai dengan klasifikasi negatif palsu, dan TPR adalah rasio positif benar. Pada tahun pertama dan kedua, peminjam menerapkan kebijakan yang dapat mencapai TPR yang setara antara kedua kelompok. Namun, total TPR selama dua tahun belum mencapai TPR yang setara.

Seperti yang ditunjukkan pada tabel di atas, TPR yang sama setiap dua tahun tidak berarti TPR yang sama secara keseluruhan. Ini juga menunjukkan bahwa ketika populasi potensial terus berkembang, sulit untuk menafsirkan indikator peluang yang sama, dan ini juga menunjukkan bahwa perlu menggunakan analisis yang lebih detail untuk memastikan bahwa pembelajaran mesin dapat memberikan hasil yang diharapkan.

Konten di atas hanya membahas tentang masalah peminjaman, namun menurut peneliti Google, ML-fairness-gym dapat digunakan untuk menyelesaikan masalah keadilan yang lebih luas. Dalam makalah tersebut, penulis juga memperkenalkan beberapa skenario aplikasi lainnya, pihak yang berkepentingan dapat membaca makalah aslinya.

Kerangka kerja ML-fairness-gym cukup fleksibel untuk mensimulasikan dan mengeksplorasi isu-isu "fairness" yang belum dipelajari. Dalam makalah mereka yang lain, "Alokasi pengobatan yang adil di jaringan sosial" (alokasi pengobatan yang adil di jaringan sosial), penulis juga mempelajari keadilan dalam pengendalian penyakit yang presisi di jaringan sosial.

referensi:

https://ai.googleblog.com/2020/02/ml-fairness-gym-tool-for-exploring-long.html https://github.com/google/ml-fairness-gym https: // bair. berkeley.edu/blog/2018/05/17/delayed-impact/

Ulasan Teknologi AI Leifeng.com Leifeng.com Leifeng.com

Penduduk desa di Kota Fenghuang, Chaozhou, secara spontan "memasang kartu" di pintu masuk desa dan bergiliran membangun "tembok" untuk pencegahan epidemi

Sebelumnya

Perusahaan swasta di bawah pengaruh epidemi Bagaimana perusahaan Zhejiang dapat mengatasi kesulitan?

Lanjut