Hasil penelitian terbaru Wu Enda dituding hype: Akankah digantikan oleh AI? Ahli radiologi tidak setuju!

Selalu menjadi harapan orang untuk membiarkan mesin menggantikan manusia dan mengurangi beban mereka, serta tujuan yang dikejar oleh para ilmuwan komputer. Pada tanggal 24 Mei, Wu Enda, seorang ilmuwan terkenal di bidang kecerdasan buatan dan deep learning, memperkenalkan hasil penelitian terbaru dari Departemen Ilmu Komputer Stanford, Departemen Kedokteran, dan Departemen Radiologi di Twitter.

Hasil dari penelitian ini adalah pengenalan kumpulan data medis muskuloskeletal MURA dan model dasar, Dikatakan bahwa model tersebut dapat didiagnosis berdasarkan sinar-X seperti ahli radiologi. Namun, begitu tweet ini diposting, itu menyebabkan diskusi yang memanas.

Gambar | Tangkapan layar dari Twitter Wu Enda: "Dapatkah model AI Anda mendiagnosis lesi ortopedi pada sinar-X seperti ahli radiologi? Laboratorium kami baru saja merilis kumpulan data baru MURA. Ikut serta dalam kompetisi pembelajaran mendalam kami untuk bertemu Anda Bagaimana kinerja model itu? "

Pertama-tama, perlu kita ketahui bahwa diagnosis melalui rontgen itu sangat penting. Jika diagnosisnya normal, Ini dapat menyelamatkan pasien dari masalah pemeriksaan dan intervensi lebih lanjut. Diantaranya, diagnosis muskuloskeletal sangat penting. Ini adalah penyebab umum nyeri jangka panjang dan bahkan kecacatan. Setiap tahun, lebih dari 170 juta orang di seluruh dunia menderita penyakit ini, dan 30 juta orang didiagnosis dengan perawatan darurat, dan jumlah ini terus meningkat setiap tahun.

Tambahan, Masalah kelelahan dokter Ini adalah masalah umum yang memengaruhi semua profesional medis, dan ahli radiologi sangat rentan. Terdapat bukti bahwa persyaratan beban kerja terlalu tinggi dan kelelahan dapat mempengaruhi akurasi diagnosis.

Dalam konteks ini, membiarkan mesin menggantikan ahli radiologi dapat menghasilkan nilai yang sangat tinggi. Di bawah tweet Wu Enda, seseorang meninggalkan pesan yang mengatakan bahwa mereka telah diganggu oleh penyakit ortopedi selama 5 tahun, berharap model yang dirilis dapat membantu mereka.

Gambar | Tangkapan layar pesan Twitter: "Jika saya memberikan film rontgen ortopedi asli, apakah menurut Anda model kecerdasan buatan Anda dapat mendeteksinya? Saya telah bermasalah dengan penyakit ortopedi selama 5 tahun, dan penyakit tersebut tidak dikenali oleh departemen radiologi pada awalnya Dokter mendiagnosisnya. Saya rasa ini contoh yang baik untuk Anda. Anda dapat menghubungi saya jika Anda membutuhkannya. "

Suara keraguan datang dari banyak peneliti di bidang terkait. Mereka percaya bahwa AI belum berkembang ke tahap yang begitu matang, dan pernyataan Wu Enda dicurigai sebagai hype.

Ini bukan pertama kalinya Wu Enda diinterogasi. Di akhir tahun 2017, Wu Enda pernah tweeted bahwa ahli radiologi mungkin menghadapi bahaya pengangguran. Karena model mereka dapat mendiagnosis pneumonia dengan lebih baik melalui sinar-X. Hasil eksperimen menunjukkan bahwa hasil model lebih baik daripada rata-rata empat dokter profesional. Pada saat itu, dokter Amerika Eric Topol mempertanyakan apakah tingkat keempat dokter yang berpartisipasi dalam perbandingan dapat mewakili seluruh kelompok dokter untuk mendukung kesimpulan eksperimental.

Hasil penelitian kali ini menuai banyak tentangan dan keraguan. Lior Pachter, seorang ahli biologi komputasi di California Institute of Technology, percaya bahwa hasil penelitian sebelumnya dan ini ecek-ecek ,dan Wu Enda membesar-besarkan hasil eksperimennya untuk menipu publik yang tidak mau membahasnya.

Harold Pimentel, seorang rekan postdoctoral di bidang biogenetika, mengatakan bahwa ahli radiologi tidak akan kehilangan pekerjaannya dan peneliti harus bertanggung jawab atas penelitian mereka sendiri. Para penentang ini percaya bahwa ilmuwan pembelajaran mesin selalu mempublikasikan hasil penelitian mereka sendiri dengan cara yang terkenal, bahkan dengan mengorbankan hype untuk membesar-besarkan penelitian mereka untuk menarik perhatian, yang sama saja dengan menodai kepercayaan publik terhadapnya.

Gambar | Suara oposisi dan keraguan

Jadi, secara khusus, mengapa penelitian ini menimbulkan begitu banyak pertanyaan?

Pertama-tama mari kita lihat apa yang dirilis oleh tim Wu Enda. MURA yang mereka rilis kali ini adalah kumpulan data besar dari sinar-X muskuloskeletal ekstremitas atas. Kumpulan data berisi total 40561 gambar dari 14863 studi dari 12173 pasien, dan setiap studi berisi satu atau lebih gambar. Gambar-gambar ini berasal dari PACS Sistem Arsip dan Komunikasi Gambar Rumah Sakit Stanford, yang termasuk dalam tujuh jenis studi radiologi pada anggota tubuh: siku, jari tangan, lengan bawah, telapak tangan, bahu, pergelangan tangan, dan brakialis.

Gambar | Kumpulan data medis yang dipublikasikan

Data di MURA secara manual diberi label sebagai "normal" atau "abnormal", dimana 9.045 gambar "normal" dan 5818 "tidak normal". Anotasi data dilakukan selama diagnosis gambar DICOM yang disajikan pada layar kelas medis dengan setidaknya 3 juta piksel dari 2001 hingga 2012. Kecerahan maksimum adalah 400cd per meter persegi dan kecerahan minimum adalah 1cd per meter persegi. Ukuran pikselnya adalah 0,2, dan piksel aslinya adalah 1500 x 2000 piksel.

Kumpulan data dibagi menjadi satu set pelatihan, satu set validasi dan satu set pengujian. Itu telah dipublikasikan, dan lebih banyak orang didorong untuk melakukan penelitian eksperimental tentangnya.

Gambar | Detail kumpulan data

Selain itu, peneliti juga memperkenalkan model dasar, yaitu jaringan saraf tiruan konvolusional padat 169 lapis yang dapat mendeteksi lesi menggunakan sinar-X.

Gambar | Diagram struktur model

Setiap kali model memasukkan satu atau lebih foto dari sebuah penelitian, jaringan saraf memprediksi kemungkinan "abnormal" dari gambar tersebut, dan akhirnya mengambil rata-rata dari hasil beberapa gambar sebagai hasil prediksi akhir.

Hasil eksperimen di makalah ini menunjukkan bahwa Efek model dalam mendeteksi lesi jari dan pergelangan tangan sebanding dengan kinerja terbaik di antara ahli radiologi, tetapi kinerjanya sedikit lebih buruk dalam mendeteksi lesi di siku, telapak tangan, humerus, dan bahu. Hasil eksperimen inilah yang menimbulkan kontroversi.

Para peneliti mengatakan bahwa untuk menguji kekuatan model dan mengevaluasi tingkat ahli radiologi pada saat yang sama, mereka mengumpulkan tag tambahan pada mesin uji dari enam ahli radiologi Stanford bersertifikat, yang berisi 207 otot. Penelitian tentang tulang. Dokter menggunakan sistem PACS untuk membuat anotasi file DICOM secara independen, dan mereka tidak akan memperoleh informasi apa pun di luar gambar. Akhirnya, hasil 3 dari 6 dokter dipilih sebagai standar, dan hasil tiga lainnya dibandingkan dengan hasil model.

Pertama, dalam percobaan dipilih label hasil penandaan 3 dokter sebagai standar, bila hasil pelabelan berbeda maka dipilih label dengan suara lebih banyak. Ini adalah masalah dua kategori, dan jumlah suara jika ada perbedaan pendapat adalah 2: 1 atau 1: 2. Jadi dalam kasus perselisihan, dapatkah hanya satu orang yang menjamin jawaban yang benar? dengan kata lain, Jawaban standar yang digunakan untuk menguji efek model itu sendiri mungkin bermasalah.

Kedua, rata-rata enam dokter ini memiliki pengalaman kerja 8,83 tahun, berkisar antara 2 hingga 25 tahun. Secara umum diyakini bahwa semakin lama waktu praktek, semakin berpengalaman dokternya. Jika dokter dengan pengalaman 25 tahun ditempatkan pada kelompok jawaban standar, sisa 5 orang hanya memiliki pengalaman 5,6 tahun. Dengan kata lain Kelompok ahli radiologi yang digunakan untuk perbandingan dengan model memiliki pengalaman kerja rata-rata kurang dari 6 tahun Apakah tingkat ini mewakili tingkat seluruh kelompok ahli radiologi?

Dengan cara ini, apakah itu formulasi jawaban standar dalam eksperimen atau pengaturan eksperimen komparatif, patut dipertanyakan. Efek dari model tersebut tidak begitu kredibel, sepertinya masih terlalu dini bagi mesin untuk menggantikan posisi ahli radiologi. Namun, kumpulan data sumber terbuka tidak diragukan lagi akan membantu lebih banyak orang untuk melakukan penelitian mereka sendiri tentangnya.

Alamat data sumber terbuka:

https://stanfordmlgroup.github.io/competitions/mura/

Alamat kertas:

https://arxiv.org/pdf/1712.06957.pdf

Yuxi Jin: Tidak ada yang lebih cantik darinya di Majalah Emas September Jiaren

Sebelumnya

Bacaan Hari Nasional | Perangkap perspektif di balik perang perdagangan Sino-AS

Lanjut