Jangan malu! Banyak orang sebenarnya hanyalah ilmuwan data palsu

Teks lengkapnya adalah 3862 kata dan waktu pembelajaran yang diharapkan adalah 13 menit

Sumber: unsplash

Pertama-tama, saya tidak mencoba meremehkan ilmuwan data yang otodidak dan bercita-cita tinggi. Bahkan, menurut saya bidang ini sangat cocok untuk pelajar mandiri yang bersemangat.

Tetapi Anda harus mengakui bahwa mereka yang mengaku ahli setelah hanya mengambil kursus online, tetapi tidak tahu (atau tidak tertarik dengan) teori dasar lapangan, harus benar-benar dipukul.

Sebagai profesi dengan bayaran tertinggi terseksi di abad ke-21, data scientist dicari oleh semakin banyak orang. Saat ini, bahkan orang-orang yang tidak terkait dengan industri tampaknya mempromosikan diri mereka sebagai data scientist. Hal ini dapat dimengerti. Namun, ada sekelompok orang "mencolok" yang hampir tidak memiliki pengalaman praktis, dan beberapa bahkan tidak memiliki dasar teoritis, tetapi menyontek di perusahaan terlalu banyak.

Dalam pengalaman mewawancarai atau berkolaborasi dengan data scientist yang ada atau yang potensial, penulis telah menemukan beberapa detail yang dapat membedakan antara data scientist mencolok dan real.

Penulis telah menyusun daftar untuk membedakan orang-orang ini. Daftar ini berguna untuk menyaring manajer, Anda juga dapat menggunakannya untuk pemeriksaan diri. Jika ada kekurangan ini, Anda harus segera memperbaikinya sebelum menjadi mencolok.

Jangan repot-repot mencari datanya

Eksplorasi data adalah langkah pertama dalam semua proyek pembelajaran mesin. Jika Anda tidak menghabiskan waktu untuk memahami data dan tidak memahami karakteristiknya, pohon keputusan yang salah akan membuang banyak waktu sebelum produk jadi diproduksi.

Tidak memvisualisasikan data

Cara terbaik untuk memulai proyek terkait data adalah dengan menjelajahi visualisasi data. Jika pembaca mempraktikkan pembelajaran mesin, kemungkinan besar akan berurusan dengan data berdimensi tinggi dalam jumlah besar; membaca .csv di Excel atau menggunakan fungsi df.describe () bukanlah alternatif visualisasi data yang sesuai.

Francis Anskom menggunakan kuartet terkenal untuk menggambarkan pentingnya visualisasi data:

Kuartet Anscombe

Kumpulan data di setiap panel pada dasarnya memiliki ringkasan statistik yang sama: mean x dan y, varians sampel x dan y, koefisien korelasi, nilai R-squared, dan garis paling cocok semuanya (hampir) sama. Jika Anda tidak memvisualisasikan data, tetapi mengandalkan statistik ringkasan, Anda mungkin berpikir bahwa keempat kumpulan data tersebut memiliki distribusi yang sama, tetapi sekilas Anda tahu bahwa ini jelas bukan masalahnya.

Visualisasi data memungkinkan identifikasi tren, artefak, pencilan, dan distribusi dalam data; jika Anda melewati langkah ini, tentu saja Anda dapat melakukan sisa proyek secara membabi buta.

Tidak ada pembersihan data

Apa yang terjadi jika datanya berantakan? Kesalahan input nilai; kesalahan konversi; gangguan sensor. Penting untuk menyelesaikan masalah ini sebelum membuang waktu berbulan-bulan untuk proyek yang sia-sia. Sangat penting untuk menyelesaikan masalah ini sebelum model dimasukkan ke dalam produksi. Ingat: sampah masukan akan menghasilkan sampah.

Sumber: unsplash

Ada banyak cara yang baik untuk mengidentifikasi masalah dalam data, tetapi tidak ada cara yang baik untuk mengidentifikasi semua masalah. Visualisasi data adalah titik awal yang baik. Meskipun ini merupakan proses manual yang agak rumit, imbalannya cukup kaya.

Metode lain termasuk deteksi pencilan otomatis dan statistik ringkasan kondisi. Misalnya, histogram tinggi manusia:

Histogram tinggi badan dewasa

Tidak diragukan lagi, penggunaan data ini untuk melatih model akan menghasilkan hasil yang sangat buruk. Namun dengan memeriksa data, dapat diketahui bahwa nilai outlier 100 adalah dalam meter, bukan sentimeter. Ini dapat diperbaiki dengan mengalikan nilai-nilai ini dengan 100.

Membersihkan data dengan benar tidak hanya dapat mencegah model dilatih pada data yang salah, tetapi dalam kasus ini, juga dapat menyimpan 100 titik data yang mungkin telah dibuang. Jika Anda tidak dapat membersihkan data dengan benar, itu berarti membiarkan uang di atas meja menjadi lebih baik, atau membuat model yang cacat pada yang terburuk.

Tidak perlu khawatir dengan pemilihan fitur dan desain

Hal paling keren tentang jaringan saraf adalah ia dapat langsung memasukkan semua data asli, dan akan mempelajari beberapa perkiraan fungsi tujuan. Faktanya, ini adalah poin terburuk.

Ini sangat nyaman, tetapi tidak efisien dan mudah rusak. Kasus terburuknya adalah hal ini membuat data scientist pemula mengandalkan deep learning, yang menyebabkan teknologinya terus menurun, dan secara umum, metode machine learning yang lebih tradisional lebih sesuai. Meskipun tidak ada metode yang "benar" untuk pemilihan dan desain fitur, upaya perlu dilakukan untuk beberapa hasil utama:

· Pemformatan data: Komputer adalah otak yang mati. Data perlu diubah ke dalam format yang dapat dengan mudah dipahami model: jaringan neural, seperti angka antara -1 dan 1; data kategori harus berupa enkode one-hot; data pengurutan (mungkin) tidak boleh direpresentasikan sebagai bidang titik mengambang tunggal; Mungkin bermanfaat untuk mengubah log data terdistribusi secara eksponensial. Dapat dikatakan bahwa ada banyak nuansa dalam format data yang bergantung pada modelnya.

· Pengurangan dimensi: Lebih banyak data tidak berarti lebih baik. Biasanya, sebelum menyesuaikan model, jumlah fitur perlu dikurangi. Ini biasanya melibatkan penghapusan data yang tidak relevan dan berlebihan, atau menggabungkan beberapa bidang terkait ke dalam satu bidang.

· Buat fungsi khusus domain: Biasanya efisien untuk membuat fungsi Anda sendiri berdasarkan data. Jika ada data hitungan, mungkin perlu dikonversi ke ambang biner yang relevan, seperti "100" pasangan " < 100 ", atau" adalah 0 "hingga" bukan 0 ". Jika ada data kontinu x dan z, mungkin perlu ada dalam kumpulan fitur, selain x dan z, tetapi juga menyertakan x², xz, dan z². Ini sangat bergantung Ini didasarkan pada praktik masalah, tetapi jika ditangani dengan baik, kinerja model dari jenis model tertentu dapat sangat ditingkatkan.

Kebanyakan orang awam percaya bahwa pembelajaran mesin adalah kotak hitam, yang secara ajaib mendapatkan hasil dari data mentah, padahal sebenarnya tidak demikian.

Sumber: picography

Tidak memilih jenis model yang sesuai

Pembelajaran mesin memiliki sejarah yang panjang, dan untuk sebagian besar sejarah ini, ini disebut "pembelajaran statistik".

Dengan munculnya alat pembelajaran mesin sumber terbuka yang mudah digunakan seperti Scikit Learn dan TensorFlow, ditambah dengan data besar yang dikumpulkan sekarang dan komputer berkecepatan tinggi yang ada di mana-mana, bereksperimen dengan berbagai jenis model pembelajaran mesin tidak pernah semudah ini.

Namun, bukan suatu kebetulan bahwa praktisi pembelajaran mesin tidak lagi diharuskan memiliki pemahaman praktis tentang metode kerja berbagai jenis model, dan ini juga menyebabkan ketidaktahuan mereka tentang metode kerja jenis model yang berbeda.

Coba semuanya

Repositori GitHub penuh dengan kombinasi proyek Kaggle dan kursus online, seperti yang ditunjukkan di bawah ini:

dari impor sklearn * untuk m dalam: m.overfit (X_train, y_train)

Ini jelas tidak bisa dimengerti, tapi sayang sekali banyak kursus online merekomendasikan program ini.

Ini hanya membuang-buang waktu, dan mudah membujuk orang untuk memilih jenis model yang tidak sesuai karena model tersebut bekerja dengan baik pada data validasi. (Ingatlah untuk menyimpan satu set verifikasi, kan?)

Jenis model yang digunakan harus dipilih sesuai dengan kebutuhan data dan aplikasi yang mendasari, dan data harus dirancang agar sesuai dengan model yang dipilih. Memilih jenis model adalah bagian penting dari proses data science. Mungkin masuk akal untuk membandingkan secara langsung sejumlah model yang sesuai, tetapi sangat melelahkan untuk menemukan model "bilangan terbaik".

Sumber: unsplash

Sebenarnya tidak mengerti cara kerja berbagai jenis model

Jika Anda memasukkan "usia kendaraan dihitung dalam tahun" dan "km perjalanan", mengapa pengklasifikasi KNN (algoritma tetangga terdekat) tidak berfungsi dengan baik? Apa yang salah dengan menggunakan regresi linier untuk memprediksi pertumbuhan populasi global? Mengapa algoritme klasifikasi hutan acak tidak dapat diterapkan pada kumpulan data yang berisi 1000 kategori variabel enkode one-hot?

Jika Anda tidak dapat menjawab pertanyaan ini, tidak apa-apa! Ada banyak sumber daya bagus yang tersedia untuk mempelajari cara kerja teknologi ini; pastikan untuk membaca dan memahaminya sebelum melamar pekerjaan di bidang ini.

Tetapi masalah yang lebih besar bukanlah karena orang tidak memahami prinsip kerja, tetapi mereka tidak peduli dan tidak tertarik pada prinsip yang mendasarinya!

Jika Anda menyukai pembelajaran mesin tetapi tidak menyukai prinsip, maka Anda tidak akan benar-benar menyukai pembelajaran mesin; orang-orang seperti itu terobsesi dengan konsep yang mereka yakini. Jika Anda tidak ingin memahami cara kerja model atau menyesuaikan data, pemecahan masalah tidak akan dapat dilakukan jika terjadi kesalahan yang tidak dapat dihindari.

Tidak tahu apakah Anda menginginkan akurasi atau interpretabilitas, atau mengapa Anda harus memilih

Sumber: unsplash

Semua model memiliki pro dan kontra. Dalam pembelajaran mesin, pilihan penting adalah trade-off antara akurasi dan interpretabilitas.

Sebuah model dapat memprediksi dengan buruk tetapi mudah dipahami, dan dapat menjelaskan proses secara efisien; model juga bisa sangat akurat, tetapi cara kerja internal masih menjadi misteri, atau Anda dapat memilih kompromi.

Jenis model mana yang akan dipilih harus diputuskan berdasarkan mana yang lebih penting.

Jika tujuannya adalah untuk memodelkan data dan mendapatkan wawasan yang dapat ditindaklanjuti, maka jelaslah untuk memilih model yang dapat ditafsirkan, seperti pohon keputusan atau regresi linier. Jika diterapkan pada prediksi tingkat produksi, seperti anotasi gambar, interpretabilitas menempati urutan kedua, dan forest acak atau jaringan saraf mungkin lebih tepat.

Dalam pengalaman penulis, data scientist yang tidak memahami trade-off ini, dan data scientist yang secara langsung mengejar akurasi bahkan tanpa mempertimbangkan mengapa properti penjelas itu penting, tidak cocok untuk model pelatihan.

Sumber: unsplash

Tidak menggunakan pengukuran dan kontrol yang efektif

Meskipun menyumbang 50% kata dan 64% huruf, kata "sains" dalam ilmu data sering diabaikan.

Bagi ilmuwan data mencolok, tidak jarang menerapkan secara membabi buta satu indikator sebagai evaluasi model dalam kondisi ideal. Pemangku kepentingan yang tidak mengetahui dengan mudah tergoda oleh pernyataan yang berani seperti "akurasi 90%." Meskipun pernyataan ini benar secara teknis, pernyataan tersebut sangat tidak tepat dalam misi saat ini.

Tidak membangun model dasar

Penulis memiliki tes kanker pankreas dengan tingkat akurasi lebih dari 99%. Luar biasa? Tetapi ini benar, cukup klik tautan untuk mencoba: https://upload.wikimedia.org/wikipedia/commons/3/31/ProhibitionSign2.svg

Jika Anda melihat lingkaran merah dengan garis di atasnya, maka hasil tesnya negatif. Jika Anda melihat tanda centang hijau, berarti Anda berbohong.

Faktanya adalah bahwa 99% orang tidak menderita kanker pankreas (pada kenyataannya, proporsinya lebih besar, tetapi demi penjelasan, anggap saja 99%), jadi "tes" kecil yang bodoh dari penulis adalah 99% akurat.

Oleh karena itu, jika kita peduli dengan keakuratan, maka model pembelajaran mesin apa pun yang digunakan untuk mendiagnosis kanker pankreas setidaknya harus sebaik model dasar non-informatif ini. Jika pemuda tampan yang datang untuk melamar pekerjaan tersebut mengklaim bahwa ia telah mengembangkan alat dengan akurasi 95%, bandingkan dengan model patokan dan pastikan bahwa modelnya berkinerja lebih baik daripada probabilitas.

Metrik salah

Sumber: unsplash

Mengikuti contoh diagnostik di atas, penting untuk memastikan pengukuran yang benar.

Untuk diagnosis kanker, akurasi sebenarnya adalah indikator yang buruk; jika mengurangi akurasi berarti meningkatkan sensitivitas, biasanya lebih baik melakukannya. Berapa biaya positif palsu? Tekanan pasien, serta waktu dan sumber daya yang terbuang percuma. Berapa harga negatif palsu? kematian.

Memahami arti sebenarnya dari model, dan memahami bagaimana arti ini mengontrol pilihan metrik, dapat dengan jelas melihat ilmuwan data nyata dari skrip orang.

Mengacaukan jalur pelatihan / tes

Ini adalah masalah besar dan sangat umum. Menguji model dengan benar mutlak diperlukan untuk proses ilmu data.

Ada banyak kemungkinan error: tidak memahami perbedaan antara verifikasi dan data pengujian, melakukan augmentasi data sebelum memisahkan, gagal menghentikan kebocoran data, mengabaikan pemisahan data sepenuhnya ... Jika tidak, jika Anda tidak tahu atau Tidak peduli bagaimana membuat set persisten yang sesuai, maka semua pekerjaan hanya membuang-buang waktu.

... Impor Tensorflow sebagai tf

Di atas hanyalah untuk membedakan sebagian kecil dari industri. Selama mereka berpengalaman, mudah untuk menemukan ilmuwan data palsu ini. Tetapi jika Anda baru memulai, mungkin sulit untuk membedakan antara Siraj Ravals, guru AI selebriti Internet, dan Wu Enda.

Jika Anda merasa salah satu contoh di atas berkonotasi bagi Anda, ini adalah hal yang baik, karena itu berarti Anda peduli tentang bagaimana melakukan sesuatu dengan baik. Terus belajar, terus mendaki, jangan diganggu oleh orang-orang yang berpura-pura ini.

Komentar Suka Ikuti

Mari berbagi manfaat pembelajaran dan pengembangan AI

Jika mencetak ulang, silakan tinggalkan pesan di latar belakang dan ikuti spesifikasi pencetakan ulang

Terlalu banyak elemen! Pilih 100 API keren untuk membantu Anda penuh dengan inspirasi

Sebelumnya

Chatbots yang tidak bisa "mengobrol": Mengapa Siri begitu "bodoh"?

Lanjut

: Angka kematian tajuk baru tetap tinggi, mengapa Italia?

: Berapa banyak bahasa pemrograman yang dibutuhkan oleh programmer yang baik untuk mahir?

: Apakah Anda benar-benar mempelajari "pembelajaran mesin"? Bagaimana cara mempelajari "pembelajaran mesin"?

: Bagaimana Moderna mengembangkan vaksin mahkota baru dalam dua bulan?

: Kesalahan umum menyebabkan kesalahan besar! Lebih dari selusin studi medis "berubah menjadi sia-sia"

: Flutter, Native, React-Native, siapakah raja pertunjukan?

: Bagaimana kehidupan selama epidemi? Tonton penulis AI menulis buku harian online

: Suara Inti Hari Ini | Mengenai kasus Bao Mouming, yang ingin saya katakan adalah bom waktu di perusahaan

: Epidemi akan segera berakhir? Superkomputer terkuat di dunia telah bergabung dalam pertempuran melawan virus corona

: Kerangka JavaScript teratas pada tahun 2020, yakin tidak untuk melihat lebih dekat?

: Apa fungsi panda yang digunakan oleh data scientist dan software engineer?

: Home Office 101: Apa saja peralatan yang diperlukan untuk "kantor" Anda?

Jangan malu! Banyak orang sebenarnya hanyalah ilmuwan data palsu

Jangan repot-repot mencari datanya

Tidak memilih jenis model yang sesuai

Tidak menggunakan pengukuran dan kontrol yang efektif

Informasi Terkait

"Pemandangan Musim Semi Terindah" di desa-desa di Distrik Yongding, arena penyerangan hari ini-Kota Xinqiao

Baris pertama pahlawan anti-epidemi | Huang Changyi: "Ying" dalam penyelamatan

Jingzhou: bunga peony yang mekar "menjadi kaya"

Inovasi teknologi juga bisa sangat menarik-upgrade cerdas bawah tanah Chenzhou Mining

Zeng Ling dari Rumah Sakit Rakyat Kabupaten Xiangtan: Buka pakaian pelindung dan kenakan jas putih

Pengujian suhu, isolasi medis ... lihat bagaimana sekolah dasar ini berhasil membuka jurnal ke tingkat pertama

Pegas di ujung lidah! Makanan musim semi yang lezat ini tidak boleh dilewatkan

Xinsheng Hari Ini | Teknologi Menyaksikan Sejarah! 140 selebriti di seluruh dunia mengadakan konser online di rumah

Co-pilot terkuat dalam sejarah tertidur saat mengemudi? Python membangunkan Anda

Suara Inti Hari Ini Di Program Mini Universal, akhirnya ada "Facebook" kucing