Pengalaman penting untuk pekerjaan ilmu data: Bagaimana menjawab 17 pertanyaan panas? (Satu)

Menurut situs web Lei Feng: Karena ilmu data telah menjadi bidang yang populer, ada lebih banyak lamaran pekerjaan terkait. Pewawancara sering kali memiliki pertanyaan dalam proses persiapan untuk melamar pekerjaan: Apa yang akan ditanyakan oleh pewawancara? Bagaimana saya harus menjawab? Gregory Piatetsky berbagi tentang KDnuggets 17 pertanyaan dan jawaban yang mungkin terpapar pada posisi terkait sains data panas. Dari kegagalan AI untuk memprediksi dengan tepat hasil pemilihan presiden AS 2016 dan pembalikan Super Bowl ke-51, cara membedakan antara bias dan varians, semakin sedikit prediktor, semakin baik, dan bahkan cara meningkatkan ketahanan model terhadap kelainan. Semuanya tersedia Artikel ini adalah bagian pertama, dan Leifeng.com telah melakukan kompilasi yang relevan.

Tahun lalu, 21 pertanyaan dan jawaban wawancara yang harus diketahui untuk posisi terkait ilmu data menjadi postingan yang paling banyak dilihat tahun ini, dengan lebih dari 250.000 tampilan halaman. Pada tahun 2017, editor KDnuggets menghadirkan lebih dari 17 pertanyaan dan jawaban wawancara kerja terkait sains data baru dan penting. Artikel ini menjawab enam pertanyaan berikut:

Pelajaran dari menggunakan pengetahuan ilmu data untuk gagal memprediksi dengan benar hasil pemilihan presiden AS 2016 (pembalikan Super Bowl ke-51)
Apa masalah yang disebabkan oleh perbedaan yang signifikan dalam distribusi data pengujian (tidak terlihat) baru dan data pelatihan?
Apa definisi bias dan varians dan hubungannya dengan data pemodelan?
Mengapa jumlah prediktor yang lebih kecil lebih baik?
Jenis indeks kesalahan apa yang digunakan untuk mengevaluasi kinerja pengklasifikasi biner? Penanggulangan ketidakseimbangan kelas? Penanggulangan untuk lebih dari 2 kelompok?
Bagaimana cara meningkatkan ketahanan model terhadap kelainan?

1. AI gagal memprediksi dengan tepat hasil pemilihan presiden AS tahun 2016 (pembalikan Super Bowl ke-51). Harap gunakan pengetahuan ilmu data untuk merangkum pengalaman dan pelajaran yang relevan.

Jawaban Gregory Piatetsky:

Sebelum pemilihan umum pada 8 November 2016, sebagian besar pemilih percaya bahwa Hillary Clinton masing-masing memiliki sekitar 3% keuntungan dan 70% hingga 95% peluang untuk menang dalam pemilihan populer dan pemilihan perguruan tinggi pemilihan. Perusahaan data besar seperti Nate Silver's FiveThirtyEight memprediksi probabilitas tertinggi Trump untuk menang sekitar 30%, sementara perusahaan Big Data New York Times Upshot dan Princeton Election Alliance memprediksi bahwa kemungkinan Trump untuk menang hanya sekitar 30%. 15%, sementara jajak pendapat seperti situs blog berita Huffington Post memprediksi bahwa Trump hanya akan memiliki tingkat kemenangan 2%. Namun, Trump menang. Jadi, pelajaran apa yang harus dipelajari oleh data scientist dari ini?

Perkiraan yang valid secara statistik harus memenuhi dua kondisi:

1) Data historis yang cukup
2) Asumsikan bahwa peristiwa sejarah cukup mirip dengan peristiwa terkini yang perlu kita prediksi.

Peristiwa dapat dibagi menjadi deterministik (2 + 2 selalu sama dengan 4), prediktabilitas yang kuat (seperti orbit planet dan satelit, frekuensi rata-rata avatar jatuh di satu sisi lemparan koin), prediktabilitas lemah (seperti pemilu dan acara olahraga), dan acak ( Seperti lotere yang adil).

Jika koin dilempar 100 juta kali, perkiraan jumlah face up (rata-rata) adalah 50 juta, dan standar deviasi = 10.000 (rumus 0,5 * SQRT (N)). Dapat diprediksi bahwa 99,7% jumlah face up akan menjadi 3 dari rata-rata. Dalam standar deviasi.

Tetapi jauh lebih sulit untuk memprediksi suara 100 juta orang menggunakan jajak pendapat. Penyelidik membutuhkan sampel yang representatif, memperkirakan kemungkinan individu benar-benar memberikan suara, membuat banyak asumsi yang masuk akal dan tidak masuk akal, dan menghindari bias yang disengaja atau tidak disengaja.

Karena sistem elektoral perguruan tinggi kuno, semua negara bagian (kecuali Maine dan Nebraska), kebutuhan akan pemilihan, dan hasil prediksi, kemerdekaan negara bagian membuat prediksi hasil pemilihan presiden menjadi lebih sulit.

Gambar di bawah ini menunjukkan bahwa hasil jajak pendapat pemilihan presiden AS tahun 2016 sangat berbeda dengan kenyataan di banyak negara bagian. Sebagian besar dari mereka meremehkan suara yang dimenangkan Trump, terutama di tiga negara bagian utama Michigan, Wisconsin, dan Pennsylvania. Semua suara negara bagian jatuh ke tangan Trump.

Sumber: @ NateSilver538 Twitter, 9 November 2016.

Beberapa ahli statistik, seperti Salil Mehta @salilstatistics, menilai jajak pendapat tersebut tidak realistis. David Wasserman dari 538 sebenarnya menjelaskan hal tersebut di atas dalam artikel September 2016 "Mengapa Trump Kalah dalam Pemilihan Populer tetapi Memenangkan Pemilihan Presiden" Opini, tetapi sebagian besar lembaga survei salah besar.

Oleh karena itu, pelajaran berharga bagi ilmuwan data adalah mempertanyakan asumsi yang mereka buat dan tetap skeptis saat memprediksi peristiwa yang dapat diprediksi dengan lemah, terutama saat memprediksi berdasarkan perilaku manusia.

Pelajaran penting lainnya adalah:

Periksa kualitas data-jajak pendapat tidak mencakup semua pemilih dalam pemilihan ini
Waspadai prasangka: Banyak lembaga survei mungkin adalah pendukung Clinton Hillary dan tidak ingin mempertanyakan hasil yang menguntungkannya. Misalnya, Huffington Post memprediksikan bahwa Hillary Clinton memiliki 95% peluang menang.

Untuk analisis lain dari pemungutan suara yang gagal pada tahun 2016, silakan merujuk ke:

"Kemenangan Trump tidak menyatakan kematian data besar-itu selalu cacat" (kabel)
"Peran apa yang dimainkan data dalam memprediksi kegagalan pemilu" (New York Times)
"Enam Pelajaran yang Dipetik oleh Ilmu Data dari Kemunduran Utama Polling" (Datanami)
"Trump's Election: Lessons from the Data Technology Field of IT Field from the Failure of the Polling" (InformaitonWeek)
"Mengapa saya harus makan serangga langsung di CNN" (Sam Wang dari Liga Pemilihan Princeton)

(Catatan: Jawaban ini didasarkan pada posting lama di KDnuggets, "Pengungkapan Prediksi Kegagalan Pemilu oleh Ilmuwan Data")

Ada peristiwa kemungkinan kecil lainnya dari sudut pandang statistik: pembalikan seperti plot terjadi di pertandingan Super Bowl ke-51 pada 5 Februari 2017: Setelah turun minum, Atlanta Falcons memimpin 21 banding 3. Setelah kuarter ketiga, skor bertambah menjadi 28 menjadi 9. ESPN memperkirakan Atlanta Falcons memiliki peluang untuk menang.

(Referensi: Salil Mehta tweet Salil Mehta tweet, 6 Februari 2017)

Belum pernah ada tim yang menyerahkan kejuaraan dengan keunggulan skor sebesar itu. Namun, setiap game Super Bowl penuh dengan variabel, dan kali ini bisa disebut sebagai pembalikan yang mengejutkan. Menggabungkan keterampilan luar biasa (toh, Patriots adalah favorit sebelum final) dan keberuntungan (mengandalkan tangkapan keberuntungan Julian Edelman untuk menang perpanjangan waktu), Patriots akhirnya memenangkan pertandingan.

Game Super Bowl ini juga mengajarkan ilmuwan data pelajaran berarti lainnya. Saat memprediksi peristiwa yang dapat diprediksi dengan lemah, kepercayaan diri yang paling tidak diinginkan. Saat memprediksi kejadian seperti itu, Anda perlu memahami faktor risikonya dan mencoba menghindari penggunaan probabilitas, atau jika Anda harus menggunakan angka, Anda harus memiliki keyakinan yang luas.

Dan jika ada prediksi satu sisi, tetapi itu hanya peristiwa yang dapat diprediksi dengan lemah, Anda sebaiknya tetap berpegang pada sudut pandang Anda - terkadang Anda bahkan dapat mengalahkan peluang.

2. Apa yang terjadi jika distribusi data pengujian baru (tidak terlihat) berbeda secara signifikan dari distribusi data pelatihan?

Gregory Piatetsky dan Thuy Pham menjawab:

Masalah utamanya adalah ramalannya salah.

Jika data pengujian baru sangat berbeda dalam parameter kunci model prediksi dari data pelatihan, model prediksi tidak lagi valid. Alasan utama mengapa hal ini dapat terjadi adalah bias pemilihan sampel, pergeseran populasi atau lingkungan non-stasioner.

a) Bias pemilihan sampel

Data di sini bersifat statis, tetapi contoh pelatihan diperoleh melalui metode yang bias, seperti pemilihan non-seragam atau segmentasi data non-acak ke pelatihan dan pengujian.

Jika Anda memiliki kumpulan data statis yang besar, Anda harus membaginya secara acak menjadi data pelatihan / pengujian, dan distribusi data pengujian harus serupa dengan data pelatihan.

b) Kovariat

Data disini tidak statis, sebagian dari populasi digunakan sebagai data latih, dan sebagian lagi digunakan untuk pengujian.

(Gambar melalui iwann).

Terkadang data pelatihan dan data uji diperoleh melalui proses yang berbeda-misalnya, obat yang diuji pada suatu kelompok diberikan kepada kelompok baru yang mungkin memiliki perbedaan yang signifikan. Oleh karena itu, kinerja pengklasifikasi berdasarkan data pelatihan buruk.

Salah satu solusi yang diusulkan adalah menerapkan uji statistik untuk menentukan apakah probabilitas kelas target dan variabel kunci yang digunakan oleh pengklasifikasi berbeda secara signifikan, dan jika demikian, latih ulang model dengan data baru.

c) Lingkungan non-stasioner

Entah karena perubahan waktu atau ruang, lingkungan pelatihan berbeda dari pengujian.

Ini mirip dengan kasus b, tetapi berlaku untuk situasi di mana datanya tidak statis-kami memiliki aliran data, dan kami secara berkala mengambil sampelnya untuk mengembangkan model prediksi perilaku di masa mendatang. Ini terjadi dalam masalah klasifikasi permusuhan, seperti pemfilteran spam dan deteksi intrusi jaringan, di mana pelaku spam dan peretas sering mengubah perilakunya. Kasus khas lainnya adalah analisis pelanggan, di mana perilaku pelanggan berubah seiring waktu. Perusahaan telepon mengembangkan model untuk memprediksi churn pelanggan atau perusahaan kartu kredit mengembangkan model untuk memprediksi penipuan transaksi. Data latih adalah data historis, sedangkan data uji (baru) adalah data terkini.

Model ini perlu dilatih ulang secara berkala dan menentukan kapan distribusi variabel kunci dalam model prediksi dalam data lama (set pelatihan) dan data baru dapat dibandingkan. Jika terdapat perbedaan yang cukup signifikan, model tersebut perlu dilatih ulang.

Untuk pembahasan yang lebih detail dan teknis, lihat referensi di bawah ini.

referensi:

Marco Saerens, Patrice Latinne, Christine Decaestecker: Menyesuaikan Output dari Pengklasifikasi ke Kemungkinan a Priori Baru: Prosedur Sederhana. Komputasi Neural 14 (1): 21-41 (2002)

Pembelajaran mesin di lingkungan non-stasioner: pengantar adaptasi kovariat, Sugiyama Sugiyama, Motoaki Kawanabe, MIT Press, 2012, ISBN 0262017091, 9780262017091

Quora: "Jika distribusi data pengujian berbeda secara signifikan dari distribusi data pelatihan, apa alasannya?

"Klasifikasi Transfer Kumpulan Data: Metode dan Masalah", Francisco Herrera, 2011.

"Ketika set pelatihan dan tes berbeda: Representasi transfer pembelajaran", Amos Storkey, 2013.

3. Apakah bias dan varians itu, dan apa hubungannya dengan data pemodelan?

Jawaban Matthew Mayo:

Bias adalah perbedaan antara prediksi dan ketepatan model, dan varians adalah sejauh mana prediksi ini berubah di antara iterasi model.

Bias dan varians

Misalnya, mengambil survei pemilihan presiden sebagai contoh, kita dapat menjelaskan kesalahan dalam survei melalui lensa ganda bias dan varians: memilih peserta survei dari buku telepon akan menyebabkan bias; ukuran sampel yang kecil akan menyebabkan varians.

Meminimalkan kesalahan model total tergantung pada keseimbangan bias dan kesalahan varians. Idealnya, model adalah hasil kumpulan data yang tidak bias dengan varians rendah. Sayangnya, semakin kompleks modelnya, semakin kecil deviasinya tetapi semakin besar variansnya, oleh karena itu, model yang optimal perlu mempertimbangkan keseimbangan antara kedua atribut tersebut.

Metode evaluasi statistik dari validasi silang membuktikan pentingnya keseimbangan ini, dan menemukan keseimbangan ini sama pentingnya. Jumlah lipatan data yang digunakan-nilai k di k-fold cross-validation merupakan keputusan penting; semakin rendah nilainya, semakin besar deviasi dalam estimasi kesalahan dan semakin kecil variansnya.

Bias dan varians menyebabkan kesalahan total, sumber gambar

Sebaliknya, jika k diatur sama dengan jumlah instance, estimasi kesalahan biasnya sangat rendah, tetapi memiliki kemungkinan varians tinggi.

Hal yang paling penting adalah bias dan varians adalah dua trade-off penting saat membangun model. Bahkan metode evaluasi statistik yang paling konvensional secara langsung mengandalkan trade-off ini.

4. Mengapa semakin sedikit prediktor, semakin baik?

Jawaban oleh Anmol Rajpurohit:

Ada beberapa alasan mengapa lebih baik memiliki lebih sedikit prediktor daripada banyak:

Mubazir / tidak relevan:

Jika Anda berurusan dengan banyak variabel prediktor, ada kemungkinan besar bahwa akan ada hubungan tersembunyi di antara beberapa variabel tersebut, yang menyebabkan redundansi. Kecuali redundansi ini diidentifikasi dan ditangani pada tahap awal analisis data (hanya dengan memilih prediktor non-redundan), ini dapat menyebabkan resistensi besar terhadap langkah-langkah selanjutnya.

Mungkin juga tidak semua variabel prediktor memiliki pengaruh yang cukup besar terhadap variabel dependen. Anda harus memastikan bahwa kumpulan prediktor yang Anda pilih untuk dikerjakan tidak memiliki variabel yang tidak berkorelasi-bahkan jika Anda tahu bahwa model data akan menghadapinya dengan menganggapnya kurang penting.

Catatan: Redundansi dan tidak relevan adalah dua fitur terkait konsep yang berbeda yang dapat menjadi redundan karena fitur terkait lainnya.

Overfitting:

Meskipun ada sejumlah besar prediktor yang tidak memiliki hubungan di antara keduanya, lebih baik menggunakan lebih sedikit prediktor. Model data dengan jumlah prediktor yang besar (juga dikenal sebagai model kompleks) sering mengalami masalah overfitting. Dalam hal ini, model data berperforma baik pada data pelatihan tetapi tidak berperforma baik pada data pengujian.

kekuatan produktif:

Misalkan Anda memiliki proyek dengan sejumlah besar prediktor, dan semua variabel berkorelasi (yaitu, memiliki efek terukur pada variabel dependen). Jadi, Anda jelas ingin bekerja dengan semua ini untuk memiliki model data dengan tingkat keberhasilan yang sangat tinggi. Meskipun pendekatan ini terdengar sangat menggoda, pertimbangan praktis (seperti jumlah data yang tersedia, penyimpanan dan sumber daya komputasi, waktu penyelesaian, dll.) Hampir mustahil.

Oleh karena itu, meskipun Anda memiliki banyak prediktor yang relevan, sebaiknya gunakan lebih sedikit prediktor (dikembangkan melalui pemilihan fitur atau melalui ekstraksi fitur). Ini pada dasarnya mirip dengan prinsip Pareto, yang menyatakan bahwa untuk banyak peristiwa, sekitar 80% efek berasal dari 20% penyebab.

Berfokus pada 20% variabel prediktor terpenting ini akan membantu membangun model data dengan tingkat keberhasilan yang cukup besar dalam waktu yang wajar, tanpa memerlukan data yang tidak nyata atau sumber daya lainnya.

Kesalahan pelatihan dan kesalahan pengujian vs kompleksitas model (Sumber: diposting di Quora oleh Sergul Aydore)

Pemahaman:

Model dengan lebih sedikit prediktor lebih mudah dipahami dan dijelaskan. Karena langkah-langkah ilmu data akan dilakukan oleh manusia, dan hasilnya akan disajikan oleh manusia (dan diharapkan dapat digunakan), maka penting untuk mempertimbangkan kemampuan komprehensif otak manusia. Ini pada dasarnya adalah kompromi - Anda mengizinkan beberapa potensi manfaat dari tingkat keberhasilan model data Anda, sekaligus membuat model data Anda lebih mudah dipahami dan dioptimalkan.

Faktor ini sangat penting jika, di akhir proyek Anda, Anda perlu bertanya kepada seseorang yang tidak hanya tertarik pada tidak hanya tingkat keberhasilan yang tinggi, tetapi juga pemahaman tentang apa yang terjadi dalam keadaan tersebut.

5. Metrik kesalahan apa yang akan Anda gunakan untuk mengevaluasi kinerja pengklasifikasi biner? Bagaimana jika kelas tidak seimbang? Bagaimana jika ada lebih dari dua kelompok?

Jawaban Prasad Pore:

Klasifikasi biner melibatkan pembagian data menjadi dua kelompok berdasarkan variabel independen seperti jenis kelamin, usia, lokasi, dll., Seperti apakah pelanggan membeli produk tertentu (ya / tidak).

Karena variabel target tidak kontinu, kemungkinan model klasifikasi biner memprediksi variabel target adalah Ya / Tidak. Untuk mengevaluasi model seperti itu, metrik yang disebut matriks kebingungan digunakan, yang juga disebut matriks klasifikasi atau korelasi. Dengan bantuan matriks kebingungan, kami dapat menghitung metrik kinerja yang penting:

True rate (TPR) atau hit rate atau recall atau sensitivitas = TP / (TP + FN)
Tingkat positif palsu (FPR) atau tingkat alarm palsu = 1-spesifisitas = 1- (TN / (TN + FP))
Akurasi = (TP + TN) / (TP + TN + FP + FN)
Tingkat kesalahan = 1- presisi atau (FP + FN) / (TP + TN + FP + FN)
Akurasi = TP / (PB + FP)
Pengukuran F: 2 / ((1 / presisi) + (1 / recall))
ROC (Receiver Operating Characteristics) = Kurva hubungan antara FPR dan TPR
ABK (area di bawah kurva)
Statistik Kappa

Anda dapat menemukan detail selengkapnya tentang metrik ini di sini: Metrik terbaik untuk mengukur keakuratan model klasifikasi.

Semua tindakan ini harus diimbangi dengan keterampilan domain. Misalnya, meskipun TPR yang lebih tinggi menunjukkan kemungkinan lebih besar orang lain tidak menderita kanker, ini tidak membantu dalam mendiagnosis kanker.

Pada contoh data diagnosa kanker yang sama, jika hanya 2% atau kurang dari penderita kanker maka akan terjadi ketidakseimbangan kelas karena persentase penderita kanker sangat kecil dibandingkan dengan populasi lain. Ada dua cara utama untuk mengatasi masalah ini:

1. Penggunaan fungsi biaya: Dalam metode ini, dengan bantuan matriks biaya (mirip dengan matriks kebingungan, tetapi lebih mementingkan positif palsu dan negatif palsu) untuk mengevaluasi biaya yang terkait dengan data yang salah diklasifikasikan. Tujuan utamanya adalah untuk mengurangi biaya kesalahan klasifikasi. Biaya negatif palsu selalu lebih besar daripada biaya positif palsu. Misalnya, salah memprediksi pasien kanker bebas kanker lebih berbahaya daripada salah memprediksi pasien bebas kanker menderita kanker.

Total biaya = biaya FN * hitungan FN + biaya FP * hitungan FP

2. Gunakan metode pengambilan sampel yang berbeda: Dalam metode ini, pengambilan sampel berlebihan, undersampling atau campuran dapat digunakan. Dalam oversampling, beberapa jenis observasi disalin untuk menyeimbangkan data. Pengamatan duplikat menyebabkan overfitting, menghasilkan akurasi yang baik dalam pelatihan, tetapi akurasi rendah dalam data tak terlihat. Dalam undersampling, sebagian besar jenis observasi dihapus yang mengakibatkan hilangnya informasi. Ini membantu mengurangi waktu pemrosesan dan penyimpanan, tetapi hanya berguna jika Anda memiliki kumpulan data yang besar.

Jika ada beberapa kelas dalam variabel target, matriks kebingungan dengan ukuran yang sama dengan jumlah kelas akan dibentuk, dan semua metrik kinerja dapat dihitung untuk setiap kelas. Ini disebut matriks kebingungan kelas jamak. Misalnya pada variabel respon terdapat 3 kelas X, Y, Z, maka recall untuk setiap kelas akan dihitung sebagai berikut:

Recall_X = TP_X / (TP_X + FN_X)
Recall_Y = TP_Y / (TP_Y + FN_Y)
Recall_Z = TP_Z / (TP_Z + FN_Z)

6. Bagaimana cara membuat model lebih kuat?

Jawaban Thuy Pham:

Dari perspektif yang berbeda (persiapan data atau konstruksi model), ada beberapa cara untuk membuat model lebih kuat terhadap pencilan.

Pencilan biasanya didefinisikan dalam istilah distribusi. Oleh karena itu, dimungkinkan untuk menghilangkan pencilan pada langkah pra-pemrosesan (sebelum langkah pembelajaran apa pun) dengan menggunakan deviasi standar (untuk normal) atau rentang interkuartil (untuk abnormal / tidak diketahui) sebagai level ambang.

Pencilan

Selain itu, jika data memiliki long tail yang signifikan, transformasi data (misalnya, transformasi logaritmik) dapat membantu. Winsorization mungkin berguna jika pencilan yang terkait dengan sensitivitas instrumen pengumpul mungkin tidak secara akurat mencatat nilai-nilai kecil. Jenis transformasi ini (dinamai menurut Charles P. Winsor (1895-1951)) memiliki efek yang sama dengan sinyal pembatas (yaitu, mengganti nilai data ekstrim dengan nilai ekstrim). Pilihan lain untuk mengurangi dampak pencilan adalah dengan menggunakan perbedaan mutlak rata-rata daripada kesalahan kuadrat rata-rata.

Untuk pembuatan model, beberapa model menolak pencilan (seperti metode berbasis pohon) atau pengujian non-parametrik. Mirip dengan efek median, model pohon membagi setiap node menjadi dua di setiap pemisahan. Oleh karena itu, pada setiap pemisahan, semua titik data dalam keranjang dapat diperlakukan sama, terlepas dari nilai ekstrem yang mungkin dimilikinya. Penelitian ini mengusulkan suatu model deteksi yang menggabungkan informasi kuartil dari data untuk memprediksi outlier data.

referensi:

TT Pham, C. Thamrin, PD Robinson dan PHW Leong. Penghapusan artefak pernapasan dalam pengukuran osilasi paksa: metode pembelajaran mesin. Transaksi IEEE pada Teknik Biomedis, 2016.

Quora juga memiliki diskusi terkait tentang masalah ini.

melalui KDnuggets, disusun oleh Leifeng.com

Snapdragon 845 memenuhi ponsel tangguh andalan AGM X3 yang resmi merilis 3499 penjualan

Sebelumnya

Selamat! Zhao Liying melahirkan seorang putra, Feng Shaofeng mengeluarkan blog tentang keselamatan

Lanjut

: Dia adalah 200 juta penari telanjang yang telah mengubah go-go dancing menjadi seni!

: Wanshui Qianshan "Zong" adalah cinta, berbagai kotak hadiah yang intim menyampaikan rasa kebahagiaan yang kuat!

: Final LOL Asian Games 2018: Tiongkok mengalahkan Korea Selatan 3-1 untuk menang

: Apa yang dapat dilakukan oleh "sistem penipuan super" yang diteliti oleh para peretas China ini?

: Penyalahgunaan narkoba, kehamilan belum menikah, bagaimana penari klub malam ini melakukan serangan balik untuk menjadi seorang putri?

: Game baru minggu ini: "Gintama Ranbu" No. 1 di dunia

: Evaluasi komprehensif dari ponsel kasar AGM X3: Nokia dapat memukul kenari, produk ini dapat memukul Nokia!

: Peta kronik literatur Tang dan Lagu: jika orang dahulu memiliki GPS, Anda dapat melihat jejak kaki penyair

: Dia memulai debutnya dengan telanjang, mengapa dia bisa menjadi aktris terseksi di dunia?

: Kecepatan ledakan nuklir WD Black NVMe SSD review

: Artefak membaca 98 yuan secara gratis, sebuah artikel akan membawa Anda mudah untuk memulai Fungsi yang berguna

: Rekomendasikan 10 drama Inggris dengan skor tinggi, kode untuk pergi

Pengalaman penting untuk pekerjaan ilmu data: Bagaimana menjawab 17 pertanyaan panas? (Satu)

1. AI gagal memprediksi dengan tepat hasil pemilihan presiden AS tahun 2016 (pembalikan Super Bowl ke-51). Harap gunakan pengetahuan ilmu data untuk merangkum pengalaman dan pelajaran yang relevan.

2. Apa yang terjadi jika distribusi data pengujian baru (tidak terlihat) berbeda secara signifikan dari distribusi data pelatihan?

a) Bias pemilihan sampel

b) Kovariat

c) Lingkungan non-stasioner

3. Apakah bias dan varians itu, dan apa hubungannya dengan data pemodelan?

4. Mengapa semakin sedikit prediktor, semakin baik?

Mubazir / tidak relevan:

Overfitting:

kekuatan produktif:

Pemahaman:

5. Metrik kesalahan apa yang akan Anda gunakan untuk mengevaluasi kinerja pengklasifikasi biner? Bagaimana jika kelas tidak seimbang? Bagaimana jika ada lebih dari dua kelompok?

6. Bagaimana cara membuat model lebih kuat?

Informasi Terkait

9 Hal Yang Seharusnya Tidak Anda Lakukan Dalam Hidup Anda, Jika Anda Melakukannya, Anda Akan Menyesal!

Panduan pembelian terburu-buru iPhone: Jika Anda ingin membeli iPhone XS pada hari rilis pertama, 3 tips ini cepat dipelajari

Lisensi elektronik identifikasi pilot nasional, ekosistem NFC Huawei lebih menjanjikan di masa depan

Putri terburuk Jepang ditempatkan di bawah tahanan rumah sebagai "alat kesuburan" setelah dia menikah dengan keluarga kerajaan ...

Kelas Pelatihan Musim Dingin dan Musim Semi Kabupaten Hengdong: Anggota partai berusia 80-an tahun mengungkapkan "keinginan" mereka

Di bawah stigma game, ke manakah kesimpulan dari kecanduan?

Apa yang harus saya lakukan jika prompt peningkatan iPhone muncul? Satu trik untuk membantu Anda menyelesaikannya dalam 30 detik Pekerjaan ringan

"Jaksa Penuntut Dialog" sedang online, ada hadiah untuk berpartisipasi dalam interaksi

5 Film Fraud IQ Tinggi, Rasakan Triknya yang Bikin Kamu Sulit Waspada

Ini juga merupakan buku teks, Cina jauh lebih buruk daripada negara asing!