Profesor Han Jiawei, pemimpin data mining: Bagaimana cara beralih dari teks tidak terstruktur menjadi pengetahuan yang berguna?

Dipetik dari: AI Technology Review (ID: aitechtalk)

Penulis: Unta

Artikel ini 9516 kata 36 gambar , Dianjurkan untuk membaca 24 menit .

Raksasa data mining Profesor Han Jiawei berbagi rute penelitian terbaru tentang bagaimana mengubah data besar dari data tidak terstruktur menjadi pengetahuan yang berguna.

Data tidak terstruktur- > Data terstruktur > Pengetahuan yang berguna

Dalam beberapa hari terakhir, bagi banyak peneliti di bidang data mining, Beijing menjadi fokus perhatian tanpa alasan lain.Sebagai dua konferensi teratas di bidang data mining, CIKM 2019 dan ICDM 2019 telah diselenggarakan di Beijing satu demi satu, bahkan tempat pertemuan ( National Convention Center) tidak berubah.

Kedua konferensi tersebut sama-sama CCF Kategori B. Perbedaannya adalah yang pertama diadakan oleh ACM dan yang terakhir diadakan oleh IEEE; selain itu, CIKM mencakup jangkauan yang lebih luas, termasuk tiga bidang database, pencarian informasi dan data mining, sedangkan ICDM lebih fokus pada data Menggali.

Dalam dua konferensi tersebut, Profesor Han Jiawei seorang raksasa di bidang data mining akan membuat dua laporan tentang penelitiannya yang bertema

Dari Teks Tak Terstruktur ke TextCube: Konstruksi Otomatis dan Eksplorasi Multidimensi (@ CIKM2019)
Penambangan Teks Berbasis Embedding: Sebuah Perbatasan dalam Penambangan Data (@ ICDM2019)

Big data di dunia nyata sebagian besar tidak terstruktur, saling berhubungan, dan dinamis, dan muncul dalam bentuk teks bahasa alami. Mengubah data tidak terstruktur yang begitu besar menjadi pengetahuan yang berguna terjadi di era big data Satu-satunya cara untuk pergi. Saat ini, metode padat karya biasanya digunakan untuk memberi label pada data untuk mengekstrak pengetahuan. Metode ini diinginkan dalam jangka pendek, tetapi tidak dapat diperluas. Secara khusus, data teks dari banyak perusahaan sangat dinamis dan terkait dengan domain.

Profesor Han Jiawei percaya bahwa sejumlah besar data teks itu sendiri menyiratkan sejumlah besar pola, struktur, dan pengetahuan tersembunyi, sehingga kita dapat menggunakan basis pengetahuan yang tidak bergantung domain dan bergantung pada domain untuk mengeksplorasi cara mengubah data besar dari data tidak terstruktur Untuk pengetahuan yang bermanfaat.

Seperti yang ditunjukkan pada gambar di bawah ini, itu adalah garis utama penelitian Profesor Han Jiawei dan murid-muridnya di masa lalu dan masa depan lebih dari sepuluh tahun:

Han Jiawei percaya bahwa untuk mengubah big data tidak terstruktur yang ada menjadi pengetahuan yang berguna, hal pertama yang harus dilakukan adalah menyusun data. Dia mengusulkan dua bentuk data terstruktur, satu Jaringan Heterogen, dan yang lainnya adalah Kubus Teks Multi-dimensi. Menghasilkan pengetahuan dari data terstruktur ini terbukti sangat bermanfaat, tetapi cara mengubah data mentah yang tidak terstruktur menjadi data terstruktur (Jaringan atau Kubus Teks) sangatlah sulit.

Mengenai masalah Network / TextCube to Knowledge, Han Jiawei dan yang lainnya telah melakukan banyak penelitian dan memenangkan banyak penghargaan; mereka juga telah melakukan banyak upaya dari data teks tidak terstruktur menjadi Network / Text Cube yang terstruktur Dan hasilnya masih dalam proses. Han Jiawei percaya bahwa ini jalan yang panjang. Mereka hanya menembus beberapa lubang yang bisa maju di jalan ini. Ini hanya jalan kecil. Untuk menjadi jalan yang lebar, para sarjana dari seluruh dunia perlu bekerja sama.

Pekerjaan penelitian Profesor Han Jiawei bukanlah untuk mengikuti hotspot, tetapi untuk membuka jalan yang luas dari data tidak terstruktur ke pengetahuan terstruktur dalam sepuluh tahun, jadi konteksnya sangat jelas dan sangat konsisten.

Konten berikut ini adalah dari artikel laporan pidato Profesor Han Jiawei "Apa" jalur "yang dibuka Han Jiawei dalam penambangan data" yang disusun oleh AI Technology Review pada awal 2018, hanya untuk referensi Anda. Dibandingkan dengan setahun yang lalu, tim Profesor Han Jiawei terus-menerus mengintegrasikan kemajuan penelitian terbaru ke dalam "jalur" mereka, seperti BERT, Penyematan Teks Bulat, dll. Untuk ini, lihat makalah terbaru yang diterbitkan oleh tim Profesor Han Jiawei.

1. Trilogi Data Mining

Revolusi membutuhkan prinsip-prinsip panduan, begitu pula penelitian.

Han Jiawei percaya bahwa jika Anda ingin menggali pengetahuan yang berguna dari Big Data, Anda harus mempelajari cara mengubah teks tidak terstruktur menjadi teks terstruktur, dan kemudian menggali pengetahuan dari teks terstruktur.

Menanggapi gagasan ini, mereka mengusulkan tiga kata kunci:

Penataan: Ubah teks tidak terstruktur menjadi entitas atau hubungan yang terstruktur, diketik, dan terkait

Jaringan: Gunakan sejumlah besar hubungan terstruktur untuk membangun jaringan

Penambangan: menambang pada hubungan dan jaringan

Han Jiawei percaya bahwa penelitian mereka tentang penambangan data dapat diringkas sebagai sebuah trilogi:

(1) Menambang struktur tersembunyi dari data teks . Ada banyak struktur yang tersembunyi dalam data teks, dan langkah ini adalah menambang data ini.

(2) Ubah data teks menjadi Network / Text Cube yang diketik . Ubah data teks menjadi data terstruktur dan diketik (Jaringan / Kubus Teks).

(3) Mining Network / Text Cube untuk menghasilkan pengetahuan yang berguna . Langkah terakhir adalah menggali.

Mengapa melalui langkah tengah untuk mengubah teks tidak terstruktur menjadi Network / Text Cube daripada langsung menambang teks? Han Jiawei kemudian mengutip dua contoh untuk mengilustrasikan manfaat melakukannya.

2. Kekuatan Jaringan

Jika informasi literatur DBLP (seperti tesis, penulis, lokasi publikasi, dll) diintegrasikan ke dalam Jaringan, maka jelas jaringan ini berisi informasi yang kaya.Sebagai contoh, kita dapat menggunakan fungsi peringkat untuk mencari tahu siapa pemimpin dalam penelitian Web dari jaringan. , Atau gunakan fungsi penelusuran kemiripan untuk menggali rekan-rekan cendekiawan dari jaringan; gunakan prediksi hubungan untuk mengetahui siapa calon kolaborator cendekiawan nantinya; gunakan evolusi jaringan untuk menemukan bagaimana disiplin Data Mining muncul dan dikembangkan, dll.

Di sini Han Jiawei menceritakan sebuah kisah. Pada tahun 2010, Han diundang oleh ECML-PKDD untuk membuat keynote dengan topik Structureis Informative: On Mining Structured Information Networks. Dalam sesi tanya jawab setelah laporan, Christos Faloutsos yang duduk di bawah mengangkat tangannya dan bertanya: Jaringan yang kamu buat ini sangat kuat, tetapi bisakah kamu memprediksi artikel apa yang akan saya tulis tahun depan? Han menjawab, Saya bahkan memiliki milik saya sendiri Aku tidak bisa memprediksinya, apalagi kamu. Jadi seluruh ruangan tertawa. Setelah kembali ke rumah, Han Jiawei menceritakan lelucon itu kepada Sun Yizhou, yang saat itu masih menjadi mahasiswa Ph.D. Sun Yizhou benar-benar berpikir bahwa ini bukan lelucon sederhana. Setelah analisis dan diskusi, Sun Yizhou memutuskan topik baru, memprediksi penulis baru mana yang akan bekerja sama dengan Christos dalam beberapa tahun mendatang.

Topik ini mengarahkan Sun Yizhou untuk mengusulkan konsep Meta path, yang sekarang banyak digunakan, dan menerbitkan artikel berpengaruh di ASONAM pada tahun 2011. Dalam artikel tersebut, Sun Yizhou memprediksi kolaborator Pei Jian. Menurut artikel Pei Jian tahun 2010 (sebagai set fitur), ia secara akurat memprediksi kolaborator (set pengujian) mana yang akan ia miliki sepanjang tahun, dan hanya satu dari lima prediksi teratas yang tidak muncul dalam set pengujian.

Apakah prediksi lainnya salah? Tidak, Pei Jian dan Osmar juga berkolaborasi, tetapi makalah yang mereka kerjakan diterbitkan pada tahun 2011; itu tidak dihitung dalam set tes.

Artinya, jika ada Jaringan yang menyusun Big Data, kemampuan prediktifnya (atau kemampuan lain) akan sangat kuat.

Tiga, kekuatan Text Cube

Kami tahu bahwa sangat mudah untuk melakukan statistik dan analisis pada Database (yaitu, Data Cube). Sekarang analisis Teks tidak terstruktur Jika Anda dapat menempatkan Teks ke dalam Kubus multi-dimensi yang serupa, maka jelas ini akan memainkan peran yang baik dalam menganalisis Teks.

Salah satu aplikasi dari Text Cube adalah Comparative Summarization. Misalnya, memasukkan berita NY Times ke dalam Kubus semacam itu, kami ingin merangkum informasi "2016", "China", dan "Ekonomi". Ada banyak Dokumen yang terkait dengan kata kunci ini, dan tidak ada yang mau memeriksanya satu per satu. Jika Anda hanya menggunakan metode statistik untuk memperoleh informasi, Anda akan menemukan banyak informasi yang bukan "Ekonomi", seperti "Hong Kong", "Amerika Serikat", dll. Dan jika kita telah meletakkan Teks-teks ini di dalam Kubus sebelumnya, menurut standar Integritas, Popularitas, Perbedaan, dll., Dengan membandingkan sel-sel yang berdekatan di setiap dimensi, kita dapat dengan mudah menemukan informasi yang sangat akurat.

Dengan metode ini, kelompok yang dipimpin oleh Han Jiawei dapat dengan mudah menggali agenda utama debat bipartisan di Amerika Serikat saat itu melalui pemberitaan NY Times tahun 2016 (mis. < AS, Kontrol Senjata > , < AS, Imigrasi > Dll.) 10 informasi kunci teratas.

Sebuah cerita yang sangat menarik adalah setelah Han Jiawei membuat laporan tentang penelitian yang disebutkan di atas di UCLA, dia menarik minat para profesor medis UCLA. Penelitian UCLA tentang penyakit jantung sangat maju secara nasional.

Profesor ini memberi tahu Han Jiawei bahwa penyakit jantung sebenarnya bukanlah satu jenis penyakit, tetapi enam jenis penyakit; setiap jenis penyakit sebagian besar disebabkan oleh protein tertentu. Mereka berharap Han Jiawei dapat membantu mereka menemukan protein mana yang terkait erat dengan jenis penyakit jantung dari sejumlah besar literatur.

Tugas ini sangat sulit bagi para profesor kedokteran tersebut, karena ada lebih dari 1 juta makalah biomedis yang diterbitkan setiap tahun, dan setiap penelitian tentang jenis penyakit jantung tertentu selalu mencantumkan banyak protein terkait. Sangat sulit untuk menemukan protein yang sesuai dengan jenis penyakit jantung tertentu di dalam informasi.

Setelah diskusi, Han Jiawei dan lainnya mengambil sepuluh tahun data terkait dengan "penyakit kardiovaskular" dari PubMed (perpustakaan literatur medis), dan ada sekitar 500.000 makalah. Mereka menggunakan 500.000 makalah ini, 6 jenis penyakit jantung, dan 250 protein yang didaftarkan oleh para profesor medis. Menurut algoritme yang sama seperti NY Times, mereka dengan cepat mendapatkan peringkat protein yang relevan untuk setiap jenis penyakit jantung, seperti yang ditunjukkan pada tabel berikut (Hanya 5 Teratas yang terdaftar).

Profesor kedokteran ini sangat senang setelah melihat hasilnya. Pertama-tama, dalam hasil yang terdaftar oleh Han Jiawei dan lainnya, protein peringkat No. 1 benar-benar konsisten dengan situasi yang diketahui, yang menunjukkan bahwa algoritma ini efektif. Namun, pengalaman mereka menunjukkan bahwa beberapa pasien (seperti anak-anak) seringkali tidak efektif menurut etiologi protein ini, yang menunjukkan bahwa penyakit jantung jenis ini pada pasien ini bukan disebabkan oleh protein ini. Oleh karena itu, protein peringkat No. 2, No. 3, dll. Yang didaftarkan oleh Han Jiawei dan lainnya memberi mereka petunjuk besar. Mereka dapat berkonsentrasi untuk melakukan uji klinis pada protein ini, yang sangat mendorong penelitian mereka.

Contoh sederhana seperti itu menunjukkan bahwa Text Cube sangat berguna dan memiliki potensi besar.

4. Struktur penambangan dari teks tidak terstruktur

Penelitian pada dua arah di atas ("Menemukan Pengetahuan dari Jaringan" dan "Menemukan Pengetahuan dari Kubus Teks") menunjukkan bahwa jika ada Jaringan / Kubus Teks terstruktur, maka cukup mudah untuk menambang pengetahuan darinya. Namun di dunia nyata, sebagian besar data yang kami miliki adalah Teks tidak terstruktur, dan cara mengubah Teks tidak terstruktur ini menjadi Jaringan / Kubus Teks terstruktur masih menjadi masalah yang belum terpecahkan.

Pekerjaan penelitian utama tim Han Jiawei dalam beberapa tahun terakhir adalah seputar pertanyaan ini, yaitu bagaimana menambang Frase dari Teks, bagaimana menambang Entitas yang Diketik dari Teks, dan bagaimana mengubah Frase / Entitas Yang Diketik ini menjadi Jaringan / Teks- kubus.

1. Penambangan Frase

Arti sebuah kata seringkali tidak jelas, jika frase (Frase) dapat ditambang dari Teks, itu akan memiliki arti yang sangat penting untuk menambang struktur teks. Staf tim Han Jiawei telah mengusulkan tiga metode, yaitu, TopMine tanpa pengawasan, SegPhrase yang diawasi dengan lemah, dan Frase Otomatis yang diawasi dari jarak jauh. Kode studi ini tersedia untuk umum di Github, siapa pun dapat mengunduhnya dan menggunakannya atau mengulangi pekerjaannya.

(1) TopMine: penambangan pola frekuensi + analisis statistik

Pekerjaan ini terutama untuk menambang Topik teks korpus. Namun, metodenya berbeda dengan metode sebelumnya yang menggunakan Uni-gram, tetapi ia membagi penambangan Topik menjadi dua langkah: teks disegmentasi oleh Penambangan Frase; dan kemudian model Topik berdasarkan batasan Frase dilakukan.

Ide dasar dari teks PhraseMining adalah kata-kata dalam Phrase muncul lebih sering pada waktu yang bersamaan. Secara khusus, ini adalah rumus seperti itu:

Misalnya, untuk makalah berjudul "Pemilihan Fitur MarkovBlanket untuk Mesin Vektor Dukungan", metode segmentasi yang berbeda dapat membaginya menjadi topik yang berbeda. Misalnya, hanya menurut "Vektor", artikel ini dapat dibagi menjadi matematika, Di topik fisik. Tapi jelas "Support Vector Machines" adalah keseluruhan, itu milik Topik komputer. Berdasarkan iterasi rumus di atas, judul dapat dibagi menjadi Frase berikut.

Seberapa baik metode ini? Han Jiawei menceritakan kisah lain. David Blei adalah seorang ahli yang sangat berwibawa dalam Topic Model. Suatu kali kunjungan ke UIUC, dia terkejut melihat hasilnya, karena dia belum pernah melihat hasil yang sebaik ini.

Alasan untuk hasil yang baik adalah karena TopMine membagi Model Topik menjadi dua langkah, pertama melakukan Phrase Mining, dan kemudian melakukan Model Topik. Metode ini menghindari pemisahan Word dalam sebuah Frase dengan panjang seragam gram.

(2) SegPhrase: Phrase Mining berkualitas tinggi yang diawasi dengan lemah

Jiawei Liu, seorang siswa dari Han Jiawei, percaya bahwa metode TopMine benar-benar tidak diawasi. Jika ada sedikit data Label, ini dapat meningkatkan hasil Model Topik. Jadi dia dengan hati-hati memilih 300 Label berkualitas tinggi (150 contoh positif dan 150 contoh negatif).

Segera setelah makalah ini dipublikasikan pada SIGMOD2015, Yelp menganugerahi mereka penghargaan "Grandprize of 2015 Yelp Data Set Challenge", dan metode ini juga diterapkan pada platform seperti TripAdvisor.

(3) Frase Otomatis: Penambangan Frase Otomatis

Shang Jingbo, seorang siswa Han Jiawei, berpikir bahwa memilih 300 Label berkualitas tinggi secara manual cukup membuang-buang energi, jadi dia memilih untuk menggunakan entri Wikipedia sebagai label, yang dengan cepat dapat memperoleh ratusan ribu Label.

Satu masalah dengan pendekatan ini adalah bahwa ada beberapa Frasa yang tidak ada di Wikipedia, dan Frasa ini belum tentu Label Nagatif. Mereka memecahkan masalah ini dengan peringkat.

Hasil metode ini meningkat secara signifikan dibandingkan dengan metode lain.

2. Identifikasi TypedEntity

Setelah mengetahui Frase, Anda perlu membuat Frase masuk akal, yaitu untuk mengidentifikasi entitas dan Jenis label. Menurut Han Jiawei:

"Mengidentifikasi identitas rentang token yang disebutkan dalam dokumen dan memberi label tipenya Mengaktifkan analisis terstruktur dari korpus teks tak terstruktur."

Ada beberapa kesulitan:

Pembatasan domain. Anotasi entitas yang diperoleh dari korpus umum tidak dapat berfungsi dengan baik di bidang tertentu, bidang dinamis, atau bidang baru.
Ambiguitas nama. Beberapa entitas dapat memiliki nama permukaan yang sama (SurfaceName, seperti "Washington", dapat berupa negara bagian, kota, nama, nama tim, dll.)
Konteksnya jarang. Mungkin ada banyak cara untuk mengungkapkan hubungan yang sama. (Pikirkan tentang berapa banyak cara untuk mengekspresikan hasil permainan olahraga dalam bahasa Mandarin)

(1) ClusType

Han Jiawei berbicara tentang artikel yang mereka terbitkan di KDD 2015. Dalam artikel ini, mereka membuat diagram struktur heterogen berikut, di mana c1, c2, c3 mewakili Nama Permukaan entitas, p1, p2 ... mewakili Frase di sekitar Nama Permukaan dalam teks, dan m1, m2 ... mewakili entitas (EntityMention ). Setiap Entity Mention adalah objek independen tanpa ambiguitas.

Hubungkan Nama Permukaan, Frase, dan Sebutan Entitas. Semakin besar kemungkinan dua objek berbagi label yang sama, semakin besar bobot tepi yang menghubungkannya.

Berdasarkan grafik yang heterogen tersebut, mereka menggabungkan dua tugas untuk membangun pembelajaran semi-supervisi berbasis grafik:

Ketik evolusi dalam diagram. Frase digunakan untuk menyimpulkan kategori entitas yang terhubung (misalnya, "Kabul adalah sekutu Washington". Jika Kabul dikenal sebagai "pemerintah", maka dapat disimpulkan bahwa kategori "Washington" di sini juga "pemerintah". ").
Kelompokkan frasa relasi. Sebaliknya, entitas dengan tipe beranotasi juga dapat digunakan sebagai fitur yang baik untuk mengelompokkan frasa.

Mengulangi kedua langkah ini akan mendapatkan hasil yang baik. Terlihat dari hasil bahwa skor F1-nya jauh melebihi top research di bidang NLP lainnya.

(2) Cotype: melangkah lebih dalam

Kategori di atas seringkali relatif kasar, misalnya, hanya membedakan "orang", "makanan", "pekerjaan", "acara", "pemerintah", dll., Dan perinciannya relatif besar. Ambil contoh Trump, kategori besar Trump adalah "orang", tetapi sebagai "orang", Trump bisa menjadi politisi, pengusaha, atau artis. Bagaimana cara mengklasifikasikan lebih halus? Metodenya adalah Embedding.

Han Jiawei mengutip artikel yang mereka terbitkan di WWW 2017. Dalam artikel ini, mereka menemukan metode yang disebut CoType, yang menyematkan semua Entitas dan Frasa ke dalam ruang berdimensi rendah (bukan hanya Entitas Penyematan).

Misalnya, di ruang Embedding ini, jika "Trump" yang akan ditandai mirip dengan "Hillary", maka jelas "Trump" harus ditandai sebagai "politisi"; jika mirip dengan Frase terkait perusahaan, maka harus ditandai sebagai "pengusaha ". Meningkatkan keseluruhan konten yang ditandai melalui promosi bersama Entitas dan Frasa.

Contoh yang dikutip di koran adalah "Obama", berikut adalah contoh dari laporan Han Jiawei.

3. Cari MetaPattern

Han Jiawei sebenarnya berpikir lebih jauh, tidak hanya mencari Frase, tidak hanya mencari Type, tapi juga mencari Pattern dalam teks, menggunakan Pattern untuk secara otomatis dan masif menambang informasi struktural dari teks.

Apa itu pola? Faktanya, ini adalah "rutinitas" dalam istilah populer. Banyak bahasa kami menggunakan template, seperti "pemerintah AS", "pemerintah China", "pemerintah Burkina Faso", dan seterusnya. Anda mungkin tidak tahu apa itu "Burkina Faso" sekaligus, tetapi melalui model yang serupa, Anda tahu bahwa ini pasti sebuah negara.

Sekali lagi, ini tidak sulit untuk mesin. Selama ada pola, mesin dapat dengan cepat menggali sejumlah besar informasi dari pola yang sama dari teks. Jiawei Han mengutip artikel yang diterbitkan oleh Meng Jiang, seorang rekan postdoctoral di laboratorium mereka, pada KDD 2017.

Pekerjaan ini juga dilakukan pada pekerjaan Frase, tetapi ini adalah Frase Meta dari Pola Meta.

Dari gambar di atas, Anda dapat dengan jelas melihat alur kerja mereka: menyegmentasikan teks korpus dengan Pola Meta untuk mendapatkan Pola Meta; melalui Pola Meta, Anda dapat menemukan sejumlah besar tripel yang cocok; dan kemudian menggunakan tripel ini untuk lebih meningkatkan Pola Meta. , Seperti meningkatkan perincian atau mendapatkan Pola Meta yang identik. Perlu diperhatikan bahwa metode ini tidak memerlukan data anotasi dalam jumlah besar, juga tidak memerlukan pengetahuan domain yang sesuai, juga tidak memerlukan log pencarian.

Mereka menerapkan metode ini pada korpus berita, dan segera menggali semua negara dan pemimpin, serta perusahaan besar dan kecil serta CEO mereka.

Metode yang sama diterapkan pada korpus penelitian medis, dan penyakit terkait dan pilihan pengobatan, bakteri dan antibodi dengan cepat ditemukan. Ide pekerjaan ini sederhana, tetapi hasilnya luar biasa.

4. Tetapkan klasifikasi hierarkis

Berdasarkan pekerjaan di atas, banyak orang juga mempelajari cara membuat klasifikasi hierarki Entitas. Setelah pelatihan, manusia dapat dengan mudah mengklasifikasikan entitas yang berbeda.Misalnya, Pembelajaran Mesin dan Ilmu Komputer jelas tidak pada level yang sama. Dapatkah mesin secara otomatis membuat klasifikasi hierarki Entitas berdasarkan Judul teks?

Han Jiawei berkata bahwa secara otomatis membuat klasifikasi hierarkis sebenarnya "sangat sulit". Setelah beberapa kali mencoba, mereka mengusulkan dua metode efektif: Adaptive Spherical Clustering dan LocalEmbedding.

(1) AdaptiveSpherical Clustering

Dengan mempertimbangkan karakteristik Popularitas dan Konsentrasi, model peringkat dirancang, dan Frasa representatif (Frasa Representatif) dari setiap cluster dipilih melalui model peringkat. Kemudian Frase latar belakang (Frase Latar Belakang) dipindahkan ke atas atau ke bawah (sesuai dengan jarak setelah Penyematan). Poin terpenting adalah bahwa setiap Frase tidak boleh termasuk dalam Cluster tertentu.

(2) Penyematan Lokal

Yang disebut Penyematan Lokal berarti bahwa hanya Frasa yang terkait dengan Kluster yang digunakan untuk Penyematan. Alasan untuk ini adalah ketika semua Frasa disatukan untuk Embedding (Global Embedding), Frase dari Cluster lain akan menghasilkan banyak noise, yang akan melenyapkan hal-hal yang sangat berguna. Dan jika Anda menggunakan LocalEmbedding, Anda dapat menampilkan Frase yang sangat berguna.

Lima, buat TextCube multi-dimensi

Apa tujuan dari penelitian ini? Han Jiawei mengatakan bahwa tujuan utamanya adalah membangun Text Cube multi-dimensi.

Satu pertanyaan yang mungkin adalah, bukankah Text Cube sudah ada di bagian 2.2, mengapa membuatnya? Yang perlu kita perhatikan adalah bahwa Text Cube adalah data NY Times, yaitu Teks yang telah dikonstruksi menurut tag Topik (olahraga, ekonomi, politik, sains ...) atau Lokasi (China, USA, Jepang ...). Kubus; tetapi sebagian besar teks di dunia nyata tidak memiliki label, yang mengharuskan kita untuk membuatnya sendiri.

Pertanyaan yang realistis adalah, jika Anda diberikan 1 juta Dokumen dan hanya beberapa tag (seperti tag Lokasi dan Topik yang disebutkan di atas), dapatkah Anda secara otomatis membuat ratusan tag dan menempatkan teks dengan benar Ke dalam Kubus Teks multidimensi yang dibangun oleh tag ini?

Hal pertama yang harus dilakukan tentu saja adalah Menyematkan, tetapi ada terlalu sedikit tag yang diketahui. Jadi Han Jiawei dan yang lainnya membuat grafik L-T-D (Label-Term-Document), di mana Term diekstraksi dari teks.

Kami melihat distribusi setiap Istilah di setiap Label yang diketahui.

Misalnya, "pasar saham", probabilitas distribusinya di setiap dimensi lokasi pada dasarnya sama, yang berarti istilah "pasar saham" tidak termasuk dalam dimensi lokasi; sebaliknya, distribusinya dalam dimensi topik sangat berbeda Seks. Menurut standar yang disebut Dimension-FocalScore, dapat dinilai bahwa itu termasuk dalam label ekonomi.

Berdasarkan metode di atas dan prevalensi istilah di bawah label ini (jika lebih besar dari nilai tertentu), dapat dinilai bahwa istilah ini (seperti "pasar saham") termasuk dalam label di bawah dimensi label yang sesuai. Dengan cara ini, kita dapat secara otomatis menghasilkan sejumlah besar tag, dan meletakkan teks ke dalam Kubus Teks multi-dimensi yang dibuat oleh tag ini pada saat yang bersamaan.

Setelah membuat TextCube seperti itu, penambangan data akan jauh lebih nyaman.

6. Ringkasan arahan penelitian

Han Jiawei akhirnya membuat ringkasan dari laporan tersebut. Di sini kami menyusun kata-kata asli Han sebagai berikut, dengan sedikit modifikasi:

Kami percaya bahwa untuk mengubah data besar menjadi pengetahuan besar, salah satu yang terpenting adalah memiliki struktur. Kami menemukan dua struktur, satu Jaringan dan yang lainnya adalah Kubus Teks. Menggunakan dua struktur ini untuk memperoleh Pengetahuan, kita sudah memiliki contoh yang baik, dan mereka sangat kuat. Tentu saja, kedua struktur ini harus digabungkan sampai batas tertentu, dan sekarang sebagian dari kita sedang mempelajari cara menggabungkannya.

Masih jauh dari data nyata ke data terstruktur dan kemudian ke pengetahuan yang berguna. Kami telah melakukan Data Mining selama bertahun-tahun melalui jalur ini. Dari buku pertama yang kami terbitkan pada tahun 2000 (catatan: edisi ketiga pada tahun 2011), kemudian Philip, Faloutsos dan saya menulis bersama "Link Mining" pada tahun 2010, dan kemudian "Mining Heterogeneous Information Network" oleh Sun Yizhou; Kemudian muncullah "Mining Latent EntityStructures" oleh Wang Chi; baru-baru ini, Liu Jiayan dan Shang Jingbo yang melakukan penambangan Frase ("Penambangan Frasa Dari Teks Masif dan Aplikasinya"). Ini akan menjadi buku di masa depan. Kami akan memiliki Ren Xiang berikutnya, dan kami akan turun. (Tinjauan Teknologi AI November 2019 Catatan: Saat ini, Ren Xiang telah menerbitkan "Struktur Penambangan Pengetahuan Faktual dari Teks", dan Zhang Chao kemudian menerbitkan "Penambangan Multidimensi Data Teks Besar-besaran")

Di jalan ini, kami hanya menemukan beberapa lubang untuk maju. Sekarang ini bukan jalan besar, hanya jalan kecil. Untuk menjadi jalan yang luas, setiap orang perlu bekerja sama. Jalan ini diperlebar, dan di masa mendatang kita dapat mengubah dari sejumlah besar teks tidak terstruktur menjadi sejumlah besar pengetahuan yang berguna. Ini adalah poin utama yang ingin saya bicarakan.

- Selesai -

Ikuti platform publik WeChat resmi dari Institut Ilmu Data Tsinghua-Qingdao " THU Data Pie "Dan nomor saudara perempuan" Data Pie THU "Dapatkan lebih banyak manfaat kuliah dan konten berkualitas.

Acara nasional ini diselenggarakan di Zhongshan, dan kebugaran ilmiah akan memasuki 5 sekolah dasar dan menengah, yang bermanfaat bagi lebih dari 10.000 siswa

Sebelumnya

Di balik penurunan 361 derajat: hal-hal antara auditor baru dan auditor lama

Lanjut

: Massa membunuh orang tua yang tidak bersalah, warga Hong Kong secara spontan berduka: Jangan takut akan kekerasan

: Maaf Zhao Yuanyuan: Siaran langsung Taobao terlalu panas, kami merobek warna pelindung Anda dari 270 artikel

: Ajari Anda untuk menulis jaringan saraf pertama Anda dengan kurang dari 30 baris kode Keras (dengan tutorial kode)

: Laporkan status dan tren perkembangan industri kecerdasan buatan pada tahun 2019

: Festival Sirkus Internasional China ke-6 dimulai besok, Putri Stephanie dari Kerajaan Monako akan menghadiri acara tersebut

: Mendekati pahlawan Xiaoba Road, menjelajahi kota kecil Musim Semi dan Musim Gugur Dua film merah klasik berlangsung di Xiamen

: Empat penyanyi yang tidak pernah berpura-pura bernyanyi, JJ Lin ada di list, yang keempat bahkan lupa kata-katanya di konser

: Tangxia mencoba sistem kepala bangunan dan sistem kepala jalan untuk memobilisasi massa untuk membentuk kekuatan bersama untuk tata kelola sosial di tingkat akar rumput

: Menyaksikan "Perubahan Jiangxi" erat dengan inti ekologi

: Wanlian: Temukan jalan termudah di pasar yang kacau balau

: @Fujian people note: hingga 15 November, perilaku seperti ini sangat dilarang

: "Kuda" telah pulang selama lebih dari seratus tahun! Lima "Tanda Zodiak" masih hilang

Profesor Han Jiawei, pemimpin data mining: Bagaimana cara beralih dari teks tidak terstruktur menjadi pengetahuan yang berguna?

Informasi Terkait

Beli-beli-beli pecah, 10.000 anak muda menjawab Deep Krypton

Baris kode yang mengubah dunia

Jalan itu hilang, dan pedesaan "hidup"! Distrik Meijiang di Meizhou mempromosikan pembangunan "Empat Jalan Pedesaan yang Baik"

Google "Project Nightingale" terbongkar: secara diam-diam mengumpulkan jutaan data medis pribadi

Biro Statistik: Perubahan harga jual rumah komersial di 70 kota besar dan menengah pada Oktober 2019

Video Preman membunuh orang tua yang tidak bersalah, warga Hong Kong secara spontan berduka: Jangan takut akan kekerasan

Forum Inovasi Teknologi Informasi Frontier 2019 sukses diselenggarakan

Lihat bagaimana perekrutan "pemimpin" menyelesaikan ujian "akhir semester"

Tax Blue · Innocent Heart | Li Cheng: Niat aslinya adalah semacam ketekunan biasa

Bank soal tes paling komprehensif dengan lebih dari 30.000 bintang di GitHub: Pertanyaan wawancara komputer dikumpulkan sekaligus