18 Maret 2009

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari
Dokumen Teks

Abstraksi

Proses ekstraksi informasi (Information Extraction atau IE) adalah proses pengubahan dokumen teks tidak terstruktur dengan domain tertentu ke dalam sebuah struktur informasi yang relevan. Di dalam tugas akhir ini domain yang digunakan adalah lowongan pekerjaan. Kebanyakan iklan lowongan pekerjaan yang terdapat di berbagai website perusahaan maupun website khusus lowongan pekerjaan di Indonesia merupakan dokumen teks berbahasa campuran, Indonesia dan Inggris.

Pada tugas akhir ini akan dikaji proses ekstraksi informasi pada dataset berbahasa campuran, dengan menerapkan teknik pembelajaran mesin. Pendekatan pembelajaran mesin yang digunakan adalah pendekatan statistik, dengan metode klasifikasi token. Algoritma klasifikasi yang digunakan adalah Support Vector Machine (SVM) dengan uneven margin, yang didesain khusus untuk imbalanced dataset. Sedangkan strategi tagging yang digunakan adalah strategi Begin/End (BE) tagging. Adapun eksperimen yang dilakukan mencakup analisis performansi SVM dengan uneven margin untuk ekstraksi informasi pada dataset berbahasa campuran, pengujian parameter pembelajaran terbaik, dan perbandingan dengan algoritma klasifikasi lain, yaitu Naïve Bayes dan KNN.

Hasil eksperimen menunjukkan bahwa performansi SVM dengan uneven margin untuk ekstraksi informasi pada dataset lowongan pekerjaan berbahasa campuran sangat baik, dengan akurasi mencapai ±85%. Dengan demikian dapat disimpulkan bahwa sistem ekstraksi informasi yang diimplementasikan dapat diterapkan pada lingkungan bursa kerja di Indonesia. Selain itu, algoritma SVM dengan uneven margin juga memiliki performansi yang lebih unggul dibandingkan dengan kedua algoritma lainnya.

Kata kunci: ekstraksi informasi, pembelajaran mesin, klasifikasi token, SVM uneven margin, Begin/End tagging, imbalanced dataset, dataset berbahasa campuran

Download :

Bab 1

Bab 2

Bab 3

Bab 4

Bab 5

Daftar Pustaka

1 komentar: