muhamad gunawan

Just another WordPress.com site

Make a colaborative journal

ALGORITMA UMUM PENCARIAN INFORMATION DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN

 

 

 

  

Disusun oleh :

Nama : Muhamad Gunawan

NIM : 1133468609

Jurusan : Sistem Komputer

Konsentrasi : CCIT

SEKOLAH TINGGI ILMU KOMPUTER RAHARJA

JL. Jend Sudirman No. 40 Modern Cikokol – Tangerang, Banten 15117

Phone : (021) 5529692 – 5529586

Fax : (021) 5529741

TANGERANG

2011

Abstract

Information retrieval (IR) system is a system, which is used to search and retrieve information relevant to the users needs. IR system retrieves and displays documents that are relevant to the users input (query). The information retrieval system has several steps and must execute the steps in order to obtain query result. The steps consist of two processes. The firs one in processing query and the second one is processing the documentw collection. Processing query includes: conduct text operation, query formulation, and make terms index for query. Processing the document collection includes: conduct text operation, indexing, and make collection index for document collection. Obtaining terms index and collectin index, we are able to process terms index and collection index to obtain ranking result. To obtain ranking result requires knowledge from basic linear algebra. This paper also explores how to make ranking from the most relevant documents to the most irrelevant documents.

Abstrak

Pengambilan informasi (IR) sistem adalah sistem, yang digunakan untuk mencari dan mengambil informasi yang relevan dengan kebutuhan pengguna. Sistem IR mengambil dan menampilkan dokumen-dokumen yang relevan ke input pengguna (permintaan). Sistem temu kembali informasi memiliki beberapa langkah dan harus melaksanakan langkah-langkah dalam rangka untuk memperoleh hasil query. Langkah-langkah terdiri dari dua proses. Pohon-pohon cemara satu di pemrosesan query dan yang kedua adalah pengolahan koleksi documentw. Pengolahan permintaan mencakup: melakukan operasi teks, formulasi query, dan membuat indeks istilah untuk query. Pengolahan koleksi dokumen meliputi: melakukan operasi teks, pengindeksan, dan membuat indeks koleksi untuk koleksi dokumen. Memperoleh Indeks istilah dan indeks collectin, kami dapat memproses indeks istilah dan indeks koleksi untuk mendapatkan hasil peringkat. Untuk mendapatkan hasil peringkat memerlukan pengetahuan dari aljabar linear dasar. Makalah ini juga menjajaki bagaimana membuat peringkat dari dokumen-dokumen yang paling relevan ke dokumen yang paling relevan.

  1. Pendahuluan

Information retrieval (IR) system digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.

Salah satu aplikasi umum dari IR system adalah search engine atau mesin pencari yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman web yang dibutuhkannya melalui search engine. Contoh lain dari IR system adalah system informasi perpustakaan.

IR system terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan IR system dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut.

Sebagai suatu system, IR system memiliki beberapa bagian yang membangun sistem secara keseluruhan. Bagian-bagian yang terdapat pada IR system digambarkan pada Gambar 1

 

Gambar 11 bagian-bagian information retrieval system

Gambar 2 memperlihatkan bahwa terdapat dua buah alur operasi pada IR system. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama.

Bagian-bagian dari IR system menurut gambar 2 meliputi:

  1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi term index (indexs dari kata-kata)
  2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.
  3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
  4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.

IR system menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut system relevan dengan query. Namun relevan dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, dan perwakilan, sumber informasi maupun tujuan pengguna.

Model IR system menentukan detil IR system yaitu meliputi representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query.

Terhadap beberapa model IR system seperti model boolean dan model ruang vektor. Dalam tulisan ini, model ruang vektor dipilih karena model ruang vektor mampu menghasilkan dokumen-dokumen terurut berdasarkan kesesuaian dengan query. Dan juga query didalam model ruang vektor dapat berupa kumpulan kata-kata dari pengguna dalam ekspresi bebas.

2. Model ruang vektor

Misalkan terdapat jumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query yang di representasikan sebagai vektor berdimensi n.

Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai:

D1= 2T1 + 3T2 + 5T3 ; D2 = 3T1 + 7T2 + 0T3 + 2T3

Maka representasi grafis dari ketiga vektor ini adalah seperti gambar 3

Koleksi dokumen direpresentasikan pula dalam ruang vektor sebagai matriks kata-dokumen (terms-documents matrix). Nilai dari elemen matriks wij adalah bobot kata i dalam dokumen j.

 

Misalkan terdapat sekumpulan kata T sejumlah m, yaitu T = (T1, T2, …., Tm) dan sekumpulan dokumen D sejumlah n, yaitu D = (D1, D2, ….., Dn) serta wij adalah bobot kata i pada dokumen j. Maka gambar 4 adalah representasi matriks kata-dokumen

Penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor  query. Semakin “sama” suatu vektor dokumen dengan vektor query maka dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor. Gambar 5 mengilustrasikan kesamaan antara dokumen D1 dan D2 dengan query Q. Sudut 01 menggambarkan kesamaan dokumen D1 dengan query sedangkan sudut 02 menggambarkan kesamaan dokumen D2 dengan query.

Jika Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua buah vektor dalam ruang berdimensi-n, dan 0 adalah sudut yang dibentuk oleh kedua vektor tersebut. Maka

Merupakan norm atau panjang vektor di dalam ruang berdimensi-n perhitungan kesamaan (similarity) kedua vektor adalah sebagai berikut:

Metode pengukuran kesesuaian ini memiliki beberapa keuntungan, yaitu adanya normalisasi terhadap panjang dokumen. Hal ini memperkecil karena dokumen yang panjang kedua vektor digunakan sebagai faktor normalisasi. Hal ini dipergunakan karena dokumen yang panjang cenderung mendapatkan nilai yang besar dibandingkan dokumen yang lebih pendek.

Proses perangkingan dari dokumen dapat dianggap sebagai proses pemilihan (vektor) dokumen yang dekat dengan (vektor) query, kedekatan ini diindikasikan dengan sudut yang dibentuk. Nilai cosinus yang cenderung besar mengindikasikan bahwa dokumen cenderung sesuai query. Nilai cosinus sama dengan 1 mengindikasikan bahwa dokumen sesuai dengan query.

3. Pembobotan Kata

Bagian sebelumnya membahas mengenai metode pengukuran kesesuaian anatara dokumen dan query dalam model ruang vektor. Dokumen maupun query direpresentasikan sebagai vektor berdimensi-n. Bagian ini akan membahas mengenai nilai dari vektor atau bobot kata dalam dokumen.

Salah satu cara untuk memberi bobot terhadap suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot. Semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar.

Faktor lain yang diperhatikan dalam pemberian bobot adalah kejarang munculan kata (term scarcity) dalam koleksi. Kata yang muncul pada sedikit dokumen harus dipandang sebagai kata yang lebih penting (uncommon terms) daripada kata yang muncul pada banyak dokumen. Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung suatu kata (inverse document frequency). Hal ini merupakan usaha dari George Zipf. Zipf mengamati bahwa frequency dari sesuatu cenderung kebalikan secara proporsional dengan urutannya.

Faktor terakhirnya adalah faktor normalisasi terhadap panjang dokumen. Dokumen dalam koleksi dokumen memiliki karakteristik panjang yang beragam. Ketimpangan terjadi karena dokumen yang panjang akan cenderung mempunyai frequency kemunculan kata yang besar. Sehingga untuk mengurangi ketimpangan tersebut dibutuhkan normalisasi dalam pembobotan.

Perbedaan antara normalisasi pada pembobotan dan perangkingan adalah normalisasi pada pembobotan dilakukan terhadap suatu kata dalam suatu dokumen sedangkan pada perangkingan dilakukan terhadap suatu dokumen dalam koleksi dokumen.

Pembonotan yang dianggap paling baik adalah menggunakan persamaan

Untuk pembobotan kata i (qi) pada query. Dengan tfi adalah frekuensi kemunculan kata i, ni banyak dokumen yang mengandung kata i dan n jumlah dokumen pada koleksi.

4. Kesimpulan

Pengguna menggunakan IR system sebagai alat bantu untuk dapat mencari dokumen yang sesuai dengan query pengguna. Di dalam IR system, terdapat beberapa proses yang harus dilakukan sehingga IR system dapat daftar ranking dokumen dari dokumen yang paling relevan dengan query sampai dengan dokumen yang tidak relevan dengan query.

Model IR system yang digunakan dalam tulisan ini adalah model ruang vektor. Di dalam model ruang vektor, query dan dokumen direpresentasikan sebagai vektor-vektor kesesuaian vektor query dengan vektor-vektor dokumen dihitung dengan menggunakan aljabar linear sederhana.

PUSTAKA

  1. Setiawan, Hendra (2002), Umpan Balik Relevansi pada Sistem Temu Kembali Informasi, Tugas Akhir Departemen Teknik Informatika ITB.
  2. Rijsbergen, C.J. van (1979), Information Retrieval, Butterworths, London.
  3. Taryana, Acep. 2010. Penerapan Teknik Clustering Basis Data, Study Kasus: Sistem Informasi Akademik Unsoed. Proseding Seminar Nasional Ilmu Komputer, hal. 26-32. Universitas Diponegoro, Semarang.
  4. Few, Stephen. 2004. Information Dashboard Design: The Effective Visual Communication of Data. O’Reilly.
  5. Jacob, Bill (1990), Linear Algebra, W.H. Freeman and Company.
  6. Rijsbergen, C.J. van (1979), Information Retrieval, Butterworths, London.
  7. Gaspersz Vincent. 2003. Balance Scorecard dengan Six Sigma untuk Organisasi Bisnis dan Pemerintahan. PT Gramedia Pustaka Utama, Jakarta.

Single Post Navigation

One thought on “Make a colaborative journal

  1. Ping-balik: Individual Assesment « muhamadgunawan

Tinggalkan Balasan

Please log in using one of these methods to post your comment:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: