Subscribe

RSS Feed (xml)

Powered By

Skin Design:
Free Blogger Skins

Powered by Blogger

2008/11/18

Sistem Temu Kembali

Sistem Temu Kembali Citra
Lagi mau cerita tentang ’sistem temu kembali citra’ nih yang kalo pake basa gawol disebutnya image retrieval system…
Apa sih temu kembali citra itu?? temu kembali citra adalah sistem yang digunakan untuk mengorganisasi citra agar dapat dicari dan digunakan kembali dengan mudah. Berdasarkan cara temu kembali yang digunakan, sistem temu kembali citra ini dibagi menjadi 2, yaitu berdasarkan teks (text based) dan berdasarkan isi (content based).


Sistem temu kembali citra berdasarkan teks menggunakan deskprisi teks untuk mengindeks dan melakukan proses temu kembali. Hal-hal yang dapat digunakan untuk identitas citra adalah nama file, tanggal pengambilan, pemilik citra, atau dapat juga pendeskripsian citra yang dilakukan secara manual (contoh “ini adalah gambar botol”). Loh kenapa manual? emang gak bisa otomatis.. Soalnya pendekripsian citra secara otomatis akan sulit dilakukan jika tanpa menggunakan pengekstrakan isi citra (dan kalo kita udah mengekstrak isi citranya, kenapa gak sekalian aja nyarinya berdasarkan isi citranya). Umumnya untuk melakukan proses temu kembali, pengguna mengirimkan kueri berupa teks. Contoh sistem temu kembali citra berdasarkan teks adalah Google.

Sistem temu kembali berdasarkan isi menggunakan isi citra untuk mengindeks dan melakukan proses temu kembali. Maksudnya isi citra adalah komponen2 yang membentuk citra tsb. Hal-hal yang dapat digunakan untuk identitas citra adalah warna, bentuk, tekstur, topologi dan lainnya. Karna proses temu kembali dilakukan berdasarkan isi citra, kueri yang digunakan oleh sistem ini berbentuk citra atau sketsa atau dapat juga berupa teks, kalo sistemnya juga mampu menganotasi secara otomatis. Contoh sistem temu kembali citra berdasarkan isi citra yaitu tiltomo.


Sistem temu kembali citra ini banyak banget gunanya, salah satunya untuk bidang kesehatan. Andaikan ada rumah sakit yang menyediakan contoh2 gambar hasil ronsen tubuh manusia yang berpenyakit beserta keterangannya (penyakitnya apa, cara ngobatin, dst dsb). Trus kita punya hasil ronsen, bisa aja kita nyari hasil ronsen2 yang serupa jadi kita bisa tau kira2 penyakitnya itu apa. *hehe diatas tadi gw bilang andaikan loh jadi gw ga tau apa emang ada rumah sakit yang nyediain kayak gituan* tapi yah kira2 kasarannya gitu, kalo pusing nyari citra karna saking banyak dan berantakannya, sistem ini berguna banget, karna dia hanya akan mengeluarkan citra2 yang similar.
Kayaknya sampe sini dulu tentang temu kembalinya, nanti lagi gw mau bahas soal gimana sih caranya mengekstrak citra supaya bisa digunakan untuk temu kembali.. c u around

RELEVANCE FEEDBACK PADA SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA GENETIKA
RELEVANCE FEEDBACK IN INFORMATION RETRIEVAL USING GENETIC ALGORITHM


Master Theses from JBPTITBPP / 2008-04-08 14:48:48
Oleh : MUHAMMAD ERWIN ASHARI HARIYONO (NIM 23502001), Central Library Institute Technology Bandung
Dibuat : 2004, dengan 0 file

Keyword : search engine, genetic algorithm, relevance feedback, collection representation

Salah satu permasalahan utama dalam sistem temu kembali informasi adalah kesulitan dalam menggambarkan kebutuhan tentang informasi pengguna yang diwujudkan pada kata dalam query, sehingga sistem dapat secara akurat membedakan antara dokumen relevan dan tidak relevan berdasarkan kebutuhan pengguna. Dalam faktanya, kalimat pengguna dalam query terdiri dari kata yang memiliki korelasi terhadap judul yang diminati. Dalam tesis ini dikaji suatu metode yang akan meningkatkan performansi sistem temu kembali informasi dengan memperluas query menggunakan algoritma genetika. Kata perluasan diambil dari kata hasil relevansi dokumen yang relevan dari pencarian pertama.

Relevance feedback pada sistem temu kembali informasi terhadap teks yang lengkap akan menerima judgment pengguna dari dokumen yang dihasilkan sebelumnya untuk membentuk kata tambahan dalam query. Dalam penelitian tesis ini digunakan algoritma genetika untuk mengoptimasi proses perluasan kata tersebut. Algoritma genetika mengadopsi konsep kecerdasan buatan yang menirukan proses makhluk hidup. Algoritma ini menggunakan empat operator utama untuk mengkombinasikan dan memproses setiap bit gen pada kromosom dari sebuah populasi. Operator tersebut adalah mutasi, tukar silang, reproduksi, dan pemilihan seleksi induk. Proses tersebut mengolah distribusi kata melalui dokumen relevan dan tidak relevan untuk mengoptimalkan kembali bobot kata dalam query, dan menghasilkan kata baru yang akan ditambahkan pada pencarian selanjutnya. Relevance feedback akan membantu suatu aplikasi dimana pengguna memiliki keinginan kuat tentang kebutuhan pengguna, dengan sedikit kesempatan untuk memberikan feedback kepada sistem.

Teori dalam algoritma relevance feedback dikembangkan dengan baik pada model tradisional ruang vektor, dan pada model tradisional binary independence probabilistic. Meskipun pada model binary independence probabilistic hanya menghasilkan urutan sebagian dari seperangkat dokumen yang ditemukan. Sebagai tindak lanjut dari model probabilistic yang menghasilkan urutan yang lengkap dari suatu dokumen. Algoritma yang menghasilkan urutan yang lengkap dari suatu dokumen disebut algoritma best match retrieval. Probabilistik mencocokkan dengan baik algoritma genetika yang pada saat ini dikenalkan pada model bahasa statistik, tetapi model ini juga memiliki kekurangan dan akan disempurnakan melalui pendekatan relevance feedback.

Tesis ini mengkaji model relevance feedback menggunakan konsep kecerdasan buatan, pertimbangan untuk memilih algoritma genetika adalah kemampuannya dalam mengoptimasi pencarian awal yang dihasilkan dan untuk menghasilkan dokumen relevan yang baru berdasarkan penilaian pengguna. Penelitian tesis ini diuji dan dievaluasi dengan menggunakan koleksi ADI, CISI, CACM dan INSPEC, dimana dikenal sebagai koleksi standar internasional untuk menguji sistem temu kembali informasi yang telah dibangun.

Akan diperbandingkan metode yang telah dibangun (algoritma genetika) dengan salah satu metode terkenal yang telah diuji pada sistem temu kembali informasi SMART (formula rochio). Dapat disimpulkan bahwa metode genetika berdasarkan hasil penelitian memiliki tingkat Recall dan Precision melebihi metode rochio, dengan peningkatan recall sebesar 12.30 prosen. Peningkatan precision sebesar 2.43 prosen. Sedangkan untuk nilai Non Interpolated Average Precision (NAP) menurun sebesar 9.37 prosen.

(penulis tidak mengijinkan untuk menampilkan tesis ini dalam bentuk full-text)
Deskripsi Alternatif :

One major problem in information retrieval is the difficulty in describing user information needs in terms of a query so that system can accurately distinguish between relevant and irrelevant documents for the query. In fact, the user’s original query statement will usually consist of just a few terms related to the subject of interest. This thesis proposes a method to improve the performance of information retrieval system by expanding queries using genetic algorithms. The expansion terms are taken from some terms resulting from user document relevance judgment.

Relevance feedback in full text information retrieval inputs the user’s judgments on previously retrieved documents to construct a personalized query. In this thesis research we use genetic algorithm to optimize this process. These algorithms generate artificial intelligent concept mimicking living things process. Genetic algorithm use four main operator to combine and process each allele or gen bit in each individu from the population, these operators are mutation, crossover, reproduction, and parent selection. This process utilize the distribution of terms over relevant and irrelevant documents to re-estimate the query term weights, resulting in an improved user query, and produce new terms added in next searching. Relevance feedback is especially helpful in applications where users have a long-lasting information need, with plenty of opportunity to give feedback to the system, for instance in adaptive filtering systems.

The theory of relevance feedback algorithms is well-developed for the traditional vector space model, and for the traditional binary independence probabilistic model. However, the binary independence probabilistic model only produces a partial ranking of the retrieved set of documents. For extensions of the probabilistic model that do produce a full ranking of the documents, the old theory is no longer appropriate. Algorithms that produce a full ranking of the documents are called best match retrieval algorithms. Probabilistic best match retrieval algorithms were recently proposed by using statistical languange models, but these models also lack a well-founded approach to relevance feedback.

This thesis introduces new relevance feedback model using artificial intelligenet concept, we choose genetic algorithms which can optimizing the first searching result and to produce a new relevance document from user judgment. This thesis research testing and evaluates by using ADI, CISI, CACM and INSPEC collections, which known as International standard collection for information retrieval testing.

We compare our method (genetic algorithms) with ones popular method which ever testing in SMART information retrieval (ROCHIO formula) system. Our experiment show that our methods can improve the performance of Recall 12.30 % and Precision 2.43 %, unfortunately our method degrade Non interpolated Average Precision (NAP) percentage as 9.37 %.

Copyrights : Copyright Â(c) 2001 by ITB Central Library. Verbatim copying and distribution of this entire article is permitted by author in any medium, provided this notice is preserved.

Ringkasan dan Arsitektur Program
Filed under: Uncategorized — januar@cs.its.ac.id @ 9:24 pm

Deskripsi

Merancang dan membangun sebuah sistem temu-kembali citra dengan menerapkan teknologi Semantic Web berbasis RDF/RDFS. Aplikasi ini diharapkan dapat mempermudah pengguna dalam melakukan proses pencarian citra digital ketika pengguna dihadapkan pada suatu repository citra digital di mana pengguna belum memiliki pengetahuan sebelumnya akan repository yang bersangkutan, dan diharapkan pula hasil pencarian yang didapat sesuai dengan konteks pencarian yang diinginkan.

Dalam tugas akhir ini akan dilakukan perancangan sekaligus implementasi dari suatu sistem temu-kembali citra berbasis RDF/RDFS. Sistem temu-kembali citra berbasis RDF/RDFS ini terdiri dari 3 buah komponen, yaitu :

1. komponen portal semantic web yang berbasiskan web

2. komponen untuk merancang model RDF/RDFS dan melakukan pembubuhan tanda pada tiap-tiap citra

3. website percontohan yang akan dijadikan sebagai repository citra acuan

1. Komponen portal semantic web:

Komponen pertama berbasiskan web yang akan dibuat pada platform windows-Java (JSP), portal ini dibuat dengan tujuan sebagai intermediary (perantara) bagi user untuk menyusun query ke dalam sistem guna mendapatkan citra yang diinginkan. Portal ini akan dilengkapi dengan daftar class dari model RDF/RDFS yang telah dibuat, daftar class ini didapatkan dengan cara memporting model RDF/RDFS dari tools protégé (komponen ke 2) agar bisa ditampilkan via web, dari daftar class ini, user akan dituntun unuk memahami informasi apa saja yang terkandung di dalam repository citra, sehingga informasi yang diinginkan user bisa benar-benar terfokus.

2. Komponen untuk merancang model RDF/RDFS


Komponen kedua merupakan komponen untuk merancang model RDF/RDFS berdasarkan struktur website repository citra (komponen ke 3) yang dijadikan acuan dan komponen ini sekaligus juga digunakan untuk membubuhkan tanda pada masing-masing citra dari website acuan, komponen ini akan memanfaatkan sebuah tool freeware yang dikenal dengan protégé. Hasil rancangan berupa model RDF/RDFS (tersusun dalam bentuk hirarki, dimulai dengan class dan masing-masing punya instance dengan property). Proses perancangan model RDF/RDFS ini sendiri hanya dapat dilakukan oleh seorang domain experts atau dengan kata lain orang yang benar-benar menguasai domain dari website yang dijadikan acuan. Peranan domain experts adalah menerapkan struktur website repository citra acuan pada struktur model RDF/RDFS, mulai dari membuat class kemudian membuat instance dari masing-masing class dan melakukan proses pembubuhan tanda pada masing-masing citra dari website. Setelah model RDF/RDFS selesai dibuat dengan protégé, maka model RDF/RDFS tersebut diporting ke portal semantic web (komponen ke 1) agar bisa diakses user. Sedangkan proses pembubuhan tanda pada citra dilakukan dengan cara mengamati suatu citra tertentu dari website acuan, kemudian membuat image ID dari citra tersebut selanjutnya untuk tiap-tiap object yang dirasa penting yang ada tergambar dalam citra tersebut kita periksa instance yang baru saja kita buat pada model RDF/RDFS, jika ada instance yang bersesuaian, maka instance tersebut kita masukkan sebagai penanda bagi citra yang dimaksud. Misalkan untuk sebuah citra yang bergambar atlit sepakbola Ronaldo sedang mencetak gol melalui tendangan pada pertandingan Brazil vs German di WorldCup 2002, maka object-object yang sekiranya penting kita data, antara lain: Ronaldo, Brazil, menendang, pertandingan Brazil vs German, nama stadion, berita yang berkaitan dengan citra tersebut, dsb. Kemudian langkah selanjutnya adalah memeriksa model RDF/RDFS yang telah kita buat, jika ada instance yang termasuk diantara object-object tersebut di atas, maka kita masukkan instance tersebut sebagai penanda dari citra yang dimaksud.

3. Website acuan

Komponen ketiga berupa sebuah website yang berfungsi sebagai repository citra yang dijadikan acuan bagi perancangan model RDF/RDFS maupun proses pembubuhan tanda pada masing-masing citra.

Dalam hal ini kami mengambil sampel sebagai percontohan dua buah website yang berbeda yang keduanya memiliki content berita pertandingan-pertandingan selama putaran World Cup 2002 Korea-Japan.

Permasalahan

1. Merancang model RDF/RDFS dari repository citra yang dijadikan acuan.

2. Melakukan proses pembubuhan tanda pada citra, yang terdapat dalam repository, dengan mengacu pada model RDF/RDFS yang telah dibuat.

3. Melakukan proses temu-kembali citra secara semantik pada repository yang dijadikan acuan

Batasan Masalah

1. Proses temu-kembali citra akan didasarkan pada metadata bukan pada content

2. Pemodelan RDF/RDFS dari repository citra dilakukan secara manual dengan menggunakan Protege ( suatu tool freeware untuk memodelkan RDF/RDFS ).

3. Repository citra yang dijadikan acuan hanya berupa 2 website saja, yang telah didownload pada bagian-bagian yang diperlukan untuk percobaan sistem. Percobaan tidak dilakukan secara online.

4. Pembuatan model RDF/RDFS dilakukan secara statis, tiap ada data yang baru dari website acuan tidak akan ditambahkan ke struktur model RDF/RDFS yang telah dibuat

5. Pembuatan model RDF/RDFS hanya dibatasi pada satu topik saja yaitu event dan berita pada piala dunia 2002 dengan menggunakan asumsi event dan berita yang mungkin muncul pada situs-situs provider berita piala dunia 2002

6. Pembuatan sistem temu-kembali citra sebatas melakukan temu kembali, tanpa adanya proses manajemen data ( sistem tidak memiliki fitur update data, insert data, dan delete data )

7. Penggunaan platform Windows dan Java/JSP untuk membuat sistem.

8. Sistem berbasiskan Web

Arsitektur

Pembangunan aplikasi ini dimulai dari perancangan model RDF/RDFS, kemudian meng-implementasikan model RDF/RDFS ke dalam class-class, properties, dan instances-nya dengan menggunakan protégé. Dilanjutkan pembuatan intermediary antara model RDF/RDFS dengan user, dalam hal ini pembuatan portal Semantic Web berbasiskan web (dibuat dengan JSP dan library Jena). Dalam hal ini user menyusun query untuk kemudian query tersebut dikirimkan ke model RDF/RDFS, sehingga sistem ini tidak memerlukan database management system (DBMS) tertentu.

Perangkat lunak yang dibuat ini melibatkan beberapa komponen, yaitu :

· Apache Tomcat 5.0 – http://tomcat.apache.org/ sebagai web server

· Java 2 SDK 1.4.2_03 Windows - http://java.sun.com/j2se/1.4.2/

· Jena 2.3 – http://jena.sourceforge.net/ sebagai Framework Semantic Web berbasis Java

· Windows XP service pack 2 http://www.microsoft.com/windowsxp/sp2/default.mspx
sebagai Operating System

· Protégé 3.1.1 Build 2.1.6 – http://protege.stanford.edu sebagai pembangun model RDF/RDFS

· Netbeans 5.0 – http://www.netbeans.org/ sebagai Integrated Development Environment untuk Java/JSP

arsitektur-rds.jpg

Domain experts merancang model RDF/RDFS sesuai dengan topik website yang dijadikan acuan, domain experts kemudian membangun rancangan model RDF/RDFS tersebut ke dalam classes, properties, dan instances dengan menggunakan protégé, setelah model RDF/RDFS selesai, model RDF/RDFS di-porting ke portal Semantic Web, sebagai penuntun user dalam menyusun query. Portal Semantic Web terdiri dari interface untuk menuntun user menyusun query dan interface untuk menampilkan hasil pencarian.

Setelah user menyusun query, maka query dikirimkan ke file RDF, untuk dilakukan pencarian, dalam hal ini sistem tidak memerlukan DBMS melainkan, hanya berupa sebuah file ber-ekstensi rdf. Setelah query yang dikirimkan ke file rdf menemukan object yang dicari, maka query akan melakukan penelusuran URL dari citra dari object yang dimaksud, kemudian citra yang dimaksud ditampilkan ke user beserta informasi tambahan lainnya, antara lain: link yang menuju ke halaman berisi berita tentang citra tersebut.

DATA GALI (DaTa Mining)

BERITA - tonyjustinus.wordpress.com - Secara sederhana, data mining merujuk pada ekstraksi atau penggalian pengetahuan dari sejumlah besar data. termin ini sebetulnya adalah salah kaprah. Karena penggalian emas dari batu atau dari pasar disebut dengan penggalian emas, bukan penggalian batu atau penggalian pasir. Oleh karena itu, data mining seharusnya diberi nama knowledge mining from data. Termin pendeknya knowledge mining sama sekali tidak menggambarkan proses penggalian data untuk mendapatkan pengetahuan. Oleh karena itu kesalahkaprahan yang menggambarkan data dan mining tetap digunakan.Banyak orang yang memperlakukan Knowledge Discovery in Databases atau KDD sebagai sinonim dari data mining. Selain itu, sebagian orang melihat data mining sebagai langkah esensial dalam pencarian pengetahuan (knowledge discovery) dalam database. Pencarian pengetahuan sebagai sebuah proses terdiri dari urutan berulang dari langkah-langkah s


No comments: