Secara umum Search Engine adalah suatu program komputer yang
dirancang untuk membantu, mempermudah, mempercepat seseorang menemukan
informasi atau data yang diinginkan. Mesin pencari (search engine) semacam
“penunjuk jalan” untuk mencari sesuatu yang dibutuhkan. Berikut adalah
pengertian search engine secara lengkapnya:
- Pengertian Search Engine
Mesin
pencari web atau yang lebih dikenal dengan istilah web search engine merupakan
program komputer yang dirancang untuk mencari informasi yang tersedia didalam
dunia maya. Berbeda halnya dengan direktori web (seperti dmoz.org) yang
dikerjakan oleh manusia untuk mengelompokkan suatu halaman informasi
berdasarkan kriteria yang ada, web search engine mengumpulkan informasi yang
tersedia secara otomatis.
- Cara Kerja Search Engine
Mesin
pencari web bekerja dengan cara menyimpan hampir semua informasi halaman web,
yang diambil langsung dari www. Halaman-halaman ini diambil secara otomatis.
Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya
(misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang
disebut meta tag). Data tentang halaman web disimpan dalam sebuah database
indeks untuk digunakan dalam pencarian selanjutnya. Sebagian mesin pencari,
seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut
cache) maupun informasi tentang halaman web itu sendiri.
Ketika
seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya
dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar
halaman web yang paling sesuai dengan kriterianya, biasanya disertai ringkasan
singkat mengenai judul dokumen dan terkadang sebagian teksnya.
Mesin
pencari lain yang menggunakan proses real-time, seperti Orase, tidak
menggunakan indeks dalam cara kerjanya. Informasi yang diperlukan mesin
tersebut hanya dikumpulkan jika ada pencarian baru. Jika dibandingkan dengan
sistem berbasis indeks yang digunakan mesin-mesin seperti Google, sistem
real-time ini unggul dalam beberapa hal seperti informasi selalu mutakhir,
(hampir) tak ada broken link, dan lebih sedikit sumberdaya sistem yang
diperlukan (Google menggunakan hampir 100.000 komputer, Orase hanya satu.).
Tetapi, ada juga kelemahannya yaitu pencarian lebih lama rampungnya.
- Komponen utama dalam Search Engine
Sebuah
search engine memiliki beberapa komponen agar dapat menyediakan layanan
utamanya sebagai sebuah mesin pencari informasi. Komponen tersebut antara lain
:
- Web Crawler
Web
crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan
semua informasi yang ada di dalam halaman web. Web crawler bekerja secara
otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta
menyimpan semua informasi yang terkandung didalamnya. Setiap kali web crawler
mengunjungi sebuah website, maka dia akan mendata semua link yang ada dihalaman
yang dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu.
Proses
web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling
atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian
menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler
biasa digunakan untuk membuat salinan secara sebhagian atau keseluruhan halaman
web yang telah dikunjunginya agar dapat dip roses lebih lanjut oleh system
pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah
website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan
untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.
Web
crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan
istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan
daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap
kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang
terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya.
Dalam
melakukan prosesnya, web crawler juga mempunyai beberapa persoalan yang harus
mampu di atasinya. Permasalahan tersebut mencakup :
- Halaman mana yang harus dikunjungi terlebih dahulu.
- Aturan dalam proses mengunjungi kembali sebuah halaman.
- Performansi, mencakup banyaknya halaman yang harus dikunjungi.
- Aturan dalam setiap kunjungan agar server yang dikunjungi tidak kelebihan beban.
- Kegagalan, mencakup tidak tersedianya halaman yang dikunjungi, server down, timeout, maupun jebakan yang sengaja dibuat oleh webmaster.
- Seberapa jauh kedalaman sebuah website yang akan dikunjungi.
- Hal yang tak kalah pentingnya
adalah kemampuan web crawler untuk mengikuti
perkembangan teknologi web, dimana setiap kali teknologi baru muncul, web crawler harus dapat menyesuaikan diri agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.
Proses sebuah web crawler untuk mendata link – link yang terdapat didalam sebuah halaman web menggunakan pendekatan regular expression. Crawler akan menelurusi setiap karakter yang ada untuk menemukan hyperlink tag html (<a>). Setiap hyperlink tag yang ditemukan diperiksa lebih lanjut apakah tag tersebut mengandung atribut nofollow rel, jika tidak ada maka diambil nilai yang terdapat didalam attribute href yang merupakan sebuah link baru.
- Indexing system
Indexing
system bertugas untuk menganalisa halaman web yang telah tersimpan sebelumnya
dengan cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data
term yang ditemukan disimpan dalam sebuah database indeks untuk digunakan dalam
pencarian selanjutnya.
Indexing
system mengumpulkan, memilah dan menyimpan data untuk memberikan kemudahan
dalam pengaksesan informasi secara tepat dan akurat. Proses pengolahan halaman
web agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web
indexing. Dalam implementasinya index system dirancang dari penggabungan
beberapa cabang ilmu antara lain ilmu bahasa, psikologi, matematika,
informatika, fisika, dan ilmu komputer.
Tujuan
dari penyimpanan data berupa indeks adalah untuk performansi dan kecepatan
dalam menemukan informasi yang relevan berdasarkan inputan user. Tanpa adanya
indeks, search engine harus melakukan scan terhadap setiap dokumen yang ada
didalam database. Hal ini tentu saja akan membutuhkan proses sumber daya yang
sangat besar dalam proses komputasi. Sebagai contoh, indeks dari 10.000 dokumen
dapat diproses dalam waktu beberapa detik saja, sedangkan penulusuran secara
berurutan setiap kata yang terdapat di dalam 10.000 dokumen akan membutuhkan
waktu yang berjam lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam
computer untuk penyimpanan indeks, tapi hal ini akan terbayar dengan penghematan
waktu pada saat pemrosesan pencarian dokumen yang dibutuhkan.
c. Search
System
Search system inilah yang
berhubungan langsung dengan pengguna, meyediakan hasil pencarian informasi yang
diinginkan. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan
kata pencarian biasanya dengan beberapa kata kunci, search system akan mencari
data dari indeks database, data yang cocok kemudian akan ditampilkan, biasanya
disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian
teksnya.
Banyak
ditemukan mesin pencari diinternet. Berikut adalah beberapa contoh dari Mesin
Pencari/Search Engine yang sudah sanggat terkenal,seperti:
·
Google ( http://www.google.com/
)
·
Yahoo ( http://www.yahoo.com/
)
·
Bing (dulu MSN) ( http://www.bing.com/
)
·
Live ( http://www.live.com )
·
Altavista ( http://www.altavista.com )
·
AOL ( http://www.aol.com )
·
Altheweb ( http://www.althweb.com )
·
Baidu ( http://www.baidu.com )
·
Looksmart ( http://www.looksmart.com )
·
Ask ( http://www.ask.com )
·
Open Directory ( http://www.dmoz.com/ )
Sumber:
Tidak ada komentar:
Posting Komentar