Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya, biasanya disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.
Mesin pencari lain yang menggunakan proses real-time, seperti Orase, tidak menggunakan indeks dalam cara kerjanya. Informasi yang diperlukan mesin tersebut hanya dikumpulkan jika ada pencarian baru. Jika dibandingkan dengan sistem berbasis indeks yang digunakan mesin-mesin seperti Google, sistem real-time ini unggul dalam beberapa hal seperti informasi selalu mutakhir, (hampir) tak ada broken link, dan lebih sedikit sumberdaya sistem yang diperlukan (Google menggunakan hampir 100.000 komputer, Orase hanya satu.). Tetapi, ada juga kelemahannya yaitu pencarian lebih lama rampungnya.
Komponen utama dalam Search Engine
Sebuah search engine memiliki beberapa komponen agar dapat menyediakan layanan utamanya sebagai sebuah mesin pencari informasi. Komponen tersebut antara lain :
Web Crawler
Web crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan semua informasi yang ada di dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi sebuah website, maka dia akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu.
Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat salinan secara sebhagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat dip roses lebih lanjut oleh system pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.
Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya. Dalam melakukan prosesnya, web crawler juga mempunyai beberapa persoalan yang harus mampu di atasinya. Permasalahan tersebut mencakup :
1. Halaman mana yang harus dikunjungi terlebih dahulu.
2. Aturan dalam proses mengunjungi kembali sebuah halaman.
3. Performansi, mencakup banyaknya halaman yang harus dikunjungi.
4. Aturan dalam setiap kunjungan agar server yang dikunjungi tidak kelebihan beban.
5. Kegagalan, mencakup tidak tersedianya halaman yang dikunjungi, server down, timeout, maupun jebakan yang sengaja dibuat oleh webmaster.
6. Seberapa jauh kedalaman sebuah website yang akan dikunjungi.
Hal yang tak kalah pentingnya adalah kemampuan web crawler untuk mengikuti
perkembangan teknologi web, dimana setiap kali teknologi baru muncul, web crawler harus dapat menyesuaikan diri agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.
Proses sebuah web crawler untuk mendata link – link yang terdapat didalam sebuah halaman web menggunakan pendekatan regular expression. Crawler akan menelurusi setiap karakter yang ada untuk menemukan hyperlink tag html . Setiap hyperlink tag yang ditemukan diperiksa lebih lanjut apakah tag tersebut mengandung atribut nofollow rel, jika tidak ada maka diambil nilai yang terdapat didalam attribute href yang merupakan sebuah link baru.
Indexing system
Indexing system bertugas untuk menganalisa halaman web yang telah tersimpan sebelumnya dengan cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Indexing system mengumpulkan, memilah dan menyimpan data untuk memberikan kemudahan dalam pengaksesan informasi secara tepat dan akurat. Proses pengolahan halaman web agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web indexing. Dalam implementasinya index system dirancang dari penggabungan beberapa cabang ilmu antara lain ilmu bahasa, psikologi, matematika, informatika, fisika, dan ilmu komputer.
Tujuan dari penyimpanan data berupa indeks adalah untuk performansi dan kecepatan dalam menemukan informasi yang relevan berdasarkan inputan user. Tanpa adanya indeks, search engine harus melakukan scan terhadap setiap dokumen yang ada didalam database. Hal ini tentu saja akan membutuhkan proses sumber daya yang sangat besar dalam proses komputasi. Sebagai contoh, indeks dari 10.000 dokumen dapat diproses dalam waktu beberapa detik saja, sedangkan penulusuran secara berurutan setiap kata yang terdapat di dalam 10.000 dokumen akan membutuhkan waktu yang berjam lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam computer untuk penyimpanan indeks, tapi hal ini akan terbayar dengan penghematan waktu pada saat pemrosesan pencarian dokumen yang dibutuhkan.
Search system
Search system inilah yang berhubungan langsung dengan pengguna, meyediakan hasil pencarian informasi yang diinginkan. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan kata pencarian biasanya dengan beberapa kata kunci, search system akan mencari data dari indeks database, data yang cocok kemudian akan ditampilkan, biasanya disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.
Beberapa Jenis Seacrh Engine :
Yahoo
Salah satu portal terbesar di Internet, selain MSN., dan juga salah satu mesin pencaru tertua. Halaman utamanya sendiri tidak terlalu ramah untuk pencarian, tetapi Yahoo! menyediakan search.yahoo.com untuk itu. Yahoo! menggunakan jasa Google untuk mencari informasi di web, ditambah dengan informasi dari databasenya sendiri. Kelebihan Yahoo! adalah direktorinya. Yahoo! juga menyediakan pencarian yellow pages dan peta, yang masih terbatas pada Amerika Serikat. Yahoo juga menyediakan pencarian gambar.
Alltheweb
Keunggulan Alltheweb adalah pencarian file pada FTP Server. Tidak seperti web, FTP adalah teknologi internet yang ditujukan untuk menyimpan dan mendistribusikan file, biasanya program, audio atau video. Web sebenarnya lebih ditujukan untuk teks. Sejauh ini, hanya AllTheWeb yang menyediakan jasa pencarian file.
MSN
Mesin pencari dari Microsoft Network ini menawarkan pencarian baik dengan kata kunci maupun dari direktori. Pemakai Internet Explorer kemungkinan besar sudah pernah menggunakan mesin pencari ini. Situs Searchenginewatch mencatat MSN sebagai mesin pencari ketiga populer setelah Google dan Yahoo! Tak ada pencarian image, atau news. Menyediakan pencarian peta, yellow pages, white pages, pencarian pekerjaan, rumah.
AskJeeves
Situs mesin pencari yang satu ini mengunggulkan kemampuannya untuk memahami bahasa manusia. Pengguna bisa menggunakan kalimat lengkap, bukan kata kunci. Situs ini berguna untuk mengetahui jawaban dari pertanyaan (misal: when did world war II end?).
Selain pencarian web, Google juga menyediakan jasa pencarian gambar, pencarian ?berita serta pencarian pada arsip USENET (newsgroup), serta direktori, seperti Yahoo! Kelemahannya terletak pada tidak tersedianya pencarian file, video, dan audio. Keunggulan Google terutama adalah pada pencarian teks, terutama dari algoritma PageRank, database-nya yang besar serta banyaknya jenis file yang diindeksnya.
http://www.google.co.id/tanya/thread?tid=67a6c7cf60320b28
Google Drive
Sejak peluncuran Google Drive 24 April 2012 lalu, kita mempunyai satu lagi alternatif penyimpanan data melalui media online dengan mudah. Kita dapat menyimpan data secara gratis di sana dengan maksimum kapasitas 5 GB. Jika file lebih dari itu, memang dikenakan biaya sebesar $2.49 / bulan ( +/- Rp.25.000,-/bulan) untuk kapasitas hingga 25 GB dan $4.99/ bulan ( +/- 50.000,-/bulan ) untuk maksimal 100 GB.
Keuntungan penyimpanan data di Google Drive antara lain adalah :
Data yang tersimpan dapat dibuka dimana pun berada, sepanjang terhubung dengan jaringan internet
Sebagaimana penyimpanan di media online lainnya, jika unit komputer kita rusak/hilang, maka kita tidak akan kehilangan data tersebut.
Gratis pemakaian sampai 5GB
Dapat berbagi data dengan mudah dengan orang lain melalui jaringan email.
Cara penyimpanan yang mudah.
Anda tentu harus memiliki akun gmail terlebih dahulu. Jika belum, maka Anda wajib membuatnya.
Login email, lalu Klik : Drive, kemudian Install. Otomatis Google akan membuatkan Google Drive untuk kita.
Google Drive siap digunakan. Buat nama folder yang dapat cukup menjelaskan isi data di dalamnya.
Perhatikan di bawah layar komputer Anda, ada tanda jajaran genjang seperti simbol mirror. Klik tanda tersebut, dan klik lagi pada Google Drive Folder.
Pilih file mana saja yang ingin Anda back up dengan cara : cut ( gunting ) dan pindahkan pada Google Drive Folder. Karena jika kita memilih menu : copy, maka efeknya kita akan mempunyai file ganda pada komputer. Tentunya ini menjadi tidak efektif dan memakan tempat (memory hardisk).
Setiap file yang dimasukkan ke Google Drive Folder, ia akan di-mirror ke Google Drive on the web kita secara otomatis. Waktu sinkronisasi tergantung besar kecilnya file.
Kita bisa mengeceknya dengan masuk ke Google Drive on The Web kita. Tekanrefresh jika file yang dimaksud belum juga muncul di sana.
Untuk berbagi file/folder dengan teman, klik file/folder yang dipilih.
Arahkan kursor pada simbol orang di atas, lalu masukkan alamat email teman kita, lalu kirim. Kita dapat menentukan, apakah si penerima hanya bisa membaca saja, atau dapat turut merubah/mengedit file kita.
Si penerima akan mendapat email pemberitahuan, bahwa ada dokumen yang dibagikan. Kini ia dapat melihat file dalam Google Drive kita, sesuai data mana yang kita tentukan.
http://teknologi.kompasiana.com/internet/2013/02/14/menyimpan-data-di-google-drive-533463.html
0 comments