Web Emeklemesi (Web Crawling)

Yazan : Şadi Evren ŞEKER

Arama motorlarının tasarımı sırasında kullanılan önemli unsurlardan birisi de internet üzerindeki bağlantıları (link) izleyerek bilgi toplayan ve bütün Internet’i gezip sayfa ve sayfalardaki kelimeleri çıkaran internet örümcekleridir.

Bir örümceğin bünyesinde web sayfalarını indirip bu sayfadaki bağlantıları çıkaran ve daha sonra bu bağlantılara devam eden yapıya web emekleyicisi adı verilir. Bu isim bebeklerin veya sürüngenlerin kullandıkları ve hedefe ulaşmak için yaptıkları bir takım metodolojik işlemden gelmektedir. Benzer şekilde internet üzerinde emekleyen bir örümcek de metdolojik olarak aşağıdaki işlemleri yapmaktadır:

Bu işlemler yapılırken bir web emekleyicisi (web crawler) aşağıdaki hususlara göre sınıflandırılabilir:

Derin emekleme (deep crawling): Kabaca sayfanın ne kadar detayını dolaşıp fihristleyeceğimiz. Yani bir web sitesindeki bağlatıları takip edip diğer web sitelerine geçilip geçilmeyeceği.

Çerçeve desteği (Frame Support): sayfalarda bulunan çerçeveleri destekleyip desteklemediğimiz

robots.txt dosyası desteği: web sitelerinin girişinde yer alan bu dosyanın desteklenip desteklenmediği

üst robot etiketi (meta robot tag): web sayfalarının üst bölgesinde (meta tags) yer alan robot etiketinin emekleyici (crawler) tarafından desteklenip desteklenmediği

Tam döküman (full body text): gezilen web sayfasındaki bütün dökümanın mı yoksa bir kısmının mı çıkarılacağı

engellenen kelimeler (stop words): gezilen sayfada bulunan kelimelerden arama için anlamsız olan ve çok yer kaplayan kelimelerin (ve, veya, ile, ise gibi) fihristlenmemesi

Üst tanım (meta description): HTML sayfalarının üst kısmında (meta tags) bulunan tanım bilgilerinin fihristlenip fihristlenmeyeceği

Üst anahtar kelimeler (meta keywords): HTML sayfalarının üst kısmında (meta tags) bulunan anahtar kelimelerin fihristlenip fihristlenmeyeceği

Bazı Emekleyici Kavramları aşağıda açıklanmıştır:

Odaklanmış Emekleyici (Focused Crawling): Belirli bir hedefin aranmasına yönelik olarak geliştirilen emekleme programlarıdır. Örneğin bir masa üstü arama (desktop search) sırasında, belirli bir kelimenin arandığını düşünelim. Emekleyici yazılımımız, aranan kelimeye yönelik olarak dolaşma yapıyorsa ve örneğin belirli dosya türlerini dolaşıyor, dolaşılan verileri fihristlemek (indexing) yerine sadece kelime arama için çalışıyorsa, odaklanmış emekleme (focused crawling) yapıyor denilebilir.

Dağıtık Emekleme (Distributed Crawling): Bir arama işleminin, birden fazla bilgisayara bölünmesi ve dağıtılmış olarak webte dolaşma işleminin gerçekleşmesi durumudur. Genelde aşağıdaki sebeplerle dağıtık emekleme yapılabilir:

Dağıtık emekleme işlemleri sırasında emekleyicilerin birbiri ile uyumlu çalışması için (senkronize) özetleme fonksiyonları (hashing functions) kullanılabilir. Emekleyiciler aralarında bu özet bilgiyi değiştirerek uyumlu çalışabilirler.

Masa Üstü Emekleyicileri (Desktop Crawlers): Genelde kişisel bilgisayarlarda bulunan dosyaların veya veri kaynaklarını dolaşan emekleyicilerdir. Bazı durumlarda şirket içi veya kurum içi (üniversiteler, hastanaler gibi) dolaşma da planlanabilir. Genel olarak web emekleyicileri ile farkları aşağıda listelenmiştir:

Bu yazıyı beğendiyseniz, başkalarının da ilgisini çekebilirsiniz:


78 views

Leave a Reply


bir * = 9

Benzer Yazılar:

Bilgisayar Kavramları üzerinde şu anda okumakta olduğunuz 'Web Emeklemesi (Web Crawling)' isimli yazı 09 Dec 2008 tarihinde, saat: 15:40 'de Şadi Evren ŞEKER tarafından gönderilmiş, toplam78 defa okunmuştur.

Benzer yazıları Bilgisayar Kavramları, Web Teknolojileri kategorilerinden okuyabilirsiniz. Yazar ile irtibat kurmak için email gönderebilirsiniz. Yazıya yorum yapabilir ya da yapılan yorumları RSS 2.0 ile takibe alabilirsiniz.


Category: Bilgisayar Kavramları, Web Teknolojileri