Üç kişiyiz bu alemde: Ben, Keyfim ve Kahyam!
Buradasiniz: Ana Sayfa » Bilgi » Robots.txt nedir ve ayrıntılar
Bir robots.txt dosyası, web’i tarayan arama motoru robotlarının sitenize erişimini kısıtlar. Bu botlar otomatiktir ve bir sitenin sayfalarına erişmeden önce, belirli sayfalara erişmelerini önleyen bir robots.txt dosyası olup olmadığını kontrol ederler. (Saygın robotların tümü bir robots.txt dosyasındaki yönergeleri gözetse de bazı robotlar yönergeleri farklı yorumlayabilir. Ancak, bir robots.txt dosyası dayatılamaz ve bazı spam göndericilerle diğer kötü amaçlı kişiler bu dosyayı göz ardı edebilir. Bu nedenle, gizli bilgileri şifreyle korumayı öneriyoruz.)
Yalnızca sitenizde arama motorlarının dizine eklemesini istemediğiniz içerik varsa, robots.txt dosyasına gereksinim duyarsınız. Arama motorlarının sitenizdeki her şeyi dizine eklemesini istiyorsanız, robots.txt dosyasına (boş olanına bile) ihtiyacınız yoktur.
Google, robots.txt tarafından engellenen içerik sayfalarını taramamasına veya dizine eklememesine karşın, URL’lerini web üzerindeki diğer sayfalarda bulduğu takdirde bu URL’leri dizine ekleyebilir. Sonuç olarak, sayfanın URL’si ve büyük olasılıkla herkesin kullanımına açık olan site bağlantılarındaki metin veya Açık Dizin Projesi’ndeki (www.dmoz.org) başlığı gibi diğer bilgiler Google arama sonuçlarında görünebilir. Ancak, sayfalarınızın hiçbir içeriği taranmaz, dizine eklenmez veya görüntülenmez.
Bir robots.txt dosyası kullanmak için etki alanınızın köküne erişebilmeniz gerekir (emin değilseniz, web barındırıcınızdan bunu öğrenebilirsiniz). Bir etki alanının köküne erişiminiz yoksa, erişimi robots meta etiketini kullanarak kısıtlayabilirsiniz.
robots.txt dosyası, sitenizdeki dosyaları veya dizinleri taramasını engellemek istediğiniz robotları (”botlar” veya “örümcekler” olarak da adlandırılırlar) belirlemenize olanak tanır. Web Yöneticisi Araçları’ndaki robots.txt dosyası oluşturun aracı ile, sitenizi taramasını istemediğiniz herhangi bir botu belirleyebileceğiniz bir robots.txt dosyasını kolaylıkla oluşturmanızın yanı sıra, sunucunuzdaki belirli dosyalara ve dizinlere erişme izni verebilir veya erişimi engelleyebilirsiniz. Örneğin, aşağıdakileri yapabilirsiniz:
Google Webmaster sayesinde rahatlıkla robots.txt oluşturabilirsiniz üstte açıklaması var alttada oluşturma alanından bir resim

Yeşil ışık
Google ve diğer arama motorları http://www.example.com, https://www.example.com ve http://example.com adreslerini farklı siteler olarak ele alabilir. Bu sitelerin her birinin taranmasını kısıtlamak istiyorsanız, sitenizin URL’sinin her sürümü için ayrı bir robots.txt oluşturabilirsiniz.
En basit robots.txt dosyası iki kural kullanır:
Bu iki satır, dosyada tek bir giriş sayılır. İstediğiniz kadar çok giriş ekleyebilirsiniz. Tek girişe birden çok Disallow satırı ve birden çok user-agent ekleyebilirsiniz.
robots.txt dosyasındaki her bölüm ayrıdır ve önceki bölümlerin üzerinde oluşturulmaz. Örneğin:
User-agent: * Disallow: /klasor1/ User-Agent: Googlebot Disallow: /klasor2/
Bu örnekte, yalnızca /klasor2/ ile eşleşen URL’lerin Googlebot izni kaldırılacaktır.
User-agent, belirli bir arama motoru robotudur. Web Robotları Veritabanı‘nda, sık kullanılan pek çok bot listelenir. Bir girişi belirli bir bota (adını listeleyerek) veya tüm botlara (yıldız işareti koyarak) uygulanacak şekilde ayarlayabilirsiniz. Tüm botlara uygulanan bir giriş şöyle görünür:
User-agent: *
Google, birbirinden farklı çeşitli botlar (user-agent’lar) kullanır. Bizim web aramamız için kullandığımız bot, Googlebot‘tur. Googlebot-Mobile ve Googlebot-Image gibi diğer botlarımız, Googlebot için belirlediğiniz kurallara uyar, ancak bu botlar için de belirli kurallar ayarlayabilirsiniz.
Disallow satırında engellemek istediğiniz sayfalar listelenir. Belirli bir URL’yi veya dize kalıbını listeleyebilirsiniz. Girişin düz eğik çizgiyle (/) başlaması gerekir.
Disallow: /
Disallow: /onemsiz-dizin/
Disallow: /ozel_dosya.html
User-agent: Googlebot-Image Disallow: /gorseller/kopekler.jpg
User-agent: Googlebot-Image Disallow: /
User-agent: Googlebot Disallow: /*.gif$
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Yönergelerin büyük/küçük harfe duyarlı olduğunu unutmayın. Örneğin, Disallow: /onemsiz_dosya.asp, http://www.example.com/onemsiz_dosya.asp sayfasını engeller ancak http://www.example.com/Onemsiz_dosya.asp sayfasına izin verir. Googlebot beyaz boşluğu (özellikle de boş satırları) ve robots.txt içindeki bilinmeyen dizinleri yok sayar.
Googlebot (ama tüm arama motorları değil) bazı dize kalıbı eşlemelerini dikkate alır.
User-agent: Googlebot Disallow: /ozel*/
User-agent: Googlebot Disallow: /*?
User-agent: Googlebot Disallow: /*.xls$
Bu dize kalıbı eşlemesini, Allow yönergesi ile birlikte kullanabilirsiniz. Örneğin, ? bir oturum kimliğini gösteriyorsa bu öğeleri içeren tüm URL’leri dışlayarak Googlebot’un aynı sayfaları taramasını önleyebilirsiniz. Ancak ? ile biten URL’ler, eklenmesini istediğiniz sayfanın sürümü olabilir. Bu durumda, robots.txt dosyanızı aşağıda gösterildiği biçimde ayarlayabilirsiniz:
User-agent: * Allow: /*?$ Disallow: /*?
Disallow: / *? yönergesi, ? içeren URL’lerin tümünü engeller (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL’lerin tümünü engeller).
Allow: /*?$ yönergesi, ? ile biten tüm URL’lere izin verir (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından bir dize ve bir ? gelen ve ? işaretinden sonra hiç karakter içermeyen URL’lerin tümüne izin verir).
Eğer sitenizin ana dizinine erişme izniniz yoksa sayfanın başındada yazdığı gibi meta etiket kullanabilirsiniz.
Yeşil ışık
Sayfaya diğer sitelerden bağlantı verilse bile bu sayfanın Google web dizininde listelenmesini tümüyle engellemek için noindex meta etiket kullanın. Google sayfayı getirdiğinde, bir noindex meta etiketi görecek ve bu sayfanın web dizininde görüntülenmesini önleyecektir.
Noindex meta standardı http://www.robotstxt.org/meta.html adresinde açıklanmaktadır. Sunucunuza kök erişiminiz yoksa, sayfa bazında sitenize erişimi kontrol etme olanağı sağladığından bu yöntem yararlıdır.
Site haritanızı robots.txt dosyanıza ekleyebilirsiniz. Google’de bu yöntemi kullanıyor.
örnek: Sitemap: http://www.google.com/sitemaps_webmasters.xml
Robots.txt dosyanıza ” Sitemap: http://siteniz.com/sitemapiniz.xml ” böyle eklemelisiniz. Birden fazla sitemap yani site haritanız varsa alt alta ekleyebilirsiniz.
Kaynaklar
Bir robots.txt dosyasını el ile oluşturma
Google Webmaster Detaylı makale | Makalelerim | rooteto.com - Ertuğrul SAĞLAM
[...] Robots.txt nedir ve ayrıntılar [...]
User-agent: *
Disallow: /?ref=
siz böyle bişey yapmışsınız yararlı bişey olduğu kesinde fakat amaç nedir çözemedim :)
Sen sordun diye bu konu hakkında caner bir yazı yazıcam. Aslında burda yazmam lazımdı ama unutmuşum heralde… /?ref= kısaca sandbox’a düşmemek için bir yöntem yani google kuralları dahilinde. O söylediğine şuradan bakabilirsin: http://rooteto.com/bilinmesi-gerekenler/ref-spamsite
[...] neresi indexlenicek neresi indexlenmeyecek oraya yazıyorsunuz. Site haritanızı yerleştiriyoruz. Robots.txt dosyası içine spam siteleri engellemek için kod eklenicektir. Bu uygulamalar yapılamdığı [...]
![]() |
|
Copyright ®2009 - 2010 :) - rooteto.com - Ertuğrul SAĞLAM RSS: RSS - Tüm yorumlar RSS |
Hakkımda bilgi yazmam lazımmış buraya :) |















Web site tasarımı