
Farklı arama motorları için (Googlebot, Bingbot) doğru User-Agent ayarlarını Robots.txt'ye nasıl eklersiniz?
Web sitenizin arama motorları tarafından nasıl taranacağını ve dizine ekleneceğini kontrol eden en temel ve en güçlü araçlardan biri `robots.txt` dosyasıdır. Özellikle Google AdSense gibi reklam platformlarından gelir elde eden bir web sitesi yöneticisi veya bir SEO editörü olarak, sitenizin doğru bir şekilde taranması ve bu sayede içeriğinizin ilgili aramalarda görünmesi kritik öneme sahiptir. Bu kılavuzda, `robots.txt` dosyasındaki `User-Agent` direktifini kullanarak Googlebot ve Bingbot gibi farklı arama motoru örümcekleri için özel kuralları nasıl belirleyeceğinizi ayrıntılı olarak ele alacağız. Amacımız, sitenizin
SEO performansını en üst düzeye çıkarırken, gereksiz kaynak tüketimini önlemek ve sitenizin
indeksleme sürecini optimize etmektir.
Robots.txt ve Temel Amacı
`robots.txt` dosyası, bir web sunucusunun kök dizininde bulunan ve arama motoru örümceklerine (crawler veya bot) hangi sayfaları veya bölümleri tarayabileceklerini, hangilerini tarayamayacaklarını bildiren basit bir metin dosyasıdır. Bu dosya, sitenizin içeriğinin ne kadarının arama motorları tarafından keşfedilebileceğini doğrudan etkiler. Yanlış yapılandırılmış bir `robots.txt` dosyası, sitenizin önemli bölümlerinin taranmasını engelleyebilir ve bu da arama motoru sıralamalarınızda ciddi düşüşlere yol açabilir. Tersine, doğru yapılandırılmış bir dosya, arama motorlarının sitenizin en değerli kısımlarına odaklanmasını sağlayarak
tarama bütçesi optimizasyonu sunar ve sitenizin genel görünürlüğünü artırır. Bu, özellikle AdSense geliri için trafik arayan siteler için hayati bir adımdır.
User-Agent Direktifi Nedir ve Neden Önemlidir?
`User-Agent` direktifi, `robots.txt` dosyasının kalbinde yer alır. Bu direktif, takip eden `Disallow` veya `Allow` kurallarının hangi arama motoru botu için geçerli olduğunu tanımlar. Her arama motoru veya belirli bir göreve sahip her bot (örneğin, resim tarayan bot, haberleri tarayan bot), kendini benzersiz bir `User-Agent` dizesiyle tanıtır. Bu sayede web yöneticileri, genel bir kural belirlemek yerine, belirli botlara özel olarak farklı davranışlar atayabilirler.
Örneğin, Google'ın sitenizin tüm bölümlerini taramasını isterken, Bing'in belirli bir bölümü taramasını istemeyebilirsiniz. Ya da sitenizin arama sonuçlarında görünmesini istemediğiniz, ancak sosyal medya botlarının paylaşım için önizleme görüntülerini almasına izin vermek istediğiniz bir bölüm olabilir. İşte bu noktada `User-Agent` direktifi devreye girer. Bu sayede, sitenizdeki hassas, yinelenen veya düşük değerli içeriğin taranmasını engelleyerek
SEO değerini korurken, ana içeriğinizin her zaman erişilebilir olmasını sağlarsınız.
Genel Botlar İçin Kural Belirleme (Asterisk Kullanımı)
`robots.txt` dosyasında en sık kullanılan `User-Agent` direktiflerinden biri `User-Agent: *` şeklindedir. Yıldız işareti (*), "tüm botlar" anlamına gelir. Bu direktifin altına yazdığınız `Disallow` veya `Allow` kuralları, özel olarak tanımlanmamış tüm arama motoru botları için geçerli olacaktır.
Örnek:
```
User-Agent: *
Disallow: /admin/
Disallow: /private/
```
Bu örnekte, `User-Agent: *` altında belirtilen `/admin/` ve `/private/` dizinleri, özel bir `User-Agent` kuralı olmayan tüm botlar tarafından taranmayacaktır. Bu, sitenizin temel gizliliğini ve güvenliğini sağlamak için iyi bir başlangıç noktasıdır. Ancak, belirli botlar için daha hassas ayarlamalar yapmak istediğinizde, özel `User-Agent` tanımlamalarına geçmeniz gerekecektir.
Googlebot için Özel Ayarlar
Google, dünya genelinde en büyük arama motoru olduğu için, sitenizin Googlebot tarafından nasıl ele alındığı, çevrimiçi başarınız için belirleyicidir. Google'ın birden fazla botu bulunur ve her birinin farklı görevleri vardır. İşte bazı önemli Googlebot türleri ve onlar için `robots.txt` kuralları:
*
Googlebot: Bu, Google'ın ana tarayıcısıdır ve sitenizin HTML içeriğini dizine eklemekten sorumludur. Genellikle bir web yöneticisinin ilgilenmesi gereken ilk ve en önemli bottur.
*
Googlebot-Image: Resim içeriğini tarar ve Google Görseller'e ekler.
*
Googlebot-News: Haber içeriğini tarar ve Google Haberler'e ekler.
*
Googlebot-Video: Video içeriğini tarar.
*
AdSense-Media-Partner-Google: AdSense reklamları ile ilgili içerikleri tarar. Bu botun engellenmesi, AdSense reklamlarınızın düzgün çalışmamasına neden olabilir.
*
Googlebot-Mobile: Mobil cihazlar için optimize edilmiş içeriği tarar.
Googlebot için özel kurallar belirlemek, sitenizin ana
indeksleme stratejisinin önemli bir parçasıdır. Örneğin, sitenizdeki bazı dinamik URL'lerin veya gereksiz sayfaların Google tarafından taranmasını istemeyebilirsiniz. Bu, Google'ın
tarama bütçesini sitenizin daha önemli sayfalarına odaklamasına yardımcı olur.
Örnek:
```
User-Agent: Googlebot
Disallow: /arama-sonuclari/
Disallow: /etiketler/?
```
Bu kurallar, Googlebot'un sitenizdeki `/arama-sonuclari/` dizinini ve sorgu parametresi içeren etiket sayfalarını taramasını engeller. Bu tür sayfalar genellikle yinelenen içerik üretebilir veya düşük değerde olabilir, bu da
SEO performansınıza olumsuz yansıyabilir.
Ayrıca, farklı Googlebot türlerine özel kurallar da tanımlayabilirsiniz. Örneğin, tüm Googlebot'ların bir bölümü taramasını engellerken, resim botunun oradaki görsellere erişmesine izin verebilirsiniz:
```
User-Agent: Googlebot
Disallow: /galeri-ozel/
User-Agent: Googlebot-Image
Allow: /galeri-ozel/
```
Bu senaryoda, ana Googlebot `/galeri-ozel/` dizinini görmezden gelirken, Googlebot-Image oradaki resimleri tarayabilir. Bu tür detaylı kontrol, sitenizin görünürlüğünü yönetmek için oldukça etkilidir.
Bingbot için Özel Ayarlar
Google'dan sonra en popüler arama motorlarından biri olan Bing'in de sitenizi doğru bir şekilde taraması önemlidir. Microsoft'a ait olan Bing, özellikle bazı coğrafi bölgelerde ve belirli kitlelerde önemli bir pazar payına sahiptir. Bu nedenle,
Bingbot için de `robots.txt` ayarlarınızı optimize etmek, sitenizin tüm arama motorlarındaki görünürlüğünü artıracaktır.
Bing'in ana tarayıcısı `Bingbot` olarak bilinir. Googlebot'a benzer şekilde, Bing de farklı amaçlar için çeşitli botlar kullanır, ancak `Bingbot` genel tarama için en önemlisidir.
Örnek:
```
User-Agent: Bingbot
Disallow: /eski-blog-gonderileri/
```
Bu kural, Bingbot'un `/eski-blog-gonderileri/` dizinini taramasını engeller. Bu, sitenizde eski, güncel olmayan veya artık değerli olmayan içeriği arama motoru sonuçlarından uzak tutmak için kullanılabilir. Bing'in
tarama bütçesini verimli kullanmak da tıpkı Google'da olduğu gibi önemlidir.
Bing ayrıca AdIdxbot gibi reklam indeksleme botlarına sahiptir. AdSense gibi platformlar kullanıyorsanız, bu tür botların engellenmemesine dikkat etmelisiniz, aksi takdirde reklam gösterimleriniz etkilenebilir.
Diğer Önemli Botlar ve Neden Dikkate Alınmalı?
Googlebot ve Bingbot en önemlileri olsa da, internet üzerinde başka birçok arama motoru ve üçüncü taraf bot bulunmaktadır. Yandex (Rusya), Baidu (Çin) gibi bölgesel arama motorları ve AhrefsBot, SemrushBot gibi
SEO araçlarının botları da sitenizi düzenli olarak tarar. Bu botlar da sitenizin kaynaklarını tüketir.
*
YandexBot: Yandex arama motoru için tarama yapar.
*
Baiduspider: Baidu arama motoru için tarama yapar.
*
DuckDuckBot: DuckDuckGo arama motoru için tarama yapar.
*
AhrefsBot, SemrushBot, Majestic-12: Bu botlar,
SEO analizi yapan üçüncü taraf araçlar tarafından kullanılır. Sitenizin backlink profilini, anahtar kelime sıralamalarını izlemek için bu botların sitenizi taramasına genellikle izin verilir. Ancak, aşırı tarama yapıyorlarsa ve sunucu kaynaklarınızı tüketiyorlarsa, belirli limitler koymak isteyebilirsiniz.
Örnek:
```
User-Agent: YandexBot
Disallow: /yedekler/
User-Agent: AhrefsBot
Disallow: /test-sayfalari/
```
Bu örneklerde, YandexBot'un yedek dizinlere erişimi engellenirken, AhrefsBot'un test sayfalarını taraması kısıtlanmıştır. Bu, sunucu kaynaklarınızı korumanıza ve gereksiz içeriğin arama motoru sonuçlarında görünmesini engellemenize yardımcı olur.
Disallow ve Allow Direktiflerinin Kullanımı
`User-Agent` direktifini takip eden `Disallow` ve `Allow` direktifleri, belirli botlar için tarama kurallarını tanımlar.
*
`Disallow:` Bu direktif, belirtilen User-Agent'ın belirli bir dizini veya dosyayı taramasını engeller.
* `Disallow: /dizin_adi/` (belirtilen dizin ve altındaki her şey engellenir)
* `Disallow: /dosya_adi.html` (belirtilen dosya engellenir)
* `Disallow: /` (tüm site engellenir - dikkatli kullanılmalı!)
*
`Allow:` Bu direktif, daha genel bir `Disallow` kuralı içinde belirli bir dizine veya dosyaya erişime izin vermek için kullanılır. Bu, özellikle büyük bir bölümü engellediğinizde, o bölüm içindeki belirli alt dizinlerin veya dosyaların taranmasını istediğinizde kullanışlıdır.
* `Allow: /dizin_adi/alt_dizin/` (genel bir `Disallow` kuralına rağmen bu alt dizine izin verir)
`robots.txt` kuralları genellikle en spesifik olandan daha genel olana doğru yorumlanır. Yani, bir bot için hem `Disallow` hem de `Allow` kuralı varsa, en uzun eşleşen kural genellikle uygulanır. Örneğin:
```
User-Agent: *
Disallow: /private/
Allow: /private/public-content/
```
Bu senaryoda, `User-Agent: *` altında `Disallow: /private/` tüm botların `/private/` dizinini taramasını engeller. Ancak, `Allow: /private/public-content/` direktifi, `/private/` dizini içindeki `/public-content/` alt dizininin taranmasına izin verir. Bu, sitenizin belirli bölümlerini detaylı bir şekilde kontrol etmenizi sağlar. `/makale.php?sayfa=robots-txt-disallow-allow-detaylari` gibi bir kaynağa başvurarak bu konuda daha fazla bilgi edinebilirsiniz.
Sitemap Direktifi
`robots.txt` dosyası, sitenizin sitemap'inin konumunu belirtmek için de kullanılabilir. Bu, arama motorlarının sitenizdeki tüm önemli sayfaları kolayca bulmasına yardımcı olur ve
indeksleme sürecini hızlandırır. `Sitemap` direktifi, belirli bir `User-Agent`'a bağlı değildir ve dosyanın herhangi bir yerine yerleştirilebilir.
Örnek:
```
Sitemap: https://www.siteadi.com/sitemap.xml
```
Birden fazla sitemap dosyanız varsa, her birini ayrı bir `Sitemap` direktifiyle belirtebilirsiniz.
En İyi Uygulamalar ve Yaygın Hatalar
`robots.txt` dosyanızı oluştururken veya güncellerken dikkat etmeniz gereken bazı önemli noktalar ve kaçınmanız gereken yaygın hatalar vardır:
1.
Doğru Konumlandırma: `robots.txt` dosyası her zaman sitenizin ana dizininde (kök dizininde) olmalıdır. Yani `https://www.siteadi.com/robots.txt` adresinden erişilebilir olmalıdır.
2.
Basit ve Anlaşılır Olun: Karmaşık ve aşırı detaylı kurallardan kaçının. Anlaşılması kolay ve bakımı yapılabilir bir dosya, hata yapma olasılığınızı azaltır.
3.
Hassas İçeriği Engellemeyin: Özellikle Google AdSense yayıncısıysanız, reklamlarınızın görüneceği sayfaları veya ana içerik sayfalarınızı asla `Disallow` etmeyin. Bu, hem trafiğinizi hem de gelirinizi olumsuz etkiler.
4.
Sentaks Hatalarından Kaçının: Her direktifi doğru formatta yazdığınızdan emin olun. Küçük bir yazım hatası bile tüm dosyanın yanlış yorumlanmasına neden olabilir. `Robots Txt Retici` gibi online araçlar, bu tür hataları en aza indirmek için mükemmel bir yardımcıdır. Bu araçlar, doğru söz dizimiyle kolayca kurallar oluşturmanıza olanak tanır.
5.
Test Araçlarını Kullanın: Google Search Console'daki `robots.txt` Test Aracı gibi araçları kullanarak, dosyanızın arama motorları tarafından nasıl yorumlandığını kontrol edin. Bu, değişikliklerinizin sitenizi olumsuz etkilemediğinden emin olmanın en iyi yoludur. Bing Webmaster Tools da benzer bir test aracı sunar.
6.
Aşırı Kısıtlamadan Kaçının: Sitenizin neredeyse tamamını `Disallow` etmek, görünürlüğünüzü tamamen yok edecektir. Yalnızca gerçekten taranmasını istemediğiniz içerikleri engelleyin. Unutmayın ki `robots.txt` bir güvenlik aracı değildir; hassas bilgileri korumak için sunucu tarafı kimlik doğrulama veya diğer güvenlik önlemleri kullanılmalıdır. Arama motorları `robots.txt`'yi okur, ancak kötü niyetli kişiler dosyanızı görmezden gelebilir.
7.
Sık Güncelleme: Sitenize yeni bölümler eklediğinizde veya eski bölümleri kaldırdığınızda `robots.txt` dosyanızı güncellemeyi unutmayın.
Bir
Robots Txt Retici kullanarak, bu direktifleri manuel olarak yazmak yerine, kullanıcı dostu bir arayüz aracılığıyla kolayca oluşturabilirsiniz. Bu tür bir araç, farklı `User-Agent`'lar için kuralları düzenlemenize, `Disallow` ve `Allow` direktiflerini eklemenize ve hatta `Sitemap` konumunuzu belirtmenize yardımcı olabilir. Bu, özellikle teknik bilgiye çok hakim olmayan veya hızlıca doğru bir yapılandırmaya ihtiyaç duyan web yöneticileri için büyük bir kolaylık sağlar. Bu araçlar, yaygın sentaks hatalarından kaçınmanıza ve dosyanızın her zaman geçerli olmasını sağlamanıza da yardımcı olur.
Sonuç
`robots.txt` dosyası ve özellikle `User-Agent` direktifi, sitenizin arama motorları tarafından nasıl taranacağı ve dizine ekleneceği konusunda size önemli bir kontrol sağlar. Googlebot ve Bingbot gibi ana arama motoru botları için özel kurallar belirleyerek, sitenizin
tarama bütçesini optimize edebilir, gereksiz veya düşük değerli içeriğin
indekslemesini engelleyebilir ve sitenizin genel
SEO performansını iyileştirebilirsiniz. Unutmayın ki doğru `robots.txt` yapılandırması, AdSense gibi reklam platformlarından elde ettiğiniz geliri de dolaylı olarak etkiler; çünkü iyi indekslenmiş, yüksek kaliteli içerik daha fazla organik trafik ve dolayısıyla daha fazla reklam gösterimi anlamına gelir. Sürekli olarak sitenizin ihtiyaçlarına göre bu dosyayı gözden geçirmek ve test araçlarını kullanarak doğruluğunu kontrol etmek, uzun vadeli başarınız için kritik öneme sahiptir. Daha fazla bilgi için `/makale.php?sayfa=robots-txt-en-iyi-uygulamalar` adresindeki kılavuzumuza göz atabilirsiniz.
Yazar: Ezgi Avcı
Ben Ezgi Avcı, bir Dijital Pazarlama Uzmanı. Platformumuzda teknolojiyi herkes için anlaşılır kılmak, karmaşık konuları basitleştirerek okuyucularımızın günlük yaşamında pratik olarak kullanabileceği bilgiler sunmak, yeni beceriler kazandırmak, farkındalık oluşturmak ve teknoloji dünyasındaki gelişmeleri anlaşılır bir dille aktarmak amacıyla yazıyorum.