
Google Search Console'daki Robots.txt Hatalarını Gidermek İçin Doğru Disallow Yönergeleri Nasıl Yazılır?
Web sitenizin arama motorlarındaki görünürlüğü ve
SEO performansı için Google Search Console (GSC) vazgeçilmez bir araçtır. Bu konsolun sunduğu en kritik raporlardan biri de sitenizin taranabilirliği ile ilgili bilgilerdir. `robots.txt` dosyası, sitenizin hangi bölümlerinin arama motorları tarafından taranıp taranmayacağını belirleyen küçük ama güçlü bir metin dosyasıdır. Ancak yanlış yazılan `Disallow` yönergeleri, sitenizin önemli bölümlerinin taranmasını engelleyebilir ve bu da Google Search Console'da hatalar olarak karşınıza çıkabilir. Bir SEO editörü olarak, bu hataları anlamak ve doğru şekilde düzeltmek, web sitenizin sağlığı için hayati öneme sahiptir.
Robots.txt ve Disallow Yönergelerinin Temelleri
`robots.txt` dosyası, web sunucunuzun kök dizininde bulunan ve arama motoru robotlarına (örneğin Googlebot) sitenizde hangi URL'leri tarayabileceklerini bildiren bir protokoldür. Bu dosya, robotların sitenizi nasıl keşfedecekleri konusunda bir rehber görevi görür. Temel olarak, sitenizdeki hassas, yinelenen veya düşük kaliteli içeriğe sahip alanları taramalarını engellemek için kullanılır. Bu, sitenizin
tarama bütçesini daha verimli kullanmasına yardımcı olur ve önemli sayfalarınızın daha sık taranmasını sağlar.
`Disallow` yönergesi, `robots.txt` dosyasının kalbinde yer alır. Bu yönerge, belirli bir kullanıcı aracısının (User-agent) sitenizin hangi bölümünü taramamasını istediğinizi belirtir. Örneğin, `Disallow: /admin/` yönergesi, arama motoru botlarının `/admin/` dizini altındaki hiçbir sayfayı taramamasını söyler. Bu basit gibi görünen yönerge, yanlış kullanıldığında sitenizin arama sonuçlarından kaybolmasına bile neden olabilir.
Google Search Console'daki Robots.txt Hatalarının Nedenleri
Google Search Console, `robots.txt` dosyanızı düzenli olarak kontrol eder ve olası hataları size bildirir. Karşılaşabileceğiniz yaygın hatalardan bazıları şunlardır:
*
"URL, robots.txt tarafından engellendi": Bu, Google'ın sitenizdeki bir URL'yi taramak istediği ancak `robots.txt` dosyasındaki bir `Disallow` kuralının bunu engellediği anlamına gelir. Eğer engellenen URL önemli bir sayfaysa, bu bir sorun teşkil eder.
*
"Robots.txt engelleme hatası": Bu, `robots.txt` dosyanızın kendisinde bir sorun olduğu anlamına gelebilir (örneğin, dosya bulunamıyor, hatalı sözdizimi var veya sunucu erişimini engelliyor).
*
"Kaynaklar engellendi": Google, bir sayfayı düzgün şekilde oluşturabilmek için CSS, JavaScript veya resim dosyaları gibi belirli kaynaklara ihtiyaç duyar. Eğer `robots.txt` bu kritik kaynakları engellerse, Google sayfanızı yanlış veya eksik görebilir, bu da
arama motoru optimizasyonu için olumsuz bir durumdur.
Bu hataların temel nedenleri genellikle şunlardır:
1.
Yanlışlıkla Önemli Sayfaların Engellenmesi: Bir `Disallow` yönergesini çok genel yazmak, farkında olmadan sitenizin ana sayfaları, ürün sayfaları veya blog gönderileri gibi kritik bölümlerini engellemeye yol açabilir.
2.
Yazım Hataları ve Sözdizimi Yanlışları: `robots.txt` dosyasındaki küçük bir yazım hatası veya yanlış yerleştirilmiş bir eğik çizgi, tüm yönergenin beklendiği gibi çalışmamasına neden olabilir. `robots.txt` sözdizimi konusunda titiz olmak gereklidir.
3.
Çakışan Yönergeler: Farklı `User-agent`'lar için yazılmış veya belirli bir bölüm için birden fazla çakışan `Disallow` yönergesi bulunması, robotların hangi kurala uyması gerektiği konusunda kafa karışıklığı yaratabilir.
4.
Oluşturma İçin Gerekli Kaynakların Engellenmesi: Googlebot, web sayfalarını kullanıcıların gördüğü gibi görmek için tüm CSS ve JS dosyalarına erişmek ister. Bunları engellemek, Google'ın sayfanızın içeriğini ve düzenini tam olarak anlamasını engelleyebilir.
Adım Adım Doğru Disallow Yönergeleri Yazma ve Hataları Giderme
Google Search Console'daki `robots.txt` hatalarını gidermek ve gelecekte benzer sorunlardan kaçınmak için aşağıdaki adımları dikkatlice izlemeniz önemlidir.
Adım 1: Mevcut robots.txt Dosyanızı Analiz Edin
İlk olarak, sitenizin `robots.txt` dosyasına (`www.siteniz.com/robots.txt` adresinden erişebilirsiniz) bakın. Dosyanın içeriğini okuyun ve hangi yönergelerin hangi kullanıcı aracıları için geçerli olduğunu anlamaya çalışın. Özellikle `Disallow` yönergelerine odaklanın. Hangi dizinlerin veya dosyaların engellendiğini not alın.
Ardından, Google Search Console'daki `robots.txt` test aracını kullanın. Bu araç, sitenizin `robots.txt` dosyasını simüle etmenize ve belirli bir URL'nin belirli bir robot tarafından taranıp taranmadığını kontrol etmenize olanak tanır. Bu, hatalı bir yönergenin tam olarak nerede olduğunu tespit etmenize yardımcı olabilir.
Adım 2: Hangi Sayfaların Engellenmesi Gerektiğine Karar Verin
`robots.txt` ile her şeyi engellemek istemezsiniz. Yalnızca belirli türdeki sayfaları engellemelisiniz:
*
Yönetici Panelleri: `/wp-admin/`, `/admin/` gibi dizinler.
*
Geliştirme veya Staging Ortamları: Canlı olmayan test siteleri.
*
Hassas Kullanıcı Verileri İçeren Alanlar: Oturum açma sayfaları, kullanıcı profilleri (ki bunlar genellikle `noindex` ile birlikte ele alınmalıdır).
*
Arama Sonuç Sayfaları: Site içi arama sonuçları veya filtreleme sayfaları (sıkça yinelenen içerik oluştururlar).
*
Geçici veya Düşük Kaliteli İçerik: Örneğin, taslak halindeki sayfalar veya otomatik olarak oluşturulan içerikler.
Burada önemli bir ayrım,
`noindex` etiketi ile `Disallow` yönergesi arasındaki farktır. `Disallow` taramayı engellerken, `noindex` (bir `
` etiketi veya HTTP yanıt başlığı aracılığıyla) sayfanın dizine eklenmesini engeller. Eğer Google'ın bir sayfayı kesinlikle dizinine eklemesini istemiyorsanız, `noindex` kullanmalısınız. Ancak `noindex` etiketinin çalışabilmesi için sayfanın taranabilir olması gerektiğini unutmayın. Bu nedenle, kritik sayfaları `Disallow` ile engellemek, `noindex` etiketlerinin görülememesine ve sayfaların yine de dizine eklenebilmesine yol açabilir.
Adım 3: Disallow Yönergelerini Doğru Yazım Kurallarıyla Uygulayın
`Disallow` yönergelerini yazarken çok dikkatli olmanız gerekir. İşte bazı temel kurallar ve örnekler:
*
Tüm Botlar İçin:```
User-agent: *
Disallow: /klasor/
```
Bu, tüm arama motoru botlarının `/klasor/` dizini altındaki tüm içeriği taramasını engeller. Sondaki eğik çizgi önemlidir; `/klasor` yazmak, `/klasor-hakkinda-bilgi` gibi sayfaları da engelleyebilir.
*
Belirli Bir Dosyayı Engelleme:```
User-agent: *
Disallow: /dosya.html
```
Bu, `/dosya.html` adlı belirli bir dosyayı engeller.
*
Belirli Bir Bot İçin:```
User-agent: Googlebot-Image
Disallow: /resimler/
```
Bu sadece Google'ın görsel botunun `/resimler/` dizinini taramasını engeller. Diğer botlar tarayabilir.
*
Wildcard Kullanımı (`*`): Belirli bir desenle eşleşen URL'leri engellemek için `*` kullanabilirsiniz.
```
User-agent: *
Disallow: /wp-admin*
```
Bu, `/wp-admin` ile başlayan tüm URL'leri (örneğin `/wp-admin/index.php`, `/wp-admin/js/`) engeller.
*
Dolar İşareti (`$`): Bir URL'nin tam olarak belirli bir desenle bitmesini istiyorsanız `$` kullanın.
```
User-agent: *
Disallow: /*.pdf$
```
Bu, sitenizdeki tüm PDF dosyalarını engellerken, `pdf` kelimesini içeren diğer URL'leri engellemez (örneğin, `/sayfa/pdf-rapor`).
*
Engellemeyi Kaldırma: Bir yönergeyi kaldırmak için sadece `Disallow:` yazın.
```
User-agent: *
Disallow:
```
Bu, o `User-agent` için hiçbir şeyi engellemez.
Bu `robots.txt` sözdizimi kurallarına dikkat etmek, istenmeyen engellemelerin önüne geçecektir.
Adım 4: İçerik Oluşturmada Disallow ve noindex Arasındaki Farkı Anlayın
Bu bölüm, birçok web yöneticisinin en çok kafa karışıklığı yaşadığı alandır. Şöyle düşünün:
*
`Disallow` (robots.txt): "Arama motoru, bu kapıdan içeri girme." Kapıdan girmediği için içeride ne olduğunu da bilemez. Ancak dışarıdan bir link bu sayfaya işaret ediyorsa, Google içeriği görmese bile URL'yi dizine ekleyebilir. Bu durumda, Google Search Console'da "robots.txt tarafından engellendi" hatasıyla beraber "Dizine eklendi, ancak engellenen robots.txt nedeniyle taranamadı" uyarısını görebilirsiniz.
*
`noindex` (meta etiketi veya X-Robots-Tag HTTP başlığı): "Arama motoru, bu kapıdan içeri girebilirsin, içeriği de görebilirsin ama lütfen burayı dizinine ekleme." Bu, sayfanın taranmasına izin verir ancak dizine eklenmesini kesin olarak engeller.
Ne zaman hangisini kullanmalı?* `Disallow`: Sunucu kaynaklarını korumak, geliştirme ortamlarını gizlemek veya sitenizin tamamen gereksiz, kalitesiz bölümlerini (örneğin binlerce filtreli arama sayfası) tarama bütçesinden çıkarmak istediğinizde. Unutmayın, bu, hassas bilgileri dizine eklenmekten korumaz.
* `noindex`: Kalitesiz ancak tarama bütçesinden tasarruf etmek için engellemek istemediğiniz sayfalar, kullanıcı profilleri, giriş/kayıt sayfaları, kişisel veriler içeren sayfalar veya A/B testi sayfaları gibi içeriğin arama sonuçlarında görünmesini istemediğinizde. `noindex` ile birlikte `Disallow` kullanmaktan kaçının; aksi takdirde `noindex` yönergesi tarama engellendiği için görülemeyecek ve sayfa yine de dizine eklenebilecektir.
Adım 5: Robots.txt Değişikliklerinizi Test Edin
Yeni `Disallow` yönergeleri ekledikten veya mevcutları değiştirdikten sonra, değişiklikleri canlıya almadan önce mutlaka test edin.
*
Google Search Console `robots.txt` test aracı: Buraya `robots.txt` dosyanızın içeriğini yapıştırın ve belirli URL'leri test ederek istediğiniz gibi engellenip engellenmediğini kontrol edin.
*
Google Search Console URL Denetleme aracı: Bu araç, belirli bir URL'yi Googlebot'un nasıl gördüğünü size gösterir. Bir sayfanın tarama veya dizine eklenme sorunları olup olmadığını anlamak için bu aracı kullanın. Sayfanın render edilmiş halini de görerek, engellenen kaynaklar nedeniyle oluşabilecek görsel hataları da tespit edebilirsiniz.
Adım 6: Değişiklikleri Uygulayın ve Monitör Edin
Tüm testler başarılı olduktan sonra, `robots.txt` dosyasını sunucunuza yükleyin. Dosyanın `siteniz.com/robots.txt` adresinden erişilebilir olduğundan emin olun. Daha sonra, Google Search Console'daki "Kapsam" ve "Tarama İstatistikleri" raporlarını düzenli olarak izleyin. Robots.txt hatalarının zamanla azaldığını veya tamamen ortadan kalktığını görmelisiniz. Bu süreç anında gerçekleşmeyebilir, Google'ın sitenizi yeniden taraması biraz zaman alabilir.
Yaygın Disallow Hatalarından Kaçınma İpuçları
`Robots Txt Retici` olarak, sitenizin trafik akışını ve Google'ın sitenizi nasıl anladığını kontrol etmenize yardımcı olur. Ancak bu güçlü aracı kullanırken dikkatli olmalısınız:
*
Gereğinden Fazla Engellemeyin: Sadece gerçekten engellenmesi gereken URL'leri engelleyin. Önemli sayfaları veya sitenizin ana navigasyonunu `Disallow` ile engellemek, SEO'nuza ciddi zararlar verebilir.
*
Kritik Kaynakları Engellemeyin: CSS, JavaScript ve resim dosyaları gibi sitenizin düzgün görünmesi ve işlev görmesi için gerekli olan kaynakları asla engellemeyin. Google, bir sayfayı değerlendirirken "görsel deneyimi" de dikkate alır. Eğer bu kaynaklar engellenirse, Google sayfanızı bozuk veya eksik olarak algılayabilir.
*
`robots.txt` Erişilebilir Olsun: `robots.txt` dosyanızın her zaman erişilebilir olduğundan emin olun. Sunucu hataları veya yanlış dosya izinleri, Google'ın bu dosyaya ulaşmasını engelleyebilir, bu da varsayılan olarak her şeyin taranmasına yol açabilir.
*
`User-agent` Doğru Kullanımı: Belirli botlar için kurallar yazarken dikkatli olun. Örneğin, yalnızca Googlebot'a yönelik bir kuralın diğer arama motorlarını etkilemeyeceğini unutmayın.
*
Düzenli Kontrol: Sitenize yeni bir özellik eklediğinizde veya önemli değişiklikler yaptığınızda `robots.txt` dosyanızı gözden geçirin. Eski yönergeler yeni durumunuzla çelişebilir.
Daha fazla bilgi için, 'robots.txt ve sitenizin taranabilirliği' konulu makalemize göz atabilirsiniz: [/makale.php?sayfa=robots-txt-ve-taranabilirlik]. Ayrıca, Google Search Console'daki diğer önemli araçlar hakkında bilgi edinmek için, 'Google Search Console rehberi' başlıklı yazımızı ziyaret edin: [/makale.php?sayfa=google-search-console-rehberi].
Sonuç
`robots.txt` dosyası, web sitenizin arama motorları ile nasıl etkileşim kurduğunu kontrol etmede size büyük bir güç verir. Bu gücü doğru `Disallow` yönergeleri yazarak kullanmak,
Google Search Console'da gördüğünüz hataları gidermenin ve sitenizin
tarama bütçesini optimize etmenin anahtarıdır. Unutmayın, `robots.txt` bir güvenlik aracı değildir; hassas bilgileri korumak için daha güçlü güvenlik önlemlerine ihtiyacınız vardır. Amacı, sitenizin arama motorları tarafından verimli bir şekilde taranmasını sağlamaktır.
Doğru `Disallow` yönergeleri yazmak ve bunları düzenli olarak izlemek, web sitenizin sağlıklı bir SEO temeline sahip olmasını sağlar. Bu sayede, siteniz hem arama motoru botları hem de kullanıcılar için daha iyi bir deneyim sunar. Sürekli öğrenme ve uygulama ile, `robots.txt` uzmanı olabilir ve sitenizin dijital görünürlüğünü en üst düzeye çıkarabilirsiniz.
Yazar: Ezgi Avcı
Ben Ezgi Avcı, bir Dijital Pazarlama Uzmanı. Platformumuzda teknolojiyi herkes için anlaşılır kılmak, karmaşık konuları basitleştirerek okuyucularımızın günlük yaşamında pratik olarak kullanabileceği bilgiler sunmak, yeni beceriler kazandırmak, farkındalık oluşturmak ve teknoloji dünyasındaki gelişmeleri anlaşılır bir dille aktarmak amacıyla yazıyorum.