
Yeni başlayanlar için ilk Robots.txt dosyanızı hatalardan uzak ve eksiksiz nasıl hazırlarsınız?
Web sitenizin görünürlüğü ve arama motorlarındaki performansı (SEO), birçok teknik detaya bağlıdır. Bu detaylardan biri de, arama motoru botlarının sitenizi nasıl tarayacağını ve hangi sayfalarınıza erişebileceğini belirleyen
Robots.txt dosyasıdır. Yeni başlayanlar için karmaşık gibi görünse de, doğru anlaşıldığında ve uygulandığında web sitenizin
SEO sağlığı için kritik bir araçtır. Bu makalede, ilk Robots.txt dosyanızı hatalardan uzak ve eksiksiz bir şekilde nasıl hazırlayacağınızı adım adım inceleyeceğiz.
Web sitenizdeki içeriğin Google gibi arama motorları tarafından doğru şekilde keşfedilmesi ve dizine eklenmesi, başarılı bir dijital stratejinin temelini oluşturur. Ancak bazı sayfalarınızın (yönetici paneli, geliştirme ortamları, hassas kullanıcı verileri içeren alanlar veya yinelenen içerikler gibi) taranmasını veya dizine eklenmesini istemeyebilirsiniz. İşte bu noktada Robots.txt devreye girer. Yanlış yapılandırılmış bir Robots.txt dosyası, sitenizin önemli sayfalarının arama sonuçlarından düşmesine, hatta tamamen görünmez hale gelmesine neden olabilir. Bu nedenle, bu dosyanın işlevini ve doğru kullanımını öğrenmek, uzun vadeli
SEO başarınız için vazgeçilmezdir.
Robots.txt Nedir ve Neden Önemlidir?
Robots.txt, web sunucunuzun kök dizininde bulunan ve adından da anlaşılacağı gibi, "robotlar" (yani arama motoru örümcekleri veya botları) için talimatlar içeren basit bir metin dosyasıdır. Bu dosya, bir arama motoru botu sitenize ilk kez geldiğinde kontrol ettiği ilk şeylerden biridir. Amacı, botlara sitenizde hangi alanları tarayabilecekleri ve hangi alanlardan uzak durmaları gerektiğini söylemektir.
Robots.txt'nin önemi birkaç ana noktada toplanabilir:
1.
Crawl Bütçesini Yönetme: Her web sitesinin bir "crawl bütçesi" vardır; yani arama motorlarının sitenizde belli bir süre içinde tarayabileceği sayfa sayısı. Özellikle büyük siteler için, crawl bütçesini önemli sayfalara yönlendirmek çok önemlidir. Robots.txt kullanarak, önemsiz veya yinelenen içerik barındıran sayfaların taranmasını engelleyerek botların enerjisini daha değerli içeriklerinize odaklamasını sağlayabilirsiniz. Bu, sitenizin daha etkin taranmasına ve yeni içeriklerinizin daha hızlı keşfedilmesine yardımcı olur.
2.
Hassas İçeriği Koruma: Yönetici panelleri, test ortamları, kullanıcıya özel sayfalar veya geliştirme aşamasındaki içerikler gibi herkese açık olmaması gereken sayfaların taranmasını ve dolayısıyla arama sonuçlarında görünmesini engelleyebilirsiniz. Bu, sitenizin güvenliği ve kullanıcı gizliliği açısından da faydalıdır.
3.
Sunucu Yükünü Azaltma: Aşırı bot trafiği, özellikle yoğun dönemlerde sunucunuz üzerinde yük oluşturabilir. Gereksiz sayfaların taranmasını engelleyerek sunucunuzdaki yükü azaltabilir ve sitenizin performansını artırabilirsiniz.
4.
Dizinleme Kontrolü (Dolaylı Yoldan): Unutulmamalıdır ki,
Robots.txt bir sayfanın dizine eklenmesini (yani arama sonuçlarında görünmesini) kesin olarak engellemez. Sadece taramasını engeller. Bir sayfa taranmazsa, dizine eklenmesi pek olası değildir. Ancak, başka bir kaynaktan (örneğin harici bir link) o sayfaya verilen bir bağlantı varsa, Google o sayfayı yine de dizine ekleyebilir. Tamamen dizine eklenmeyi engellemek için `noindex` meta etiketi veya X-Robots-Tag kullanmak daha kesin bir yöntemdir. Ancak
Robots.txt, gereksiz taramayı önleyerek dizinleme sürecine dolaylı yoldan katkıda bulunur.
Kısacası,
Robots.txt dosyanız arama motorları ile siteniz arasındaki ilk resmi iletişim noktasıdır. Onu doğru bir şekilde yapılandırmak, sitenizin hem
SEO performansını artıracak hem de kaynaklarını daha verimli kullanmasını sağlayacaktır.
Temel Robots.txt Söz Dizimi: Anlamak ve Kullanmak
Robots.txt dosyası oldukça basit bir söz dizimine sahiptir. Temel olarak, "kim" (User-agent) için "ne" (Disallow, Allow, Sitemap) yapılması gerektiğini belirtirsiniz.
User-agent: Tanımlayıcılar
`User-agent` komutu, Robots.txt dosyasındaki yönergelerin hangi arama motoru botları için geçerli olduğunu belirtir.
*
User-agent: \*
Bu, en sık kullanılan ve genellikle tek başına yeterli olan bir tanımlayıcıdır. Yıldız (`*`) karakteri, talimatların tüm arama motoru botları (Googlebot, Bingbot, YandexBot vb.) için geçerli olduğunu gösterir. Yeni başlayanlar için genellikle bu yeterlidir.
*Örnek:*
```
User-agent: *
```
*
User-agent: GooglebotBu, yönergelerin yalnızca Google'ın ana tarayıcısı olan Googlebot için geçerli olduğunu belirtir. Belirli botlara özel kurallar uygulamak istediğinizde kullanışlıdır. Örneğin, Googlebot'un belirli bir alana erişmesini engellerken, diğer botların erişmesine izin verebilirsiniz. Google'ın farklı amaçlar için farklı botları da vardır (örneğin, Googlebot-Image, Googlebot-News).
*Örnek:*
```
User-agent: Googlebot
Disallow: /ozel-google-alani/
```
Disallow: Engelleme Komutu
`Disallow` komutu, belirtilen `User-agent`'ın sitenizin belirli bir bölümünü veya tamamını taramasını engeller. Bu komutun ardına, engellemek istediğiniz yol (URL'nin alan adı kısmından sonra gelen bölüm) yazılır.
*
Tüm siteyi engelleme:```
User-agent: *
Disallow: /
```
Bu komut, sitenizin tamamının hiçbir bot tarafından taranmamasını sağlar. Genellikle bakım modunda olan veya henüz yayınlanmamış siteler için kullanılır.
Çok dikkatli olunmalı ve asla canlı bir site için kalıcı olarak kullanılmamalıdır!*
Belirli bir dizini engelleme:```
User-agent: *
Disallow: /wp-admin/
```
Bu örnek, WordPress sitelerinde sıkça kullanılan `/wp-admin/` dizininin taranmasını engeller. Bu tür dizinler genellikle herkese açık değildir ve
SEO değeri taşımaz.
*
Belirli bir dosyayı engelleme:```
User-agent: *
Disallow: /ozel-belge.pdf
```
Bu, sitenizdeki `/ozel-belge.pdf` dosyasının taranmasını engeller.
*
Belirli bir uzantıya sahip dosyaları engelleme (kural tabanlı):```
User-agent: *
Disallow: /*.gif$
```
Bu örnek, `.gif` uzantısına sahip tüm dosyaların taranmasını engeller. `$`, URL'nin bu uzantıyla bittiğini gösterir.
Allow: İstisna Komutu (Disallow içindeki istisnalar)
`Allow` komutu, bir `Disallow` komutu içinde belirtilen bir dizin veya dosya yolunun taranmasına izin vermek için kullanılır. Genellikle, büyük bir dizini engellediğinizde, ancak o dizin içindeki belirli alt dizinlere veya dosyalara botların erişmesini istediğinizde faydalıdır.
*
Örnek:```
User-agent: *
Disallow: /wp-content/
Allow: /wp-content/uploads/
```
Bu örnekte, `/wp-content/` dizininin tamamının taranması engellenir, ancak bu dizin içindeki `/wp-content/uploads/` dizinine botların erişimine izin verilir. Bu, genellikle sitenizdeki resim ve medya dosyalarının (uploads klasöründe yer alan) arama motorları tarafından dizine eklenmesini sağlamak için kullanılırken, diğer eklenti veya tema dosyalarının taranmasını engeller.
Sitemap: Site Haritası Konumunu Belirtmek
`Sitemap` komutu, arama motorlarına XML site haritanızın konumunu bildirir. Bu, botların sitenizdeki tüm önemli sayfaları daha hızlı keşfetmesine yardımcı olur. Genellikle Robots.txt dosyasının en altına eklenir.
*
Örnek:```
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: https://www.example.com/sitemap.xml
```
Sitenizde birden fazla site haritası varsa (örneğin, resimler veya videolar için ayrı site haritaları), her birini ayrı bir `Sitemap` komutuyla listeleyebilirsiniz.
`Sitemap` komutu, herhangi bir `User-agent` bloğuna bağlı değildir ve genellikle dosyanın herhangi bir yerinde bulunabilir, ancak okunabilirlik açısından sona eklenmesi tercih edilir.
Robots.txt Dosyanızı Oluşturma Adımları
İlk Robots.txt dosyanızı oluşturmak, göründüğünden daha kolaydır. Aşağıdaki adımları izleyerek siteniz için doğru bir dosya hazırlayabilirsiniz:
Adım 1: İhtiyaçlarınızı Belirleyin
İlk olarak, sitenizdeki hangi sayfaların veya dizinlerin arama motorları tarafından taranmasını istemediğinizi netleştirmeniz gerekir. Bir liste yapın. Yaygın engelleme nedenleri şunlardır:
*
Yönetim Panelleri: `/wp-admin/`, `/admin/`, `/cpanel/` vb.
*
Geliştirme / Staging Ortamları: `/dev/`, `/staging/` veya tam bir staging domaini.
*
Kullanıcıya Özel Sayfalar: `/hesabim/`, `/profilim/`, `/sepet/`, `/siparislerim/` vb.
*
Yinelenen İçerik: Filtreleme sayfaları, sıralama seçenekleri içeren URL'ler (`/kategori/?siralama=fiyat`), arama sonuç sayfaları (`/arama?q=`), etiket sayfalarının aşırıya kaçması.
*
Hassas Veriler: Şirket içi belgeler, özel raporlar, PDF'ler.
*
Teşekkür Sayfaları: Form gönderiminden sonraki teşekkür sayfaları gibi,
SEO değeri olmayan sayfalar.
*
Eklenti / Tema Dosyaları: Genellikle `/wp-includes/`, `/wp-content/plugins/`, `/wp-content/themes/` gibi dizinler.
Aynı zamanda, sitenizdeki hangi sayfaların *mutlaka* taranması gerektiğini de gözden geçirin. Bu genellikle tüm ana içerik sayfalarınız, ürün sayfalarınız, blog yazılarınız ve iletişim sayfalarınızdır.
Adım 2: Bir Editörle Dosyayı Oluşturma
Robots.txt dosyası, adından da anlaşılacağı gibi, basit bir metin dosyasıdır. Notepad (Windows), TextEdit (Mac) veya Sublime Text, VS Code gibi gelişmiş bir metin düzenleyici kullanarak oluşturabilirsiniz.
* Dosyanın adı `robots.txt` olmalı ve küçük harflerle yazılmalıdır.
* Dosya uzantısı `.txt` olmalıdır.
* Dosya içeriğinde yalnızca standart ASCII karakterler kullanmaya özen gösterin.
Adım 3: Temel Robots.txt İçeriği (Örnekler)
İhtiyaçlarınıza göre, Robots.txt dosyanızın içeriğini oluşturun.
*
Tüm Botların Tüm Siteyi Taramasına İzin Veren Minimalist Bir Dosya (Varsayılan):Eğer herhangi bir engelleme yapmak istemiyorsanız (ki çoğu yeni site için başlangıçta bu iyi bir yaklaşımdır), dosyanız şöyle görünebilir:
```
User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml
```
`Disallow:` komutunun ardında hiçbir yol belirtilmemesi, tüm botların tüm siteyi taramasına izin verildiği anlamına gelir. Site haritası konumunuzu eklemeyi unutmayın.
*
Yaygın Engellemeleri İçeren Bir Dosya Örneği:```
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /arama/
Allow: /wp-content/uploads/
Sitemap: https://www.example.com/sitemap.xml
```
Bu örnek, birçok WordPress sitesi için geçerli olabilecek yaygın engellemeleri ve bir istisnayı gösterir. `/arama/` dizini genellikle dahili arama sonuçlarını içerir ve bu sayfaların
dizinleme değeri düşüktür.
*
Googlebot'a Özel Kural ve Genel Kural:```
User-agent: Googlebot
Disallow: /ozel-google-bot-engellemesi/
User-agent: *
Disallow: /wp-admin/
Allow: /wp-content/uploads/
Sitemap: https://www.example.com/sitemap.xml
```
Burada, Googlebot için özel bir engelleme tanımlanırken, diğer tüm botlar için genel kurallar geçerlidir.
Adım 4: Dosyayı Yükleme
Hazırladığınız `robots.txt` dosyasını web sitenizin kök dizinine yüklemeniz gerekir. Kök dizin, domain adınızdan sonra gelen ilk dizindir. Yani, `https://www.example.com/robots.txt` adresinden erişilebilir olmalıdır.
*
FTP/SFTP Kullanarak: Bir FTP istemcisi (FileZilla gibi) kullanarak sunucunuza bağlanın ve `public_html`, `www` veya sitenizin ana klasörü olarak belirlenen dizine `robots.txt` dosyasını sürükleyip bırakın.
*
Hosting Kontrol Paneli (cPanel, Plesk vb.): Çoğu hosting paneli, "Dosya Yöneticisi" aracılığıyla dosya yüklemenize olanak tanır. Sitenizin kök dizinine gidin ve dosyayı yükleyin.
*
WordPress Kullanıcıları İçin: Bazı
SEO eklentileri (Yoast SEO, Rank Math gibi) kendi arayüzlerinden `robots.txt` dosyasını düzenlemenize izin verir. Bu eklentiler genellikle sanal bir `robots.txt` oluşturur veya gerçek dosyayı yönetmenize yardımcı olur.
Dosyayı yükledikten sonra, tarayıcınızdan `https://www.siteniz.com/robots.txt` adresine giderek dosyanın doğru bir şekilde erişilebilir olup olmadığını kontrol edin. Dosyanın içeriğini görmeniz gerekir.
Sık Yapılan Hatalar ve Kaçınma Yolları
Robots.txt dosyasını oluştururken yapılan küçük hatalar bile sitenizin
SEO performansını ciddi şekilde etkileyebilir. İşte kaçınmanız gereken yaygın hatalar:
Yanlış Engelleme: Önemli Sayfaların Engellenmesi
En kritik hata, sitenizin ana içeriğini veya arama motorlarında görünmesini istediğiniz önemli sayfalarını `Disallow` komutuyla engellemektir. Örneğin, ana CSS veya JavaScript dosyalarını engellemek, Google'ın sitenizin nasıl göründüğünü ve çalıştığını anlamasını engeller, bu da arama sıralamanızı olumsuz etkileyebilir.
*
Çözüm: Hangi sayfaları engellediğinizden emin olun. Herhangi bir şüpheniz varsa, başlangıçta engellemeleri en aza indirin. Google Search Console'daki
Robots.txt Tester aracını kullanarak engellediğiniz URL'lerin gerçekten istediğiniz URL'ler olduğundan emin olun.
Disallow ile Dizine Eklenmeyi Karıştırmak
Daha önce de belirtildiği gibi, `Disallow` komutu bir sayfanın *taranmasını* engeller, *dizine eklenmesini* (arama sonuçlarında görünmesini) değil. Eğer çok hassas bir sayfanın kesinlikle arama sonuçlarında görünmesini istemiyorsanız, sadece `Disallow` yeterli olmayabilir.
*
Çözüm: Dizinlemeyi kesin olarak engellemek için sayfanın `` bölümüne `
` etiketini ekleyin veya HTTP başlığında `X-Robots-Tag: noindex` kullanın. Bu yöntemler, sayfa taranabilse bile dizine eklenmesini engeller.
*
Önemli Not: Bir sayfaya `noindex` etiketi eklediyseniz, o sayfanın Robots.txt ile taranmasını engellemeyin. Çünkü botun `noindex` etiketini okuyabilmesi için sayfayı taraması gerekir! Eğer taranmasını engellerseniz, `noindex` etiketini asla göremez ve sayfa yine de dizine eklenebilir.
Yanlış Söz Dizimi Kullanımı
Küçük bir yazım hatası veya eksik bir karakter, Robots.txt dosyanızın çalışmamasına neden olabilir. Örneğin, `Disallow` yerine `Dissallow` yazmak veya komutların sonuna yanlış karakterler eklemek.
*
Çözüm: `robots.txt` dosyanızı oluştururken dikkatli olun. En iyi uygulama, dosyanızı yazdıktan sonra Google Search Console'daki
Robots.txt Tester aracını kullanarak test etmektir. Bu araç, söz dizimi hatalarını ve belirli URL'lerin taranıp taranmayacağını size gösterir. Ayrıca, sıkça kullanılan bir Robots.txt üretici (Robots Txt Retici) kullanmak da bu tür hataları en aza indirmeye yardımcı olabilir, ancak yine de çıkan sonucu kendiniz kontrol etmelisiniz.
Sitemap Konumunun Yanlış Verilmesi
`Sitemap` komutunun ardına yazdığınız URL, site haritanızın tam ve doğru adresi olmalıdır. Yanlış bir URL, arama motorlarının site haritanızı bulmasını engelleyebilir.
*
Çözüm: Site haritanızın URL'sini tarayıcınızda açarak doğru olduğundan emin olun. Genellikle `sitemap.xml` veya `sitemap_index.xml` gibi bir isimle kök dizinde yer alır.
Robots.txt Dosyasını Güncellememek
Web siteniz geliştikçe, yeni sayfalar eklendikçe veya kaldırıldıkça, Robots.txt dosyanızı da güncellemeniz gerekebilir. Örneğin, yeni bir admin paneli eklediyseniz veya artık geçerli olmayan bir engellemeyi kaldırmak istiyorsanız.
*
Çözüm: Sitenizde büyük bir değişiklik yaptığınızda, Robots.txt dosyanızı gözden geçirmeyi bir alışkanlık haline getirin. Özellikle yeni bir bölüm veya dizin eklediğinizde, bu bölümün taranıp taranmaması gerektiğine karar verin.
Robots.txt'nizi Test Etme ve Doğrulama
Robots.txt dosyanızı oluşturup web sitenize yükledikten sonra, doğru çalıştığından emin olmak için test etmeniz kritik öneme sahiptir.
1. Tarayıcıdan Kontrol:İlk ve en basit adım, tarayıcınızdan `https://www.siteniz.com/robots.txt` adresine giderek dosyanın gerçekten erişilebilir olup olmadığını ve doğru içeriği gösterip göstermediğini kontrol etmektir.
2. Google Search Console'daki Robots.txt Tester:Bu araç,
Robots.txt dosyanızı test etmek için en güçlü ve güvenilir yöntemdir.
* Google Search Console hesabınıza giriş yapın.
* Sol menüden "Ayarlar" > "Tarama" > "
Robots.txt Tester" (veya yeni arayüzde doğrudan arama çubuğunu kullanın) bölümüne gidin.
* Burada sitenizin mevcut Robots.txt içeriğini göreceksiniz. Aracın içinde değişiklikler yapabilir ve "Test Et" düğmesine tıklayarak sonuçları anında görebilirsiniz.
* Belirli bir URL'nin taranıp taranmayacağını test etmek için, URL'yi giriş alanına yapıştırın ve test edin. Bu, yanlışlıkla önemli bir sayfanızı engellemediğinizden emin olmanız için paha biçilmez bir özelliktir.
3. Tarama Hatalarını İzleme:Google Search Console'daki "Tarama İstatistikleri" ve "Dizin Kapsamı" raporlarını düzenli olarak kontrol edin. Eğer Robots.txt dosyanız nedeniyle beklenmedik tarama sorunları veya dizinleme dışı bırakılan sayfalar görüyorsanız, dosyanızı yeniden gözden geçirmeniz gerekebilir.
Dosyanızı doğru bir şekilde hazırlamak, web sitenizin arama motorları tarafından verimli bir şekilde taranmasını sağlar. Bu sayede, sitenizin en değerli sayfaları arama sonuçlarında hak ettikleri yeri bulurken, gereksiz veya gizli sayfalarınız da güvenli bir şekilde taranmaktan uzak kalır. Unutmayın ki
Robots.txt bir kere yapılıp bırakılacak bir dosya değildir; sitenizin ihtiyaçları değiştikçe periyodik olarak kontrol edilmesi ve güncellenmesi gereken canlı bir unsurdur. Başlangıçta basit tutarak ve yukarıdaki adımları dikkatle izleyerek, sitenizin
SEO altyapısını sağlam temeller üzerine kurmuş olacaksınız. İç linkleme için de, /makale.php?sayfa=google-search-console-kullanimi gibi bir sayfa hazırlayarak bu aracı daha detaylı açıklayabilirsiniz. Ayrıca, /makale.php?sayfa=sitemap-rehberi gibi bir makale ile site haritasının önemini vurgulayarak kullanıcıları bilgilendirebilirsiniz.
Yazar: Ezgi Avcı
Ben Ezgi Avcı, bir Dijital Pazarlama Uzmanı. Platformumuzda teknolojiyi herkes için anlaşılır kılmak, karmaşık konuları basitleştirerek okuyucularımızın günlük yaşamında pratik olarak kullanabileceği bilgiler sunmak, yeni beceriler kazandırmak, farkındalık oluşturmak ve teknoloji dünyasındaki gelişmeleri anlaşılır bir dille aktarmak amacıyla yazıyorum.