
Sadece belirli botların sitemi taramasına izin veren robots.txt nasıl oluşturulur?
Bir SEO editörü olarak, web sitenizin arama motorları tarafından doğru ve verimli bir şekilde taranmasını sağlamanın ne kadar kritik olduğunu çok iyi biliyorum. Google AdSense programı kapsamında gelir elde eden bir yayıncıysanız, sitenizin performansının,
dizinleme kalitesinin ve kullanıcı deneyiminin doğrudan reklam gelirinizi etkilediğini de farkındasınızdır. İşte bu noktada, `robots.txt` dosyası devreye giriyor. Bu dosya, sitenizi ziyaret eden web tarayıcı botlarına (web crawler) rehberlik eden basit ama güçlü bir metin dosyasıdır. Ancak sadece belirli botların sitenizi taramasına izin veren bir `robots.txt` oluşturmak, sanıldığından daha incelikli bir konudur ve yanlış yapıldığında sitenizin görünürlüğüne ciddi zararlar verebilir.
Amacımız, gereksiz bot trafiğini eleyerek
crawl bütçesinizi optimize etmek,
sunucu yükünü azaltmak ve sitenizin ana içeriğinin ilgili arama motorları tarafından öncelikli olarak taranmasını sağlamaktır. Bu makalede, bu stratejiyi adım adım nasıl uygulayacağınızı, dikkat etmeniz gerekenleri ve AdSense performansınız üzerindeki potansiyel etkilerini detaylıca ele alacağız. Bir nevi, sitenizin kendi "Robots Txt Üretici" si gibi davranarak, bot trafiğinizi akıllıca yöneteceğiz.
Robots.txt Dosyasının Temel İşleyişi
`robots.txt`, web sitesi kök dizininde yer alan ve arama motoru botlarına hangi sayfalara erişip hangilerine erişemeyeceklerini bildiren bir protokoldür. Bu protokol, bir dizi yönergeden oluşur ve iki ana bileşeni vardır:
1.
`User-agent:`: Bu yönerge, belirli bir bota veya tüm botlara (yıldız `*` işareti ile) hitap etmek için kullanılır. Örneğin, `User-agent: Googlebot` sadece Google'ın ana tarayıcısına hitap ederken, `User-agent: *` tüm botları kapsar.
2.
`Disallow:`: Belirtilen `User-agent` için hangi dizinlerin veya dosyaların taranmamasını istediğinizi gösterir. Örneğin, `Disallow: /admin/` "admin" klasörünü engeller. `Disallow: /` ise tüm siteyi engeller.
3.
`Allow:`: `Disallow` yönergesiyle engellenmiş bir dizin veya dosya içinde bile olsa, belirli bir alt klasör veya dosyaya erişim izni vermek için kullanılır. Bu, özellikle bizim stratejimiz için kilit öneme sahiptir.
Unutulmamalıdır ki `robots.txt` bir güvenlik mekanizması değildir. Sadece botlara bir "lütfen buraya girmeyin" mesajıdır. Hassas veya özel bilgileri korumak için başka güvenlik önlemleri almanız gerekir.
Neden Sadece Belirli Botlara İzin Vermeliyiz?
Birçok web sitesi sahibi, `robots.txt` dosyasını sadece genel engellemeler için kullanır. Ancak sitenizi sadece belirli botlara açmak, size önemli avantajlar sağlayabilir:
*
Crawl Bütçesi Optimizasyonu: Özellikle büyük siteler için çok önemlidir. Arama motorları, sitenizi taramak için belirli bir zaman ve kaynak ayırır (işte bu
crawl bütçesidir). Sitenize gelen alakasız veya kötü niyetli botlar, bu bütçeyi tüketerek önemli sayfalarınızın taranmasını geciktirebilir. Sadece ana arama motoru botlarına izin vererek,
crawl bütçesinizin en değerli içeriğiniz için kullanılmasını sağlarsınız.
*
Sunucu Yükünü Azaltma: Çok sayıda botun sitenizi aynı anda taraması, sunucunuz üzerinde gereksiz bir yük oluşturabilir. Bu durum, sitenizin yavaşlamasına, hatta hizmet dışı kalmasına neden olabilir. Sunucu kaynaklarınızın gereksiz botlar tarafından tüketilmesini önleyerek, sitenizin daha hızlı ve stabil çalışmasını sağlarsınız. Bu da kullanıcı deneyimi ve dolayısıyla AdSense gelirleri için hayati öneme sahiptir.
*
Veri Kazıma (Scraping) Önleme: Bazı botlar, sitenizdeki içeriği veya verileri kopyalamak amacıyla tasarlanmıştır (veri kazıma botları). Bu tür botları engelleyerek içeriğinizin izinsiz kullanımını bir ölçüde sınırlayabilirsiniz.
*
SEO Performansı Artırma: Sitenizin ana arama motorları (Google, Bing, Yandex vb.) tarafından daha verimli taranması, içeriğinizin daha hızlı keşfedilmesini, doğru bir şekilde
dizinlemesini ve sonuç olarak daha iyi sıralamalar elde etmenizi sağlar. Bu da doğrudan organik trafik artışı ve AdSense gösterimlerinin yükselmesi anlamına gelir.
Robots.txt ile "Sadece Belirli Botlar" Stratejisi
Bu stratejinin temel mantığı, başlangıçta *tüm* botların sitenizi taramasını engellemek ve ardından yalnızca istediğimiz botlara özel izinler vermektir. İşte adım adım nasıl yapacağınız:
Adım 1: Tüm Botları Engelleme
`robots.txt` dosyanızın en başına aşağıdaki iki satırı ekleyerek başlayın. Bu, varsayılan olarak tüm botların sitenizin herhangi bir bölümünü taramasını engelleyecektir:
```
User-agent: *
Disallow: /
```
Bu komut, robotların sitenizin ana dizinine ve altındaki tüm dosya ve klasörlere erişmesini yasaklar. Bu, ilk bakışta korkutucu gelse de, sonraki adımlarla bu engeli kaldıracağız.
Adım 2: İzin Verilecek Botları Tanımlama
Şimdi, sitenizi taramasını istediğiniz belirli botlara izin verme zamanı. Genellikle bu, Googlebot, Bingbot, YandexBot gibi ana arama motoru tarayıcıları ve sitenizin işlevselliği için gerekli olan diğer hizmet botları olacaktır.
Örneğin, Google'ın ana arama botuna ve Google Görsel tarayıcısına izin vermek için şu şekilde devam edersiniz:
```
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Image
Allow: /
```
Yukarıdaki kod bloğunu takip eden her `User-agent:` ve `Allow: /` ikilisi, belirli bir bota sitenizin tamamını tarama izni verir.
Sitenizi taramasını isteyebileceğiniz diğer yaygın botlar ve `User-agent` isimleri şunlardır:
*
Bingbot (Microsoft): `User-agent: Bingbot`
*
YandexBot (Yandex): `User-agent: YandexBot`
*
AdsBot-Google (Google Reklam Botu): `User-agent: AdsBot-Google` (AdSense yayıncıları için oldukça önemlidir!)
*
Baiduspider (Baidu): `User-agent: Baiduspider` (Çin pazarı için önemliyse)
*
DuckDuckBot (DuckDuckGo): `User-agent: DuckDuckBot`
Tamamlanmış bir örnek, bu stratejiyle şöyle görünebilir:
```
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: AdsBot-Google
Allow: /
User-agent: Bingbot
Allow: /
User-agent: YandexBot
Allow: /
Sitemap: https://www.siteniz.com/sitemap.xml
```
Adım 3: İzinleri Detaylandırma (İsteğe Bağlı)
Bazı durumlarda, belirli bir botun sitenizin sadece belirli bir bölümünü taramasını isteyebilirsiniz. Örneğin, Googlebot'un tüm siteyi taramasına izin verirken, başka bir botun (örneğin bir fiyat karşılaştırma botu) sadece "ürünler" klasörünü taramasına izin verebilirsiniz:
```
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: PricingBot (Örnek bir bot adı)
Allow: /urunler/
Disallow: /urunler/gizli/
```
Bu örnekte, "PricingBot" sitenin sadece `/urunler/` klasörüne erişebilirken, `/urunler/gizli/` alt klasörüne erişimi engellenmiştir. Bu düzeyde bir kontrol, sitenizin içerik stratejisiyle uyumlu esneklik sağlar.
Sıkça Karşılaşılan Bot İsimleri ve Kullanımları
`User-agent` yönergesi için doğru bot isimlerini kullanmak çok önemlidir. Yanlış yazılan bir bot adı, ilgili arama motorunun sitenizi tarayamamasına neden olabilir. İşte bazı temel botlar:
*
Google'ın Ana Tarayıcıları: `Googlebot`, `Googlebot-News`, `Googlebot-Image`, `Googlebot-Video`, `AdsBot-Google`, `AdsBot-Google-Mobile`
*
Bing Tarayıcıları: `Bingbot`, `BingPreview`
*
Yandex Tarayıcıları: `YandexBot`, `YandexMobileBot`, `YandexImages`, `YandexVideo`
*
Diğerleri: `DuckDuckBot`, `Baiduspider`, `Slurp` (Yahoo'nun eski botu, ancak hala bazen görülür), `Applebot`
Bu botların tam listesini ve güncel isimlerini ilgili arama motorlarının webmaster yönergelerinden veya
Google Search Console gibi araçlardan doğrulayabilirsiniz.
Robots.txt Oluştururken Dikkat Edilmesi Gerekenler
`robots.txt` dosyanızı oluştururken veya güncellerken birkaç önemli noktaya dikkat etmek, potansiyel sorunlardan kaçınmanızı sağlar:
*
Dosya Konumu: `robots.txt` dosyası mutlaka sitenizin kök dizininde olmalıdır (örn: `www.siteniz.com/robots.txt`). Başka bir yerde olması, botlar tarafından bulunamamasına neden olur.
*
Büyük/Küçük Harf Duyarlılığı: `robots.txt` ve içindeki yönergeler büyük/küçük harfe duyarlıdır. `Disallow: /Admin/` ile `Disallow: /admin/` farklıdır. Bot isimleri de buna dahildir.
*
CSS ve JavaScript Dosyalarını Engellememek: Modern web siteleri, doğru görüntülenmek ve işlevsellik kazanmak için CSS ve JavaScript dosyalarına büyük ölçüde bağımlıdır. Bu dosyaları engellemek, arama motorlarının sitenizin nasıl göründüğünü ve davrandığını anlamasını engelleyebilir, bu da sıralamalarınızı olumsuz etkileyebilir. Bu nedenle, genel bir `Disallow: /` kullandıysanız, mutlaka `Allow: /wp-content/themes/`, `Allow: /wp-includes/js/` gibi yönergelerle bu dosyaları taramaya açtığınızdan emin olun.
*
Sitemap Belirtimi: `robots.txt` dosyanıza sitenizdeki tüm sayfaların listelendiği XML sitemap dosyasının konumunu eklemek, botların sitenizi daha verimli keşfetmesine yardımcı olur. Örneğin: `Sitemap: https://www.siteniz.com/sitemap.xml`.
*
Test Etme: `robots.txt` dosyanızda yaptığınız değişiklikleri yayınlamadan önce mutlaka test edin.
Google Search Console içinde bulunan `robots.txt` Test Aracı, bu konuda size yardımcı olacaktır. Bu araç, belirlediğiniz bir URL'nin belirli bir bot tarafından taranıp taranamayacağını simüle etmenizi sağlar. `/makale.php?sayfa=google-search-console-rehberi` gibi bir iç linkten bu aracın detaylarına ulaşabilirsiniz.
*
"Disallow" Güvenlik Değildir: Tekrar vurgulayalım: `robots.txt` yalnızca botlara bir tavsiyedir. Çok hassas bilgileri korumak için, kimlik doğrulama, `noindex` meta etiketi veya sunucu düzeyinde erişim kısıtlamaları gibi daha güçlü yöntemler kullanmalısınız. `/makale.php?sayfa=noindex-ve-nofollow-kullanimi` makalemizden bu konuda daha fazla bilgi alabilirsiniz.
Gelişmiş Robots.txt Kullanım Senaryoları ve AdSense İlişkisi
Bazı durumlarda, sitenizde herkese açık olmasını istemediğiniz ancak kullanıcıların erişmesi gereken sayfalar olabilir (örneğin, kullanıcı profili ayarları, sepet sayfaları vb.). Bu tür sayfaları `robots.txt` ile engellemek yerine, sayfanın `` bölümüne `noindex` meta etiketi eklemek daha uygun bir yöntemdir. Bu, botların sayfayı taramasını ve dizine eklemesini engeller, ancak kullanıcılar doğrudan URL ile sayfaya erişmeye devam edebilir.
AdSense perspektifinden bakıldığında,
crawl bütçesinin doğru yönetilmesi, sitenizin performansını doğrudan etkiler. Hızlı taranan, güncel içeriğe sahip ve doğru
dizinlemesi yapılmış bir site, daha fazla organik trafik çeker. Bu da AdSense reklamlarınız için daha fazla gösterim, tıklama ve dolayısıyla daha yüksek gelir anlamına gelir. Gereksiz bot trafiği nedeniyle sunucu kaynaklarının tükenmesi, sitenizin yavaşlamasına, reklamların geç yüklenmesine veya hiç yüklenmemesine yol açabilir. Bu da hem kullanıcı deneyimini hem de AdSense kazancınızı olumsuz etkiler. Bu nedenle, sadece belirli botlara izin veren bir strateji, genel
SEO performansınızı ve dolayısıyla AdSense gelirlerinizi dolaylı yoldan artırma potansiyeline sahiptir.
Robots.txt Üretici Araçları ve Test
Kendi `robots.txt` dosyanızı manuel olarak oluşturmak yerine, online
Robots Txt Üretici araçlarından da faydalanabilirsiniz. Bu araçlar genellikle basit arayüzler sunarak, hangi botlara izin verip hangilerini engelleyeceğinizi seçmenize olanak tanır ve sizin için doğru formatta dosyayı oluşturur. Ancak, bu tür araçları kullanırken bile, yukarıda bahsedilen tüm dikkat edilmesi gereken noktaları aklınızda tutmalısınız.
En önemli test aracı, Google'ın sunduğu
Google Search Console'daki `robots.txt` Test Aracı'dır. Bu araç, canlı `robots.txt` dosyanızı analiz eder ve sitenizdeki belirli bir URL'nin Googlebot tarafından erişilip erişilemeyeceğini gösterir. Ayrıca, yaptığınız değişiklikleri test etmenize ve yayınlamadan önce olası hataları tespit etmenize olanak tanır. Herhangi bir değişiklikten sonra bu aracı kullanmak, potansiyel felaketleri önlemenin en iyi yoludur.
Sonuç
Sadece belirli botların sitenizi taramasına izin veren bir `robots.txt` dosyası oluşturmak, sitenizin
SEO performansını artırmanın,
crawl bütçesinizi optimize etmenin ve
sunucu yükünü yönetmenin etkili bir yoludur. Bu strateji, özellikle AdSense yayıncıları için, sitelerinin verimli bir şekilde taranmasını sağlayarak reklam gelirlerini dolaylı yoldan destekler.
Unutmayın, bu dosya basit görünse de, yanlış yapılandırıldığında sitenizin arama motorlarındaki görünürlüğünü tamamen kaybetmesine neden olabilir. Bu nedenle, dikkatli olun, test edin ve zaman zaman kontrol edin. Bu makaledeki bilgileri kullanarak, sitenizin kendi "Robots Txt Üretici" si gibi davranabilir, akıllıca bir
robots.txt stratejisi oluşturabilir ve dijital varlığınızı güçlendirebilirsiniz.
Yazar: Ezgi Avcı
Ben Ezgi Avcı, bir Dijital Pazarlama Uzmanı. Platformumuzda teknolojiyi herkes için anlaşılır kılmak, karmaşık konuları basitleştirerek okuyucularımızın günlük yaşamında pratik olarak kullanabileceği bilgiler sunmak, yeni beceriler kazandırmak, farkındalık oluşturmak ve teknoloji dünyasındaki gelişmeleri anlaşılır bir dille aktarmak amacıyla yazıyorum.