Menu

AZ EN RU
Əsas Xəbərlər Bloq Yazıları Robots.txt Faylı

Robots.txt faylı

2019-07-04

Robots.txt qısa mənası ilə bir fayl növüdür. Bu, müxtəlif axtarış sistemləri botlarına saytınızda indekslənməməli olan yerləri bildirmək üçün saytlarda yer alan mətn formalı fayldır. Saytınıza baş çəkəcək olan botlar saytın xəritəsinə (sitemap) daxil olduqda hansı hissəni oxuyacağını və hansı hissəni oxumayacağını robots.txt faylı əsasında başa düşür. Bilinən bütün axtarış sistemləri müəyyən botlarla saytların məzmununu yoxlayır və bunu etməklə saytınızı axtarış sistemlərinə indeksləyir. 

Bu indeksləmənin başlıca məqsədi (asan dildə desək) haqqınızda məlumat toplamaqdır. Yəni saytınızın hansı kontentə sahib olduğunu bilmək və bunun nəticəsində istifadəçi sorğusu zamanı saytı onun qarşısına çıxarmaqdır. Məsələn, mobil cihazlar ilə bağlı saytınız varsa, axtarış sistemi botları saytı indekslədiyi zaman kontentin mobil cihazlarla bağlı olduğunu görür və düzgün açar sözlər qeyd olunubsa, sorğu nəticəsində saytınız istifadəçi qarşısına çıxır. 
                                          
Robots.txt faylının düzgün istifadəsi:

Robots.txt faylının hazırlanması zamanı bir çox mövzunu diqqətə almaq lazımdır:

1) Robots.txt faylı saytın daxilinə (public folder) əlavə edilməlidir; 

2) Robots.txt faylı hər zaman saytın linkləri ilə format olaraq bağlantılı olmalıdır.

3) Robots.txt faylının hər saytın daxilində olması zəruridir. Bununla URL standartının saxlanılmasına diqqət yetirilməlidir. 

Robots.txt faylı yaratmaq olduqca asandır. Bot tərəfindən indekslənməsini istəmədiyiniz səhifə varsa, əmri düzgün olaraq daxil etmək kifayət edir. Əmri daxil etmək üçün isə heç bir kod məlumatına ehtiyac yoxdur. Hər hansısa əlavələr edilməyən txt fayl sabit bir forma olaraq qalır.

Yəni ilk standart aşağıdakı forma olur:

User-agent: *
Disallow:

Robotların saytınızda yer alan heç bir faylı indeksləməsini istəmirsinizsə:

User-agent: *
Disallow: /

Sadəcə sizin müəyyən etdiyiniz axtarış sistemi botlarının indeksləməsi üçün:

User-agent: Google 
Disallow:

Qeyd: User- agent hissəsində Google yerinə Yandex yazsaq, saytı sadəcə Yandex botları indeksləyə biləcək

Sadəcə müəyyən etdiyiniz hansısa bir səhifənin bot tərəfindən indekslənməməsi üçün:

User-agent: *
Disallow: /index4/junk.html
Disallow: /index/seo.html
Disallow: /menu/smm.html

Saytda mövcud olan və “yazılar 1 içərisində yerləşən yazı1-dən başqa heç bir faylı oxuma” əmrini vermək üçün:

User-agent: *
Allow: /yazılar1/yazı1.html
Disallow: /yazılar1/

Saytınıza baş çəkən bot üçün indekslənmə müddəti əmrini vermək:

user-agent: googlebot
crawl-delay: 2

Məsələn əgər hansısa botun saytınızı sadəcə 2 dəqiqə ərzində indeksləməsini istəyirsinizsə, yuxarıdaki formada əmr verməyiniz kifayət edir. Bunun nəticəsində saytınıza baş çəkən googlebot 2 dəqiqə bittikdən sonra əgər oxumadığı səhifələr qalıbsa belə, onları oxumadan saytınızı tərk edəcək.

User qarşısında olan (*) All - yəni bütün mənasını verir. Saytınızda olan hər şeyin indekslənməsi üçün (*)-dan istifadə edirsiniz.

Disallow qarşısında olan iki nöqtədən sonra heçnə yazmasanız, bu, saytınızda bot tərəfindən oxunmamasını istədiyiniz bir səhifə yoxdur mənasını verir. Disallow qarşısında əgər / (slash)  işarəsi qoysanız, saytınız bütünlüklə oxunmayacaq.

SEO baxımından robots.txt faylı önəm təşkil edir. Saytda silinən linklər mövcuddursa və ya saytınızın üzərində dəyişikliklər gedirsə, bir müddət üçün indekslənmənin qarşısını almaq mümkündür. Bu, istifadəçilərin hələ tam hazır olmayan səhifəyə daxil olduqda istədiyi səhifəni tapmadığı üçün geri qayıtması, buna bağlı olaraq “bounce rate” faizini artırmasına gətirib çıxara bilər.

Son olaraq qeyd edilməlidir ki, əgər hansısa bir link üçün robots.txt faylında indekslənməmə əmri verməyinizə baxmayaraq hələ də daxil olmaq mümkündürsə, deməli, o linkə başqa bir mənbədən istinad edilib və bu sayədə o link əlçatandır.