Plik robots.txt jest dokumentem tekstowym, w którym wprowadzamy informacje dla pajączków. Plik umieszczamy w katalogu głównym strony (np.
http://www.cos.pl/robots.txt). Wyszukiwarki przeszukują ten plik jeszcze zanim zaczną przeglądać stronę, więc wszystkie zawarte w nim polecenia zostaną od razu wykonane. Jeżeli nie chcesz aby pajączki indeksowały twoją stronę, wystarczy że wprowadzisz
Kod:
User-agent: *
Disallow: /
Na początku użyliśmy polecenia User-agent, określa ono do jakich wyszukiwarek lub przeglądarek odnoszą się dyrektywy. Użyliśmy znaku *, czyli będzie dla wszystkich.
Polecenie Disallow określa katalogi i pliki których pajączki nie będa indeksować. Użyliśmy znaku / więc żaden katalog ani plik nie będzie indeksowany. Możemy też zabronić indeksowania dla poszczególnych katalogów, np. gdy chcemy dla katalogów 123 i 456 to kod będzie wyglądał tak
Kod:
User-agent: *
Disallow: /123/
Disallow: /t456/
A gdy chcemy zabronić indeksowania pliku asd.html to damy
Kod:
User-agent: *
Disallow: /asd.html
Są to podstawowe polecenia tego pliku, dzięki nim określimy co pajączki mają indeksować.