Plik robots.txt to ważny element każdej strony internetowej, wpływający na sposób, w jaki crawlery przeszukują i indeksują jej zasoby. Służy on do zarządzania dostępem robotów indeksujących do określonych części witryny, pozwalając na optymalizację obciążenia serwera oraz kontrolę nad widocznością treści w wynikach wyszukiwania. W niniejszym artykule zgłębimy techniczne aspekty działania robots.txt, opierając się na oficjalnych informacjach od Google.

Robots.txt – plik tekstowy kontrolujący dostęp crawlerów do różnych części Twojej witryny

Robots.txt to plik tekstowy, którego powinieneś użyć w celu zarządzania dostępem tzw. robotów internetowych (crawlerów lub spiderów) do różnych sekcji Twojej witryny (np. stron, katalogów lub plików).

Gdy boty wyszukiwarek (inaczej: Googleboty) odwiedzają stronę, najpierw sprawdzają zawartość robots.txt, aby dowiedzieć się, które części serwisu mogą indeksować, a które powinny pominąć. 

Ten plik pozwala chronić zasoby serwera, zapobiegać indeksowaniu prywatnych danych i optymalizować witrynę pod kątem SEO, poprzez ograniczanie indeksowania mniej istotnych podstron. 

Pamiętaj, że robots.txt jest publicznie dostępny, więc nie umieszczaj tam wrażliwych informacji.

Jak działa robots.txt? Oficjalna dokumentacja Google!

Google Search Central w poradniku zatytułowanym „Plik robots.txt – wprowadzenie” stworzyło profesjonalną definicję działania robots.txt:

„Plik robots.txt przekazuje robotom wyszukiwarek informacje, do których adresów URL w Twojej witrynie roboty te mogą uzyskać dostęp. Używa się go głównie po to, aby witryna nie była przeciążona żądaniami”. – Google Search Central.

2 sposoby wykorzystania robots.txt

Plik robots.txt służy do zarządzania ruchem indeksujących robotów Google na Twojej stronie, dzięki czemu możesz kontrolować, które zasoby mają być indeksowane, a które pomijane (nie zawsze jest to jednak respektowane).

Unikanie przeciążenia serwera

Używanie tego pliku na stronach internetowych pomaga uniknąć przeciążenia serwera przez zbyt wiele żądań od robotów. 

Nie powinieneś jednak używać go do ukrywania podstron przed indeksowaniem, gdyż pozostałe będą prawdopodobnie nadal kierowały roboty do tych zasobów, co sprawi, że dana podstrona nie zostanie ukryta.

Zarządzanie plikami multimedialnymi

Plik ten jest także przydatny w zarządzaniu plikami multimedialnymi. Chodzi w tym przypadku o m.in.:

  • obrazy,
  • wideo,
  • dźwięki.

Pozwala to na kontrolę powyższych zasobów oraz ich wyświetlanie w organicznych wynikach wyszukiwania.

Warto również wspomnieć, iż blokowanie zasobów wpływa na interpretację strony przez roboty, utrudniając skuteczne analizowanie powiązanych treści.

„Plik robots.txt jest swojego rodzaju znakiem STOP dla Google’a. Mimo że crawlery nie zawsze będą respektować wytyczne zapisane w tym narzędziu, jego niewłaściwe użycie może narobić niezłego bałaganu. Pamiętaj o tym, kiedy ustalasz konkretne reguły”. – Paweł Gontarek, CEO Semgence.

Wpływ pliku robots.txt na różne typy plików – oficjalne informacje od Google.

Wpływ pliku robots.txt na różne typy plików – oficjalne informacje od Google. Źródło: developers.google.com/search/docs/crawling-indexing/robots/intro?hl=pl

Czy plik robots.txt może ukryć stronę przed Google?

Jeśli zależy Ci na przetestowaniu nowej podstrony, mając pewność, że użytkownicy na nią nie natrafią, powinieneś zabezpieczyć ją hasłem lub zablokować indeksowanie z pomocą tagu noindex. 

„Robots txt. nie jest mechanizmem służącym do ukrywania strony internetowej przed Google. Jeśli nie chcesz, aby witryna była indeksowana przez Google, zablokuj indeksowanie za pomocą tagu noindex lub zabezpiecz ją hasłem”. – Google Search Central, wprowadzenie do pliku robots.txt.

Odpowiadając na zadane pytanie: Robots.txt nie może ukryć strony przed Google. Służy do tego tag noindex lub zabezpieczenie witryny hasłem.

Co więcej, jeżeli chcesz, żeby reguła noindex działała, nie możesz zablokować strony (lub zasobu pliku w robots.txt ani w żaden inny sposób). Jeśli to zrobisz lub nie będzie ona dostępna dla robota i nie odnajdzie on reguły noindex.

Konsekwencje? Twoja witryna prawdopodobnie będzie nadal wyświetlana w Google.

Pełny cytat od Google z artykułu zatytułowanego „Blokowanie indeksowania przez wyszukiwarki za pomocą tagu noindex”:

„Aby reguła noindex działała poprawnie, nie możesz blokować strony lub zasobu w pliku robots.txt ani w żaden inny sposób uniemożliwiać robotowi dostępu do strony, lub zasobu. Jeśli zablokujesz stronę w pliku robots.txt lub będzie ona niedostępna dla robota, nie odnajdzie on reguły noindex i możliwe, że strona będzie się w dalszym ciągu wyświetlać w wynikach wyszukiwania, np. gdy linki do niej będą występowały na innych stronach”. – Google Search Central, blokowanie indeksowania przez wyszukiwarki za pomocą tagu noindex.

Zasady wykorzystania noindex – 2 sposoby od Google.

Zasady wykorzystania noindex – 2 sposoby od Google. Źródło: developers.google.com/search/docs/crawling-indexing/block-indexing?hl=pl

Przykładowa zawartość pliku robots.txt – 7 rozwiązań

Blokowanie całej witryny:

User-agent: *

Disallow: /

Blokowanie określonych folderów:

User-agent: *

Disallow: /admin/

Disallow: /private/

Blokowanie określonych plików:

User-agent: *

Disallow: /confidential.pdf

Disallow: /secret.html

Pozwolenie na indeksowanie wszystkiego:

User-agent: *

Disallow:

Blokowanie dostępu tylko dla określonych robotów:

User-agent: Googlebot

Disallow: /no-google/

User-agent: Bingbot

Disallow: /no-bing/

Pozwolenie na dostęp tylko do jednego folderu:

User-agent: *

Disallow: /

Allow: /public/

Wskazanie lokalizacji mapy strony:

User-agent: *

Disallow:

Sitemap: http://www.twojastrona.pl/sitemap.xml

Blokowanie dostępu do plików z rozszerzeniami:

User-agent: *

Disallow: /*.jpg$

Disallow: /*.png$

Disallow: /*.gif$

Korzystasz z pliku robots.txt? O tym musisz pamiętać!

Po przeczytaniu tego wpisu prawdopodobnie wiesz, że nadmierne ukrywanie podstron przed Google nie zda egzaminu. Zdajesz sobie chyba również sprawę, że jeden błąd w pliku robots.txt może utrudnić odczytywanie Twojej witryny przez Google lub uniemożliwić blokowanie wybranych zasobów, co odbije się negatywnie na widoczności organicznej.

Są to oczywistości, jednak istnieje kilka dodatkowych aspektów, o których możesz nie wiedzieć, a warto, żebyś wziął je pod uwagę podczas technicznych prac:

  • dodaj lokalizację mapy strony (sitemap) w pliku robots.txt, aby roboty mogły łatwiej znaleźć wszystkie zasoby do indeksowania;
  • regularnie analizuj logi serwera i wyniki wyszukiwania w celu upewnienia się, że plik robots.txt działa zgodnie z założeniami;
  • unikaj blokowania plików niezbędnych do renderowania strony, ponieważ CSS, JS i inne zasoby potrzebne do prawidłowego wyświetlania strony powinny być dostępne dla robotów (zapewniają one właściwą interpretację zawartości przez wyszukiwarki);
  • dostosowuj zawartość pliku robots.txt w odpowiedzi na zmiany w strukturze strony, nowe zasoby lub zmieniające się potrzeby związane z SEO.

Podsumowanie wpisu

Ten artykuł bardzo klarownie przedstawia wszelkie aspekty związane z robots.txt. Mimo wszystko, jeśli jesteś początkującym adeptem SEO lub właścicielem firmy, który zajmuje się optymalizacją sporadycznie, możesz mieć problemy z nadaniem poprawnych wytycznych plikowi robots.txt.

Z tego względu proponujemy szkolenie SEO od Semgence, którego prowadzącym będzie Paweł Gontarek (pseudonim: Zgred). Jego celem jest pokazanie praktycznych aspektów pozycjonowania oraz optymalizacji stron pod kątem SEO, a także przekazanie wiedzy, która w przyszłości pozwoli samodzielnie prowadzić nawet zaawansowane projekty pozycjonerskie.

Może jednak zdarzyć się tak, że interesują Cię gotowe rozwiązania, bez podejmowania wysiłku, ponieważ najzwyczajniej w świecie jako przedsiębiorca nie masz na to czasu. W tym przypadku rekomendujemy kompleksowy audyt SEO – czyli swojego rodzaju przegląd zdrowotny Twojej witryny.

Podczas audytu przeprowadzamy ocenę pozycjonerską strony, badając również takie elementy, jak:

  • Frazy kluczowe – to, czego szukają Twoi klienci, gdy chcą znaleźć produkty lub usługi podobne do Twoich. Ekspert w tym zakresie sprawdzi, czy wykorzystujesz na swojej stronie słowa kluczowe w odpowiedni sposób, zgodny z najnowszymi standardami Search Quality Rater Guidelines Update.
  • Zawartość pliku robots.txt – na tym etapie sprawdzamy wszelkie elementy powiązane z regułami pliku robots.txt oraz widocznością Twojej witryny. Jeżeli zależy Ci na wdrożeniu indywidualnych rozwiązań w tym zakresie, również możemy to zrobić (podczas optymalizacji technicznej strony).
  • Technologia – analizujemy, w jakim czasie ładuje się strona, czy dobrze działa na urządzeniach mobilnych oraz, czy jest łatwa w nawigacji i bezpieczna. Ekspert SEO zbada wszelkie mankamenty w tym zakresie, proponując następnie niezbędne rekomendacje.

Analiza SEO od Semgence obejmuje również audyt linków zwrotnych. Do każdego klienta podchodzimy indywidualnie i nieszablonowo.

Podobne wpisy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *