Crawlability AI – jak sprawdzić, czy boty AI mają dostęp do Twojej strony?

Boty AI – GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot – potrzebują dostępu do Twojej strony, by zacytować ją w odpowiedziach ChatGPT, Claude czy Perplexity. Jeśli robots.txt je blokuje, WAF je odrzuca, albo serwer zwraca 403 – Twoja treść jest niewidoczna dla AI, niezależnie od jej jakości. Badanie Digital Applied na logach 12 serwisów produkcyjnych z 2026 roku wykazało, że GPTBot generuje średnio 4 200 wizyt dziennie na serwis, ClaudeBot 1 800 wizyt, a PerplexityBot 980 wizyt – ale tylko jeśli robots.txt im na to pozwala. Crawlability AI to pierwsza z 8 warstw audytu widoczności w AI – bez niej dalsze warstwy nie mają sensu.

Crawlability AI to pierwsza z 8 warstw audytu widoczności w AI – bez niej dalsze warstwy nie mają sensu.

W skrócie — crawlability AI w 5 punktach:

  • Boty AI (GPTBot, ClaudeBot, PerplexityBot) muszą mieć dostęp do strony, by mogły ją zacytować w odpowiedziach
  • W 2026 roku każdy dostawca AI operuje 2–3 botami o różnych funkcjach: trening, wyszukiwanie na żywo, pobieranie na żądanie użytkownika
  • Ponad 25% czołowych stron internetowych przypadkowo blokuje boty AI — najczęściej przez reguły WAF i Cloudflare
  • Blokowanie bota treningowego (GPTBot) nie blokuje bota wyszukiwania (OAI-SearchBot) — wymagają osobnych dyrektyw
  • Sam robots.txt to za mało — trzeba zweryfikować WAF, logi serwera i odpowiedzi HTTP

Czym jest crawlability AI i dlaczego jest kluczowa?

Crawlability AI to zdolność botów systemów AI (ChatGPT, Claude, Perplexity, Gemini) do dotarcia do treści Twojego serwisu i pobrania jej. Bez crawlability dalsze warstwy audytu widoczności w AI – rendering readiness, extractability, authority signals — nie mają sensu.

Crawlability AI różni się od tradycyjnej crawlability SEO. W klasycznym SEO martwisz się głównie o Googlebota. W świecie AI Search musisz zarządzać ponad 10 botami od 6+ organizacji, z których każda operuje kilkoma crawlerami o różnych funkcjach. Jak podkreśla AI-Ready Check: wszystkie główne boty AI respektują robots.txt, czytają tylko HTML źródłowy bez renderowania JavaScript i preferują techniczne czyste, szybkie strony. Różnice leżą w częstotliwości crawlowania, przeznaczeniu i transparentności.

W Semgence crawlability AI to pierwsza warstwa, od której zaczynamy każdy audyt widoczności w AI — jeśli boty nie mają dostępu, dalsze warstwy są bezcelowe.

Schemat botów AI crawlujących strony internetowe - 6 organizacji, podział na boty treningowe, wyszukiwania i na żądanie

Jakie boty AI crawlują strony internetowe w 2026 roku?

W 2026 roku osiem głównych organizacji AI operuje łącznie ponad 15 crawlerami. Kluczowe jest rozróżnienie na trzy kategorie: boty treningowe, boty wyszukiwania i boty pobierania na żądanie.

BotOrganizacjaFunkcjaWolumen/dzień
GPTBotOpenAITrening modeli~4 200 wizyt
OAI-SearchBotOpenAIWyszukiwanie na żywona żądanie
ChatGPT-UserOpenAIPobieranie na żądanie~690 wizyt
ClaudeBotAnthropicTrening modeli~1 800 wizyt
Claude-SearchBotAnthropicIndeks wyszukiwaniana żądanie
PerplexityBotPerplexityIndeksowanie~980 wizyt
Google-ExtendedGoogleGemini / AIstabilne
Meta-ExternalAgentMetaMeta AI16,7% ruchu AI!
Applebot-ExtendedAppleApple Intelligence5,8% ruchu AI
BytespiderByteDanceTikTok / treningbardzo agresywny

Dane z 30-dniowego badania logów serwera Digital Applied, 12 serwisów produkcyjnych, 2026. Boty pobierania na żądanie (ChatGPT-User, Perplexity-User) nie podlegają robots.txt.

Kluczowy fakt: boty pobierania na żądanie (ChatGPT-User, Perplexity-User) nie podlegają robots.txt, ponieważ to użytkownik jest podmiotem żądania — generują ~690 wizyt dziennie na serwis i są niewidoczne dla większości analiz crawl budgetu.

Wykres wolumenu crawli botów AI na serwis dziennie - GPTBot 4200, ClaudeBot 1800, PerplexityBot 980, dane Digital Applied 2026

Jak sprawdzić robots.txt pod kątem botów AI?

Robots.txt to pierwszy punkt kontrolny — ale nie jedyny. Otwórz `twojastrona.pl/robots.txt` i sprawdź, czy zawiera wpisy dla botów AI. Według analizy Cloudflare z kwietnia 2026 GPTBot jest najczęściej wymienianym botem AI w robots.txt (614 na 4 128 przeanalizowanych plików), a ClaudeBot wyprzedził CCBot i jest drugim najczęściej blokowanym botem AI.

Raport TechnologyChecker za Q1 2026 pokazuje kluczowy trend: GPTBot prowadzi zarówno w regułach DISALLOW, jak i ALLOW — internet jest podzielony. PerplexityBot i ChatGPT-User pojawiają się częściej w ALLOW niż DISALLOW, bo zwracają ruch na stronę.

Gotowy fragment robots.txt (zezwól na wyszukiwanie i pobieranie na żądanie, zablokuj trening):

# === ZEZWALAJ: boty wyszukiwania i pobierania na żądanie (widoczność w AI) ===
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

# === BLOKUJ: boty treningowe (opcjonalnie) ===
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

No Hacks w swoim poradniku AI User-Agent 2026 publikuje identyczną rekomendację: odblokuj boty wyszukiwania, zablokuj treningowe. To konsensus rynkowy.

Wykres blokowania botów AI w robots.txt - GPTBot najczęściej wymieniany, ClaudeBot drugi, dane TechnologyChecker i Cloudflare Q1 2026

Dlaczego WAF blokuje boty AI mimo poprawnego robots.txt?

Robots.txt to deklaracja — WAF to egzekucja. Nawet jeśli robots.txt zezwala na boty AI, systemy WAF (Cloudflare, Sucuri, Akamai) mogą je blokować na warstwie sieciowej. Appear podaje, że ponad 25% czołowych stron blokuje boty AI nieumyślnie, najczęściej przez reguły Cloudflare.

Co sprawdzić w Cloudflare:

  • Security → Bots (lub „Control AI Crawlers”) – czy „Block AI training bots” jest włączone? Cloudflare od 2025 roku oferuje jednym kliknięciem blokadę botów treningowych
  • „Manage your robots.txt” wewnątrz Cloudflare – czy jest wyłączone (żeby Twój origin robots.txt miał priorytet)?
  • WAF rules — czy nie ma reguły blokującej user-agentów AI?
  • Firewall Events — szukaj kodów 403 dla OAI-SearchBot, PerplexityBot, Claude-User

Według WebSearchAPI Meta-ExternalAgent to bot z największą luką między wolumenem ruchu (16,7% całego ruchu AI) a poziomem blokowania (3,34% domen). Jeśli zablokowałeś GPTBot i ClaudeBot, ale nie Meta-ExternalAgent — Meta crawluje więcej Twoich treści niż oba te boty razem wzięte.

Jak sprawdzić logi serwera pod kątem wizyt botów AI?

Logi serwera to jedyny sposób, by potwierdzić, że boty AI faktycznie odwiedzają stronę – robots.txt mówi co powinno się dziać, logi mówią co faktycznie się dzieje.

grep -E "GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|PerplexityBot|Meta-ExternalAgent" /var/log/nginx/access.log

Zwróć uwagę na kody odpowiedzi:

  • 200 = OK, bot pobrał stronę
  • 403 = zablokowany (WAF lub reguła serwera)
  • 429 = zbyt wiele żądań (rate limiting)
  • 503 = serwer nie odpowiada

Badanie Digital Applied ujawniło ważną statystykę: GPTBot odwiedza strony o wysokim ruchu co 2,4 dnia, Bytespider crawluje strony e-commerce co 1,8 dnia, a PerplexityBot ma najszybszy czas reakcji (minuty od zapytania użytkownika do crawlu). To oznacza, że efekty zmian w robots.txt zobaczysz w logach w ciągu kilku dni.

Dlaczego Bytespider ignoruje robots.txt i jak go zablokować?

Soar.sh ostrzega: jeśli masz blokować jednego bota z tej listy, niech to będzie Bytespider. HAProxy podaje, że w 2024 roku niemal 90% ruchu AI crawlerów na ich platformie pochodziło od Bytespider, z czego znaczna część ignorowała reguły robots.txt.

W przeciwieństwie do GPTBot czy ClaudeBot, Bytespider nie respektuje robots.txt konsekwentnie. Sama dyrektywa Disallow to pierwsza linia obrony, ale nie wystarczająca — konieczne są reguły na poziomie serwera (np. blokada po user-agent w nginx/Apache) lub na poziomie WAF.

Co to jest llms.txt i czy warto go wdrożyć?

llms.txt to proponowany standard, którego celem jest wskazanie modelom językowym kluczowych treści serwisu — w odróżnieniu od robots.txt, który blokuje, llms.txt naprowadza. No Hacks radzi wprost: „Nie polegaj na llms.txt jako mechanizmie kontroli dostępu AI. Nim nie jest, a dostawcy crawlerów albo milczą, albo mówią nie.”

Na dziś żaden z głównych modeli AI oficjalnie nie potwierdził, że wykorzystuje llms.txt. Koszt wdrożenia jest minimalny (to plik tekstowy w korzeniu domeny), a ryzyko zerowe — warto mieć na wypadek szerszej adopcji, ale nie należy na nim polegać. Na dziś plik ten jest ignorowany – pisze o tym Przemek w soim artykule: Roboty AI ignorują LLMS.txt ale skanują internet na potęgę.

Jakie błędy najczęściej blokują boty AI?

Błąd 1: Blokowanie wszystkiego jedną regułą. `User-agent: * / Disallow: /` blokuje jednocześnie Googlebota i boty AI. Każdy bot wymaga osobnej dyrektywy.

Błąd 2: Przestarzałe user-agenty. Claude-Web i anthropic-ai to deprecated stringi Anthropic. Blokowanie ich nie blokuje aktualnego ClaudeBot / Claude-SearchBot. Cookie Script potwierdza, że wolumen ClaudeBot wzrósł o 800% na początku 2026, gdy Anthropic skalował swój web search API.

Błąd 3: Ignorowanie WAF/CDN. Robots.txt jest poprawny, ale Cloudflare blokuje boty AI na poziomie firewalla. Trzeba sprawdzić oba — robots.txt i WAF.

Błąd 4: Mylenie rate limitingu z blokowaniem. Kod 429 (rate limiting) nie oznacza, że serwis celowo blokuje boty — może wynikać z agresywnego crawlowania narzędzia audytowego, nie z konfiguracji serwera.

Błąd 5: Ignorowanie Meta-ExternalAgent. 16,7% całego ruchu AI crawlerów to Meta (WebSearchAPI), ale tylko 3,34% domen go blokuje. Jeśli zablokowałeś GPTBot a nie Meta — Meta crawluje więcej. Błąd 6: Brak weryfikacji po zmianach. Po edycji robots.txt sprawdź logi serwera — czy boty faktycznie odwiedzają stronę. Sama zmiana pliku nie gwarantuje natychmiastowej widoczności.

Błąd 6: Brak weryfikacji po zmianach. Po edycji robots.txt sprawdź logi serwera — czy boty faktycznie odwiedzają stronę. Sama zmiana pliku nie gwarantuje natychmiastowej widoczności.

Kluczowe statystyki crawlability AI - GPTBot 4200 wizyt dziennie, 25% stron blokuje boty AI, ClaudeBot wzrost 800%, dane z 6 źródeł branżowych

Checklista: czy boty AI mają dostęp do Twojej strony?

  • Sprawdzono robots.txt pod kątem GPTBot, OAI-SearchBot, ChatGPT-User
  • Sprawdzono robots.txt pod kątem ClaudeBot, Claude-SearchBot, Claude-User
  • Sprawdzono robots.txt pod kątem PerplexityBot, Google-Extended
  • Sprawdzono robots.txt pod kątem Meta-ExternalAgent i Applebot-Extended
  • Usunięto deprecated user-agenty (Claude-Web, anthropic-ai)
  • Sprawdzono WAF/CDN (Cloudflare) – Security → Bots → Block AI training bots
  • Sprawdzono logi serwera – kody 200/403/429 dla botów AI
  • Odróżniono blokadę celową od rate limitingu narzędzia audytowego
  • Sprawdzono Bytespider – czy wymaga blokady na poziomie serwera
  • Kluczowe podstrony zwracają 200 OK dla botów wyszukiwania
  • Rozważono wdrożenie llms.txt (opcjonalnie)

Crawlability AI to pierwsza z 8 warstw audytu widoczności w AI.

Następna warstwa: Rendering readiness — czy AI widzi treść Twojej strony?, Sprawdź też: Schema markup — które dane strukturalne pomagają w cytowaniach AI?

Sprawdź też: Extractability — jak pisać treści, które AI łatwo cytuje?, Observed visibility — jak zmierzyć obecność marki w AI, Narrative control — kto kontroluje to, co AI mówi o Twojej marce?, Confidence – jak ocenić, czy wyniki audytu AI są wiarygodne?

FAQ

Jakie boty AI crawlują strony internetowe w 2026 roku?

Główne boty to: GPTBot i OAI-SearchBot (OpenAI), ClaudeBot i Claude-SearchBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google/Gemini), Meta-ExternalAgent (Meta AI) i Applebot-Extended (Apple Intelligence). Każdy wymaga osobnej dyrektywy w robots.txt.

Jak odblokować boty AI w robots.txt?

Dodaj osobne dyrektywy Allow dla botów wyszukiwania: User-agent: OAI-SearchBot / Allow: /, User-agent: PerplexityBot / Allow: /, User-agent: Claude-SearchBot / Allow: /. Rekomendacja: zezwalaj na boty wyszukiwania, blokuj treningowe.

Czy blokowanie GPTBot wpływa na widoczność w ChatGPT?

Blokowanie GPTBot uniemożliwia wykorzystanie treści w treningu modeli OpenAI, ale nie wpływa na ChatGPT Search (OAI-SearchBot) ani na pobieranie na żądanie użytkownika (ChatGPT-User).

Czym różni się llms.txt od robots.txt?

Robots.txt mówi „co blokować” — llms.txt mówi „co jest ważne”. Robots.txt to standard respektowany przez boty AI. llms.txt to propozycja bez oficjalnego wsparcia – żaden dostawca AI nie potwierdził, że go wykorzystuje. Koszt wdrożenia llms.txt jest minimalny, ale nie polegaj na nim jako mechanizmie kontroli dostępu.

Podobne wpisy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *