Analiza logów serwera – co Googlebot naprawdę robi na Państwa stronie

Dodaj nas jako preferowane źródło w Google

Czym są logi serwera i co zawierają?

Każdy serwer WWW – Apache, Nginx, IIS i inne – automatycznie zapisuje logi dostępu (access logs) zawierające szczegółowe informacje o każdym żądaniu HTTP skierowanym do serwera. Jeden wpis w logu wygląda mniej więcej tak:

36.247.36.1 - - [15/Mar/2026:14:25:45 +0100] "GET /blog/co-to-jest-seo/ HTTP/1.1" 200 45231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Ten jeden wiersz zawiera: adres IP żądającego, datę i godzinę żądania, metodę HTTP i URL, kod odpowiedzi (200 = OK), rozmiar odpowiedzi w bajtach, referer (w tym przypadku pusty) i user agent identyfikujący kto wysłał żądanie (tu Googlebot).

Dla analizy SEO kluczowe informacje z logów to: który URL był crawlowany (jakie strony odwiedził robot), kiedy (data i godzina wizyty), jaki był kod odpowiedzi HTTP (200, 301, 302, 404, 500), jaki user agent złożył żądanie (Googlebot, Bingbot, AhrefsBot i tysiące innych), jak duża była odpowiedź serwera i jak długo trwało jej wygenerowanie (w zaawansowanych logach). Logi access nie zawierają wszystkich danych o stronie – nie wiedzą co robot zrobił z pobranymi danymi, czy zaindeksował stronę czy nie. Ale mówią precyzyjnie co odwiedzał, kiedy i z jakim kodem odpowiedzi.

Dlaczego analiza logów jest ważna dla SEO?

Google Search Console dostarcza wiele cennych informacji o crawlowaniu i indeksowaniu, ale ma ograniczenia. Pokrywa wyłącznie dane z Googlebota i jest filtrowana/próbkowana. Logi serwera są kompletne, surowe i niefiltrowane – każde żądanie Googlebota jest zapisane, bez żadnego próbkowania.

Analiza logów serwera pozwala odpowiedzieć na pytania, na które żadne inne narzędzie nie daje odpowiedzi:

Czy Googlebot faktycznie crawluje strony, które chcę zaindeksować? Może mają Państwo setki stron produktów, ale robot odwiedza tylko kilkadziesiąt. Skąd różnica? Czy budżet crawlowania (crawl budget) jest dobrze zagospodarowany, czy robot traci czas na strony bez wartości (stare strony filtrów, tymczasowe URL-e)?
Czy strony wracają prawidłowe kody odpowiedzi? Może strona, którą uważają Państwo za działającą (200 OK), faktycznie zwraca 404 lub 500 dla Googlebota? Logi to potwierdzą lub zaprzeczą.
Jak często crawlowany jest każdy URL? Strony crawlowane rzadko mogą być aktualizowane w indeksie z opóźnieniem. Strony crawlowane zbyt często mogą obciążać serwer.
Czy przekierowania działają prawidłowo? Czy 301 i 302 są stosowane konsekwentnie? Czy nie ma pętli przekierowań?
Jakie inne boty odwiedzają stronę i w jakim wolumenie? Boty AI (GPTBot, ClaudeBot, PerplexityBot), boty SEO (Ahrefsbot, Semrushbot), boty złośliwe – wszystkie są widoczne w logach.

Budżet crawlowania – kluczowe pojęcie

Crawl budget to liczba stron, które Googlebot crawluje na danej domenie w określonym czasie. Każda witryna ma swój przydział zasobów crawlowania – wynikający zarówno z limitów serwera (Googlebot stara się nie przeciążać serwerów), jak i z oceny jakości i popularności witryny przez Google (popularne, autorytatywne witryny mają wyższy crawl budget).

Problem z crawl budget pojawia się gdy: witryna jest bardzo duża (tysiące lub miliony stron), serwer jest wolny i robot ogranicza częstotliwość crawlowania, na stronie istnieje wiele „pułapek” w postaci URL bez wartości – strony z parametrami filtrowania, zduplikowane wersje stron, błędne URL-e wygenerowane przez systemy CMS. Analiza logów pozwala zobaczyć jak crawl budget jest wykorzystywany. Jeśli 60% crawlowanch URL-i to strony filtrów sklepu z parametrami (/kategoria?kolor=czerwony&rozmiar=M&sort=cena) – robot traci czas na bezwartościowe URL-e zamiast crawlować ważne strony produktów. Rozwiązanie: zablokowanie tych parametrów w robots.txt lub konfiguracja canonical URL.

Jak uzyskać logi serwera?

Metoda dostępu do logów zależy od rodzaju hostingu.

Hosting współdzielony
Większość polskich dostawców hostingu (cyber_Folks, MyDevil, home.pl, LH.pl) udostępnia logi przez panel administracyjny cPanel lub przez FTP/SFTP. W cPanel sekcja „Logi” lub „Logi błędów” zawiera pliki dostępowe.
Serwer VPS lub dedykowany
Przy dostępie SSH mogą Państwo bezpośrednio odczytywać pliki logów – zazwyczaj znajdą je Państwo w /var/log/apache2/access.log (Apache) lub /var/log/nginx/access.log (Nginx).
Zarządzane platformy hostingowe
WordPress.com, Shopify – nie ma bezpośredniego dostępu do logów serwera. To jedno z ograniczeń tych platform.
Cloudflare i inne CDN
Jeśli ruch przechodzi przez CDN, logi serwera będą pokazywać adresy IP CDN zamiast prawdziwych użytkowników. Cloudflare udostępnia własne logi (Cloudflare Logs) przez API dla płatnych planów.

Pliki logów potrafią być bardzo duże – dla dużych serwisów dziesiątki lub setki gigabajtów dziennie. Warto skonfigurować rotację logów (przechowywanie tylko ostatnich X dni) i ewentualnie filtrowanie na poziomie serwera.

Narzędzia do analizy logów SEO

Analiza surowych plików logów tekstowych jest możliwa przez komendy Unix (grep, awk, cut) lub przez Excela po odpowiednim parsowaniu, ale jest to żmudna praca. Specjalistyczne narzędzia radykalnie przyspieszają ten proces.

Screaming Frog Log File Analyser to dedykowane narzędzie do SEO analizy logów. Importują Państwo plik logów, a narzędzie automatycznie filtruje żądania Googlebota, analizuje crawl distribution (które URL-e są najczęściej crawlowane), identyfikuje strony zwracające błędy, generuje raporty o rozkładzie kodów odpowiedzi i crawl frequency. Bardzo użyteczne dla kompleksowych audytów technicznych.

Botify i Oncrawl to enterprise platformy do analizy logów połączonej z crawlem strony – korygują dane z logów z danymi o strukturze strony, dając pełny obraz jak robot przechodzi przez witrynę. Droższe, ale potężne dla dużych witryn z milionami URL-i.

Python z bibliotekami pandas i matplotlib pozwala na dowolne analizy plików logów dla tych, którzy znają programowanie. Skrypt analizujący kilka milionów wierszy logów można napisać w kilkudziesięciu liniach kodu.

ELK Stack (Elasticsearch, Logstash, Kibana) lub Grafana to rozwiązania klasy enterprise umożliwiające zbieranie, przetwarzanie i wizualizację logów w czasie rzeczywistym. Stosowane przez duże serwisy z potrzebą bieżącego monitorowania crawlowania.

Co szukać w logach serwera?

Praktyczna analiza logów SEO skupia się na kilku kluczowych obszarach.

Strony crawlowane vs. nieindeksowane. Porównaj listę URL-i odwiedzanych przez Googlebota (z logów) z listą stron w indeksie Google (z Google Search Console, Coverage report). Strony regularnie crawlowane, ale niewidoczne w indeksie, mogą mieć problemy z jakością treści, blokadą w meta robots lub problemami z canonicalizacją.

Rozkład crawlowania po sekcjach strony. Jakie sekcje witryny są najczęściej crawlowane? Blog, strony produktów, strony kategorii, strony tagów, strony filtrów? Jeśli robot spędza 70% czasu crawlując strony tagów bez wartości, to wyraźny problem z crawl budget.

Częstotliwość crawlowania kluczowych stron. Czy homepage jest crawlowany codziennie? Nowe artykuły blogowe po kilku dniach? Strony produktów regularnie? Strony crawlowane rzadko (raz na miesiąc) mogą mieć problemy z aktualizacją w indeksie.

Kody odpowiedzi HTTP dla Googlebota. Idealnie: głównie 200 (OK) i 301 (trwałe przekierowania) prowadzące do 200. Niepokojące: 404 (błędne URL crawlowane przez Google – warto naprawić), 500 (błędy serwera – problemy techniczne), 302 (tymczasowe przekierowania używane zamiast 301), łańcuchy przekierowań (301→301→200 zamiast jednego 301→200).

Szybkość odpowiedzi serwera dla Googlebota. Jeśli odpowiedź serwera zajmuje 3-5 sekund, robot może ograniczyć częstotliwość crawlowania, by nie przeciążać serwera. Optymalizacja TTFB bezpośrednio przekłada się na lepsze crawlowanie.

Crawlowanie po wdrożeniu zmian. Po dużych zmianach na stronie (migracja, przeprojektowanie, dodanie nowych sekcji) warto przeanalizować logi przez kilka kolejnych tygodni – czy robot odkrył nowe strony? Czy prawidłowo podążył za przekierowaniami?

Przypadki użycia analizy logów w praktyce

Poniżej przyjrzymy się i wymienimy kilka realnych scenariuszy gdzie analiza logów przynosi bezpośrednie korzyści.

Przypadek 1: Sklep e-commerce z faceted navigation. Sklep ma 10 000 stron produktów i milion potencjalnych URL-i filtrów (/kategoria?kolor=czerwony&rozmiar=M). Analiza logów pokazuje, że 80% crawl budgetu jest marnowane na URL-e filtrów zamiast na strony produktów. Rozwiązanie: blokowanie parametrów filtrów w robots.txt lub przez canonical URL → robot zaczyna crawlować produkty częściej → szybsza aktualizacja indeksu → lepsze pozycje dla nowych produktów.

Przypadek 2: Witryna po migracji. Migracja domeny i struktury URL. Analiza logów po migracji pokazuje, że robot nadal odwiedza stare URL-e (400-te kody) i że część przekierowań nie działa. Wczesna identyfikacja pozwala szybko naprawić problem zanim wpłynie na pozycje.

Przypadek 3: Nowe treści nieindeksowane. Publikują Państwo 100 nowych artykułów miesięcznie, ale tylko 30 pojawia się w Search Console w ciągu pierwszych 2 tygodni. Analiza logów pokazuje że bot crawluje nowe artykuły dopiero po 3-4 tygodniach od publikacji. Przyczyna: sitemap nie jest wysyłany po publikacji każdego artykułu. Rozwiązanie: konfiguracja automatycznego powiadamiania Google przez Google Search Console API przy każdej nowej publikacji.

Podsumowanie

Analiza logów serwera to zaawansowana, ale niezwykle wartościowa technika SEO technicznego. Logi zawierają dokładne, niefiltrowane dane o tym co Googlebot i inne roboty faktycznie robią na stronie – czego żadne inne narzędzie nie dostarcza w takiej kompletności. Kluczowe zastosowania: analiza crawl budget i jego optymalnego zagospodarowania, identyfikacja stron crawlowanych ale nieindeksowanych, weryfikacja poprawności kodów HTTP i przekierowań, diagnostyka problemów po migracjach i zmianach struktury. Narzędzia takie jak Screaming Frog Log Analyser, Botify czy Python z biblioteką pandas pozwalają efektywnie przetwarzać nawet bardzo duże pliki logów. Regularna analiza logów jest standardem w kompleksowym audycie SEO dla większych witryn z setkami tysięcy lub milionami stron.

Jeśli chcą Państwo skorzystać z naszych usług, zapraszamy na Pozycjonowanie stron pod numer tel. 222 500 844 lub mailowo: biuro@pozycjonowaniestron.pl

Oceń ten materiał

Redakcja Pozycjonowanie stron

Zostaw pierwszy komentarz (anuluj odpowiedź)

Mecenasi prawdy

Kup miejsce reklamowe

1000 zł

Kategorie

Wesprzyj rozwój bloga

Wartość wsparcia

zł

Częstotliwość

Twój e-mail

Potrzebują Panśtwo wsparcia?

Prosimy o zostawienie danych, a my przeanalizujemy Państwa stronę i wrócimy z konkretami.