Analiza logova web stranica

Pregled sadržaja

Svaki puta kada web stranicu posjeti korisnik, server poslužitelja zabilježi tu informaciju u log datoteku. Što više posjetitelja dolazi na stranice, to se može više toga procijeniti na temelju logova. U članku ćemo objasniti koje su prednosti analize logova i na što je potrebno obratiti pažnju.

Što je log datoteka

Log datoteka je datoteka koju server hostinga (disk na kojem su smještene web stranice) automatski stvara za svaku njegovu aktivnost. Datoteka stoga sadrži kronološki povijesni tijek svih zahtjeva koju imaju posjetitelji ali i roboti na web stranici. Kreira se i pohranjuje se u folder, obično unutar /logs direktorija.

Primjer podatka log datoteke

Izgled log datoteke ovisi o sustavu koji pogoni i generira ih. Kao neki primjer, redak log datoteka može izgledati ovako:

40.36.42.45 - - [01/Feb/2020:10:30:15 +0100] "GET" - "/wp-content/themes/tema/page.php" - "200" "-" "Mozilla / 5.0 ( kompatibilan; Googlebot/2.1; + http: //www.google.com/bot.html) "- www.web-trgovina.hr -

Svaki podatak ukazuje na nešto određeno. Podaci su dosta nakrcani jer se radi o najobičnijoj datoteci ali računalima ne treba kozmetika. Ajmo raščlaniti podatke i bolje ih vizualno prezentirati:

  • 40.36.42.45 – IP adresa
  • 01/Feb/2021:10:30:15 +0100 – točan datum
  • GET – metoda za prijenos podataka
  • /wp-content/themes/tema/page.php – putanja stranice
  • 404 – statusni kod
  • Mozilla / 5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) – koji preglednik koristi korisnik
  • www.web-trgovina.hr – host

Kao što se vidi, svaka vrijednost odnosi se na određenu informaciju. IP adresa je jedinstvena adresa računala. Po zadanim postavkama, datum je u formatu dan, mjesec, godina, sat, minute, sekundi i vremenska zona. HTTP statusnog kôd u ovom slučaju javlja 200 što znači da je sve ok sa stranicom ali inače može ukazati na neke greške koje su se dogodile na serveru.

Log datoteka ovisno o posjeti stvarnih korisnika i posjeti botova (od kojih su neki tražilice) može generirati tisuće podataka svaki dan. Dogodi se svaki puta kada netko okine pokretanje stranice ili određenog elementa – slike, CSS datoteke i bilokoje druge datoteke koja je potrebna za generiranje web stranice.

Važnost logova za SEO analizu

Analiza log datoteka korisna je u SEO strategij jer možemo vidjeti kako tražilice (Google, Bing…) analiziraju i gledaju našu web stranicu. Premda možemo saznati razne informacije putem Google Search Console ili Bing Webmaster Tools, log datoteka je ipak sirovi, neobrađeni podatak stvarnog stanja. Log datoteke nam stoga pomažu u donošenju važnih zaključaka i analiza nam daje uvid u to kako se botovi ponašaju na našim stranicama.

Logovi mogu zabilježiti ogromne podatke i zauzeti puno prostora na serveru. Zbog tog razloga, korisno je ograničiti razdoblje analize na određeno razdoblje, obično nakon obavljenih promjena na stranici ili nakon nadogradnje Google algoritma.

Najvažniji razlozi za analizu logova su dan omogućuje uvid u:

  1. kako se troši proračun puzanja kod botova tražilica
  2. prolaze li botovi nama važne stranice
  3. podatak ako web stranicu analizira Google pomoću mobile-first
  4. ima li grešaka na serveru
  5. provjera internih linkova
  6. otkrivanje stranica koje su izolirane

Pogledajmo ih detaljnije.

1. Proračun web stranice radi indeksiranja

Proračun za indeksiranje je količina stranica koje bot neke tražilice (Google, Bing…) može indeksirati svaki puta kada posjeti našu web stranice. Vezan je za poddomenu pa ako ih ima više unutar domene svaka može imati drugačijestanje. Takav proračun, baš kao i proračun Republike Hrvatske, može se tratiti na nebitnim stvarima. Mi želimo da se indeksira samo sadržaj koji nam je važan za rangiranje i ako nam proračun nije dovoljno velik da obuhvati analizu svih stranica na projektu, tada će neke stranice biti zakinute. Analizom log datoteke možemo pratiti taj proračun i shodno tome reagirati.

2. Prolaze li botovi nama važne stranice

Nama važne stranice bi trebale biti posjećene. Primjerice, ako su nam bitne početna stranica i stranice usluga koje nudimo ili ako imamo web trgovinu želimo da su nam visoko rangirane stranice glavnih proizvoda koje nudimo. Ako unutar log datoteka primijetimo da se analiziraju često stranice koje nam nisu bitne dok nam ove glavne stranice nedostaju, tada je očigledno da postoji neki problem.

3. Ima li grešaka na serveru

Ako postoje problemi s indeksiranjem vidi se ako botovi preuzimaju stranice u potpunosti ili samo djelomično. Ako Googlebot ne uspijeva u potpunosti učitati URL moguće da postoje tehnički problemi koji spriječavaju indeksiranje.

Primjerice, robots.txt datoteka može spriječiti indeksiranje nekih URL struktura ili sadrži greške, pa bi bilo korisno provjeriti o čemu se radi. Vidi se koji točno botovi prolaze kroz stranice, radi li se o Google, Bingu ili o nekoj drugoj tražilici a možemo vidjeti i točnije za što je njihov bot zaslužen. Bot naziva Googlebot-Image zadužen je kod Google za analizu slika, dok je drugi bot Googlebot-Video analizira video sadržaj. Shodno tome bingbot ili msnbot mogu analizirati uobičajene stranice, dok ako naiđemo na msnbot-media znamo da se radi o Bing botu koji analizira slike i video. Detaljnije o tome smo pisali u spomenutom članku za robots.txt.

4. Otkrivanje stranica koje su izolirane

Otkrivanje “sirotih” stranica, tj. stranica koje nisu interno povezano s drugim stranicama. Takve stranice mogu se javiti zbog više razloga:

  • struktura web stranice se mijenjala a nisu se svi podaci pravilno ažurirali
  • sadržaj se mijenja
  • stranice sa starim preusmjerenim linkovima
  • neispravni interni ili vanjski linkovi

Analiza logova

Kako bi imali pristup suvislim podacima, trebamo imati web stranicu i pustiti da se logovi kreiraju neko vrijeme, što ovisi o posjeti. Na izuzetno dobro posjećenim stranicama logovi mogu biti stari samo nekih dana dok na slabo posjećenim su potrebni tjedni.

Datoteke se mogu izravno preuzeti sa servera i otvoriti u nekom od programa za obradu teksta a analizu možemo raditi i specijalnim alatima, primjerice pomoću  Screaming Frog Log File Analyzer, Splunk ili GamutLogViewer. Oba alata se plaćaju. Analiza pomoću takvih grafičkih sučelja programa nam je jednostavnija jer sve podatke odmah prikazuje i na nama je samo da odaberemo koji podaci nas zanimaju.