Analiza logova web stranica



Pregled sadržaja

Svaki puta kada web stranicu posjeti korisnik, server poslužitelja zabilježi tu informaciju u log datoteku. Što više posjetitelja dolazi na stranice, to se više podataka sakupi i shodno time više informacija možemo dobiti. U članku ćemo objasniti koje su prednosti analize logova i na što je potrebno obratiti pažnju.

Što je log datoteka

Log datoteka je datoteka koju server hostinga (računalo na kojem su smještene web stranice) automatski stvara za svaku aktivnost. Datoteka sadrži kronološko poredani povijesni tijek svih zahtjeva koje imaju posjetitelji ali i roboti koji zatraže nešto na web stranici. Datoteka je stoga službeni zapis bilokakve aktivnosti a kreira se i pohranjuje u direktorij najčešće nazvan “logs“.

Primjer podatka log datoteke

Izgled log datoteke ovisi o sustavu koji se pogoni. Kao neki primjer, redak log datoteke može izgledati ovako:

40.36.42.45 - - [01/Feb/2020:10:30:15 +0100] "GET" - "/wp-content/themes/tema/page.php" - "200" "-" "Mozilla / 5.0 ( kompatibilan; Googlebot/2.1; + http: //www.google.com/bot.html) "- www.web-trgovina.hr -

Svaki podatak ukazuje na nešto određeno. Podaci su nakrcani jedan na drugog jer se radi o najobičnijoj datoteci ali računalima ne treba estetski privlačan dizajn već brzina procesuiranja. Ajmo raščlaniti podatke i bolje ih vizualno prezentirati radi objašnjenja:

  • 40.36.42.45 – IP adresa
  • 01/Feb/2021:10:30:15 +0100 – točan datum kada se informacija zatražila
  • GET – metoda za prijenos podataka
  • /wp-content/themes/tema/page.php – putanja stranice
  • 404 – statusni kôd
  • Mozilla / 5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) – koji preglednik koristi onaj koji zatraži radnju od servera
  • www.web-trgovina.hr – ime hosta

Kao što se vidi, svaka vrijednost odnosi se na određenu informaciju. IP adresa je jedinstvena adresa računala. Po zadanim postavkama, datum je u formatu dan, mjesec, godina, sat, minute, sekundi i vremenska zona. HTTP statusnog kôd u ovom slučaju javlja 200 što znači da je sve ok sa stranicom ali inače može ukazati na neke greške koje su se dogodile na serveru.

Log datoteka ovisno o posjeti stvarnih korisnika i posjeti botova (od kojih su neki i u službi tražilica) može generirati tisuće podataka svaki dan. Log se pokrene svaki puta kada netko okine pokretanje stranice ili određenog elementa – slike, CSS datoteke i bilokoje druge datoteke koja je potrebna za generiranje web stranice.

Važnost logova za SEO analizu

Analiza log datoteka korisna je u SEO strategiji jer možemo vidjeti kako tražilice (Google, Bing…) analiziraju i gledaju našu web stranicu. Premda možemo saznati razne informacije putem Google Search Console ili Bing Webmaster Tools, log datoteka je ipak sirovi, neobrađeni podatak stvarnog stanja. Log datoteke nam stoga pomažu u donošenju važnih zaključaka i analiza nam daje uvid u to kako se botovi ponašaju na našim stranicama.

Logovi mogu zabilježiti ogromne podatke i zauzeti puno prostora na serveru. Zbog tog razloga, korisno je ograničiti razdoblje analize na određeno razdoblje, obično nakon obavljenih promjena na stranici ili nakon nadogradnje Google algoritma.

Najvažniji razlozi za analizu logova su da nam omogući uvid u:

  1. kako se troši proračun puzanja kod botova tražilica
  2. prolaze li botovi nama važne stranice
  3. podatak ako web stranicu analizira Google pomoću mobile-first
  4. ima li grešaka na serveru
  5. provjera internih linkova
  6. otkrivanje stranica koje su izolirane

U nastavku pogledajmo pobliže navedene aktivnosti.

1. Proračun web stranice radi indeksiranja

Proračun za indeksiranje je količina stranica koje bot neke tražilice (Google, Bing…) može indeksirati svaki puta kada posjeti našu web stranice. Vezan je za poddomenu pa ako ih ima više unutar domene svaka može imati drugačije stanje. Takav proračun, baš kao i proračun Republike Hrvatske, može se tratiti na nebitne stvari.

Mi želimo da se indeksira samo sadržaj koji nam je važan za rangiranje i ako nam proračun nije dovoljno velik da obuhvati analizu svih stranica na projektu, tada će neke stranice biti zakinute. Analizom log datoteke možemo pratiti taj proračun i shodno tome reagirati.

2. Prolaze li botovi nama važne stranice

Nama važne stranice bi trebale biti posjećene. Primjerice, ako su nam bitne početna stranica i stranice usluga koje nudimo ili ako imamo web trgovinu, želimo da su nam visoko rangirane stranice glavnih proizvoda koje nudimo. Ako unutar log datoteka primijetimo da se analiziraju često stranice koje nam nisu bitne dok nam ove glavne stranice nedostaju, tada je očigledno da postoji neki problem u ravnoteži.

3. Ima li grešaka na serveru

Ako postoje problemi s indeksiranjem primijeti se ako botovi preuzimaju stranice u potpunosti ili samo djelomično. Ako Googlebot ne uspijeva u potpunosti učitati URL, moguće da postoje tehnički problemi koji spriječavaju indeksiranje.

Primjerice, robots.txt datoteka može spriječiti indeksiranje nekih URL struktura ili sadrži greške, pa bi bilo korisno provjeriti o čemu se radi. Vidi se koji točno botovi prolaze kroz stranice, radi li se o Google, Bingu ili o nekoj drugoj tražilici a možemo vidjeti i točnije za što je njihov bot zaslužen. Bot naziva Googlebot-Image zadužen je kod Google za analizu slika, dok je drugi bot Googlebot-Video analizira video sadržaj. Shodno tome bingbot ili msnbot mogu analizirati uobičajene stranice, dok ako naiđemo na msnbot-media znamo da se radi o Bing botu koji analizira slike i video. Detaljnije o tome smo pisali u spomenutom članku za robots.txt.

4. Otkrivanje stranica koje su izolirane

Otkrivanje “sirotih” stranica, tj. stranica koje nisu interno povezano s drugim stranicama. Takve stranice mogu se javiti zbog više razloga:

  • struktura web stranice se mijenjala a nisu se svi podaci pravilno ažurirali
  • sadržaj se mijenja
  • stranice sa starim preusmjerenim linkovima
  • neispravni interni ili vanjski linkovi

Analiza logova

Kako bi imali pristup suvislim podacima, trebamo imati web stranicu i pustiti da se logovi kreiraju neko vrijeme, što ovisi i o količini dnevne posjete. Na izuzetno dobro posjećenim stranicama logovi mogu biti stari samo nekih dana dok na slabo posjećenim stranicama su potrebni tjedni za sakupljanje dovoljno podataka.

Datoteke se mogu izravno preuzeti sa servera i otvoriti u nekom od programa za obradu teksta a analizu možemo raditi i specijalnim alatima, primjerice pomoću  Screaming Frog Log File Analyzer, Splunk ili GamutLogViewer. Svi navedeni alati se plaćaju. Analiza pomoću takvih grafičkih sučelja programa nam je jednostavnija jer sve podatke odmah prikazuje uredno prezentirane i na nama je samo da odaberemo koji podaci nas zanimaju.