ugrás a tartalomhoz

Google alapjai I.

Bártházi András · 2004. Okt. 12. (K), 21.00
Google alapjai I.
Ezzel a cikkel egy új sorozat indul útjára. A tervek szerint a legalapvetőbb ismeretekről a Google "programozásáig" több témakörről is szó lesz - van miről. Ebben a cikkben a Google alapszolgáltatásával, a weblap keresővel fogunk megismerkedni, s bár főként a Google újoncoknak kínál újdonságokat, bízom benne, hogy a haladóbb felhasználók is találnak benne érdekességet majd. Feltételezem, hogy az olvasó már tud valamit a Google-ról, például hogy a böngészőbe a http://www.google.com címet kell beírni, és hogy ha kiváncsi valamire az interneten, ez annak a megkeresésére szolgál. Ha ez eddig nem lett volna így, most már mindegy, mert tudomására jutott, így lássunk neki az ismerkedésnek!

A sorozatban megjelent

Alap keresések

A cél tehát nem más, mint megkeresni valamit az interneten. Ez nem egy egyszerű feladat, több milliárdnyi oldal közül kell kiszűrni amit meg szeretnénk valahogy találni. Erre több módszer is van, az egyik emberek által összeállított linkgyűjteményekre épít. Ezeknél általában sokkal kevesebb lap található meg, főként népszerűbb témákban, viszont sokkal jobb minőségű, egyszerűbben áttekinthető. A feladat nehézségét érzékeltetendő, gondoljunk bele, mekkora munka lehet a milliárdnyi weblap kategorizálása, főként, hogy naponta születnek újak, szűnnek meg régiek! Ebből adódik, hogy kevesebb, viszont az emberi intelligencia miatt nagyon jól az adott kategóriába illő weblapokat találhatunk ilyen helyeken.

A másik lehetőség a keresőrobotok által folyamatosan pásztázott oldalak alapján készített hatalmas adatbázisok. A kis robotprogramok folyamatosan kérik le a weblapokat, feldolgozzák, megpróbálják megállapítani, hogy miről is szól, majd ezt eltárolják magukban. Ennek az adatbázisnak a felhasználói felületét hívjuk keresőnek. Ezeknél egy fokkal nehezebb hozzájutni ezekhez az adatokhoz, hiszen nem emberi feldolgozáson estek át, előfordul, hogy hibás, vagy legalábbis nem olyan találatokat kapunk, amire számítottunk. Nos, egy ilyen kereső a Google, mely a tapasztalatok szerint elég jó találatokat képes visszaadni. Persze ehhez jól is kell kérdezni, hogy minél kevesebb hibás és minél pontosabb jó találatunk legyen - azt fogjuk áttekinteni a továbbiakban, hogy ez hogyan is zajlik.

Ha beírjuk böngészőnkbe, hogy www.google.com, akkor egy keresőmezőt fogunk (többek között) látni. Alapvetően szavakat gépelhetünk bele ebbe a keresőmezőbe. A Google ezekről a szavakról úgy fogja gondolni, hogy mindet szeretnénk viszont látni a megtalált oldalakon. Ennek kapcsán olyan oldalakat próbál meg keresni, amelyen ezek szerepelnek, illetve nagyrészt az oldal erről a témakörről szól. Mindjárt látunk is erre példát, de előbb nézzük meg azt, hogy hogyan hihetné még, milyen lehetőségeink vannak.

A Google feltételezhetné még azt is, hogy ezek közül a szavak közül mi vagy az egyiket, vagy a másikat (esetleg együtt, de nem kötelezően) szeretnénk viszontlátni a megtalált oldalakon. Nos, ezt megmondhatjuk neki, erre van az ún. Boole algebra.

A Boole algebra nem más, mint hogy használhatjuk az ÉS, VAGY szavakat és a zárójeleket (ez most pongyola megfogalmazás volt, de itt most ennyi elég a lényeg megértéséhez). A Google ezen egy kicsit változtatott, mivel alapértelmezésként az ÉS kifejezést használja, ennek jelzésére az egyszerű szóköz szolgál beírt szavak között. A VAGY-ot angolul kell beírnunk, tehát OR szót használhatjuk erre a célra (nagy betűvel kell írni!). Másik lehetőségünk a VAGY kifejezés beírására a | jel használata. Ha szeretnénk, hogy egy szó ne legyen benne a találati oldalban, akkor a - jelet használhatjuk. Lássunk pár példát ezekre:
recept ananász kókuszdió
Ezzel a kifejezéssel jó eséllyel egy receptet fogunk kapni, amiben szerepel összetevőként az ananász és a kókuszdió is. A kérésünk az volt, hogy olyan találatokat adjon vissza kedvenc keresőnk, melyben a recept és ananász és kókuszdió szavak is szerepelnek.

Amennyiben csak tervezzük, hogy összedobunk valamit, viszont szegények vagyunk, mint a templom egere, és nincs pénzünk ananászra és kókuszdióra is együtt, akkor tegyük fel másként a kérdést:
recept (ananász OR kókuszdió)
Nos, valószínűleg sokkal több találatot kaptunk. Mi a helyzet, ha valamiért olyan recepteket kaptunk, amiben rum van, de sehol sem kapunk rumot éppen a városban (vagy antialkoholisták vagyunk)? Kérjük csak azokat a találatokat, melyekben nem szerepel a rum.
recept (ananász OR kókuszdió) -rum
És lám, teljesült is kívánságunk!

Bonyolultabb keresések: hasonló szavak

A Google egy viszonylag új lehetőségének segítségével növelhetjük találataink mennyiségét, ha nem egy konkrét szóra keresünk csak, hanem a szinonímáira is. Erre szolgál a ~ jel, melyet ha a szó elé írjuk, akkor tudunk a kapcsolódó, hasonló (értelmű) szavakra is keresni. Például írjuk be:
~recept pineapple
Ekkor a "recipe" szó is a keresési szavak közé sorolja kedvenc keresőnk, és egyből kapunk egy ananászos receptet - angolul.

Bonyolultabb keresések: többszavas kifejezések

Maradjunk a recepteknél. Tegyük fel, hogy kezdő agglegények vagyunk (vagy háziasszonyok), és szeretnénk elkápráztatni a baráti körünket azzal, hogy egy jó sült virslit készítünk nekik tojással (kezdjük az alapokkal...). Ha ezeket a szavakat beírjuk, jó esélyünk van rá, hogy egyből találunk is egy ilyen receptet. De arra is, hogy csak olyat, amiben külön-külön szerepel a sült, a virsli és a tojás szó, egymástól távol az oldalon. Ilyen könnyedén előfordulhat, amikor több recept is szerepel egy oldalon, vagy pedig például csak a lehetséges összetevőket sorolják fel, stb. De van erre is megoldás, mégpedig a kifejezés keresés: a keresendő szavakat írjuk idézőjelek közé, és keressünk rá így:
"sült virsli tojással"
Nagy valószínűséggel jóval kevesebb találatot kapunk (ha egyáltalán találunk ilyen oldalt).

Bonyolultabb keresések: korlátok

Nos, vannak korlátok is, nem csak lehetőségek. Először is, nem kereshetünk 10 szónál többet, az első 10 szó után a Google elhagyja a szavakat, egyszerűen nem veszi bele a keresésbe. Ennek a technikai oka, hogy túl bonyolult lenne összefésülni a keresési eredményeit az összes szónak. Ennek kikerülésére van egy trükk: egy kifejezésen belül használhatjuk a *-ot szavak helyettesítésére, mely nem számít bele a 10-es korlátba, s akár több szót is jelenthet.

Egy másik korlát, amit azonban meg lehet kerülni, hogy keresőnk kihagyja a keresésből alapértelmezésként a nagyon gyakori (főleg angol) szavakat, mint például a névelőket ("the"). Ha megpróbálunk rákeresni például a híres "lenni vagy nem lenni" kifejezésre angolul, az eredmény kicsit szánalmas lesz, mivel a fele szó kihagyásra kerül (a tapasztalatok azt mutatják, hogy ilyenkor is figyelembe veszi a szónak a helyét a Google, azaz úgy viselkedik, mintha *-ot írtunk volna ezen szavak helyére):
to be or not to be
Ezt a viselkedést a + jel használatával tudjuk kiküszöbölni. Amennyiben egy szó elé írjuk, bele lesz véve az is a kifejezésbe. Így már sokkal jobb eredményt kapunk:
+to +be +or +not +to +be
Megjegyzendő, hogy ha idézőjelek között írtuk volna be ezt a kifejezést, akkor nem kellett volna ennyit bűvészkednünk.

Végül még egy korlát, ami felfogható szolgáltatásnak is: a Google figyelmen kívül hagyja a kisbetű/nagybetű különbözőségeket, teljesen mindegy, hogy azt írjuk be neki, hogy recept, vagy azt, hogy rEcEpT. Ez mikor egy személy nevére próbálunk meg rákeresni, akkor hátrányként jelentkezhet, főleg az olyan neveknél, melyek köznevekből születtek (viszont meglepő, hogy milyen sokszor nem okoz gondot, próbáljuk meg beírni, hogy <i>bush</i> - ami alapból bokrot jelentene), vagy akár fordítva, ha egy olyan szóra keresünk, mely egy híres ember neve is akkor nehéz a dolgunk (szegény bokorfajtákra kereső biológusok...). Ekkor az szokott segíteni, ha még egy, a témakörhöz kapcsolódó szóval megpróbáljuk kiegészíteni a keresési feltételt, az eredmény szűkebb lesz, és talán a másik értelmezését kapjuk meg a szónak.

Speciális lehetőségek

A Google számos szűkítési lehetőséget nyújt számunkra, melyek segítségével további feltételeket adhatunk meg kereséseinkhez. Mivel rengeteg oldal van "leindexelve" a Google által, bizony ezekre sokszor szükségünk is lehet, még akkor is, ha már "csak" pár ezer van a találati listánkon. Nézzük ezeket a lehetőségeket:

  • intitle: segítségével az oldalak címét szűrhetjük meg, az oldalak címében kereshetünk. Az utána következő szót fogja a címben keresni:
    intitle:recept
    Ez a kifejezés az olyan dokumentumokat fogja megtalálni, melyek címében a recept szerepel. Fontos, hogy ne írjunk szóközt a kettőspont után!
  • allintitle: az előző szűkítési lehetőség kiterjesztése, az utána következő összes szót ezután az oldalak címében fog keresni. Próbáljuk ki a következő kifejezést:
    allintitle:magyar recept
    És próbáljuk ki ugyanezt az előző, intitle kifejezéssel!
  • inurl: az oldal teljes URL-jében kereshetünk vele. Akkor tud nagyon hasznos lenni, ha egy konkrét névvel rendelkező állományra szeretnénk rákeresni. Például:
    inurl:index.php
  • allinurl: az inurl:-t egészíti ki azzal, hogy az összes utána következő szót az URL-ben fogja keresni. Például:
    allinurl:index.php admin
  • site: hasonlóan működik az inurl-hez, azonban egy adott oldalra (domainre) tudunk vele szűkíteni. A megadott szót a domainnevek végéről nézi, azaz ha azt adjuk meg, hogy hu, akkor nem az összes hu-t tartalmazó domainnévre, hanem csak a .hu-ra szűkít. Például:
    recept site:freeweb.hu
  • intext: csak és kizárólag az oldal szövegében keres, melybe nem tartozik bele semmi sem a fejlécből, a képek leírásából, vagy a linkek szövegéből. Például:
    intext:html
  • allintext: mint az előző lehetőségeknél, itt is az összes utána következő szót fogja a szövegben keresni. Például:
    allintext:html css
  • inanchor: a linkek szövegében fog keresni, azaz a nyitó és a záró a elem közti tartalomban (de nem a linkben, azaz a href-ben). Például:
    inanchor:weblabor.hu
  • allinanchor: semmi meglepetés, az összes utána következő szót link szövegében fogja keresni. Például:
    allinanchor:css fun
  • link: azokat az oldalakat adja vissza, melyek a kifejezés után szereplő oldalra mutatnak. Nem kötelező megadni a http://-t, de meg lehet az oldal címe előtt. Lehetőségünk van konkrét oldalakra keresni, nem csak egy domainnévre. Például:
    link:weblabor.hu
  • cache: ha már nem találunk egy oldalt a helyén, de tudjuk a címét, és kiváncsiak vagyunk, mi volt rajta, megnézhetjük, hátha a Google cache-ben még benne van. A Google gyakorlatilag letükrözi az általa látogatott oldalakat, s a legutóbbi állapotára mutató linket kapunk vissza így. Például:
    cache:weblabor.hu
  • daterange: egy adott időintervallumra lehet korlátozni a keresést segítségével. Az idő a Google látogatását jelenti azon az oldalon, tehát amikor utoljára leindexelte az oldalt, mert megváltozott. Két dátumot kell neki megadnunk kötőjellel elválasztva. A dátumot Julián dátumként, azaz egy számként kell megadnunk! Például:
    css daterange:2452640-2453004
    Ezzel a kérdéssel 2003. január 1. és 2003. december 31. között a Google által meglátogatott, a css szót tartalmazó oldalakat tudjuk megkeresni.
  • filetype: konkrét állománytípusokra tudjuk szűkíteni a keresést. Például ha egy letölthető e-könyvet keresünk a témában, próbáljunk szűkíteni pdf-re. A Google nem minden kiterjesztésre engedi a keresést, csak a következőkre: doc, ppt, exl, asp, php, cgi, html, htm, xml, rss, pdf, shtml, xhtml, dos, gif, png, pic. Például:
    css filetype:pdf
  • related: az adott domainhez tartozó oldalakat mutatja meg. A tartozás alatt a hasonló oldalakat értjük, több-kevesebb sikerrel próbál meg a Google megegyező témakörű oldalak ajánlani. Ha egy adott témakörben találtunk egy oldalt, akkor további böngészéshez nagyon hasznos tud lenni. Például:
    related:weblabor.hu
  • info: linkeket mutat be az adott oldalhoz kapcsolódóan. A felsorolásban egy link van a cache-re, a hasonló weboldalak keresésére, az oldalakra, melyek a megadott oldalra mutatnak és egy egyszerű keresőkifejezésre, mely a beírt szavakat tartalmazza. Például:
    info:weblabor.hu

Összefoglalás

Mint a fentiekből látható, a Google sok lehetőséget ad arra, hogy minél inkább megtaláljuk azt, amit keresünk. Javaslom, hogy mindenki próbálja ki a fenti kifejezéseket, és próbálja meg használni a napi keresései során - a saját tapasztalatomból mondhatom, hogy hatékonyabb a keresés ezekkel.

Ez a cikk egy cikksorozat kezdete volt, az alapok megismerése után a további cikkekben megismerkedünk majd a Google további lehetőségeivel, szolgáltatásaival.
 
Bártházi András arcképe
Bártházi András
Az Emarsys-nál dolgozik vezető fejlesztőként, és az API-ért, integrációkért felelős termékmenedzserként. Szeret profi csapatban profit alkotni.
1

Remek :)

Anonymous · 2004. Okt. 13. (Sze), 12.19
Üdv Weblabor,

Épp most kezdek komolyabban foglalkozni a keresö-marketing-el, és remélem a többi cikk is hasonlóan hasznos lesz mint ez! Köszi, és gratula

Eiki
2

help

Anonymous · 2004. Okt. 16. (Szo), 00.38
azt meg tudom valahogy oldani, hogy pl. kilistázza az összes oldalt, amiről van link az inertiára kivétel amelyikben szerepel a megadott szó (mert a link:inertia.d2.hu -ra kaotikusan sok link mutat (ezekszerint) tjp snaps oldaláról :( )

így nem volt találat
link:inertia.d2.hu -snaps
3

Nem lehet

Bártházi András · 2004. Okt. 16. (Szo), 14.42
A link: nem kombinálható más keresési szavakkal, csak egyedül használható.

-boogie-
4

Szókorlát 10-ről 32-re

attlad · 2005. Jan. 23. (V), 19.41
Először is, nem kereshetünk 10 szónál többet, az első 10 szó után a Google elhagyja a szavakat, egyszerűen nem veszi bele a keresésbe.

Ez nemrég 10-ről 32-re változott.
http://blog.outer-court.com/archive/2005-01-22-n48.html

Attila