ugrás a tartalomhoz

Különböző tartalom visszaadása a keresőknek, és ennek problémái

Hojtsy Gábor · 2004. Júl. 4. (V), 14.44
A keresők webhelyeink indexelését illető működése mindig is a szóbeszéd kategóriájába tartozott. Nem tudjuk, hogy mekkora súlya van a meta kulcsszavaknak, ha van egyáltalán, nem tudjuk, hogy az oldal első részében lévő dolgokat tényleg jobban szeretik-e a keresők és ha igen, akkor mekkora részt és mennyire jobban. Ha webhelyünket valamilyen dinamikus módon állítjuk elő, egyszerűen segíthetünk a keresőknek, hogy az oldalunk lényegét indexeljék le. Ám ez nem veszélytelen.

Bizonytalanságban élünk. Csak a keresésoptimalizációval foglalkozók állítják azt, hogy ők tudják mit kell csinálni, de ha valós is a tudásuk, akkor is folyamatos frissítésre szorul, mert a kísérletezők miatt mindig változtatják az algoritmusokat a keresők fejlesztői (vagy mégsem, ezt sem tudjuk biztosan).

Van néhány olyan szabály, amit jó észben tartani, mint a megfelelő HTML elemek használata a hangsúlyok, fejlécek kiírására, amelyeket a keresők most éppen eléggé szeretnek. De még így is előfordulhat, hogy az oldalunkon olyan tartalmakat indexel le egy robot, ami csak marginálisan tartozik oda, hiszen az oldalsávokban, hozzászólásokban, aláírásokban szerepel.

Ha segíteni szeretnénk a robotoknak, hogy az oldal tartalmának lényegét indexeljék le, akkor megpróbálhatunk olyan generált HTML kódot visszaadni számukra, amely nem tartalmazza a felesleges részeket. Brad Choate a napokban publikálta PHP-t használó megoldását, mely a keresők indexelőit detektálva kikapcsol számos oldalrészt, és csak a lényeget adja vissza. Úgy tűnik Brad esetében ez a megoldás működik, hiszen állítása szerint egy éve alkalmazza már ezt a technikát, és még mindig szerepel a Google találatok között.

A Google azonban azt állítja, hogy ez a technika, amit cloaking néven ismerünk, elítélendő, és az indexelőrobot úgy dönthet, hogy hosszabb ideig letiltja a találatok közül az adott oldalt, ha ilyet tapasztal. Maga az ellenőrzés nagyon egyszerű, hiszen valamilyen normál böngésző azonosítójával kell csak lekérnie az oldalt, és máris a felhasználóknak szánt verziót kapja meg.

Azt nem tudhatjuk, hogy hogyan szerepelnének Brad oldalai a találatok között, ha nem lenne más-más a tartalom a keresők és a felhasználók számára, tehát az is elképzelhető, hogy az indexelő lepontozza az oldalait az alkalmazott techika miatt. Ugyanakkor előfordulhat, hogy Brad éppen szerencsés, hogy nem tiltották még le, de az is elképzelhető, hogy mégsem figyelik ezt a potenciális csalási lehetőséget a Googlenél. Nem lehet tudni...
 
1

Szóval csak a nagy bizonytal

Anonymous · 2004. Júl. 4. (V), 17.13
Szóval csak a nagy bizonytalanság van...
Sokat megtudtunk ebből a cikkből :(

Detran
2

Hír, nem cikk

Hojtsy Gábor · 2004. Júl. 4. (V), 17.26
Azt tudtuk meg, hogy van egy ilyen módszer amit bárki kipróbálhat saját szakállára. Kész kód adott. Te döntöd el, hogy vállalod-e a kockázatot.
3

NOINDEX?

Benjamin · 2004. Júl. 4. (V), 19.35
mnoGoSearch-ben van egy tok jo dolog, a <NOINDEX> tartalom </NOINDEX> koze tett tartalmat nem indexeli le az adott oldalon, ugytudom ezeket a keresorobotokat (google) csak a meta -tag erdekli, tehat komplett oldal tilthato csak. Kar :(

bye, Benjamin
4

NOINDEX

Bártházi András · 2004. Júl. 4. (V), 19.59
A <noindex> nem kifejezetten szabványos HTML tag, amúgy sem javaslom a használatát. Amúgy a Google egy valamiért támogatja csak a meta elemek közül a robots-ot (illetve a weboldal gyökerében a robots.txt-t, mert az összes többivel vissza lehetne élni. Ugyanígy a meta elemes kulcsszavazást sem támogatja, stb.

Egyébként CSS-sel elrejthetőek a tartalmak, legalábbis a tapasztalat az az, hogy a Weblaboron a Google az oldal elején levő ugrás a tartalomhoz szöveget, amit display: none-val pedig elrejtettünk (teljesen jóhiszeműen), azt is leindexeli, annak ellenére, hogy elvileg ezt is figyelik (csak rá kell keresni erre a kifejezésre).

Ugyanígy nem hiszem, hogy figyelnének arra, hogy más agent sztringre mást ad az oldal. Egyszerűen arról van szó nagy valószínűséggel, hogy emberek figyelik a beárulásokat (a Google oldalán lehet panaszkodni), a kiugró oldalakat, illetve talán a nagyobb változásokat, és ezeket kézzel gyomlálják. Azt, hogy oda van írva, az erre lehetőséget ad nekik, nem pedig kötelezően általuk betartandó tevékenységet.

Egyébként a agent sztring helyett sokkal jobb, ha IP címre figyel az ember, bár ettől függetlenül el tudom képzelni, hogy szúrópróbaszerűen néha a Google ránéz más IP cím tartományról (ami nem ismert), más agent-tel, és így összehasonlítja a kapot eredményt.

Mindent összefoglalva, tényleg nem lehet tudni, hogy hogyan működik pontosan az indexelés, és ez jó. :) A legcélszerűbb különben úgy játszani, hogy ne kelljen ilyen megoldásokat használni.

-boogie-
5

noindex, elrejtés és ismerhetőség

Hojtsy Gábor · 2004. Júl. 4. (V), 21.10
A noindex nem HTML tagként használandó az mnogoban, hanem HTML megjegyzésként, tehát Benjamin nem volt teljesen pontos. Így viszont teljesen valid. Sajnos Google keresőhöz valóban nincs ilyen (tudomásom szerint).

A hivatkozott blog bejegyzésben leírt elrejtés célja, hogy relevánsabb legyen az oldalon a lényeges tartalom súlya, azaz az indexelés tényleg azt vegye figyelembe, ami az oldal lényege. Ebben csak akkor segítene a CSS, ha azt is feldolgozná a Google, de mint András példája mutatja, nem dolgozza fel.

Az pedig valóban jó, hogy nem ismert, hogy hogyan csinálják. Valamelyik open source keresőmotor bejelentésénél emlegették, hogy ha mindenki ismerné az algoritmusokat, akkor ugye a csalók bármilyen keresőkifejezésre fel tudnák tenni az oldalaikat előre. Mi lenne, ha szinte minden keresőkifejezésre egy pornóoldal jönne le? Ugye nem örülnénk...

Nos éppen azoknak jó, hogy nem ismerhető az algoritmus, akik nem játszanak azzal, hogy javítsák a helyezésüket, hanem csak jóhiszeműen publikálják a tutit, mert ők így sem érnek el nagyon rossz helyezést.
6

egy táblatrükk mindig jól jön

Thom · 2004. Júl. 4. (V), 23.35
Probléma lehet, ha a bal oldalblokkban (itt szokott lenni pl. a menü) lévő tartalmat indexeli le a kereső - a találat mellé ezt a szövegrészletet fűzi. Elég semmitmondó így az oldal bemutatása. Oka lehet, hogy a kereső az első párszáz kiírt szövegnek tekintett karaktert gyűjti ki a kódból, ami táblázatos oldalnál a bal oszloppal, tehát a menüvel kezdődik.
Ez a gond az alábbi egyszerű tábla trükkel kezelhető:
<TABLE><!-- oldal innen -->
<TR><!-- első sor innen -->
<TD><!-- ez lenne az menü helye, de itt üres --></TD>
<TD rowspan=2><!-- középső hasáb -->
ide jön a tartalom, ezzel a szöveggel kezdődik a doksi
...és ezt találja meg a gugli először</TD>
<TD rowspan=2><!-- ez a jobb hasáb, ha kell --></TD>
</TR>
<TR><!-- második sor is van ám -->
<TD>na itt van a menü - a kódban a tartalom után</TD>
</TR>
</TABLE>

Ennél a megoldásnál az oldal ugyanúgy néz ki, mint a szokásos kiírásnál, a kódban a lényeges információ mégis feljebb van, mint a nem indexálandó oldalblokk.
Fogyasszátok egészséggel!

Üdv: Thom
[ThomasWebMűhely] [ThomasPortál]
7

Ne...

Bártházi András · 2004. Júl. 5. (H), 06.24
Ne reklámozzuk már a táblákat... ;) Ki kell tenni két DIV-et:

<div id="content">
</div>
<div id="menu">
</div>
Majd a menu-t balra float-olni, és a content-nek beállítani egy bal margót. Ezt a Weblabornál is megtekintheted, bár itt pont fordítva van: a jobb oldali hasáb kódja van az oldal kódjában előbb, és csak utána jön a tartalom (ez így már tudjuk, hogy nem az igazi, a TODO listánkon fenn van a dolog ;).

-boogie-
8

Nemcsak oldalsáv

Hojtsy Gábor · 2004. Júl. 5. (H), 09.00
Ha megnézitek Mark Pilgrim oldalát (annak forrását), akkor látni fogjátok, hogy nem csak az oldalsáv lehet később, hanem a fejléc is. Ezt egy abszolút pozícionált konténerrel lehet megoldani. Így tényleg az kerül előre, ami kell. A weblabor.hu felületének következő reinkarnációjában mindenképpen így fogunk mi is tenni.