Mysql: Effektív keresés címkékkben, és szöveges mezőkben.
Tudom, hogy ez elég mély téma, de egy alapvető irányvonalat biztosan tudtok adni.
Van egy adatbázis, három tábla:
- products (id,name,title,info,description)
- labels (id,name)
- pl (id,pid,lid)
A products táblában, több szöveges mező van varchar, és text is.
A labels táblában pedig varchar a name.
A pl tábla kapcsolja össze a címkéket a termékekkel.
És erre kellene ráengedni egy keresést, ami keres a products tábla name, title, info, és description mezőiben, és a kapcsolt címkékben is.
A hab a tortán, hogy több szó is szerepelhet a keresésben.
Illetve kellene rangsorolni is a találatokat.
Persze megírni megtudtam az alapot, úgy, hogy keresőkifejezésenként egy query, ami like %kif% -el végignézi a fent említett mezőket. Aztán phpben az eredményben levő id-ket egy asszociatív tömb indexének használom, és a számosságot rendelem hozzá értékként.
Valahogy így minden queryre:Az összes query után a counts tömbben megvan hogy melyik id-t találtam meg legtöbbször, és így előáll a rangsor.
Működni működik csak gondolom elég béna, biztosan van valami stílusos kód erre. Olyan megoldást keresnék ami effektív, bevált.
A másik terület a címkék kérdése, ezeket is vizsgálni kéne a keresőkifejezésekre, de erről fogalmam sincs hogyan. Arra gondoltam, hogy valami sztringgé kéne fűzni őket még mysql-en belül (az adott product id-hez tartozókat), és azon keresni like %kif% -al, csak a módszer amivel ezt elérhetném kérdés előttem teljesen.
Előre is kösz!
■ Van egy adatbázis, három tábla:
- products (id,name,title,info,description)
- labels (id,name)
- pl (id,pid,lid)
A products táblában, több szöveges mező van varchar, és text is.
A labels táblában pedig varchar a name.
A pl tábla kapcsolja össze a címkéket a termékekkel.
És erre kellene ráengedni egy keresést, ami keres a products tábla name, title, info, és description mezőiben, és a kapcsolt címkékben is.
A hab a tortán, hogy több szó is szerepelhet a keresésben.
Illetve kellene rangsorolni is a találatokat.
Persze megírni megtudtam az alapot, úgy, hogy keresőkifejezésenként egy query, ami like %kif% -el végignézi a fent említett mezőket. Aztán phpben az eredményben levő id-ket egy asszociatív tömb indexének használom, és a számosságot rendelem hozzá értékként.
Valahogy így minden queryre:
while($record=mysql_fetch_object($result)) {
if(!isset($counts[$record->id]))
$counts[$record->id]=1;
else
$counts[$record->id]++;
}
Működni működik csak gondolom elég béna, biztosan van valami stílusos kód erre. Olyan megoldást keresnék ami effektív, bevált.
A másik terület a címkék kérdése, ezeket is vizsgálni kéne a keresőkifejezésekre, de erről fogalmam sincs hogyan. Arra gondoltam, hogy valami sztringgé kéne fűzni őket még mysql-en belül (az adott product id-hez tartozókat), és azon keresni like %kif% -al, csak a módszer amivel ezt elérhetném kérdés előttem teljesen.
Előre is kösz!
Indexek
A címkével súlyozás jó ötlet!
A hatékonyság egyelőre annyit tesz, hogy 1000 termékre és kb. 100-200 címkére jól kell menjen a keresés (az a pl táblában már meglepően sok sort jelenthet). Amiket linkeltél meg fogom nézni, de a jelenlegi munkám végéig tuti nem lesz elég időm arra, hogy megismerjem, integráljam.
Felbontod
szavak
tábla), a másikban pedig a szó kulcsát a súlyozott értékét és a tartalom kulcsát (szoindex
tábla). Így összesen két táblád lesz. Azszavak
-ból kikeresed a szó kulcsát, majd ha létezik, akkor keresel az index táblában, és a súly szerint rendezel. Az indexelést csinálhatod mondjuk 10 tartalmanként, vagy amikor a tartalmat elmentik.Természetesen ennél lehet sokkal bonyolultabb rendszert csinálni. Talán érdemes lehet megnézni, hogy az általad használt keretrendszerben / CMS-ben van-e ilyen szolgáltatás, illetve ha nincs, akkor megnézni egyet, amiben van. Például a Drupal 6-ban egy elég egyszerű, de viszonylag hatékony rendszer van. Ennek indexelési metódusát talán érdemes átnézni.
Ez most kicsit magas nekem.
Akkor ez azt jelentené, hogy egy termék felvitelekor, valahogy az új termék összes szavát ezekben a táblákban el kell helyezni. Ez már alapból elég félelmetesen hangzik.
Félelmetes?
Az előbb írt számok számok
Ami ezt ki tudja szolgálni sebességben az nekem már elég lenne. Szerinted ekkora méreteknél mi állná meg a helyét?
Félelmetesen azért hangzik, mert szorít az idő, és én balga azt hittem, hogy van olyan keresés, ami hatékony és egyszerű egyszerre. :)
Nem sok
Elmerülök a mysql-es
Eddig a MATCH - AGAINST
Jól értem, hogy ha az adott szóra kapott sorok száma eléri az táblában lévő sorok számának felét, akkor "stopword" lesz, és nem vesz részt az eredmény generálásában?
Tehát ha van egy két soros adatbázisom, 'alma' és 'körte' értekkel az adott oszlopban, akkor se almára, se körtére nem kapok eredményt? Mi ennek az értelme akkor?
A BOOLEAN MODE pedig kikapcsolja ezt, csak akkor meg nincs rangsorlás, és lassabb.
A fentieken túl még a címkéket is be kéne vonni a buliba.