ugrás a tartalomhoz

Keresés Word, PDF dokumentumokban Linux szerveren

Anonymous · 2006. Dec. 21. (Cs), 13.44
Sziasztok!

Tud valaki jó megoldást dokumentumokban (elsősorban MsWord, PDF) való keresésre? Olyan érdekelne, amit lehetne PHP-ból is használni (Linuxos szerveren, dokumentumok is oda lennének feltöltve). Külső alkalmazás is jó, ami esetleg beindexelné és meg lehetne hivni. Kerestem a neten, találtam is néhány dolgot, kíváncsi lennék rá, hogy csinált-e már valaki hasonlót.

Köszi!
 
1

át kell alakitani és leindexelni

virág · 2006. Dec. 21. (Cs), 17.26
A keresés megoldható. Át kell alakítani a PDF és Word fájlokat textté és/vagy HTML-é. Ezeket logika szerint leindexelni (ahogy eltervezed, többféle módszer van, akár FULLTEXT index is használható), majd hozzákötni ezeket a fájlokhoz, tartalomhoz, utána már könnyű keresni bennük és a keresés eredménye rámutat majd fájlnevekre, amik megjeleníthetők.

Word-re Linux alatt az Antiword nevű program használható
PDF-re a PDFToHtml
2

hmm

TIV · 2006. Dec. 21. (Cs), 21.35
a google is minden pdf-et doc-ot eltárol html formában?
3

szerintem igen, sztem a google mindent "befal" amit elér :)

virág · 2006. Dec. 22. (P), 07.21
Szerintem igen, de nem kell, a lényeg itt más :) Az, hogy hozzájuss a word, pdf stb. fájlok tartalmához. Windowsos szerveren ezt másképpen csinálnám, ott írnék rá egy webszervizt, de Linux alatt más a helyzet (a környezet miatt). Lényeg, hogy ki tudd olvasni a fájlok tartalmát, mármint az "értelmes" szöveget, amit utána indexelhetsz, felbonthatod szavakra stb. - azt csinálsz vele, amit szeretnél, ami a feladat. Ha éppen keresésre kell, akkor úgy tárolod el, hogy keresni tudj benne. Más módszerek is lehetnek, de szerintem ez a legegyszerűbb, így akár XML-t is szolgáltathatsz belőle vagy akármilyen logikát kiszolgálhatsz stb. stb.
4

Beagle & Meta Tracker

Webappz · 2006. Dec. 22. (P), 10.43
A Beagle vagy a Meta Tracker. Még nem használtam őket, de a Beagle-nek több memória kell, míg a Meta Trackerre 4-6 MB is beéri. A Beagle-hez mono csomagokra van szükség és Glib-re, de van lehetőség arra, hogy sqlite-ban tárolja az információkat, amit biztos, hogy PHP-ból le tudsz kérdezni, csak hát ez kifejezetten a teljesítmény rovására megy. A Meta Trackert C-ben írták és szövegekben, képben, audio-video állományokban is képes keresni. Mindkettőhöz van grafikus felület.

Üdv: Webappz