ugrás a tartalomhoz

lekérdezés más oldal adatbázisából

zeniten · 2012. Jan. 6. (P), 12.21
Talán más fórumba kéne írnom - de épp azért írok mert tanácstalan vagyok a kiindulást illetően.
A probléma: aktuális góllövő lista beemelése egy Drupal oldalba a http://adatbank.mlsz.hu/foprog.asp?menu=p01_0002 helyről.
Csak a táblázat kéne úgy általam adott paraméterekkel lekérdezve (a paraméterek a bal oldalon látható legördülőkben látható kiválasztások közül egy-egy adott beállítás lenne)

<input type="hidden" value="1" name="p_lepes">
<input type="hidden" value="10" name="p_evad">
<input type="hidden" value="7" name="p_szervezet">
<input type="hidden" value="8741" name="p_verseny_id">
<input type="hidden" value="30" name="p_fordulo">

Azt könnyű látnom, hogy ezek a paraméterek - csak hogyan hívom meg azt a lekérdezést, ami az MLSZ oldalán a táblázatot generálja? Nem tudom valahogyan kilopni az oldalkódból az ehhez szükséges kódrészletet, amit betehetnék mondjuk egy iFrame-be?

Előre köszönöm.
 
1

Pl. curl segítségével

Hidvégi Gábor · 2012. Jan. 6. (P), 12.50
Pl. curl segítségével letöltöd a kérdéses oldalt, majd pedig valamilyen módon kinyered belőle az adatokat.

Nem közvetlenül a témához tartozik: Ez a baj a HTML-lel, hogy emberi fogyasztásra tervezték, és gépileg nehézkes a feldolgozása. Hiába van fenn eszméletlenül sok információ a neten, emiatt egyszerűen mi magunk korlátozzuk a kereséseinket, mert szinte végtelen mennyiségű adat keresésére rendkívül korlátozott a figyelmünk és a rászánható időnk.

Ha szemantikus alapú lenne a web, azaz az oldalak tartalmaznák azt az információt is, ami leírja az oldalon megjelenített adatok jelentését, jóval bonyolultabb gépi kereséseket indíthatnánk.

Nem mellesleg a fenti probléma megoldása is kb. egy kétsoros program lenne.
2

Felhasználási feltételek

Poetro · 2012. Jan. 6. (P), 13.02
Mielőtt csak úgy beemelsz adatokat egy másik oldalról, érdemes utána nézni, hogy mik az adatok felhasználási feltételei, azaz te szabadon betöltheted-e azokat egy másik oldalba. Ha nem, akkor fel kell venni a kapcsolatot a kérdéses oldal üzemeltetőjével, és engedélyt kell kérni erre.
Ha az engedély megvan, akkor curl, vagy más szerver oldali eszköz segítségével letöltöd az oldalt, feldolgozod, és a megfelelő részt kiíratod a te oldaladon.
4

+1

Pepita · 2012. Jan. 6. (P), 19.53
Úgy tudom - de nem 100% !!! -, hogy ha a forrásoldalon (bármelyik lapján) nincs kiírva semmilyen copyright, akkor a rajta szemmel látható tartalmakat felhasználhatod, de ki kell írjad jól láthatóan: "forrás: http://innenvettem.valami.hu".
7

Nem

janoszen · 2012. Jan. 9. (H), 10.45
Ez így nem igaz. Híreket lehet bizonyos esetben utánközölni.
10

Hírek

Pepita · 2012. Jan. 10. (K), 07.29
Pont a hírekre (és egyéb cikkekre) és a fotókra 100%-ban igaz amit írtam.
Még akkor is "illik" (kell) megjelölni a forrást, ha átírod a cikket. Ha pl. nem voltál az iszapkatasztrófánál, de olvasol róla egy MTI-s cikket, ami alapján írsz egy sajátot, még akkor is meg kell jelöljed forrásként az MTI-t. Minden hírt és webhelyen lévő fotót szabad így "utánközölni", csak az olyat nem, ahol fel van tüntetve egyéb rendelkezés.
Híreket lehet bizonyos esetben utánközölni.
Forrásmegjelölés nélkül nemigen. Csak az olyat, amelyikhez - vagy a tartalmazó honlapra - odaírták, hogy "szabadon, korlátozások nélkül terjeszthető" vagy hasonló. Előfordul, hogy csak pl. az Impresszum oldalon van valami erről. De ha belegondolsz: a legtöbb hírekkel rendelkező honlapot épp a hírekért látogatják. Akkor miért "ajándékozná" el jelöletlenül bárki is a híreit?! "Legalább írd oda, hogy honnan loptad!"
Másik szemszög: itt pont nem az általános hírekről kérdezett a témaindító... Azért is írtam, hogy nem 100%, ez már "spécibb" adat. Az a biztos, ha rákérdez, mint Poetro is írta.
3

Vagy megkérdezheted elsőnek

Karvaly84 · 2012. Jan. 6. (P), 14.44
Vagy megkérdezheted elsőnek azt is, hogy van e nekik egy API-juk ilyen esetre. Vagy utána jársz ők melyik API-t használják, mert pl. lehet, hogy van egy SOAP server valahol amit ők is használnak. Ez lehet hogy fizetős, de lehet, hogy nem.
5

RSS?

Pepita · 2012. Jan. 6. (P), 19.55
Nincs az oldalnak hírcsatornája?
Abból könnyebb kiszedni az adatokat és szokott bennne lenni (cc) is.
6

Nagyon köszönöm a válaszokat

zeniten · 2012. Jan. 9. (H), 09.18
Nagyon köszönöm a válaszokat - bár ezek alapján nem igazán jutottam közelebb a célhoz.

Hidvégi Gábor: igen kétsoros program kéne, ezt kérdeztem, ehhez nem tudom honnan közeledjek. Másolni lehet hetente - automatikus megoldás lett volna megfelelő.
A CURL dokumentáció alapján nem világos hogy jelszavak nélkül milyen olyan adatot tudhatnék meg vele amivel megoldhatnám a dolgot. Szóval milyen paraméterezésre gondolál ami segíthetne?
A html elmélkedés helyes - de úgy tűnik ez a rossz irány marad, mint Néphagyomány..
Poetro: a jogi oldaltól nem tartok. A curl-t ti már használtátok ilyenre? Nem tudom mit keressek a kódban amit esetleg onnan kapok.
Karway: Nem válaszoltak... Egy éve írtam nekik, most merült fel újra a dolog, újra próbálom, hátha már más ül annál a postafióknál.
Pepita: a jogi dologban én is arra gondoltam, hogy megadom a forrást, a hírcsatorna... Hát igen sok megoldást el tudnék képzelni, ha egy országos szövetség nevében rendelnék vagy készítenék weboldalt, ami az alszervezeteket segíti információval...
8

Linuxos szervereken cron

Hidvégi Gábor · 2012. Jan. 9. (H), 10.49
Linuxos szervereken cron segítségével lehet feladatokat automatizálni.
9

cURL

Poetro · 2012. Jan. 9. (H), 10.54
cURL-t én már szinte mindenre használtam. Segítségével be tudsz jelentkezni, és további oldalakat lekérni. Természetesen ekkor majd kell sütiket is kezelned a cURL-ben, de ezt jórészt automatizálja neked.
11

Hoppá

Pepita · 2012. Jan. 10. (K), 08.04
Úgy tűnik nagyon félreértetted, mire írtam az RSS-t. Arra gondoltam, azt nézd meg: mi van a "lekérdezendő" oldal RSS-ében (már ha van neki). Ahol viszonylag sűrűn változó hírjellegű adatok vannak, szokott lenni hírcsatorna is. (A tartalomkezelőre épülő oldalaknak szintén.) Ebből pedig könnyebben fel tudod dolgozni az adatokat, mint a HTML-ből, és ehhez írtam, hogy szoktak beleírni copyright-ot is, tehát kérdezősködnöd sem kell. Egyszer megnézed (szemmel), hogy mi a copy, aztán kerítesz/írsz hozzá feldolgozót - és kész vagy. A hírcsatornák sokkal ritkábban változnak (szerkezetileg), mint a lapok HTML-je, tehát valószínűleg hosszabb ideig fog működni, ha RSS-t olvasol "gépileg". Ha meg ennek az oldalnak nincs RSS-e, akkor én még szétnéznék, hogy u.ezt az adatot nem tudom-e másik xy site RSS-éből kivenni.
12

rss

zeniten · 2012. Jan. 10. (K), 09.49
igen, itt talán hanyagabbul fogalmaztam, de a szolgáltatónak írt levélben pontosabban leírtam mi kéne - persze nem hiszem, hogy válaszolnak, hiszen fizetést kapnak érte nem is keveset (gondolom)... És hát amit mondtam azért dolgozni kéne - mert alaposan átnéztem és nincs rss. Nem is értem - hiszen az ingyenes cms-ek mindegyikébe már be van építve...
De jó ötlet a más oldal keresése is.
Köszönöm.
13

Hajrá,

Pepita · 2012. Jan. 10. (K), 10.57
most néztem vissza, hogy góllövő lista az adat, arra van esély néhány oldalt találni... Ha itt (ahol nézted) nincs RSS, abból én arra következtetnék, hogy pénzért akarják az adatot/hírt adni, de akkor lenne a lapra írva ilyesmi és/vagy gyorsan válaszolnának a megkeresésedre. Fene se érti.

Szerk.:
Megnéztem a lapot, hát én kapásból nem vennék innen adatot, MLSZ ide vagy oda. Azért, mert:
- kódolással eleve bajod lehet (windows-1250);
- úgy tűnik ezt egy "barátos cég" csinálta Jópénzé'+ÁFA, nem tartalomkezelős oldal, stb.;
- a táblázatos design, nem valid HTML, js és vbscript össze-vissza keverése számomra elég slendrián munkát mutat -> nem bízok benne.
Viszont hátha van vmi leszedhető XML:
function evad_szervezet_p01_menu_evad_szervezet_verseny_fordulo()
  {
  xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
  xmlhttp.open("GET","/_silent/silent_evad_verseny_v1.asp?p_evad=" + document.lap.d_evad.value + "&p_szervezet=" + document.lap.d_szervezet.value,false);
  xmlhttp.send();
...
Ezeket próbáld megfejteni, leszedni az xml-t előbb "kézzel", aztán lássuk mi van bent. Ez viszont már valószínűleg nem lesz "szokványos" hírcsatorna-formátumú (rss, atom v. rtf) xml, hanem vmi egyedi. Ha tudsz vele kezdeni vmit, és a teljes honlapot átnézve sem találsz tiltó utalást, és nem válaszolnak a megkeresésedre, akkor sztem használd fel nyugodtan, a forrás url kiírásával.
14

iframe

zeniten · 2012. Jan. 10. (K), 16.14
Ó köszönöm a megértést, és a további ötletet - közben én is rá tudtam nézni kicsit.
Azt hiszem, mivel én nem vagyok Jópénzésrtpluszáfa, ezért a kódfejtés helyett a kódötletlopás jobban illik a projectbe...

Tehát az Általad adott "más oldalak" tippen felbuzdulva vad keresésbe kezdtem, és találtam is egy nagyon egyszerű és kényelmes - bár nem túl szép - megoldást...
Az iframe tag-be írják az általam is megtalált paraméterek konkrét értékeit. Így ugyan az összes hülye reklám is belinkelődik, cserébe igen egyszerű megoldás ilyenre gondoltam, csak nem tudtam a paraméterezést.
Íme pl. a Fejér Megyei felnőttek 15-fordulója:
<iframe src="http://adatbank.mlsz.hu/foprog.asp?menu=p01_0001&amp;p_evad=10&amp;p_szervezet=7&amp;p_verseny_id=9042&amp;p_fordulo=15" marginwidth="0" marginheight="0" border="0" frameborder="0" height=420" scrolling="yes" width="400"></iframe>
Viszont amit írtál az jó vonal, most már tudom merre menjek tovább, ha lesz igény és energia ennek a normális megoldására.
Amúgy tényleg vicces, hogy az ingyenes keretrendszerekben írt oldalak jó része messze lehagyja a programozott, otromba portálokat. Legutóbb a Moodle kontra CooSpace rendszer esetében volt részem ebben (az utóbbi egyszerűen rosszul van megtervezve, így a hibák egy része "javíthatatlan" - ezt a support írta....)
15

ezt nézted már?

Karvaly84 · 2012. Jan. 10. (K), 20.28