ugrás a tartalomhoz

Szemantikus kutatás-fejlesztés

Hidvégi Gábor · 2011. Szep. 14. (Sze), 09.37
Egy ideje már borzolom a Weblabor látogatóinak idegeit az elméletemmel, hogy valami nincs rendben az internettel. Ennek röviden a lényege, hogy a mostani, dokumentum alapú web nem túl szofisztikált, és a jelenlegi szöveges alapú információkeresés az emberi nyelv összetettsége miatt körülményes és pontatlan. Részletesebben ezt a szemantikus blogon fejtem ki, ahol rámutatok a további problémákra.

Emiatt kezdtem el a szemantikus web témakörével foglalkozni, amely atomi szintre bontja a weboldalt, a tartalmat különböző tulajdonságokkal felruházott objektumokból építi fel, és ezen objektumok közti kapcsolatok felvázolásával lehetővé teszi az információhalmaz sokkal pontosabb leírását, valamint megtalálásának lehetőségét. Magyarra lefordítva ez annyit jelent, hogy például egy ingatlanokkal foglalkozó oldal ingatlan-objektumokból áll, az objektumok pedig különböző tulajdonságokkal vannak felruházva, például terület, szobák száma, közművesítés és így tovább.

A problémakör természetesen másokat is érdekel, de az eredményekkel elégedetlen vagyok. Az egyik ilyen szervezet az internetes szabványokkal foglalkozó mammut, a W3C, amely meglátásom szerint túl nagy és ormótlan, és nagyon lassan dolgozik, a jelenlegi divattéma, a HTML 5-ös verziójának megjelenésére tizenöt évet kell várni a 4-es óta.

A témával foglalkozó másik társaság a Google-Microsoft-Yahoo keresők szövetsége, akik a schema.org oldalon egy viszonylag jó kezdeményezést indítottak, amivel viszont több gond van, a fontosabbak: 1, a kezdeményezés zárt, az adatok feldolgozásának módja nem nyilvános, erről bővebben Jeni Tennison angol nyelvű cikkében lehet olvasni, 2, bár a fenti cégek tagjai a W3C-nek, ez egy teljesen önálló kezdeményezés, ami profitorientált vállalatoknál nem biztos, hogy a rajtuk kivülállók (azaz az internetet használó többszázmillió ember) érdekeit szolgálja leginkább.

A fentebb vázolt problémák megoldására kidolgoztam egy rendszert, ami meglevő technológiák felhasználásával keretet biztosít strukturált adatok tárolására és megjelenítésére, mindezt úgy, hogy visszafele kompatibilis, azaz minden böngésző és kereső fel tudja őket dolgozni, de előrefele is, mert az adatok gépi kinyerése és feldolgozása jóval egyszerűbb, mint például a HTML esetében.

Itt viszont elérkeztem arra a pontra, amikor a feladat kezd szerteágazni, és idő hiányában nem tudok minden aspektusával foglalkozni, ezért úgy döntöttem, hogy további érdeklődőket vonok be.

A célom egy nyílt rendszer elkészítése, ami
1, megkönnyíti a fejlesztők és tartalomszolgáltatók munkáját az adataik szemantikával, jelentéssel való ellátásához
2, lehetőséget biztosít újfajta keresők létrehozására.
Az eredmények nyilvánosak, a közösséget szolgálják, a résztvevők közvetlenül anyagiakban nem profitálnak az elvégzett munkából.

A feladatkörök:
1, objektumok közti kapcsolatok minél egyszerűbb felírása (web ontológia)
2, [webalapú] html szerkesztőkhöz, szövegszerkesztőkhöz kiegészítő írása, ami támogatja a tartalom szemantikával való felruházását, valamint az objektumok közti összefüggések felírását
3, az objektumok többnyelvű rendszerének kidolgozása
4, az objektumhierarchia felépítése (pl. repulőtér -> repülőgép -> pilótafülke -> pilóta)
5, adatok és összefüggések összegyűjtése a szemantikus tartalommal rendelkező oldalakról, valamint speciális keresők készítése

Amennyiben szívesen résztvennél bármelyik feladatkör kutatás-fejlesztésében, vagy bármilyen kérdésed van, keress meg a gabor ##kúkac## hidvegi @@pont@@ net címen.