utf8 kódolású szöveg karakterekre - jelekre - bontása
Üdv!
Egy többnyelvű weboldalt készítek munkahelyemen (magyar, angol, német, francia, lengyel, orosz, japán, spanyol), aminél a menüpontokat úgy készítettem el, hogy az első karakternek más a formázása, így a menüpontok szövegeit szét kell darabolnom első karakterre és a többi részre.
A gondom, hogy az UTF8 kódolású szövegnél az idegen jelek (ékezetes karakterek, cyril betűk, japán karakterek) nem egy byte-on helyezkednek el, így a szó szétbontása problémákba ütközik. Annál is inkább, mivel a latin2 karakterei 2 míg a bonyolultabb nem szabványos jelek 3 byte-on tárolódnak. Ezt a dilemmát sajnos az utf8_decode() függvény sem oldja fel.
Hogyan tudnám univerzálissá tenni a szövegbontást, hogy minden jelre tökéletesen működjön?
■ Egy többnyelvű weboldalt készítek munkahelyemen (magyar, angol, német, francia, lengyel, orosz, japán, spanyol), aminél a menüpontokat úgy készítettem el, hogy az első karakternek más a formázása, így a menüpontok szövegeit szét kell darabolnom első karakterre és a többi részre.
A gondom, hogy az UTF8 kódolású szövegnél az idegen jelek (ékezetes karakterek, cyril betűk, japán karakterek) nem egy byte-on helyezkednek el, így a szó szétbontása problémákba ütközik. Annál is inkább, mivel a latin2 karakterei 2 míg a bonyolultabb nem szabványos jelek 3 byte-on tárolódnak. Ezt a dilemmát sajnos az utf8_decode() függvény sem oldja fel.
Hogyan tudnám univerzálissá tenni a szövegbontást, hogy minden jelre tökéletesen működjön?
mb_string függvénykönyvtárral
http://hu.php.net/manual/en/function.mb-strcut.php
Köszi
Problem solved (bár én a mb_substr-t használtam) kösz még1szer