Áttérjek-e utf-8-ra a jelenlegi iso-8859-2 kódolásról a weboldalamon?
Sziasztok!
A (közel)jövőben tervezem átépíteni a weboldalamat és felmerült bennem a gondolat, hogy a karater kódolást változtassam-e? Segítsetek nekem válaszokat kapni:
- Miért érdemes utf8-at használni?
- Kell utf8-at használni?
- Ha a jelenlegi oldalam iso-8859-2 és mysql-ből épül latin2-es karakter szettel, akkor mire kell figyelnem az átépítés során, hogy a tartalom használható maradjon?
- Jelenleg iconv()-ot használok szerveren az AJAX-os kérésekkel utazó adatokhoz, továbbra is jó lesz ez nekem?
- Az oldalam által küldött levelek (SwiftMailer a barátom) igényelnek körültekintést?
Kíváncsian várom válaszaitokat,
s_volenszki
■ A (közel)jövőben tervezem átépíteni a weboldalamat és felmerült bennem a gondolat, hogy a karater kódolást változtassam-e? Segítsetek nekem válaszokat kapni:
- Miért érdemes utf8-at használni?
- Kell utf8-at használni?
- Ha a jelenlegi oldalam iso-8859-2 és mysql-ből épül latin2-es karakter szettel, akkor mire kell figyelnem az átépítés során, hogy a tartalom használható maradjon?
- Jelenleg iconv()-ot használok szerveren az AJAX-os kérésekkel utazó adatokhoz, továbbra is jó lesz ez nekem?
- Az oldalam által küldött levelek (SwiftMailer a barátom) igényelnek körültekintést?
Kíváncsian várom válaszaitokat,
s_volenszki
Egyszerűbb lesz az életed
AJAX-nál a BOM karakterekre ügyelj különösen, mert azok meg tudnak tréfálni.
Én nem sírom vissza azokat az időket, amikor imádkoznom kellett, hogy egy-egy ékezetes karakter megfelelően jelenjen meg mindenhol. :) És a különböző konvertálásokat sem hiányolom. :)
utf8
mysql5 magyar egybevetés
http://weblabor.hu/blog/20070104/mysqlhucollation
Nem tűnik nem jónak
Az általad említett blogbejegyzésnél hibásnak vélik, hogy az [a-á], [a-Á], [á-A], [A-Á] betűket a MySql rendezés azonosnak tekinti. A Magyar Tudományos Akadémia szerint is azonosak.
Az abc-be sorolás egyebként ennél sokkal bonyolultabb. Lásd: Helyesírási szabályzat. Ezért egészen biztos, hogy a betűrendbe sorolás nem mindig helyes, de nem azért, ami a blogbejegyzésben felemlítésre került, hanem mert elég bonyolúlt, amit nem könnyű implementálni.
Például: A kettőzött betűket két külön betűre kell bontani, ccs - cscs, a rendezéshez. De ugye, ha a szóban nem cscs szerepel, hanem egy c és egy cs betű, akkor az nem cscs, hanem ccs. Aminek eldöntéséhez már mesterséges inteligencia kellene.
teljesen igazad van :)
Merész és meggondolatlan leszek, de szerintem a szoftverek nem butábbak nálunk embereknél, kíváncsi lennék arra, hogy 100 emberből hány ismeri az ABC-be sorolás pontos szabályait... Persze nem ér könyből lesni, hanem csak úgy frappánsan, azonnal rávágósan :). Szerintem ha 5 igen (hiba nélkül), akkor elégedettek lehetünk... Ezzel arra akartam kilyukadni, hogy rendezésnél ha a felhasználó egy listát nézeget teljesen elégedett azzal, ha az A betű után nem a T jön, hanem legalább a B, hiszen ő sem a helyesírási kézikönyvet lapozgatja közben.
:)
Persze ettől egy szoftverben meg lehet írni egyszer rendesen és akkor mi kényelmesen felejthetünk tovább (mint a kézírást).
Persze, hogy igazam van! ;)
Igen, merész és meggondolatlan kijelentés, mert egyértelműen nem igaz. Elkerülted azt a nyilvánvaló dolgot, hogy a szoftvereket is emberek készítik.
Maga a magyar rendezési szabályok nem triviálisak. Fejből egészen biztos sokan nem tudnánk felsorolni minden szabályt. Régebben csináltam magyar rendezést végző függvényt, akkor átnéztem a szabályokat. Erősen barokkos túlzás lenne, ha azt mondanám, hogy nem volt semmi új, a rendezési szabályok átolvasásakor. De egyértelmű, hogy ha ír valamit az ember, akkor utánanéz valamennyire.
Maradhatunk annyiban esetleg, hogy nem felesleges normális programokat készítenünk. Mármint kiszámíthatóan működő programokat. :)
kicsit off
Ha az emberek nem tudnak kiigazodni egy nyelvtani vagy ehhez hasonló (pl. jelen esetben a rendezési) szabályon, pedig lehetne egyszerűbbet is csinálni (valószínűleg), olyat amin könnyebb lenne kiigazodni, akkor nem az emberekkel, vagy a szoftverekkel van gond, hanem a szabályozással. Nem az emberek buták, vagy a szoftverek csinálják rosszul, hanem a nyelvészek végezték rosszul a munkájukat.
(Persze nem néztem át a témát és biztosan lennének ellenérvek, de tekintve a mai viszonyokat szerintem lenne egyszerűbb rendezési szabály is, kevesebb kivétellel, amit mindenki - ember és szoftver is - könnyebben értelmezhetne)
(Ha pedig normálisan értelmezzük, hogy virág mit akart mondani azzal, hogy "...szerintem a szoftverek nem butábbak nálunk embereknél..." akkor virággal értek egyet)
Nagyon off
Néhány pontosítás, ami eszembe jutott a hozzászólást olvasva:
A nyelvi szabályok egy része előbb keletkeztek, előbb lettek, mint ahogy a nyelvészek megfogalmazták volna őket. - Ahogy a fizikai törvények attól függetlenül léteznek, hogy a fizikus felfedezte volna őket vagy sem.
A másik részük meg "gyártott" szabály, ami mögött remélhetőleg valamiféle ok is szerepel.
Így eléggé elhamarkodottnak tűnik azt kívánni, hogy akkor gyártsanak könnyebb szabályokat, mer azokat mindenki meg fogja érteni.
mégoff
Ha tudsz valami fórumot, ahol folytathatjuk, ideírhatsz egy linket, nem akarom teleoffolni a topicot.
Bár azt hiszem, túl van tárgyalva, mindketten elmondtuk amit akartunk, köszi a beszélgetést.
Nyomós érv...
mérlegelni itt is kell
Üdv,
Felhő
nyelvektől függ
Outlook
2008!
Mármint mi?
Sokat gondolkoztam és igazából olyan helyzetbe kerültem, ami a legrosszabb! Ugyan is a jelenlegi ISO-8859-2 kódolással nekem semmiféle problémám nem akadt, AJAX-szal volt kis gebasz, de azt az iconv() helyrerakta. Ennek ellenére megfordult a fejemben (látom, egyre többen használják), hogy ha már amúgy is átdolgozom a kódomat, miért is ne lehetne UTF-8 az oldalam kódolása!
Most ott tartok, hogy gyűjtöm az előnyöket, hátrányokat és úgy áll a helyzet, hogy nem látom (vagy nem értem) miért lesz jobb az UTF-8! Egy kicsit olyan önsanyargatós érzés, elkezdeni egy átállást úgy, hogy a meglévő "jól" működőt szándékosan olyanra cserélem, ahol keresni kell a kiskapukat!
Segítenétek megérteni, hogy miért lesz jobb!
miért lesz jobb
Egy másik alkalommal az eredetileg iso-ra kódolt filejaimat Macre költözéskor a gép átkódolta, ahogy neki tetszett, na az igazi rémálom volt kijavítani. Azt utf az meg mindenhol utf.
Persze nem kötelező ha kiszolgálja az igényeidet az iso és már fut vele a rendszered, akkor használd azt. Később ha kell jó eséllyel 3 perc alatt konvertálhatod mindenestől. Ha újat kezdesz akkor meg kezd utf-fel.
egyetértek
az új rendszereknél tényleg fölösleges vitatkozni, de nem az volt a kérdés.. :)
Azt hiszem, értem!
Mivel az oldalam kizárólag kis hazánk népének szól és nem látom értelmét (üzletileg) idegen nyelvre lefordítani - tehát üzemszerűen nem célja, a magyar ABC karakterein kívül kiszolgálni más karatereket, így marad az ISO, ennek ellenére úgy gondolom, okulásképpen készítek egy "tanulmány oldalt" UTF-8-ban!
Nem értem én ezt..
szóval itt van honlap:
eme honlap
ubuntu alatt és vim -el készült, és szépen is működött minden. Felrakatam a tárhelyre.
És íme, ilyen csúf, az automatikus felismerés nem ismeri fel az utf-8 at, már az adatbázisból jövö termékek viszont normálisan jelennek meg, sőt azok a menüpontok is, melyeket dinamikusan hozok létre az adatbázisból (ezek a "termékek" menüpont alatt vannak.
szóval miért? Nálam teljesen jó volt, és megnéztem, a fájl set fileencoding direktívája vim alatt utf-8 at ad vissza, tehát a fájl kódolása jó. Ha adok hozzá headert , ha nem, a végeredmény nem változik.
Szóval ha tudnátok magyarázatot eme furcsa hibridre, nagyon örülnék neki!
Köszönöm!
Új kérdés új téma
Nézd meg a response hedereket (mondjuk a firefox developer tollbarjának segítségével, vagy akár telnettel). Lelövöm a pojént, de a szerver iso8859-2 -t küld a fejlécben.
Nincs új téma, én voltam béna