Abecední řazení

Kategorie: Nezařazeno (celkem: 23164 referátů a seminárek)

Informace o referátu:

Příbuzná témata



Abecední řazení

V různých seznamech, slovnících, encyklopediích apod. je potřeba řadit textové řetězce. K tomu se zpravidla používá abecední řazení, tzn. řazení textů založené na tradičním uspořádání příslušné abecedy. Pořadí písmen v abecedě zpravidla nemá žádný logický význam, jedná se pouze o ustálený zvyk. V různých jazycích se může toto uspořádání lišit, zvláště pro specifické prvky příslušného jazyka (znaky s diakritikou apod.).

Základní princip řazení – postupné porovnávání řazených řetězců po jednotlivých znacích, přičemž o seřazení rozhoduje vždy první nalezený rozdíl, se označuje jako lexikografické řazení.

Abecední řazení se používá ve slovnících, telefonních seznamech a mnoha dalších rozsáhlých souborech dat, neboť umožňuje efektivní hledání: pro vyhledání položky v n-prvkovém uspořádaném seznamu je potřeba pouze logaritmický počet kroků; srovnejte jednoduchost hledání v telefonním seznamu podle jména, podle kterého je seznam seřazen, oproti hledání podle telefonního čísla, při kterém je nutno seznam projít celý položku po položce.

Obsah

Základní latinka, anglická abeceda, ASCII

Základní forma latinky (anglická abeceda) obsahuje 26 písmen, která jsou řazena do následujícího pořadí:

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Toto řazení se odráží v uspořádání znaků v počítačových znakových kódováních, jako např. ASCII, EBCDIC, Unicode.

Používaná posloupnost znaků je následkem historického vývoje, není pro ni žádný další logický důvod. (Oproti tomu si lze představit např. systém podle fonetických významů hlásek, řadící samohlásky před souhlásky atd.)

Čeština

Pro češtinu upravuje abecední řazení norma ČSN 97 6030 z roku 1994 (která nahradila starší a složitější ČSN 01 0181 z roku 1977). Podle této normy se řadí celá slova (případně skupiny slov), přičemž za slovo se považuje řetězec písmen, číslic, znaku apostrof a spojovník či nezlomitelná mezera (s výjimkou situace, kdy jsou tyto dva znaky na začátku či konci řetězce); počet mezer oddělujících jednotlivá slova není podstatný. Základem řazení je opět abeceda, tentokrát i s českými znaky. Při řazení se však nejprve nepřihlíží ke všem diakritickým znaménkům, v prvním průchodu se bere ohled jen na následující standardizovanou abecedu:

A B C Č D E F G H Ch I J K L M N O P Q R Ř S Š T U V W X Y Z Ž

Ostatní znaky s diakritikou (např. Ď, Ň) se v této první fázi řadí stejně jako verze bez diakritiky (D, N). Pouze pokud aplikací této tzv. primární řadicí schopnosti nelze rozhodnout mezi řazením několika slov, bere se ohled na ostatní diakritická znaménka. Podle této tzv. sekundární řadicí platnosti se jinak stejné znaky s různými diakritickými znaménky řadí postupně v tomto pořadí:

  1. bez diakritických znamének,
  2. tečka nad písmenem,
  3. čárka,
  4. stříška,
  5. oblouček,
  6. háček (pokud nemá primární řadicí platnost),
  7. přehláska,
  8. dvě čárky,
  9. kroužek,
  10. ogonek,
  11. šikmá čárka,
  12. cédille.

Při řazení se vůbec nebere ohled na malá a velká písmena (slova lišící se jen velikostí písmen mohou být v libovolném vzájemném pořadí), což je zjednodušení oproti předchozí normě (která malá písmena řadila před velká). Číslice se řadí za všemi písmeny, přičemž se řadí podle své číselné hodnoty, apostrof je ještě za číslicemi. Spojovník a nezlomitelná mezera se řadí před celou abecedu.

Příklad řazení

  1. padá
  2. sál (s > p)
  3. sála (delší než předchůdce)
  4. sálá (á > a, se sekundární řadící platností)
  5. säla (ä > á, se sekundární řadicí platností)
  6. satira (t > l)
  7. si lehá (i > a)
  8. si nese (n > l)
  9. sílí (si je kratší než sílí)
  10. šála (š > s s primární řadící platností)
  11. šat (t > l)
  12. ta (t > š)

Neabecední písma

U znakových písem (např. čínské znaky či japonské kandži) nemůže existovat zapamatovatelné uspořádání všech znaků písma. Řazení proto funguje na mírně odlišném principu: u znaku se určí základní složka a počet tahů znaku. Znaky jsou primárně setříděny podle kořene, v rámci jednoho kořene se řadí vzestupně podle počtu tahů. Např. znak ? se řadí pod svůj kořen ? a v něm mezi třináctitahové znaky.

Tato metoda je evidentně složitější než abecední řazení latinky, proto se jako alternativní metoda často používá také ryze abecední řazení podle výslovnosti příslušného znaku: např. slovo Tokyo zapsané v kanji (??) se dá řadit podle posloupnosti abecedních znaků popisujících jeho výslovnost to-u-ki-jo-u (?????). Pro použití této alternativy je však potřeba znát výslovnost znaků, což použitelnost této metody omezuje.

Praktické problémy řazení

Při používání počítačů se abecední řazení objevuje v mnoha úlohách, řazení patří k jedné ze základních schopností databází. S řazením však je (a hlavně v minulosti bylo) spojeno mnoho praktických problémů. Zvláště starší programy nejsou schopny dodržovat jednotlivé národní zvyklosti a normy a jsou schopny řadit pouze anglické texty, resp. texty řadí přímo podle hodnot znaků v příslušném kódování. Pro české texty to znamená hlavně ignorování zvláštního postavení českého písmene Ch, které je v takovém případě řazeno ke znaku C, a řazení znaků s diakritikou až za všechna ostatní písmena abecedy a navíc v přeházeném pořadí.

V moderních programech je již většina národních zvyklostí (a požadavků příslušných norem) respektována, ovšem pro správné chování programu je nutno v konfiguraci nastavit správný jazyk a národní prostředí.



Nový příspěvek


Ochrana proti spamu. Kolik je 2x4?



Na-mobil.cz

Spřátelené weby

Přidat stránku k oblíbeným

Nejnovější v diskusi

Diskusní fórum »

TIP: Chcete zkrátit dlouho chvíli sobě nebo blízkému?
Klikněte na Puzzle-prodej.cz a vyberte si z 5000 motivů skladem!
TIP: Hračky a hry za dobré ceny?
Klikněte na Hračky obchod.cz a vyberte si z tisícovky hraček skladem!