The Unicode® StandardVersion 10.0 – Core Specification
To learn about the latest version of the Unicode Standard, see http://www.unicode.org/versions/latest/.
Many of the designations used by manufacturers and sellers to distinguish their products are claimedas trademarks. Where those designations appear in this book, and the publisher was aware of a trade-mark claim, the designations have been printed with initial capital letters or in all capitals.
Unicode and the Unicode Logo are registered trademarks of Unicode, Inc., in the United States andother countries.
The authors and publisher have taken care in the preparation of this specification, but make noexpressed or implied warranty of any kind and assume no responsibility for errors or omissions. Noliability is assumed for incidental or consequential damages in connection with or arising out of theuse of the information or programs contained herein.
The Unicode Character Database and other files are provided as-is by Unicode, Inc. No claims aremade as to fitness for any particular purpose. No warranties of any kind are expressed or implied. Therecipient agrees to determine applicability of information provided.
© 2017 Unicode, Inc.
All rights reserved. This publication is protected by copyright, and permission must be obtained fromthe publisher prior to any prohibited reproduction. For information regarding permissions, inquireat http://www.unicode.org/reporting.html. For information about the Unicode terms of use, pleasesee http://www.unicode.org/copyright.html.
The Unicode Standard / the Unicode Consortium; edited by the Unicode Consortium. — Version10.0. Includes bibliographical references and index. ISBN 978-1-936213-16-0 (http://www.unicode.org/versions/Unicode10.0.0/) 1. Unicode (Computer character set) I. Unicode Consortium. QA268.U545 2017
ISBN 978-1-936213-16-0Published in Mountain View, CAJune 2017
987
I Index
The index covers the contents of this core specification. To find topics in the Unicode Stan-dard Annexes, Unicode Technical Standards, and Unicode Technical Reports, use the searchfeature on the Unicode website.
For definitions of terms used, see the glossary on the Unicode website. To find the codepoints for specific characters or the code ranges for particular scripts, use the CharacterIndex on the Unicode website. (See Section B.3, Other Unicode Online Resources.)
Aabbreviation, Coptic . . . . . . . . . . . . . . . . . . . . . . . . 314abjads . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260, 363abstract character sequences
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90abstract characters . . . . . . . . . . . . . . . . . . . . . . . . . . 29
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90abugidas . . . . . . . . . . . . . . . . . . . . . . 261, 262, 445, 615accent marks see diacriticsaccented characters
encoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Latin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293normalization . . . . . . . . . . . . . . . . . . . . . . . . . . 208
accounting numbers, ideographic . . . . . . . . . . . . 178acrophonic numerals . . . . . . . . . . . . . . . . . . . 207, 311Adlam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 750–751
reference materials . . . . . . . . . . . . . . . . . . . . . . 950Aegean numbers . . . . . . . . . . . . . . . . . . . . . . . . . . . 344Africa
scripts of . . . . . . . . . . . . . . . . . . . . . . . . . . 729–751Afrikaans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298Ahom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612–613
reference materials . . . . . . . . . . . . . . . . . . . . . . 950Ainu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709Aiton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630Alchemical Symbols . . . . . . . . . . . . . . . . . . . . . . . . 828
reference materials . . . . . . . . . . . . . . . . . . . . . . 950Algonquian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756Ali Gali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528aliases
character name . . . . . . . . . . . . . . . . . . . . . . 88, 183informative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 880normative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 881property . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164property value . . . . . . . . . . . . . . . . . . . . . . . . . . 164
allocation areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45allocation of encoded characters . . . . . . . . . . . . 44–52Alphabetic (informative property) . . . . . . . . . . . . 190
alphabets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .260European . . . . . . . . . . . . . . . . . . . . . . . . . 291–339mathematical . . . . . . . . . . . . . . . . . . . . . . 787–791
alternate format characters (deprecated) . 194, 854–855Americas
scripts of . . . . . . . . . . . . . . . . . . . . . . . . . . 753–761Amharic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .730Anatolian hieroglyphs . . . . . . . . . . . . . . . . . . 443–444
reference materials . . . . . . . . . . . . . . . . . . . . . . .950Ancient Symbols . . . . . . . . . . . . . . . . . . . . . . . . . . .831angle brackets (U+2329 and U+232A)
deprecated for technical publication . . . . . . . .815Annexes, Unicode Standard (UAX) . . . . . . xxxiii, 901
as components of Unicode Standard . . . . . . . . .79conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .85list of . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .85
annotation characters . . . . . . . . . . . . . . . . . . 867–869use in plain text discouraged . . . . . . . . . . . . . .868
ANSI/ISO Cwchar_t and Unicode . . . . . . . . . . . . . . . . . . . .202
apostrophe (U+0027) . . . . . . . . . . . . . . . . . . . . . . .276Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371–393
digits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .794Arabic-Indic digits . . . . . . . . . . . . . . . . . . . . . 375–376
signs used with . . . . . . . . . . . . . . . . . . . . . . . . . .377ArabicShaping.txt . . . . . . . . . . . . . . . . . 379, 384, 399Aramaic . . . . . . . . . . . . . . . . . . 416, 445, 528, 555, 560areas of the Unicode Standard . . . . . . . . . . . . . . . . .45ARIB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .824Armenian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322–323arrows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811–812ASCII
characters with multiple semantics . . . . . . . . .266transparency of UTF-8 . . . . . . . . . . . . . . . . . . . .36Unicode modeled on . . . . . . . . . . . . . . . . . . . . . . .1zero extension . . . . . . . . . . . . . . . . . . . . . .202, 913
Assamese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .469assigned code points . . . . . . . . . . . . . . . . . . . . . .11, 30Athapascan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .756
Index 988
atomic character boundaries . . . . . . . . . . . . . . . . . 220Avestan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
reference materials . . . . . . . . . . . . . . . . . . . . . . 951
BBalinese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665–670
reference materials . . . . . . . . . . . . . . . . . . . . . . 951Bamum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745–746
reference materials . . . . . . . . . . . . . . . . . . . . . . 951Bangla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469–474base characters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59ordered before combining marks . . . . . . 222, 330
Basic Multilingual Plane (BMP) . . . . . . . . . . . . . 1, 44allocation areas . . . . . . . . . . . . . . . . . . . . . . . . . . 49representation in UTF-16 . . . . . . . . . . . . . . . . . 36
Basque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298Bassa Vah . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747
reference materials . . . . . . . . . . . . . . . . . . . . . . 951Batak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
reference materials . . . . . . . . . . . . . . . . . . . . . . 952benefits of Unicode . . . . . . . . . . . . . . . . . . . . . . . . . . 1Bengali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469–474Bhaiksuki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566–567
reference materials . . . . . . . . . . . . . . . . . . . . . . 952Bidi Class (normative property) . . . . . . . . . . . . . . 173Bidi Mirrored (normative property) . . . . . . . . . . 180Bidi Mirroring Glyph (informative property) . . . 181BidiMirroring.txt . . . . . . . . . . . . . . . . . . . . . . . . . . 181Bidirectional Algorithm, Unicode . . . . . . . . . . 53, 84bidirectional ordering . . . . . . . . . . . . . . . . . . . . . . . 20
controls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 851bidirectional text . . . . . . . . . . . . . . . . . . . . . . . . . 53, 84
Middle Eastern scripts . . . . . . . . . . . . . . . . . . . 363nonspacing marks in . . . . . . . . . . . . . . . . . . . . 225punctuation in . . . . . . . . . . . . . . . . . . . . . . . . . 265
big-endian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Bihari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465binary comparison and sort order
caution for UTF-16 . . . . . . . . . . . . . . . . . . . . . . 36UTF differences . . . . . . . . . . . . . . . . . . . . 233, 235UTF-8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
block . . . . . . . . . . . . . . . . . . . . . . . . . . 45, 90, 259, 875headers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887
BMP see Basic Multilingual PlaneBNF (Backus-Naur Form) . . . . . . . . . . . . . . . . . . . 895BOCU-1 see UTN #6, BOCU-1 MIME-Compatible
Unicode CompressionBodhi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517Bodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464BOM (U+FEFF) . . . . . . . . . 40, 67, 131–134, 865–867
Bopomofo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705–707boundaries, text . . . . . . . . . . . . 61, 191, 219–220, 230
see also UAX #14, Unicode Line Breaking Algo-rithm
see also UAX #29, Unicode Text Segmentationboustrophedon . . . . . . . . . . . . . . . . . . . . . . . . . .53, 353box drawing symbols . . . . . . . . . . . . . . . . . . . . . . . .819Brahmi . . . . . . . . . . . . . . 445, 555, 556–559, 560, 617
reference materials . . . . . . . . . . . . . . . . . . . . . . .952Braille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764–765Breton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298Buginese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663–664Buhid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .660Bulgarian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .316bullets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .279
numeric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .795Burmese see MyanmarByelorussian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .316byte order mark (BOM) (U+FEFF) . 40, 67, 131–134,
865–867byte ordering
changing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .83
byte serialization . . . . . . . . . . . . . . . . . . . . . . . . .40, 67Byzantine Musical Symbols . . . . . . . . . . . . . . . . . .771
CC language
wchar_t and Unicode . . . . . . . . . . . . . . . . . . . .202C0 and C1 control codes . . . . . . . . . . . . . .31, 189, 840Cambodian see KhmerCanadian Aboriginal Syllabics . . . . . . . . . . . 756–757
reference materials . . . . . . . . . . . . . . . . . . . . . . .952candrabindu . . . . . . . . . . . . . . . . . . . . . . . . . . .467, 590canonical composite characters
see canonical decomposable characterscanonical composition algorithm . . . . . . . . . . . . .139canonical decomposable characters
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .118canonical decomposition . . . . . . . . . . . . . . . . . . . . .63
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .117mappings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .116
canonical equivalencedefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .118nonspacing marks . . . . . . . . . . . . . . . . . . . . . . .227
canonical equivalent character sequencesconformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
canonical mappingssee canonical decomposition mappings
canonical ordering algorithm . . . . . . . . . . . . . . . . .138canonical precomposed characters
see canonical decomposable charactersCantonese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .688
Index 989
capital letters . . . . . . . . . . . . . . . . . . . . . . 166, 238, 291Carian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
reference materials . . . . . . . . . . . . . . . . . . . . . . 953carriage return (U+000D) (CR) . . . . . . . . . . 211, 841carriage return and line feed (CRLF) . . . . . . . . . . 211case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
and text processes . . . . . . . . . . . . . . . . . . . . . . . . 12beyond ASCII . . . . . . . . . . . . . . . . . . . . . . . . . . 239camelcase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241case folding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242case operations (conformance) . . . . . 85, 153–159case operations and normalization . . . . . . . . . 244case operations, reversibility . . . . . . . . . . . . . . 241cased (definition) . . . . . . . . . . . . . . . . . . . . . . . 154case-insensitive comparison . . . . . . 158, 233, 242casing context (definition) . . . . . . . . . . . . . . . 154conversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157European alphabets . . . . . . . . . . . . . . . . . . . . . 291exceptional Latin pairs . . . . . . . . . . . . . . . 295, 299Georgian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324lowercase . . . . . . . . . . . . . . . . . . . . . . 166, 238, 291mapping tables . . . . . . . . . . . . . . . . . . . . . . . . . 198mappings . . . . . . . . . . . . . . . . . . 153, 168, 238–240mappings noted in code charts . . . . . . . . . . . . 884titlecase . . . . . . . . . . . . . . . . . . . . . . . . . . . 166, 238Turkish I . . . . . . . . . . . . . . . . . . . . . . . . . . 240, 295uppercase . . . . . . . . . . . . . . . . . . . . . 166, 238, 291see also default case
Case (normative property) . . . . . . . . . . . . . . 166, 238CaseFolding.txt . . . . . . . . . . . . . . . . . . . . . . . . 168, 242caseless letters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299Catalan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297Caucasian Albanian . . . . . . . . . . . . . . . . . . . . . . . . 358
reference materials . . . . . . . . . . . . . . . . . . . . . . 953cedilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294CEF see character encoding formsCES see character encoding schemesChakma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
reference materials . . . . . . . . . . . . . . . . . . . . . . 953Cham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654–655
reference materials . . . . . . . . . . . . . . . . . . . . . . 953character encoding forms (CEF) . . . . . . . . 33–39, 913
see also Unicode encoding formscharacter encoding model . . . . . . . . . . . . . . . . . 33, 42
see also UTR #17, Unicode Character Encoding Model
character encoding schemes (CES) . . . . . . . . . . 40–43see also Unicode encoding schemes
character encoding standardscoverage by Unicode . . . . . . . . . . . . . . . . . . . . . . 3
Character Index . . . . . . . . . . . . . . . . . . . . . . . . . . . 902character literals, Unicode
code point notation U+ . . . . . . . . . . . . . . . . . . 896
character names . . . . . . . . . . . . . . . . 88, 182–188, 917aliases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88, 183conventions . . . . . . . . . . . . . . . . . . . . . . . . . . . .893for CJK ideographs . . . . . . . . . . . . . . . . . . . . . .889for control codes . . . . . . . . . . . . . . . . . . . .187, 189in code charts . . . . . . . . . . . . . . . . . . . . . . . . . . .880matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .182
character propertiessee propertiessee also individual properties, e.g. Combining Class
character semantics . . . . . . . . . . . . . 1, 80, 87–88, 918as Unicode design principle . . . . . . . . . . . . . . . .18ASCII . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .266definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .87
character sequencesabstract see abstract character sequencescanonical equivalent see canonical equivalent
character sequencescompatibility equivalent see compatibility equiva-
lent character sequencesconformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .81named . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .183
character sequences, combining . . . . . . . . . . . . . . .106character shaping selectors (deprecated) . . . . . . . .854character tabulation (U+0009) . . . . . . . . . . . . . . . .841characters
abstract see abstract charactersarrangement in Unicode . . . . . . . . . . . . . . . . . . .46assigned . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11, 30boundaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219canonical decomposable see canonical decompos-
able charactersclasses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .896code charts . . . . . . . . . . . . . . . . . . . . 875–892, 902coded see encoded characterscombining see combining characterscompatibility decomposable see compatibility
decomposable characterscomposite see decomposable charactersconcept of . . . . . . . . . . . . . . . . . . . . . . . . . . . .15, 60conformance definitions . . . . . . . . . . . . . . . .90–93confusable . . . . . . . . . . . . . . . . . . . . . . . . . . . . .247conversion . . . . . . . . . . . . . . . . . . . . . . . . 198–199decomposable see decomposable charactersdeprecated see deprecated charactersencoded see encoded charactersencoding forms see encoding formsencoding schemes see encoding schemesend-user perceived . . . . . . . . . . . . . . . . . . . . . . .60format control . . . . . . . . . . . 30, 68, 267, 839–855glyphs, relationship to . . . . . . . . . . . . . . . . . . . . .15graphic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30identity (definition) . . . . . . . . . . . . . . . . . . . . . . .87ignored in processing . . . . . . . . . . . . . . . 250–255
Index 990
interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . 80layout control . . . . . . . . . . . . . . . . . . . 68, 843–853modification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81names list . . . . . . . . . . . . . . . . . . . . . . . . . 876–888names see character namesnot encoded in Unicode . . . . . . . . . . . . . . . . . . . 3number encoded in Version 10.0 . . . . . . . . . . . . 3precomposed see decomposable charactersproperties see propertiessemantics see character semanticsspecial . . . . . . . . . . . . . . . . . . . . . . . . . 67, 839–874supplementary see supplementary characterstranscoding . . . . . . . . . . . . . . . . . . . . . . . . 198–199unsupported . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
characters, not glyphsin spoofing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248Unicode principle . . . . . . . . . . . . . . . . . . . . . . . . 15
charsetsIANA registered names . . . . . . . . . . . . . . . . . . . 41
charts, character code see code chartsCherokee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754
reference materials . . . . . . . . . . . . . . . . . . . . . . 953Chinese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687–689
Cantonese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688Hakka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706Mandarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688Minnan (Hokkien/Fujian, incl. Taiwanese) . 706simplified and traditional . . . . . . . . . . . . . . . . 687
Chu hán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686Chu Nôm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 928citations for
properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Unicode algorithms . . . . . . . . . . . . . . . . . . . . . . 78Unicode Standard . . . . . . . . . . . . . . . . . . . . . . . 76
CJK ideographs . . . . . . . . . . . . . . . . . . . . 262, 682–698accounting numbers . . . . . . . . . . . . . . . . . . . . 178CJK Compatibility Ideographs . . . . . . . . 697–698CJK Compatibility Supplement . . . . . . . . . . . 698CJK Strokes . . . . . . . . . . . . . . . . . . . . . . . . 700, 931CJK Unified Ideographs . . . . . . . . . . . . . 682–696CJK Unified Ideographs Extension A . . . . . . . 684CJK Unified Ideographs Extension B . . . . . . . 696CJK Unified Ideographs Extension C . . . . . . . 697CJK Unified Ideographs Extension D . . . . . . 697CJK Unified Ideographs Extension E . . . . . . . 697CJK Unified Ideographs Extension F . . . . . . . 697code charts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889compatibility ideographs in Plane 2 . . . . . . . . . 52component structure . . . . . . . . . . . . . . . . . . . . 692encoding blocks . . . . . . . . . . . . . . . . . . . . . . . . 683ideographic description sequences . . . . . 701–704ideographic variation mark (U+303E) . . . . . . 703KangXi radicals . . . . . . . . . . . . . . . . . 695, 699–700names . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889
numbers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .794numeric values . . . . . . . . . . . . . . . . . . . . . .178, 207order of encoding . . . . . . . . . . . . . . . . . . . . . . .694radicals . . . . . . . . . . . . . . . . . . . . . . . . . . . 699–700source standards . . . . . . . . . . . . . . . . . . . . . . . .930unknown or unavailable . . . . . . . . . . . . . . . . . .288Vietnamese . . . . . . . . . . . . . . . . . . . . . . . . . . . . .680
CJK Miscellaneous Area . . . . . . . . . . . . . . . . . . . . . .50CJK punctuation and symbols . . . . . . . . . . . . . . . .286
compatibility forms . . . . . . . . . . . . . . . . . . . . . .288overscores and underscores . . . . . . . . . . . . . . .288quotation marks . . . . . . . . . . . . . . . . . . . . . . . .274sesame dots . . . . . . . . . . . . . . . . . . . . . . . . . . . . .287vertical forms . . . . . . . . . . . . . . . . . . . . . . . . . . .288
CJK-JRG (Chinese/Japanese/Korean Joint Research Group) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .926
CJKV Ideographs Area . . . . . . . . . . . . . . . . . . . . . . .50CLDR (Unicode Common Locale Data Repository) . 903cluster boundaries . . . . . . . . . . . . . . . . . . . . . . . . . .219code charts . . . . . . . . . . . . . . . . . . . . . . . 875–892, 902
representative glyphs . . . . . . . . . . . . . . . . . . . . .876code point sequences
notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .894code points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7, 29
assigned . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11, 30assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .46categories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30default ignorable . . . . . . . . . . . . . . . . . . . .203, 254definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90designated . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .893number in Unicode Standard . . . . . . . . . . . . . . . .1private-use see private-use code pointsreserved see reserved code pointssemantics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32surrogate see surrogatesunassigned see unassigned code pointsundesignated . . . . . . . . . . . . . . . . . . . . . . . . . . . .30
code positions see code pointscode set independence . . . . . . . . . . . . . . . . . . . . . . . .18code unit sequences
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .120ill-formed (definition) . . . . . . . . . . . . . . . . . . .122notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .894well-formed (definition) . . . . . . . . . . . . . . . . . .122
code unitsdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .120isolated . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .119
code values see code unitscoded character representations
see coded character sequencescoded character sequences
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .92coded characters see encoded characters
Index 991
codespace see Unicode codespacecoeng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 631, 634Collation Algorithm, Unicode (UCA) . . . . . . . . . . 12collation see sortingcollation tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198combining character sequences . . . . . . . . . . . . 56, 106
defective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108Latin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293line breaking . . . . . . . . . . . . . . . . . . . . . . . . . . . 221matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221order of base character and marks . . . . . 222, 330rendering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219truncation . . . . . . . . . . . . . . . . . . . . . . . . . 222–223
combining characters . . . . . 55–60, 110–115, 221–229blocking reordering . . . . . . . . . . . . . . . . . . . . . 850canonical ordering . . . . . . . . . . . . . . . 62, 138, 170combining marks . . . . . . . . . . . . . . . . . . . 330–331definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106dependence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330display order . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58keyboard input . . . . . . . . . . . . . . . . . . . . . . . . . 222ligatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57multiple base characters . . . . . . . . . . . . . . . . . . 59normalization of . . . . . . . . . . . . . . . . . . . . . . . . 208ordering conventions . . . . . . . . . . . . . . . . . . . . . 56rendering of marks . . . . . . . . . . . . . . . . . . 224–229reordrant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171script-specific . . . . . . . . . . . . . . . . . . . . . . . . . . . 56split . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171strikethrough . . . . . . . . . . . . . . . . . . . . . . . . . . 172subjoined . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172typographical interaction . . . . . . . . . . . . . 58, 170vertical stacking . . . . . . . . . . . . . . . . . . . . . . . . . 58see also diacritics
Combining Class (normative property) . . . . . . . . 170combining classes . . . . . . . . . . . . . . 136, 170, 227–228
class zero characters . . . . . . . . . . . . . . . . . . . . . 170definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
combining grapheme joiner (U+034F) . . . . . . . . 849combining half marks . . . . . . . . . . . . . . . . . . 192, 338combining marks see combining characterscomma below . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294Compatibility and Specials Area . . . . . . . . . . . . 26, 50compatibility characters . . . . . . . . . . . . . . . . . . . . . . 22compatibility composite characters . . . . . . . . . . . . 27
see compatibility decomposable characterscompatibility decomposable characters . . . . . . . . . 26
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116compatibility decomposition . . . . . . . . . . . . . . . . . 63
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116compatibility decomposition mappings . . . . . . . . 116
compatibility equivalencedefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .117
compatibility equivalent character sequencesconformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .81
compatibility mappingssee compatibility decomposition mappings
compatibility precomposed characterssee compatibility decomposable characters
compatibility variants . . . . . . . . . . . . . . . . . . . . . . . .26mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .245
composite characters see decomposable characters
Composition Exclusion (normative property) . . .100compression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210
see also UTS #6, A Standard Compression Scheme for Unicode (SCSU)
conferences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .902conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .73–159
definitions . . . . . . . . . . . . . . . . . . . . . . . . . . .87–93examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .69ISO/IEC 10646 implementations . . . . . . . . . . .918requirements . . . . . . . . . . . . . . . . . . . . . . . . .79–84
confusables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .247conjunct consonants
Indic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219, 451Myanmar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .625selection of clusters . . . . . . . . . . . . . . . . . . . . . .219
contextual shapingapostrophe . . . . . . . . . . . . . . . . . . . . . . . . . . . . .276Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371not used for Hebrew final forms . . . . . . . . . . .366quotation marks . . . . . . . . . . . . . . . . . . . . . . . .272Syriac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .398
contour tones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .328control codes . . . . . . . . . . . . . . . . . . . . . . . .31, 68, 840
graphics for . . . . . . . . . . . . . . . . . . . . . . . . . . . .814names . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .189properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .841semantics . . . . . . . . . . . . . . . . . . . . . . . . . . .32, 841specified in Unicode . . . . . . . . . . . . . . . . . . . . .841
control sequences . . . . . . . . . . . . . . . . . . . . . . . . . . .840conversion of characters . . . . . . . . 128, 198–199, 256convertibility
as Unicode design principle . . . . . . . . . . . . . . . .23Coptic . . . . . . . . . . . . . . . . . . . . . . . . . . . 309, 313–315
reference materials . . . . . . . . . . . . . . . . . . . . . . .954Coptic Epact numbers . . . . . . . . . . . . . . . . . . . . . . .798corporate use subarea . . . . . . . . . . . . . . . . . . . . . . .860corrigenda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .76CR (U+000D carriage return) . . . . . . . . . . . .211, 841CRLF (carriage return and line feed) . . . . . . . . . . .211Croatian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298
digraphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298culturally expected sorting . . . . . . . . . . . . . . . .12, 232
Index 992
CuneiformOld Persian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435Sumero-Akkadian . . . . . . . . . . . . . . . . . . 430–433Ugaritic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
Cuneiform and Hieroglyphic Area . . . . . . . . . . . . . 51Cuneiform and Hieroglyphs . . . . . . . . . . . . . 429–444currency symbols block . . . . . . . . . . . . . . . . . 781–784
currency symbols encoded in other blocks . . 782currency symbols, other . . . . . . . . . . . . . . . . . 783dollar sign, form and usage . . . . . . . . . . . . . . . 782euro sign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783lari sign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783lira sign, compatibility usage . . . . . . . . . . . . . . 782lira sign, Turkish . . . . . . . . . . . . . . . . . . . . . . . 783peso signs, usage . . . . . . . . . . . . . . . . . . . . . . . . 782ruble sign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783rupee signs, Indian, usage . . . . . . . . . . . . . . . . 783yen and yuan signs, usage . . . . . . . . . . . . . . . . 782
cursive joining . . . . . . . . . . . . . . . . . . . . . . . . . 845–849Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379–386control characters for . . . . 193, 373–374, 531, 844Mandaic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406Mongolian . . . . . . . . . . . . . . . . . . . . . . . . 530–532N’Ko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741Phags-pa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573Syriac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398–401transparency . . . . . . . . . . . . . . . . . . . . . . . . . . . 848
cursive scripts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363Cypriot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
reference materials . . . . . . . . . . . . . . . . . . . . . . 960see also Linear B
Cyrillic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316–319Czech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
Ddanda, in Devanagari block . . . . . . . . . . . . . . . . . . 463Danish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297dashes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269Database, Unicode Character
see Unicode Character Database (UCD)dead consonants, Indic . . . . . . . . . . . . . . . . . . . . . 450dead keys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222decomposable characters . . . . . . . . . . . . . . . . . . . . . 63
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116normalization of . . . . . . . . . . . . . . . . . . . . . . . . 208
decomposition . . . . . . . . . . . . . . . . . . . . . 63, 116–118canonical see canonical decompositioncompatibility see compatibility decompositiondefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116in normalization . . . . . . . . . . . . . . . . . . . . . . . . 208mapping, definition . . . . . . . . . . . . . . . . . . . . . 116mappings noted in code charts . . . . . . . . . . . . 884
default casealgorithms . . . . . . . . . . . . . . . . . . . . . 85, 153–159conversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157folding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .156
default caseless matching . . . . . . . . . . . . . . . . . . . .158default grapheme clusters . . . . . . . . . . . . . . . . . . . .219
see also UAX #29, Unicode Text SegmentationDefault Ignorable Code Point (property) . . . . . . .254default ignorable code points . . . . . . . . . . . . .203, 254default property values
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .97defective combining character sequences . . . . . . .225
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .108dependent vowel signs
Indic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .449Khmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .636Philippine scripts . . . . . . . . . . . . . . . . . . . . . . . .660
deprecated characters . . . . . . . . . . . . . . . . . . . .74, 879alternate format . . . . . . . . . . . . . . . . 194, 854–855definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .92
Derived Age (property) . . . . . . . . . . . . . . . . . . . . . .203derived properties
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104DerivedCoreProperties.txt . . . . . . . . . . 154, 166, 254DerivedNormalizationProps.txt . . . . . . . . . . . . . . .244Deseret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 759–761
reference materials . . . . . . . . . . . . . . . . . . . . . . .954design goals of Unicode . . . . . . . . . . . . . . . . . . . . . . . .4design principles of Unicode . . . . . . . . . . . . . . .14–24designated code points . . . . . . . . . . . . . . . . . . . . . . .30Devanagari . . . . . . . . . . . . . . . . . . . . . . . . . . . 447–468Dhivehi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .511diacritics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55, 330
alternative glyphs . . . . . . . . . . . . . . . . . . . .293, 330Czech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .294display in isolation . . . . . . . . . . . . . . . .60, 269, 331double . . . . . . . . . . . . . . . . . . . . . . . . 114, 192, 332German dialectology . . . . . . . . . . . . . . . . . . . . .336Greek . . . . . . . . . . . . . . . . . . . . . . . . . 306–307, 310Latin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293–296Latvian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .294mathematical . . . . . . . . . . . . . . . . . . . . . . . . . . .790on i and j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .295rendering . . . . . . . . . . . . . . . . . . . . . . . . . 224–229Slovak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .294spacing clones of . . . . . . . . . . . . . . . . . . . .328, 332symbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55, 337see also combining characters
dictionary symbols . . . . . . . . . . . . . . . . . . . . . . . . . .824digit form names . . . . . . . . . . . . . . . . . . . . . . . . . . .375digits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .207
Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .794Arabic-Indic . . . . . . . . . . . . . . . . . . . . . . . 375–376
Index 993
compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . 794decimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177glyph variants . . . . . . . . . . . . . . . . . . . . . . . . . . 796hexadecimal . . . . . . . . . . . . . . . . . . . . . . . . . . . 794Myanmar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794national shapes . . . . . . . . . . . . . . . . . . . . . . . . . 855Shan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794superscript and subscript . . . . . . . . . . . . . . . . 795Tai Laing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794Tai Tham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794
digraphs . . . . . . . . . . . . . . . . . . . . . . . . . . 298, 301, 303dingbats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826–828directionality . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20, 53
East Asian scripts . . . . . . . . . . . . . . . . . . . . . . . 680Middle Eastern scripts . . . . . . . . . . . . . . . . . . . 363Mongolian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529musical symbols . . . . . . . . . . . . . . . . . . . . . . . . 767normative property . . . . . . . . . . . . . . . . . . . . . 173Ogham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360Old Italic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350Philippine scripts . . . . . . . . . . . . . . . . . . . . . . . 661Runic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
discussion list for Unicode . . . . . . . . . . . . . . . . . . . 902Dogri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464Domino Tiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 829dotless i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240, 295dotted circle
in code charts . . . . . . . . . . . . . . . . . . . . . . 107, 331in fallback rendering . . . . . . . . . . . . . . . . . . . . 224to indicate diacritic . . . . . . . . . . . . . . . . . . . . . . 55to indicate vowel sign placement . . . . . . . . . . . 56
double diacritics . . . . . . . . . . . . . . . . . . . 114, 192, 332Duployan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775–776
reference materials . . . . . . . . . . . . . . . . . . . . . . 954Dutch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297, 298dynamic composition
as Unicode design principle . . . . . . . . . . . . . . . 22Dzongkha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
EEast Asian scripts . . . . . . . . . . . . . . . . . . . . . . 679–727
writing direction . . . . . . . . . . . . . . . . . . . . . . . . . 53see also CJK ideographs
Eastern Arabic-Indic digits . . . . . . . . . . . . . . . . . . 375EBCDIC
newline function . . . . . . . . . . . . . . . . . . . . . . . 212editing, text boundaries for . . . . . . . . . . . . . . 219–220efficiency
as Unicode design principle . . . . . . . . . . . . . . . 15Egyptian hieroglyphs . . . . . . . . . . . . . . . . . . . 436–440
reference materials . . . . . . . . . . . . . . . . . . . . . . 954Elbasan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
reference materials . . . . . . . . . . . . . . . . . . . . . . 955
ellipsis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277–278e-mail discussion list for Unicode . . . . . . . . . . . . .902emoji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .822, 902
animal symbols . . . . . . . . . . . . . . . . . . . . . . . . .825charts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .902cultural symbols . . . . . . . . . . . . . . . . . . . . . . . . .825zodiacal symbols . . . . . . . . . . . . . . . . . . . . . . . .825
emoji modifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . .826emoticons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .826Enclosed Alphanumerics . . . . . . . . . . . . . . . . . . . . .835enclosing marks . . . . . . . . . . . . . . . . . . . . . . . . . . . .338
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107encoded characters . . . . . . . . . . . . . . . . . . . . . . . . .7, 29
allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . .44–52definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .92
encoding form conversiondefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .127
encoding forms . . . . . . . . . . . . . . . . . . . . . . . . . .33–39ISO/IEC 10646 definitions . . . . . . . . . . . . . . . .913
encoding forms, Unicodesee Unicode encoding forms
encoding model for Unicode characters . . . . . .33, 42see also UTR #17, Unicode Character Encoding
Modelencoding schemes . . . . . . . . . . . . . . . . . . . . . . . .40–43encoding schemes, Unicode
see Unicode encoding schemesendian ordering
see byte order mark (BOM) (U+FEFF)end-user subarea . . . . . . . . . . . . . . . . . . . . . . . . . . .861English . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297equivalent sequences . . . . . . . . . . . . . . . . . . . . . . . .208
as Unicode design principle . . . . . . . . . . . . . . . .23case-insensitivity . . . . . . . . . . . . . . . . . . . .233, 242combining characters in matching . . . . . . . . .221conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .82Hangul syllables . . . . . . . . . . . . . . . . . . . . . . . . .715in sorting and searching . . . . . . . . . . . . . . . . . .232language-specific . . . . . . . . . . . . . . . . . . . . . . . .118security implications . . . . . . . . . . . . . . . . . . . . .247see also canonical equivalencesee also compatibility equivalencesee also encoding forms, encoding schemes
errata . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvi, 76, 903escape sequences . . . . . . . . . . . . . . . . . . . . . . . . . . .841
not used in Unicode . . . . . . . . . . . . . . . . . . . . .1, 4Esperanto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298Estonian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298Ethiopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730–733
reference materials . . . . . . . . . . . . . . . . . . . . . . .955Etruscan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .349European scripts . . . . . . . . . . . . . . . . . . . . . . 291–339
ancient . . . . . . . . . . . . . . . . . . . . . . . . . . . 341–361eyelash-RA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .456
Index 994
Ffallback rendering . . . . . . . . . . . . . . . . . . . . . . . . . . 254
of nonspacing marks . . . . . . . . . . . . . . . . . . . . 224FAQ (Frequently Asked Questions) . . . . . . . . . . . 902Faroese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297Farsi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371, 374featural syllabaries . . . . . . . . . . . . . . . . . . . . . . . . . 261FF (U+000C form feed) . . . . . . . . . . . . . . . . . 211, 841file separator (U+001C) . . . . . . . . . . . . . . . . . . . . . 841Finnish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297Finno-Ugric Transcription (FUT)
see Uralic Phonetic Alphabet (UPA)fixed-width Unicode encoding form (UTF-32) . . . 35,
124flat tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198Flemish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297fleurons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828fonts
and Unicode characters . . . . . . . . . . . . . . . . . . . 16for mathematical alphabets . . . . . . . . . . . 789–791style variation for symbols . . . . . . . . . . . . . . . . 779
form feed (U+000C) (FF) . . . . . . . . . . . . . . . 211, 841format control characters . . . . . 30, 68, 267, 839–855
deprecated . . . . . . . . . . . . . . . . . . . . . . . . . 854–855prefixed . . . . . . . . . . . . . . . . . . . . . . . . . . . 194, 334stateful . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852
fraction characters . . . . . . . . . . . . . . . . . . . . . . . . . 805fraction slash (U+2044) . . . . . . . . . . . . . . . . . 277, 801French . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298Frisian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298FTP site, Unicode Consortium . . . . . . . . . . . . . . . 902fullwidth forms in East Asian encodings . . . . . . . 712futhark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
GGarshuni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394Ge’ez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730General Category (normative property) . . . . . . . 174
list of values . . . . . . . . . . . . . . . . . . . . . . . . . . . 174general punctuation . . . . . . . . . . . . . . . . . . . . 265–289General Scripts Area . . . . . . . . . . . . . . . . . . . . . . . . . 50geometrical symbols . . . . . . . . . . . . . . . . . . . . 819–821Georgian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324–325German . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297geta mark (U+3013) . . . . . . . . . . . . . . . . . . . . . . . . 288Glagolitic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
reference materials . . . . . . . . . . . . . . . . . . . . . . 955Glossary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 902glyph selection tables . . . . . . . . . . . . . . . . . . . . . . . 198glyphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6, 15
characters, relationship to . . . . . . . . . . . . . . . . . 15diacritics alternative . . . . . . . . . . . . . . . . . 293, 330Greek alternative . . . . . . . . . . . . . . . . . . . 307–309
Latin alternative . . . . . . . . . . . . . . . . . . . . . . . . .293mathematical alternative . . . . . . . . . . . . . . . . . .807missing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .254representative in code charts . . . . . . . . . . . . . .876standardized variants . . . . . . . . . . . . . . . . . . . .856symbols alternative . . . . . . . . . . . . . . . . . . . . . .779
golden numbers . . . . . . . . . . . . . . . . . . . . . . . . . . . .354Gothic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .356
reference materials . . . . . . . . . . . . . . . . . . . . . . .955Grantha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609–611
reference materials . . . . . . . . . . . . . . . . . . . . . . .956grapheme base . . . . . . . . . . . . . . . . . . . . . . . . . . . . .330
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .108grapheme clusters . . . . . . . . . . . . . . . . . . . . 11, 60–61
see also UAX #29, Unicode Text Segmentationdefault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109
grapheme extenderdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109
grapheme joiner, combining (U+034F) . . . . . . . .849graphic characters . . . . . . . . . . . . . . . . . . . . . . . . . . .30Greek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306–311
acrophonic numerals . . . . . . . . . . . . . . . . .207, 311alternative glyphs . . . . . . . . . . . . . . . . . . . 307–309ancient musical notation . . . . . . . . . . . . 772–774editorial marks . . . . . . . . . . . . . . . . . . . . . . . . . .282letters as symbols . . . . . . . . . . . . . . . 307–309, 808see also Cypriot, Linear B
Greek editorial marksreference materials . . . . . . . . . . . . . . . . . . . . . . .956
Greenlandic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298group separator (U+001D) . . . . . . . . . . . . . . . . . . .841guillemets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .272Gujarati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .480Gurmukhi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475–479
HHakka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .706halant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .445
see also viramahalf marks, combining . . . . . . . . . . . . . . . . . . .192, 338half-consonants, Indic . . . . . . . . . . . . . . . . . . . . . . .452halfwidth forms in East Asian encodings . . . . . . . .712Han ideographs see CJK ideographsHan unification . . . . . . . . . . . . . . . . . . . . . . . 689–696
and language tags . . . . . . . . . . . . . . . . . . . . . . . .217history . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925–930language usage . . . . . . . . . . . . . . . . . . . . . . . . . .687source separation rule . . . . . . . . . . . . . . . .684, 690source standards . . . . . . . . . . . . . . . . . . . . . . . .930
hand symbols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825Hangul Area . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .50
Index 995
Hangul syllables . . . . . . . . . . . . . . . . . . . 679, 713–716and combining marks . . . . . . . . . . . . . . . . . . . 114as grapheme clusters . . . . . . . . . . . . . . . . . . . . . 61canonical decomposition . . . . . . . . . . . . . . . . 145collation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715composition . . . . . . . . . . . . . . . . . . . . . . . . . . . 147conjoining jamo . . . . . . . . . . . . . . . . . . . . 143–152equivalent sequences . . . . . . . . . . . . . . . . . . . . 715Hangul Compatibility Jamo . . . . . . . . . . . . . . 714Hangul Jamo . . . . . . . . . . . . . . . . . . . . . . . 713–716Hangul Syllables block . . . . . . . . . . . . . . . 715–716Johab set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715name generation . . . . . . . . . . . . . . . . . . . . . . . . 148normalization . . . . . . . . . . . . . . . . . . . . . . . . . . 714standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Hangzhou numerals . . . . . . . . . . . . . . . . . . . . . . . . 801Hanja see CJK ideographsHanunóo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 660Hanzi see CJK ideographsharakat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372hasant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469hash tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199Hatran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
reference materials . . . . . . . . . . . . . . . . . . . . . . 956Hebrew . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365–370hentaigana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709–710hieroglyphs
Anatolian . . . . . . . . . . . . . . . . . . . . . . . . . . 443–444Egyptian . . . . . . . . . . . . . . . . . . . . . . . . . . 436–440Meroitic . . . . . . . . . . . . . . . . . . . . . . . . . . . 441–442
high surrogatedefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119high-surrogate code points . . . . . . . . . . . . 79, 862high-surrogate code units . . . . . . . . . . . . . . . . 119
higher-level protocolsdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Hindi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447Hiragana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 708horizontal tab (U+0009) . . . . . . . . . . . . . . . . . . . . 841HTML newline function . . . . . . . . . . . . . . . . . . . . 212Hungarian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298hyphenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844
as a text process . . . . . . . . . . . . . . . . . . . . . . . . . 10hyphens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269, 844
II Ching symbols . . . . . . . . . . . . . . . . . . . . . . . . . . . 830IANA charset names . . . . . . . . . . . . . . . . . . . . . . . . . 41Icelandic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297identifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
see also UAX #31, Unicode Identifier and Pattern Syntax
Ideographic (informative property) . . . . . . . . . . . 190
ideographic description sequences . . . . . . . . . . . . .702Ideographic Rapporteur Group (IRG) . . . . . . . . . .928ideographs see also CJK ideographsIICore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .685, 928ill-formed
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .122Imperial Aramaic . . . . . . . . . . . . . . . . . . . . . . 416–417
reference materials . . . . . . . . . . . . . . . . . . . . . . .956implementation guidelines . . . . . . . . . . . . . . 197–256in a Unicode encoding form
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123in-band mechanisms . . . . . . . . . . . . . . . . . . . . . . . .874India
Official scripts . . . . . . . . . . . . . . . . . . . . . 445–508Indian rupee signs, usage . . . . . . . . . . . . . . . . . . . .783Indic scripts . . . . . . . . . . . . . . . . . . . . . . . . . . 445–508
principles, in terms of Devanagari . . . . . 448–455relation to ISCII standard . . . . . . . . . . . . . . . . .447
Indonesia and Oceaniascripts of . . . . . . . . . . . . . . . . . . . . . . . . . . 659–678
Indonesian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297industry character sets
covered in Unicode . . . . . . . . . . . . . . . . . . . . . . . .3information separators (U+001C..U+001F) . . . . .841informative properties
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .100Inscriptional Pahlavi . . . . . . . . . . . . . . . . . . . . . . . .422Inscriptional Parthian . . . . . . . . . . . . . . . . . . . . . . .422inside-out rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . .224interchange restrictions . . . . . . . . . . . . . . . . . . . . . . .31International Phonetic Alphabet (IPA) 260, 300–301
reference materials . . . . . . . . . . . . . . . . . . . . . . .957Spacing Modifier Letters . . . . . . . . . . . . . . . . . .327see also phonetic alphabets
internationalization . . . . . . . . . . . . . . . . . . . . . . . . . .18Internationalization & Unicode Conference . . . . .902Internet protocols
UTF-8 as preferred encoding . . . . . . . . . . . . . . .37Inuktitut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .756invisible operators . . . . . . . . . . . . . . . . . . . . . . . . . .813iota subscript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .307IPA see International Phonetic AlphabetIRG (Ideographic Rapporteur Group) . . . . . . . . . .928Irish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297, 360ISCII standard and Unicode . . . . . . . . . . . . . . . . . .447ISO/IEC 10646 . . . . . . . . . . . . . . . . . . . . . . . . 905–918
conformance of Unicode implementations . .918encoding forms . . . . . . . . . . . . . . . . . . . . . . . . .913synchrony with Unicode Standard . . . . . . . . .915timeline compared to Unicode versions . . . . .907
Italian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297ITC Zapf Dingbats . . . . . . . . . . . . . . . . . . . . . . . . . .826IUC see Internationalization & Unicode Conference
Index 996
Jjamos see Hangul syllablesJapanese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 679Javanese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 671–674
reference materials . . . . . . . . . . . . . . . . . . . . . . 958Jawi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390jihvamuliya . . . . . . . . . . . . . . . . . . . . . . . . . . . 468, 590Johab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715joiners . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
combining grapheme joiner (U+034F) . . . . . 849word joiner (U+2060) . . . . . . . . . . . . . . . . . . . 843zero width joiner (U+200D) . . . . . . 373–374, 846
justification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
KKaithi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587–589
reference materials . . . . . . . . . . . . . . . . . . . . . . 958Kana (Hiragana and Katakana) . . . . . . . . . . . 708–709Kanbun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698KangXi radicals . . . . . . . . . . . . . . . . . . . . 695, 699–700Kanji see CJK ideographsKannada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497–500Kashmiri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465Katakana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 708–709Kawi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665, 667Kayah Li . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653
reference materials . . . . . . . . . . . . . . . . . . . . . . 958KC (normalization form)
see Normalization Form KCKD (normalization form)
see Normalization Form KDkeytop labels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 814Khamti Shan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628Kharoshthi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560–561
reference materials . . . . . . . . . . . . . . . . . . . . . . 958Khmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 631–641
characters not recommended . . . . . . . . . . . . . 638syllable components, order of . . . . . . . . . . . . . 639
Khojki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598–599reference materials . . . . . . . . . . . . . . . . . . . . . . 959
Khudawadi . . . . . . . . . . . . . . . . . . . . . . . . . . . 600–601reference materials . . . . . . . . . . . . . . . . . . . . . . 959
killer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262Batak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676Brahmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556Meetei Mayek . . . . . . . . . . . . . . . . . . . . . . . . . . 541Myanmar (asat) . . . . . . . . . . . . . . . . . . . . . . . . 626see also virama
Konkani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464Korean Hangul see HangulKurdish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
LLadino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .365language tags . . . . . . . . . . . . . . . . . . . . . 217, 870–874
and Han unification . . . . . . . . . . . . . . . . . . . . .217use strongly discouraged . . . . . . . . . . . . . .870, 873
Lanna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .644Lao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621–623last-resort glyphs . . . . . . . . . . . . . . . . . . . . . . . . . . .254Latin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293–305
alternative glyphs . . . . . . . . . . . . . . . . . . . . . . . .293Basic Latin . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297encoding blocks . . . . . . . . . . . . . . . . . . . . . . . . . .45IPA Extensions . . . . . . . . . . . . . . . . . . . . . 300–301Latin Extended Additional . . . . . . . . . . . 303–305Latin Extended-A . . . . . . . . . . . . . . . . . . . . . . . .297Latin Extended-B . . . . . . . . . . . . . . . . . . . 298–300Latin Extended-C . . . . . . . . . . . . . . . . . . . . . . .303Latin Extended-D . . . . . . . . . . . . . . . . . . . . . . .304Latin Extended-E . . . . . . . . . . . . . . . . . . . . . . . .305Latin Ligatures . . . . . . . . . . . . . . . . . . . . . . . . . .303Latin-1 Supplement . . . . . . . . . . . . . . . . . . . . . .297Phonetic Extensions . . . . . . . . . . . . . . . . 302–305
Latvian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298, 305cedilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .294
layout control characters . . . . . . . . . . . . . 68, 843–853leading surrogates
see high-surrogate code unitslegibility criterion for plain text . . . . . . . . . . . . . . . .19Lepcha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548–550
reference materials . . . . . . . . . . . . . . . . . . . . . . .959letter spacing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .844letterlike symbols . . . . . . . . . . . . . . . . . . . . . . 785–791LF (U+000A line feed) . . . . . . . . . . . . . . . . . . .211, 841ligatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845–849
Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382–383combining characters on . . . . . . . . . . . . . . . . . .59control characters for . . . . . . . . . . . . . . . . . . . .193for nonspacing marks . . . . . . . . . . . . . . . . . . . .228Latin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .303selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220Syriac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .401
Limbu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537–540reference materials . . . . . . . . . . . . . . . . . . . . . . .959
line breaking . . . . . . . . . . . . . . . . . . 211–215, 843–845control characters . . . . . . . . . . . . . . . . . . . . . . .192in South Asian scripts . . . . . . . . . . . 619, 627, 641recommendations . . . . . . . . . . . . . . . . . . . . . . .213see also UAX #14, Unicode Line Breaking Algo-
rithmline feed (U+000A) (LF) . . . . . . . . . . . . . . . . .211, 841line separator (U+2028) (LS) . . . . . . . . . . . . .211, 845line tabulation (U+000B) (VT) . . . . . . . . . . . . . . .841
Index 997
Linear A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343reference materials . . . . . . . . . . . . . . . . . . . . . . 960
Linear B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344–345reference materials . . . . . . . . . . . . . . . . . . . . . . 960see also Cypriot
linear boundaries . . . . . . . . . . . . . . . . . . . . . . . . . . 220Lisu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721–723
reference materials . . . . . . . . . . . . . . . . . . . . . . 961Lithuanian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298little-endian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83logical order
as Unicode design principle . . . . . . . . . . . . . . . 19exceptions to . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
logograph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262logosyllabaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262low surrogate
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119low-surrogate code points . . . . . . . . . . . . . 79, 862low-surrogate code units . . . . . . . . . . . . . . . . . 119
lowercase . . . . . . . . . . . . . . . . . . . . . . . . . 166, 238, 291LS (U+2028 line separator) . . . . . . . . . . . . . . 211, 845Lycian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
reference materials . . . . . . . . . . . . . . . . . . . . . . 961Lydian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
reference materials . . . . . . . . . . . . . . . . . . . . . . 962
MMacOS newline function . . . . . . . . . . . . . . . . . . . . 212Mahajani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596–597
reference materials . . . . . . . . . . . . . . . . . . . . . . 962Mahjong Tiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 829mail discussion list for Unicode . . . . . . . . . . . . . . 902Maithili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464major version . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Malay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297Malay, Patani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620Malayalam . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501–508
Suriyani . . . . . . . . . . . . . . . . . . . . . . . . . . . 402, 502Maltese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298Manchu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529Mandaic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405–407
reference materials . . . . . . . . . . . . . . . . . . . . . . 962Mandarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688Manden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738Manichaean . . . . . . . . . . . . . . . . . . . . . . . . . . . 418–421
reference materials . . . . . . . . . . . . . . . . . . . . . . 962map symbols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824mapping tables see tables of character dataMarathi . . . . . . . . . . . . . . . . . . . . . . . . . . 447, 456, 463Marchen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575
reference materials . . . . . . . . . . . . . . . . . . . . . . 962
markup languagesand Unicode conformance . . . . . . . . . . . . . . . .874line breaking . . . . . . . . . . . . . . . . . . . . . . . . . . . .211
Masaram Gondi . . . . . . . . . . . . . . . . . . . . . . . 552–553reference materials . . . . . . . . . . . . . . . . . . . . . . .963
Mathematical (informative property) . . . . . . . . . .805mathematical expression format characters . . . . .194
see also UTR #25, Unicode Support for Mathe-matics
mathematical symbols . . . . . . . . . . . . . . . . . . 805–812alphabets . . . . . . . . . . . . . . . . . . . . . . . . . . 787–791alphanumeric . . . . . . . . . . . . . . . . . . . . . . 786–791fonts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 789–791format characters . . . . . . . . . . . . . . . . . . . . . . . .813fragments for typesetting . . . . . . . . . . . . . . . . .815invisible operators . . . . . . . . . . . . . . . . . . . . . . .813operators . . . . . . . . . . . . . . . . . . . . . . . . . 806–809reference materials . . . . . . . . . . . . . . . . . . . . . . .963standardized variants . . . . . . . . . . . . . . . . . . . .812
MathML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .809matras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .170, 449Meetei Mayek . . . . . . . . . . . . . . . . . . . . . . . . . 541–542
reference materials . . . . . . . . . . . . . . . . . . . . . . .963Mende Kikakui . . . . . . . . . . . . . . . . . . . . . . . . 748–749
reference materials . . . . . . . . . . . . . . . . . . . . . . .963Meroitic
cursive . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441–442hieroglyphs . . . . . . . . . . . . . . . . . . . . . . . . 441–442reference materials . . . . . . . . . . . . . . . . . . . . . . .964
Miao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724–725reference materials . . . . . . . . . . . . . . . . . . . . . . .964
Middle Eastern scripts . . . . . . . . . . . . . . . . . . 363–512ancient . . . . . . . . . . . . . . . . . . . . . . . . . . . 409–428
Min . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .688Minnan (Hokkien/Fujian, incl. Taiwanese) . . . . .706minor version . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75minus sign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .808
commercial (U+2052) . . . . . . . . . . . . . . . . . . . .280mirrored property
see Bidi Mirrored (normative property)mirroring of paired punctuation . . . . . . . . . . . . . .271Miscellaneous Symbols . . . . . . . . . . . . . . . . . . . . . .823missing glyphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .254Modi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606–608
reference materials . . . . . . . . . . . . . . . . . . . . . . .964modifier letters . . . . . . . . . . . . . . . . . . . . . . . . 326–329Modifier Letters, Spacing . . . . . . . . . . . . . . . . . . . .302Mongolian . . . . . . . . . . . . . . . . . . . . . . . 528–536, 568
writing direction . . . . . . . . . . . . . . . . . . . . . . . .529Mro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .543
reference materials . . . . . . . . . . . . . . . . . . .964, 965Multani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .602
reference materials . . . . . . . . . . . . . . . . . . . . . . .964
Index 998
multibyte encodingscompared to UTF-8 . . . . . . . . . . . . . . . . . . . . . . 37
multistage tables . . . . . . . . . . . . . . . . . . . . . . . . . . . 198musical symbols . . . . . . . . . . . . . . . . . . . . . . . 766–774
ancient Greek . . . . . . . . . . . . . . . . . . . . . . 772–774Balinese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669Byzantine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 771directionality . . . . . . . . . . . . . . . . . . . . . . . . . . . 767Gregorian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 769Kievan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 770reference materials . . . . . . . . . . . . . . . . . . . . . . 965Western . . . . . . . . . . . . . . . . . . . . . . . . . . . 766–770
Myanmar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624–630digits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794Myanmar Extended-A . . . . . . . . . . . . . . . . . . . 628Myanmar Extended-B . . . . . . . . . . . . . . . . . . . 628reference materials . . . . . . . . . . . . . . . . . . . . . . 965
NN’Ko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738–742
reference materials . . . . . . . . . . . . . . . . . . . . . . 966Nabataean . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
reference materials . . . . . . . . . . . . . . . . . . . . . . 966named character sequences . . . . . . . . . . . . . . . . . . 183names, character see character namesnamespace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89NEL (U+0085 next line) . . . . . . . . . . . . . . . . 211, 841Nepali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447neutral directional characters . . . . . . . . . . . . . . . . 173New Tai Lue . . . . . . . . . . . . . . . . . . . . . . . . . . 644–646Newa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515–516
reference materials . . . . . . . . . . . . . . . . . . . . . . 966newline function (NLF) . . . . . . . . . . . . . . . . . 212, 842newline guidelines . . . . . . . . . . . . . . . . . . . . . 211–215next line (U+0085) (NEL) . . . . . . . . . . . . . . . 211, 841NFC (Normalization Form C) . . . . . . . . . . . . . . . . 62NFD (Normalization Form D) . . . . . . . . . . . . . . . . 62NFKC (Normalization Form KC) . . . . . . . . . . . . . . 62NFKD (Normalization Form KD) . . . . . . . . . . . . . 62NLF (newline function) . . . . . . . . . . . . . . . . . 212, 842no-break space (U+00A0) . . . . . . . . . . . . . . . . . . . 843
base for diacritic in isolation . . . . . . . 60, 269, 331no-break space, narrow (U+202F) . . . . . . . . . . . . 534noncharacter code points see noncharactersnoncharacters . . . . . . . . . . . . . . . . . . . . . . . . . . 31, 863
conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82in code charts . . . . . . . . . . . . . . . . . . . . . . . . . . 879interchange restrictions . . . . . . . . . . . . . . . . . . . 31semantics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32U+10FFFF (not a character code) . . . . . . . . . 863U+FDD0..U+FDEF . . . . . . . . . . . . . . . . . . 31, 863
U+FFFE (not a character code) . . . . . . . . .67, 864U+FFFF (not a character code) . . . . . . . . .31, 863
nondecomposable characters . . . . . . . . . . . . . . . . . .64non-joiner, zero width (U+200C) . . . . 373–374, 847nonlinear boundaries . . . . . . . . . . . . . . . . . . . . . . .220non-overlap principle in Unicode encoding forms 33nonspacing marks . . . . . . . . . . . . . . . . . . . . . . . . . .330
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107display in isolation . . . . . . . . . . . . . . . .60, 269, 331positioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . .228rendering . . . . . . . . . . . . . . . . . . . . . . . . . 224–229see also combining characterssee also diacritics
normalization . . . . . . . . . . . . . . . . . . . . . . 62, 208–209and case operations . . . . . . . . . . . . . . . . . . . . . .244canonical ordering algorithm . . . . . . .62, 138, 170conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .84of private-use characters . . . . . . . . . . . . . . . . . .860see also UAX #15, Unicode Normalization Formsstability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .135
Normalization Form C (NFC) . . . . . . . . . . . . . . . . .62Normalization Form D (NFD) . . . . . . . . . . . . . . . . .62Normalization Form KC (NFKC) . . . . . . . . . . . . . .62Normalization Form KD (NFKD) . . . . . . . . . . . . . .62normalization forms . . . . . . . . . . . . . . . . . . . 135–142
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141specification . . . . . . . . . . . . . . . . . . . . . . . . . . . .137
normative behaviorsdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .87
normative propertiesdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .99list . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .100may change . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .99
Norwegian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297notational conventions . . . . . . . . . . . . . . . . . 893–897notational systems . . . . . . . . . . . . . . . . . 263, 763–778nukta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372, 392, 457null (U+0000)
as Unicode string terminator . . . . . . . . . . . . . .842number forms
CJK ideographs . . . . . . . . . . . . . . . . . . . . . . . . .207numbers
Coptic Epact . . . . . . . . . . . . . . . . . . . . . . . . . . . .798handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .207ideographic accounting . . . . . . . . . . . . . . . . . . .178
numerals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 792–802acrophonic . . . . . . . . . . . . . . . . . . . . . . . . . . . . .311Chinese counting rods . . . . . . . . . . . . . . . . . . .803Coptic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .315Cuneiform . . . . . . . . . . . . . . . . . . . . . . . . . . . . .433Ethiopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .732Greek acrophonic . . . . . . . . . . . . . . . . . . . . . . .207Hangzhou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .801Meroitic cursive . . . . . . . . . . . . . . . . . . . . . . . . .442
Index 999
old-style . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277Roman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207, 805Rumi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 799Suzhou-style . . . . . . . . . . . . . . . . . . . . . . . . . . . 801
numeric separators . . . . . . . . . . . . . . . . . . . . . . . . . 280numeric shape selectors (deprecated) . . . . . . . . . 855Numeric Type (normative property) . . . . . . . . . . 177Numeric Value (normative property) . . . . . . . . . 177numero sign (U+2116) . . . . . . . . . . . . . . . . . . . . . 785Nüshu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720
reference materials . . . . . . . . . . . . . . . . . . . . . . 967
Oobject replacement character (U+FFFC) . . . . . . . 869octet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895Ogham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
reference materials . . . . . . . . . . . . . . . . . . . . . . 967Ol Chiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545–546
reference materials . . . . . . . . . . . . . . . . . . . . . . 967Old Church Slavonic . . . . . . . . . . . . . . . . . . . . . . . 316Old Hungarian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
reference materials . . . . . . . . . . . . . . . . . . . . . . 967Old Italic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349–351
reference materials . . . . . . . . . . . . . . . . . . . . . . 967Old North Arabian . . . . . . . . . . . . . . . . . . . . . . . . . 411
reference materials . . . . . . . . . . . . . . . . . . . . . . 968Old Permic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
reference materials . . . . . . . . . . . . . . . . . . . . . . 968Old Persian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
reference materials . . . . . . . . . . . . . . . . . . . . . . 968Old South Arabian . . . . . . . . . . . . . . . . . . . . . 412–413
reference materials . . . . . . . . . . . . . . . . . . . . . . 968Old Turkic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
reference materials . . . . . . . . . . . . . . . . . . . . . . 969old-style numerals . . . . . . . . . . . . . . . . . . . . . . . . . 277Oriya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482–484ornamental dingbats . . . . . . . . . . . . . . . . . . . . . . . 828Oromo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730Osage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758
reference materials . . . . . . . . . . . . . . . . . . . . . . 967Osmanya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734
reference materials . . . . . . . . . . . . . . . . . . . . . . 969out-of-band mechanisms . . . . . . . . . . . . . . . . . . . . 874overlapping encodings . . . . . . . . . . . . . . . . . . . . . . . 33overscores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
PPahawh Hmong . . . . . . . . . . . . . . . . . . . . . . . 656–657
reference materials . . . . . . . . . . . . . . . . . . . . . . 969Pahlavi, Inscriptional . . . . . . . . . . . . . . . . . . . . . . . 422
reference materials . . . . . . . . . . . . . . . . . . . . . . 957Pahlavi, Psalter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
Palmyrene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .427reference materials . . . . . . . . . . . . . . . . . . . . . . .970
Panjabi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .475paragraph or section marks . . . . . . . . . . . . . . . . . .280paragraph separator (U+2029) (PS) . . . . . . .211, 845Parthian, Inscriptional . . . . . . . . . . . . . . . . . . . . . . .422
reference materials . . . . . . . . . . . . . . . . . . . . . . .957Pashto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371Patani Malay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .620Pau Cin Hau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .658
reference materials . . . . . . . . . . . . . . . . . . . . . . .970Persian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371, 374Phags-pa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568–574
reference materials . . . . . . . . . . . . . . . . . . . . . . .970Phaistos Disc symbols . . . . . . . . . . . . . . . . . . . . . . .832Phake . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .630Philippine scripts . . . . . . . . . . . . . . . . . . . . . . 660–662
reference materials . . . . . . . . . . . . . . . . . . . . . . .971Phoenician . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .414
reference materials . . . . . . . . . . . . . . . . . . . . . . .971phonemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .263phonetic alphabets . . . . . . . . . . . . . . . . . . . . . . . . . .260
IPA Extensions . . . . . . . . . . . . . . . . . . . . . 300–301Phonetic Extensions . . . . . . . . . . . . . . . . 302–305Spacing Modifier Letters . . . . . . . . . . . . . 327–329Uralic Phonetic Alphabet (UPA) . . . . . . .280, 302see also International Phonetic Alphabet (IPA)
Pinyin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297pipeline table
proposed new characters . . . . . . . . . . . . . . . . . .903pivot code, Unicode as . . . . . . . . . . . . . . . . . . . . . .198plain text
as Unicode design principle . . . . . . . . . . . . . . . .18legibility criterion . . . . . . . . . . . . . . . . . . . . . . . .19
planes of Unicode codespace . . . . . . . . . . . . . . . . . .44Plane 0 (BMP) . . . . . . . . . . . . . . . . . . . . . . . . . . .44Plane 1 (SMP) . . . . . . . . . . . . . . . . . . . . . . . .44, 51Plane 14 (SSP) . . . . . . . . . . . . . . . . . . . . . . . . . . .45Plane 2 (SIP) . . . . . . . . . . . . . . . . . . . . . . . . .44, 52Planes 15-16 (Private Use) . . . . . . . . . . . . .52, 861
Playing Cards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .829points, Hebrew pronunciation marks . . . . . . . . . .365policies of the Unicode Consortium . . . . . . . . . . .903Polish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298Portuguese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297precomposed characters
see decomposable characterscompatibility see compatibility decomposable
charactersprefixed format control characters . . . . . . . . . . . . .194prepended concatenation marks . . . . . . . . . .255, 334Private Use Area (PUA) . . . . . . . . . . . . . . . . . . .50, 860Private Use planes . . . . . . . . . . . . . . . . . . . .45, 52, 861
Index 1000
private-use charactersproperties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859semantics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
private-use code points . . . . . . . . . . . . . . . . . . 31, 203conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105high surrogates . . . . . . . . . . . . . . . . . . . . . . . . . 862
processing code, Unicode as . . . . . . . . . . . . . . . . . . 38properties . . . . . . . . . . . . . . . . . . 18, 95–105, 161–195
aliases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164aliases (definition) . . . . . . . . . . . . . . . . . . . . . . 104and Unicode algorithms . . . . . . . . . . . . . . . . . . 99data tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198derived see derived propertiesin Unicode Character Database (UCD) . . . . . . 46informative see informative propertiesnormative references to . . . . . . . . . . . . . . . . 77, 84normative see normative propertiesof control codes . . . . . . . . . . . . . . . . . . . . . . . . 841provisional see provisional propertiessimple see simple propertiessee also individual properties, e.g. combining
classesproperty values
aliases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164aliases (definition) . . . . . . . . . . . . . . . . . . . . . . 105default . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97default (definition) . . . . . . . . . . . . . . . . . . . . . . . 97normative references to . . . . . . . . . . . . . . . . . . . 84
PropertyAliases.txt . . . . . . . . . . . . . . . . . . . . . 104, 896PropertyValueAliases.txt . . . . . . . . . . . . . . . . 105, 896PropList.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168Provençal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298provisional properties
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101PS (U+2029 paragraph separator) . . . . . . . . 211, 845Psalter Pahlavi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
reference materials . . . . . . . . . . . . . . . . . . . . . . 972PUA (Private Use Area) . . . . . . . . . . . . . . . . . . 50, 860pukki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485punctuation . . . . . . . . . . . . . . . . . . . . . . . . . . . 265–289
blocks containing . . . . . . . . . . . . . . . . . . . . . . . 259CJK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286doubled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277in bidirectional text . . . . . . . . . . . . . . . . . . . . . 265paired . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271small form variants . . . . . . . . . . . . . . . . . . . . . 289typographic forms . . . . . . . . . . . . . . . . . . . . . . 265vertical forms . . . . . . . . . . . . . . . . . . . . . . . . . . 288
Punctuation and Symbols Area . . . . . . . . . . . . . . . . 50Punjabi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
Qquotation marks . . . . . . . . . . . . . . . . . . . . . . . 272–275
East Asian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .274European . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .272
Rradicals, KangXi and other CJK . . . . . . . . . . 699–700radical-stroke index . . . . . . . . . . . . . . . . . . . . . . . . .695record separator (U+001E) . . . . . . . . . . . . . . . . . . .841recycling symbols . . . . . . . . . . . . . . . . . . . . . . 824–825referencing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84
properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .77Unicode algorithms . . . . . . . . . . . . . . . . . . . . . . .78Unicode Standard . . . . . . . . . . . . . . . . . . . . . . . .76
regional indicator symbols . . . . . . . . . . . . . . . . . . .836regular expressions . . . . . . . . . . . . . . . . . . . . . . . . . .216
and line breaking . . . . . . . . . . . . . . . . . . . . . . . .211see also UTS #18, Unicode Regular Expressions
Rejang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .675reference materials . . . . . . . . . . . . . . . . . . . . . . .972
rendering of text . . . . . . . . . . . . . . . . . . . . . . . .6, 10, 17fallback . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .254unsupported characters . . . . . . . . . . . . . . . . . .203
repertoire of abstract characters . . . . . . . . . . . . . . . .29replacement character (U+FFFD) . . . 43, 68, 83, 128,
256, 869reserved code points . . . . . . . . . . . . . . . . . . . . .30, 203
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .93in code charts . . . . . . . . . . . . . . . . . . . . . . . . . . .879preservation in interchange . . . . . . . . . . . . . . . .31see also unassigned code points
Rhaeto-Romanic . . . . . . . . . . . . . . . . . . . . . . . . . . .298rich text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18right single quotation mark (U+2019)
preferred for apostrophe . . . . . . . . . . . . . . . . . .276right-to-left text . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53
East Asian scripts . . . . . . . . . . . . . . . . . . . . . . . .680Middle Eastern scripts . . . . . . . . . . . . . . . . . . . .363
roadmap for script additions . . . . . . . . . . . . . .46, 903Roman numerals . . . . . . . . . . . . . . . . . . . . . . .207, 805Romanian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298
comma below . . . . . . . . . . . . . . . . . . . . . . . . . . .295Romany . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298Rong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548–550Rumi numeral symbols . . . . . . . . . . . . . . . . . . . . . .799Runic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352–354
reference materials . . . . . . . . . . . . . . . . . . . . . . .972Russian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .316
SSamaritan . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403–404
reference materials . . . . . . . . . . . . . . . . . . . . . . .972Sami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298
Index 1001
Sanskrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447Saurashtra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
reference materials . . . . . . . . . . . . . . . . . . . . . . 973scalar values, Unicode
see Unicode scalar valuesscripts
in Unicode Standard . . . . . . . . . . . . . . . . . . . . . . 3roadmap for future additions . . . . . . . . . . 46, 903types of . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264see also UAX #24, Unicode Script Property
SCSUsee UTS #6, A Standard Compression Scheme for
Unicodesearching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232–234
as a text process . . . . . . . . . . . . . . . . . . . . . . . . . 10case-insensitive . . . . . . . . . . . . . . . . . . . . . 233, 242
section or paragraph marks . . . . . . . . . . . . . . . . . . 280security issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247self-synchronization of encoding forms . . . . . . . . . 34semantics
see character semanticssequences
notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894Serbian
corresponding digraphs in Croatian . . . . . . . 298Shan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642
digits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794Sharada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590–591
reference materials . . . . . . . . . . . . . . . . . . . . . . 973Shavian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361, 721
reference materials . . . . . . . . . . . . . . . . . . . . . . 973Show Hidden . . . . . . . . . . . . . . . . . . 81, 224, 254, 857SHY (U+00AD soft hyphen) . . . . . . . . . . . . . . . . . 844Sibe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529Siddham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594–595
reference materials . . . . . . . . . . . . . . . . . . . . . . 973signature for Unicode data . . . . . . . . . . . 67, 865–867simple properties
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104simplified Chinese . . . . . . . . . . . . . . . . . . . . . . . . . 687Sindhi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371, 464Sinhala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513–514
reference materials . . . . . . . . . . . . . . . . . . . . . . 974Sinological dot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304SIP (Supplementary Ideographic Plane) . . . . . 44, 52slash, fraction (U+2044) . . . . . . . . . . . . . . . . . . . . 277Slovak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298Slovenian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298small letters . . . . . . . . . . . . . . . . . . . . . . . 166, 238, 291SMP (Supplementary Multilingual Plane) . . . . 44, 51soft hyphen (U+00AD) (SHY) . . . . . . . . . . . . . . . 844Somali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734Sora Sompeng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614
reference materials . . . . . . . . . . . . . . . . . . . . . . 974
Sorbian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298sorting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12, 232
and combining grapheme joiner . . . . . . . . . . .850as a text process . . . . . . . . . . . . . . . . . . . . . . . . . .10case-insensitive . . . . . . . . . . . . . . . . . . . . . . . . .233culturally expected . . . . . . . . . . . . . . . . . . . .12, 232language-insensitive . . . . . . . . . . . . . . . . . . . . .232see also Unicode Collation Algorithm (UCA)
source separation rule . . . . . . . . . . . . . . . . . . .684, 690South and Central Asian scripts
Ancient . . . . . . . . . . . . . . . . . . . . . . . . . . . 555–581Other historic . . . . . . . . . . . . . . . . . . . . . . 583–614Other modern . . . . . . . . . . . . . . . . . . . . . 509–551
South Asian scripts . . . . . . . . . . . . . . . . . . . . 445–540Southeast Asian scripts . . . . . . . . . . . . . . . . . 615–658Soyombo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579–580
reference materials . . . . . . . . . . . . . . . . . . . . . . .974space (U+0020)
base for diacritic in isolation . . . . . . .60, 269, 331space characters . . . . . . . . . . . . . . . . . . . 268, 843–845
graphics for . . . . . . . . . . . . . . . . . . . . . . . . . . . .814space, zero width (U+200B) . . . . . . . . . . . . . . . . . .268spacing clones of diacritics . . . . . . . . . . . . . . .328, 332spacing marks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .330
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .108Spacing Modifier Letters . . . . . . . . . . . . . . . . 327–329Spanish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297special characters . . . . . . . . . . . . . . . . . . . 67, 839–874SpecialCasing.txt . . . . . . . . . . . . . . . . . . . . . . .153, 168Specials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865–869spell-checking
as a text process . . . . . . . . . . . . . . . . . . . . . . . . . .11spellings, alternative
see equivalent sequencesspoofing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .247SSP (Supplementary Special-purpose Plane) . . . . .45stability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102, 163
as Unicode design principle . . . . . . . . . . . . . . . .23stacked boundaries . . . . . . . . . . . . . . . . . . . . . . . . .219stacking sequences . . . . . . . . . . . . . . . . . . . . . . . . . . .57
nondefault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .58standardized variants . . . . . . . . . . . . . . . . . . . .532, 856
in the code charts . . . . . . . . . . . . . . . . . . . . . . . .886mathematical symbols . . . . . . . . . . . . . . . . . . . .812
StandardizedVariants.txt . . . . . . . . . . . . . . . . .532, 812standards coverage . . . . . . . . . . . . . . . . . . . . . . . . . . . .3starters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .137stateful encoding
not used in Unicode . . . . . . . . . . . . . . . . . . . . . . .4paired format controls . . . . . . . . . . . . . . . . . . .852
string comparison . . . . . . . . . . . . . . . . . . . . . . . . . . .12string literals, Unicode
code point notation \u1234 . . . . . . . . . . . . . . .896
Index 1002
strings, Unicode . . . . . . . . . . . . . . . . . . . . . . . . 43, 121null termination . . . . . . . . . . . . . . . . . . . . . . . . 842
strong directional characters . . . . . . . . . . . . . . . . . 173styled text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18sublinear searching . . . . . . . . . . . . . . . . . . . . . . . . . 233subsets, supported . . . . . . . . . . . . . . . . . . . . . . . . . . 71
conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80ISO/IEC 10646 specification for . . . . . . . . . . . 916
substitution charactersee replacement character
Sumero-Akkadian . . . . . . . . . . . . . . . . . . . . . 430–433Sumero-Akkadian Cuneiform
reference materials . . . . . . . . . . . . . . . . . . . . . . 974Sundanese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677–678
reference materials . . . . . . . . . . . . . . . . . . . . . . 975superscripts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
and subscripts . . . . . . . . . . . . . . . . . . . . . . . . . . 803supplementary characters
in UTF-16 strings . . . . . . . . . . . . . . . . . . . . . . . . 43tables for . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
Supplementary General Scripts Area . . . . . . . . . . . 50Supplementary Ideographic Plane (SIP) . . . . . 44, 52Supplementary Multilingual Plane (SMP) . . . . 44, 51supplementary planes
representation in UTF-16 . . . . . . . . . . . . . . . . . 36representation in UTF-8 . . . . . . . . . . . . . . . . . . 37
Supplementary Private Use Areas . . . . . . . . . . 52, 861Supplementary Special-purpose Plane (SSP) . . . . . 45supported subsets . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80supralineation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314surrogate code points
see surrogatessurrogate pairs . . . . . . . . . . . . . . . . . . . . . . . . . 36, 125
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119processing . . . . . . . . . . . . . . . . . . . . . . 38, 205–206
surrogates . . . . . . . . . . . . . . . . . . . . . . . . . 31, 119, 862interchange restrictions . . . . . . . . . . . . . . . . . . . 31isolated surrogates, handling . . . . . . . . . . . . . . . 43isolated surrogates, ill-formed . . . . . . . . . . . . 125isolated surrogates, uninterpreted . . . . . . . . . 119support levels . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Surrogates Area . . . . . . . . . . . . . . . . . . . . . . . . . 50, 862Sutton SignWriting . . . . . . . . . . . . . . . . . . . . 777–778
reference materials . . . . . . . . . . . . . . . . . . . . . . 975Suzhou-style numerals . . . . . . . . . . . . . . . . . . . . . . 801svasti signs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524Swahili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297Swedish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297syllabaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
alphabetic property . . . . . . . . . . . . . . . . . . . . . 190featural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
Syloti Nagri . . . . . . . . . . . . . . . . . . . . . . . . . . . 585–586
symbols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 779–837animal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825appearance variation . . . . . . . . . . . . . . . . . . . . .779arrows . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811–812box drawing . . . . . . . . . . . . . . . . . . . . . . . . . . . .819cultural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825currency symbols block . . . . . . . . . . . . . . 781–784dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .824dingbats . . . . . . . . . . . . . . . . . . . . . . . . . . 826–828emoji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .822, 836Enclosed Alphanumerics . . . . . . . . . . . . . . . . .835fragments for mathematical typesetting . . . . .815game . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825gender . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825genealogical . . . . . . . . . . . . . . . . . . . . . . . . . . . .825geometrical . . . . . . . . . . . . . . . . . . . . . . . . 819–821hand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825Khmer lunar calendar . . . . . . . . . . . . . . . . . . . .641letterlike . . . . . . . . . . . . . . . . . . . . . . . . . . 785–791map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .824mathematical . . . . . . . . . . . . . . . . . . . . . . 805–812mathematical alphanumeric . . . . . . . . . . 786–791miscellaneous . . . . . . . . . . . . . . . . . . . . . . . . . . .823musical . . . . . . . . . . . . . . . . . . . . . . . . . . . 766–774numerals . . . . . . . . . . . . . . . . . . . . . . . . . . 792–802recycling . . . . . . . . . . . . . . . . . . . . . . . . . . 824–825regional indicator . . . . . . . . . . . . . . . . . . . . . . .836technical . . . . . . . . . . . . . . . . . . . . . . . . . . 814–818weather . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .824zodiacal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .825
symmetric swapping format characters . . . . . . . . .854Syriac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394–401
reference materials . . . . . . . . . . . . . . . . . . . . . . .975
Ttab (U+0009 character tabulation) . . . . . . . . . . . .841tab, vertical (U+000B) . . . . . . . . . . . . . . . . . . .211, 841tables of character data . . . . . . . . . . . . . . . . . 198–199
optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . .199supplementary characters . . . . . . . . . . . . . . . . .199
tag characters . . . . . . . . . . . . . . . . . . . . . . . . . 870–874Tagalog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .660Tagbanwa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .660tags, language . . . . . . . . . . . . . . . . . . . . . 217, 870–874
use strongly discouraged . . . . . . . . . . . . . . . . . .873Tai Laing
digits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .794Tai Le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642–643
reference materials . . . . . . . . . . . . . . . . . . . . . . .976Tai Tham . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647–649
digits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .794reference materials . . . . . . . . . . . . . . . . . . . . . . .976
Tai Viet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650–652
Index 1003
Tai Xuan Jing symbols . . . . . . . . . . . . . . . . . . . . . . 831Takri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592–593
reference materials . . . . . . . . . . . . . . . . . . . . . . 976Tamil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485–493Tangut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726–727
components . . . . . . . . . . . . . . . . . . . . . . . . . . . 727radicals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727reference materials . . . . . . . . . . . . . . . . . . . . . . 976
tashkil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372tashkil, harakat, points . . . . . . . . . . . . . . . . . . . . . . 374TCHAR in Win32 API . . . . . . . . . . . . . . . . . . . . . . 202Technical Reports (UTR) . . . . . . . . . . . . . . . . . . . 901Technical Standards (UTS) . . . . . . . . . . . . . xxxvi, 901
abstracts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 902technical symbols . . . . . . . . . . . . . . . . . . . . . . 814–818Telugu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494–496terminal emulation . . . . . . . . . . . . . . . . . . . . . . . . . 780text boundaries . . . . . . . . . . . . . 61, 191, 219–220, 230
see also UAX #14, Unicode Line Breaking Algo-rithm
see also UAX #29, Unicode Text Boundariestext elements . . . . . . . . . . . . . . . . . . . . . . . . . 6, 10, 219
boundaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230for sorting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232variable-width nature . . . . . . . . . . . . . . . . . . . . 38
text processes . . . . . . . . . . . . . . . . . . . . . . . . . 6, 10–13text rendering . . . . . . . . . . . . . . . . . . . . . . . . . 6, 10, 17text selection, boundaries for . . . . . . . . . . . . 219–220Thaana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511–512
reference materials . . . . . . . . . . . . . . . . . . . . . . 976Thai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617–620Tibetan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517–527Tifinagh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735Tigre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730tilde (U+007E) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280Tirhuta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603–605
reference materials . . . . . . . . . . . . . . . . . . . . . . 977titlecase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166, 238Todo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529tone letters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328–329tone marks
Bopomofo spacing . . . . . . . . . . . . . . . . . . 705, 706Chinantec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329Chinese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329Tai Le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642Thai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617Vietnamese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
traditional Chinese . . . . . . . . . . . . . . . . . . . . . . . . . 687traffic signs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824trailing surrogates
see low-surrogate code unitstranscoding . . . . . . . . . . . . . . . . . . . . . . . . . . . 198–199
tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Transport and Map Symbols . . . . . . . . . . . . . . . . .826triangulation in transcoding . . . . . . . . . . . . . . . . . .198tries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .198truncation
combining character sequences . . . . . . . 222–223surrogates and . . . . . . . . . . . . . . . . . . . . . . . . . .206
Turkish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .298case mapping of I . . . . . . . . . . . . . . . . . . . .240, 295cedilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .295lira sign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .783
two-stage tables . . . . . . . . . . . . . . . . . . . . . . . . . . . .199
UU+ notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .896U+10FFFF (not a character code) . . . . . . . . . . . . .863U+FEFF (BOM) . . . . . . . . . . . . . . . . . . . . . . . 865–867U+FFFE (not a character code) . . . . . . . . . . . . . . .864U+FFFF (not a character code) . . . . . . . . . . . . . . .863UAX (Unicode Standard Annex) . . . . . . . . xxxiii, 901
as component of Unicode Standard . . . . . . . . .79conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .85list of . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .85
UCA see Unicode Collation Algorithm and see also UTS #10, Unicode Collation Algorithm
UCD see Unicode Character DatabaseUCS (Universal Character Set)
see ISO/IEC 10646UCS-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .913UCS-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .913Ugaritic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .434
reference materials . . . . . . . . . . . . . . . . . . . . . . .977Ukrainian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .316unassigned code points . . . . . . . . . . . . . . . .30, 79, 203
defined as reserved code points . . . . . . . . . . . . .93handling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74properties of . . . . . . . . . . . . . . . . . . . . . . . . . . . . .97semantics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .79see also reserved code points
underscores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .277undesignated code points . . . . . . . . . . . . . . . . . . . . .30Unicode 1.0 Name (informative property) . . . . . .189Unicode algorithms
and properties . . . . . . . . . . . . . . . . . . . . . . . . . . .99conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .84definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .93normative references to . . . . . . . . . . . . . . . . .78, 84
Unicode Bidirectional Algorithm . . . . . . . . . . . .20, 53see also UAX #9, Unicode Bidirectional Algorithm
Unicode Character Database (UCD) . .xxxv, 163, 903as component of Unicode Standard . . . . . . . . .79changes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74properties in . . . . . . . . . . . . . . . . . . . . . . . . . . . . .46
Index 1004
Unicode character encoding model . . . . . . . . . 33, 42see also UTR #17, Unicode Character Encoding
ModelUnicode character literals
code point notation U+ . . . . . . . . . . . . . . . . . . 896Unicode codespace
allocation numbers . . . . . . . . . . . . . . . . . . . . . 920definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90planes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44size . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1, 29
Unicode Collation Algorithm (UCA) . . . . . . . . . . . 12Unicode Common Locale Data Repository (CLDR) . 903Unicode conferences . . . . . . . . . . . . . . . . . . . . . . . 902Unicode Consortium . . . . . . . . . . . . . . . . . . . . . . . 900
addresses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904Consortium membership in standards bodies 900e-mail discussion list . . . . . . . . . . . . . . . . . . . . 902FTP site . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 902membership . . . . . . . . . . . . . . . . . . . . . . . . . . . 900policies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 903website . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 902
Unicode data signature . . . . . . . . . . . . . . 67, 865–867Unicode data types . . . . . . . . . . . . . . . . . . . . . 201–202
for C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201–202Unicode encoding forms . . . . . . . . . . . . . . . . 120–127
advantages of each . . . . . . . . . . . . . . . . . . . . . . . 38conformance . . . . . . . . . . . . . . . . . . . . . . . . . 34, 82definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121fixed-width (UTF-32) . . . . . . . . . . . . . . . . 35, 124signatures . . . . . . . . . . . . . . . . . . . . . . . . . 866, 867variable-width . . . . . . . . . . . . . . . . . . . . . . . 36, 125see also encoding forms
Unicode encoding schemesconformance . . . . . . . . . . . . . . . . . . . . . . . 131–134definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131endian ordering . . . . . . . . . . . . . . . . . . . . . . . . . 40see also encoding schemes
Unicode escape sequence notation \u1234 . . . . . 896Unicode scalar values
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120Unicode security . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
see also UTS #39, Unicode Security MechanismsUnicode Standard
allocation of encoded characters . . . . . . . . . 44–52architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 10–13areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45benefits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1blocks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259code charts . . . . . . . . . . . . . . . . . . . . 875–892, 902components . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79conformance . . . . . . . . . . . . . . . . . . . . . . . . 73–159conformance of ISO/IEC 10646 implementations
918corrections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
definitions for conformance . . . . . . . . . . . . .87–93design goals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4design principles . . . . . . . . . . . . . . . . . . . . . .14–24errata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .76, 903normative references to . . . . . . . . . . . . . . . . .76, 84number of characters . . . . . . . . . . . . . . . . . . . . . .3number of code points . . . . . . . . . . . . . . . . . .1, 29script coverage . . . . . . . . . . . . . . . . . . . . . . . . . . . .3security issues . . . . . . . . . . . . . . . . . . . . . . . . . . .247synchrony with ISO/IEC 10646 . . . . . . . . . . . .915updates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .903versions see versions of the Unicode Standardsee also Version 10.0
Unicode Standard Annexes (UAX) . . . . . . xxxiii, 901as components of Unicode Standard . . . . . . . . .79conformance . . . . . . . . . . . . . . . . . . . . . . . . . . . .85list of . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .85
Unicode string literalscode point notation \u1234 . . . . . . . . . . . . . . .896
Unicode strings . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .121
Unicode Technical Committee (UTC) . . . . . . . . .900Unicode Technical Reports (UTR) . . . . . . . . . . . .901Unicode Technical Standards (UTS) . . . . . xxxvi, 901
abstracts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .902UnicodeData.txt . . . . . . . . . . . . . . . . . . . . . . . .153, 168unification
as Unicode design principle . . . . . . . . . . . . . . . .21see also Han unification
Unified Repertoire and Ordering (URO) . . .691, 927see also Han unification
Unihan Database . . . . . . 163, 695, 696, 889, 903, 928Unihan.zip . . . . . . . . . . . . . . . . . . . . . . . . . . . .102, 163unit separator (U+001F) . . . . . . . . . . . . . . . . . . . . .841Universal Character Set (UCS)
see ISO/IEC 10646universality
as Unicode design principle . . . . . . . . . . . . . . . .14Unix
and UTFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38newline function . . . . . . . . . . . . . . . . . . . . . . . .212UTF-32 in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35UTF-8 in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
unsupported characters . . . . . . . . . . . . . . . . . . . . . .203upadhmaniya . . . . . . . . . . . . . . . . . . . . . . . . . .468, 590update version . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75uppercase . . . . . . . . . . . . . . . . . . . . . . . . 166, 238, 291Uralic Phonetic Alphabet (UPA) . . . . . . . . . .280, 302Urdu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .371URO (Unified Repertoire and Ordering) . . .691, 927
see also Han unificationUTF, Unicode Transformation Formats . . . . .33, 121
advantages of each . . . . . . . . . . . . . . . . . . . . . . . .38as encoding form or scheme . . . . . . . . . . . . . . .134
Index 1005
binary comparison and sort order differences . . 233, 235
in APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202UTF-16 . . . . . . . . . . . . . . . . . . . . . . . . . . . 36, 125, 914
binary comparison and sort order caution . . . 36bit distribution (table) . . . . . . . . . . . . . . . . . . . 125BOM in . . . . . . . . . . . . . . . . . . . . . . . . . . . 132, 865encoding form (definition) . . . . . . . . . . . . . . . 125encoding scheme (definition) . . . . . . . . . . . . . 132encoding schemes . . . . . . . . . . . . . . . . . . . . . . . 40in ISO/IEC 10646 . . . . . . . . . . . . . . . . . . . . . . . 914in UTF-8 order . . . . . . . . . . . . . . . . . . . . . . . . . 236surrogates and string handling . . . . . . . . . 43, 205
UTF-16BE (Big-endian) . . . . . . . . . . . . . . . . . . . . 866encoding scheme . . . . . . . . . . . . . . . . . . . . . . . . 41encoding scheme (definition) . . . . . . . . . . . . . 131
UTF-16LE (Little-endian) . . . . . . . . . . . . . . . . . . . 866encoding scheme . . . . . . . . . . . . . . . . . . . . . . . . 41encoding scheme (definition) . . . . . . . . . . . . . 131
UTF-32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35, 124as processing code . . . . . . . . . . . . . . . . . . . . . . . 38BOM in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133encoding form (definition) . . . . . . . . . . . . . . . 124encoding scheme (definition) . . . . . . . . . . . . . 133encoding schemes . . . . . . . . . . . . . . . . . . . . . . . 40in Unix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
UTF-32BE (Big-endian)encoding scheme . . . . . . . . . . . . . . . . . . . . . . . . 41encoding scheme (definition) . . . . . . . . . . . . . 132
UTF-32LE (Little-endian)encoding scheme . . . . . . . . . . . . . . . . . . . . . . . . 41encoding scheme (definition) . . . . . . . . . . . . . 133
UTF-8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36, 125, 914ASCII transparency . . . . . . . . . . . . . . . . . . . . . . 36binary comparison and sort order . . . . . . . . . . 39bit distribution (table) . . . . . . . . . . . . . . . . . . . 126BOM in . . . . . . . . . . . . . . . . . . . . . . . 131, 134, 866byte ranges . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126compared to multibyte encodings . . . . . . . . . . 37encoding form (definition) . . . . . . . . . . . . . . . 125encoding scheme . . . . . . . . . . . . . . . . . . . . . . . . 40encoding scheme (definition) . . . . . . . . . . . . . 131in Unix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18in UTF-16 order . . . . . . . . . . . . . . . . . . . . . . . . 235non-shortest form is invalid . . . . . . . . . . 125, 247preferred encoding for Internet protocols . . . . 37security and . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247signature . . . . . . . . . . . . . . . . . . . . . . 131, 134, 866
UTR (Unicode Technical Report) . . . . . . . . . . . . 901UTS (Unicode Technical Standard) . . . . . . xxxvi, 901
abstracts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 902Uyghur . . . . . . . . . . . . . . . . . . . . . . . . . . . 371, 528, 568
VVai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743–744
reference materials . . . . . . . . . . . . . . . . . . . . . . .977valid (synonym for well-formed) . . . . . . . . . . . . . .123variable-width Unicode encoding form . . . . . .36, 125variants
compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . .26fullwidth and halfwidth . . . . . . . . . . . . . . . . . . .289mathematical symbols . . . . . . . . . . . . . . . . . . . .812small form . . . . . . . . . . . . . . . . . . . . . . . . . . . . .289standardized . . . . . . . . . . . . . . . . . . . . . . . . . . . .856
variation selectors . . . . . . . . . . . . . . . . . . . . . .195, 856ideographic variation mark (U+303E) . . . . . .703Mongolian free variation selectors . . . . . . . . . .532
variation sequences . . . . . . . . . . . . . . . . . . . . . . . . .856for Phags-pa . . . . . . . . . . . . . . . . . . . . . . . 572–574
Version 10.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .79number of characters . . . . . . . . . . . . . . . . . . . . . .3
versions of the Unicode Standard xxxv, 74, 903, 919–920backward compatibility . . . . . . . . . . . . . . . . . . . .74compared to ISO/IEC 10646 editions . . . . . . .919content . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75interaction in implementations . . . . . . . . . . . .203numbering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75property changes . . . . . . . . . . . . . . . . . . . . . . . . .74stability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74updates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .903
vertical tab (U+000B) . . . . . . . . . . . . . . . . . . .211, 841vertical text . . . . . . . . . . . . . . . . . . . . . . . . .53, 266, 288
East Asian scripts . . . . . . . . . . . . . . . . . . . . . . . .680Mongolian . . . . . . . . . . . . . . . . . . . . . . . . . . . . .529
Vietnamese . . . . . . . . . . . . . . . . . . . . . . . . . . . .296, 303ideographs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .680
virama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .262, 445definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .450Kharoshthi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .564Khmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .634Myanmar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .625Philippine scripts . . . . . . . . . . . . . . . . . . . . . . . .660virama-like characters . . . . . . . . . . . . . . . . . . . .193
visual order used for Thai and Lao . . . . . . . . . . . . . .21vowel harmony
Mongolian . . . . . . . . . . . . . . . . . . . . . . . . . . . . .533vowel marks, Middle Eastern scripts . . . . . . . . . . .363vowel separator
Mongolian . . . . . . . . . . . . . . . . . . . . . . . . . . . . .534vowel signs
Indic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .56, 449Khmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .636Philippine scripts . . . . . . . . . . . . . . . . . . . . . . . .660
Index 1006
WWarang Citi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544
reference materials . . . . . . . . . . . . . . . . . . . . . . 977wchar_t
and Unicode encoding forms . . . . . . . . . . . . . . 38in C language . . . . . . . . . . . . . . . . . . . . . . . . . . 202
weak directional characters . . . . . . . . . . . . . . . . . . 173weather symbols . . . . . . . . . . . . . . . . . . . . . . . . . . . 824website, Unicode Consortium . . . . . . . . . . . . . . . . 902Weierstrass elliptic function symbol . . . . . . . . . . . 786well-formed
definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122Welsh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298Where Is My Character? . . . . . . . . . . . . . . . . . . . . 904wide characters
data type in C . . . . . . . . . . . . . . . . . . . . . . . . . . 202wiggly fence (U+29DB) . . . . . . . . . . . . . . . . . . . . . 810Windows newline function . . . . . . . . . . . . . . . . . . 212word breaks . . . . . . . . . . . . . . . . . . . . . . . 221, 843–845
in South Asian scripts . . . . . . . . . . . 619, 627, 641word joiner (U+2060) . . . . . . . . . . . . . . . . . . . . . . 843writing direction see directionalitywriting systems . . . . . . . . . . . . . . . . . . . . . . . . 260–264Wu (Shanghainese) . . . . . . . . . . . . . . . . . . . . . . . . 688
XXibe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529Xishuangbanna Dai . . . . . . . . . . . . . . . . . . . . . . . . 644
YYi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717–719
reference materials . . . . . . . . . . . . . . . . . . . . . . 978Yiddish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365Yijing Hexagram Symbols . . . . . . . . . . . . . . . . . . . 830ypogegrammeni . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
ZZanabazar Square . . . . . . . . . . . . . . . . . . . . . . 576–578
reference materials . . . . . . . . . . . . . . . . . . . . . . 978Zapf Dingbats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826zero extension relation among encodings . . . . . . 913zero width joiner (U+200D) . . . . . . . . . 373–374, 846zero width no-break space (U+FEFF) . . . 67, 83, 843
initial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134, 866zero width non-joiner (U+200C) . . . . . 373–374, 847zero width space (U+200B) . . . . . . . . . . . . . . . . . . 844
for word breaks in South Asian scripts . 619, 627, 641
zero-width space characters . . . . . . . . . . . . . . . . . . 844ZWJ see zero width joiner (U+200D)ZWNBSP see zero width no-break space (U+FEFF)ZWNJ see zero width non-joiner (U+200C)ZWSP see zero width space (U+200B)