HTML-Aid が内部処理で分類する文字の一覧です。
但し、以下は「漢字かつ平仮名」、
U+3095〜U+3096 | ゕ / ゖ |
以下は「漢字かつ片仮名」、
U+30F5〜U+30F6 | ヵ / ヶ |
そして以下は「平仮名かつ片仮名」です。
U+301C | 〜 |
U+27B0 | ➰ |
U+27BF | ➿ |
U+3030〜U+3035 | 〰 / 〱 / 〲 / 〳 / 〴 / 〵 |
U+3099〜U+309C | 濁点と半濁点(単独と合成用) |
U+30FC | ー |
U+FF70 | ー |
U+FF9E〜U+FF9F | 半角の濁点と半濁点 |
以下の範囲を「漢字グループ」とします。
U+4E00〜U+9FFF | 漢字 |
U+3400〜U+4DBF | 拡張漢字 A |
U+F900〜U+FAFF | 互換漢字 |
U+D800〜U+DFFF | サロゲートペア(拡張漢字 B〜 と互換補助漢字を含む) |
U+3005〜U+3007 | 々 / 〆 / 〇 |
U+303B | 〻 |
U+3095〜U+3096 | ゕ / ゖ |
U+30F5〜U+30F6 | ヵ / ヶ |
以下の範囲を「平仮名グループ」とします。
U+3041〜U+3096 | 平仮名 |
U+309D〜U+309F | ゝ / ゞ / ゟ |
U+301C | 〜 |
U+27B0 | ➰ |
U+27BF | ➿ |
U+3030〜U+3035 | 〰 / 〱 / 〲 / 〳 / 〴 / 〵 |
U+3099〜U+309C | 濁点と半濁点(単独と合成用) |
U+30FC | ー |
U+FF70 | ー |
U+FF9E〜U+FF9F | 半角の濁点と半濁点 |
以下の範囲を「片仮名グループ」とします。
U+30A1〜U+30FA | 片仮名 |
U+30FD〜U+30FF | ヽ / ヾ / ヿ |
U+31F0〜U+31FF | 片仮名拡張 |
U+301C | 〜 |
U+27B0 | ➰ |
U+27BF | ➿ |
U+3030〜U+3035 | 〰 / 〱 / 〲 / 〳 / 〴 / 〵 |
U+3099〜U+309C | 濁点と半濁点(単独と合成用) |
U+30FC | ー |
U+FF66〜U+FF9F | 半角片仮名 |
以下の範囲を「区切り文字グループ」とします。
U+0000〜U+001F | 制御文字(タブ、改行を含む) |
U+0020〜U+002F | ASCII 約物と記号・その 1(空白を含む) |
U+003A〜U+0040 | ASCII 約物と記号・その 2 |
U+005B〜U+0060 | ASCII 約物と記号・その 3 |
U+007B〜U+007F | ASCII 約物と記号・その 4 |
U+2000〜U+206F | 一般句読点 |
U+3000〜U+303F | JIS 約物(但し以下は除く : 〆 / 〇 / 々 / 〰 / 〱 / 〲 / 〳 / 〴 / 〵 / 〜 / 〻) |
U+FF01〜U+FF0F | 全角約物と記号・その 1 |
U+FF1A〜U+FF20 | 全角約物と記号・その 2 |
U+FF3B〜U+FF40 | 全角約物と記号・その 3 |
U+FF5B〜U+FF5E | 全角約物と記号、その 4 |
U+FFE0〜U+FFE5 | 全角約物と記号、その 5 |
U+FF61〜U+FF65 | 半角カナ約物 |
文字 n 種、名前 n 種を変換します。
…って、これをプログラムで丸抱えするのは少々病的です。
どうせブラウザ内部に持っている情報なんですから、decodeURIComponent()
の様に API があってもいいと感じます。
「数値」は数値文字参照、「参照」はブラウザが解決した文字実体参照、「自前」は HTML-Aid 内部関数が解決した文字実体参照です。
「③」は JIS X 0213 の面句点番号、「⑧」は JIS X 0208 の句点番号、「②」は JIS X 0212 の句点番号です。