HTML-Aid 文字種別一覧

HTML-Aid が内部処理で分類する文字の一覧です。

し、以下は「漢字かつ平仮名」、

U+3095〜U+3096ゕ / ゖ

以下は「漢字かつ片仮名」、

U+30F5〜U+30F6ヵ / ヶ

そして以下は「平仮名かつ片仮名」です。

U+301C
U+27B0
U+27BF
U+3030〜U+3035 / 〱 / 〲 / 〳 / 〴 / 〵
U+3099〜U+309C濁点と半濁点(単独と合成用)
U+30FC
U+FF70
U+FF9E〜U+FF9F半角の濁点と半濁点

漢字グループ

以下の範囲を「漢字グループ」とします。

U+4E00〜U+9FFF漢字
U+3400〜U+4DBF拡張漢字 A
U+F900〜U+FAFF互換漢字
U+D800〜U+DFFFサロゲートペア(拡張漢字 B〜 と互換補助漢字を含む)
U+3005〜U+3007 / 〆 / 〇
U+303B
U+3095〜U+3096ゕ / ゖ
U+30F5〜U+30F6ヵ / ヶ

平仮名グループ

以下の範囲を「平仮名グループ」とします。

U+3041〜U+3096平仮名
U+309D〜U+309F / ゞ / ゟ
U+301C
U+27B0
U+27BF
U+3030〜U+3035 / 〱 / 〲 / 〳 / 〴 / 〵
U+3099〜U+309C濁点と半濁点(単独と合成用)
U+30FC
U+FF70
U+FF9E〜U+FF9F半角の濁点と半濁点

片仮名グループ

以下の範囲を「片仮名グループ」とします。

U+30A1〜U+30FA片仮名
U+30FD〜U+30FF / ヾ / ヿ
U+31F0〜U+31FF片仮名拡張
U+301C
U+27B0
U+27BF
U+3030〜U+3035 / 〱 / 〲 / 〳 / 〴 / 〵
U+3099〜U+309C濁点と半濁点(単独と合成用)
U+30FC
U+FF66〜U+FF9F半角片仮名

その他グループ

漢字グループ」、「平仮名グループ」、「片仮名グループ」のいずれにも該当しない文字を「その他グループ」とします。

区切り文字グループ

以下の範囲を「区切り文字グループ」とします。

U+0000〜U+001F制御文字(タブ、改行を含む)
U+0020〜U+002FASCII 約物と記号・その 1(空白を含む)
U+003A〜U+0040ASCII 約物と記号・その 2
U+005B〜U+0060ASCII 約物と記号・その 3
U+007B〜U+007FASCII 約物と記号・その 4
U+2000〜U+206F一般句読点
U+3000〜U+303FJIS 約物(但し以下は除く : 〆 / 〇 / 々 / 〰 / 〱 / 〲 / 〳 / 〴 / 〵 / 〜 / 〻)
U+FF01〜U+FF0F全角約物と記号・その 1
U+FF1A〜U+FF20全角約物と記号・その 2
U+FF3B〜U+FF40全角約物と記号・その 3
U+FF5B〜U+FF5E全角約物と記号、その 4
U+FFE0〜U+FFE5全角約物と記号、その 5
U+FF61〜U+FF65半角カナ約物

文字実体参照

文字 n、名前 nを変換します。
…って、これをプログラムで丸抱えするのは少々病的です。 どうせブラウザ内部に持っている情報なんですから、decodeURIComponent() の様に API があってもいいと感じます。

「数値」は数値文字参照、「参照」はブラウザが解決した文字実体参照、「自前」は HTML-Aid 内部関数が解決した文字実体参照です。
「③」は JIS X 0213 の面句点番号、「⑧」は JIS X 0208 の句点番号、「②」は JIS X 0212 の句点番号です。