/villagepump/文字コードは闇

generated at 2/11/2025, 11:43:53 AM
文字コードは闇
闇要素
全世界の文字を16bitで表せると思いこんだ者たち
中国と日本と韓国で使われてる漢字とかいうやつは全部同じ文字だよねっ！(^^)
CJK統合漢字
grep 毛沢東
サロゲートペア
絵文字
日本の携帯電話が発祥
しかし、携帯電話会社各社は、規格の標準化にまるでやる気を見せなかった
これは囲い込みによるユーザー体験の低下だな
結局、仕様を取りまとめて提案したのは Google
今これの闇をすごく感じている
ワケガワカラナイヨ
全部黄色じゃだめだったのかね
全部黄色だと白人と黒人が嫌がりそう
間を取って青色にしよう
誰が得するんだろうか
絵文字の闇というページも必要かな　

どれくらい闇かはこの記事を読んでみるとわかる
C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

Notaさんのところでも文字コードと奮闘していたみたい
/nota-private-sample/クメール文字が書けない

文字コードに似たようなことを書いてあったことに今更気づいた
まあなんかうまいことやってmergeして下さいな(丸投げ)

> 文字コードは無理。無理ってわかった。うれしい https://t.co/MwJFVdsSOf
> 	@ayanami_rei_T May 18, 2021

文字コードの闇というより、ユニコードの闇だね、こりゃ
他にも
漢字の闇
日本語文字コードの闇
機種依存文字の闇
外字の闇
半角カタカナの闇
JISの闇
ShiftJISの闇
EUC-JPの闇
Windows-31Jの闇
CIDマップの闇
など、いろいろ地獄があります

ShiftJISの闇はもう存在しないわけだし、事態は良い方向にきてると思います 
文字コード自動判別を成功させるためには文頭に「美乳」と書けば良いという話がありました 
「美」という字は ISO-2022-JP（JIS）、EUC-JP、Shift_JIS の判別に都合がよかった
「乳」のほうは理由を知らない
ユニコードにはこの技は効果がない
Unicode 版美乳テーブルを探せ


北朝鮮の文字コード（KPS 9566）には、金日成、金正日、金正恩が専用の文字コードとして割り当てられている
えぇ……
1文字扱い？
mjd 
日本の年号みたいな感じなのかな？
太字になっているみたいな話が出来てきた、ひえ
ワロタ

結局今のベストはなんなんですか
グローバル社会ならUTF-8
Shift_JISもEUC_JPもISO-2022-JPもオワコン
Scrapboxもutf-8
最近のLinuxディストリビューションだとデフォルト
メリット
1ファイル内にほぼすべての地域で使われている文字が入れられる
デメリットもある
CJK漢字など多くの文字が3バイト
そのため、2バイトの文字コードに比べて容量が1.5倍ほどになる
絵文字や多言語を使わず、容量をバイト単位で切り詰める必要がある場合はShift_JIS
バッチファイルはShift_JIS