文字コードは闇
闇要素
全世界の文字を16bitで表せると思いこんだ者たち
中国と日本と韓国で使われてる漢字とかいうやつは全部同じ文字だよねっ!(^^)
日本の携帯電話が発祥
しかし、携帯電話会社各社は、規格の標準化にまるでやる気を見せなかった
今これの闇をすごく感じている

全部黄色じゃだめだったのかね

全部黄色だと白人と黒人が嫌がりそう


間を取って青色にしよう

誰が得するんだろうか
どれくらい闇かはこの記事を読んでみるとわかる
Notaさんのところでも
文字コードと奮闘していたみたい
文字コードに似たようなことを書いてあったことに今更気づいた

まあなんかうまいことやってmergeして下さいな(丸投げ)
他にも
外字の闇
JISの闇
EUC-JPの闇
Windows-31Jの闇
文字コード自動判別を成功させるためには文頭に「
美乳」と書けば良いという話がありました

「美」という字は ISO-2022-JP(JIS)、EUC-JP、Shift_JIS の判別に都合がよかった

「乳」のほうは理由を知らない
ユニコードにはこの技は効果がない
1文字扱い?

mjd

日本の年号みたいな感じなのかな?

太字になっているみたいな話が出来てきた、ひえ
ワロタ

結局今のベストはなんなんですか

グローバル社会ならUTF-8
Shift_JISもEUC_JPもISO-2022-JPもオワコン
Scrapboxもutf-8
最近のLinuxディストリビューションだとデフォルト
メリット
1ファイル内にほぼすべての地域で使われている文字が入れられる
デメリットもある
CJK漢字など多くの文字が3バイト
そのため、2バイトの文字コードに比べて容量が1.5倍ほどになる
絵文字や多言語を使わず、容量をバイト単位で切り詰める必要がある場合はShift_JIS
バッチファイルはShift_JIS