generated at
文字コードは闇
闇要素
全世界の文字を16bitで表せると思いこんだ者たち
中国と日本と韓国で使われてる漢字とかいうやつは全部同じ文字だよねっ!(^^)
日本の携帯電話が発祥
しかし、携帯電話会社各社は、規格の標準化にまるでやる気を見せなかった
結局、仕様を取りまとめて提案したのは Google
今これの闇をすごく感じているwogikaze
全部黄色じゃだめだったのかねMijinko_SD
全部黄色だと白人と黒人が嫌がりそう基素bsahd
間を取って青色にしようwho
誰が得するんだろうか
絵文字の闇というページも必要かな suto3

どれくらい闇かはこの記事を読んでみるとわかる

Notaさんのところでも文字コードと奮闘していたみたい

文字コードに似たようなことを書いてあったことに今更気づいたtakker
まあなんかうまいことやってmergeして下さいな(丸投げ)

> 文字コードは無理。無理ってわかった。うれしい https://t.co/MwJFVdsSOf

文字コードの闇というより、ユニコードの闇だね、こりゃsuto3erniogi
他にも
外字の闇
JISの闇
ShiftJISの闇
EUC-JPの闇
Windows-31Jの闇
など、いろいろ地獄があります

ShiftJISの闇はもう存在しないわけだし、事態は良い方向にきてると思います 増井俊之
文字コード自動判別を成功させるためには文頭に「美乳」と書けば良いという話がありました 増井俊之
「美」という字は ISO-2022-JP(JIS)、EUC-JP、Shift_JIS の判別に都合がよかったsuto3
「乳」のほうは理由を知らない
ユニコードにはこの技は効果がない


北朝鮮の文字コード(KPS 9566)には、金日成金正日金正恩が専用の文字コードとして割り当てられている
えぇ……hata6502takkeryosider
1文字扱い?yosider
mjd 増井俊之
日本の年号みたいな感じなのかな?Mijinko_SD
太字になっているみたいな話が出来てきた、ひえ
ワロタはるひ

結局今のベストはなんなんですか基素
bsahd
グローバル社会ならUTF-8
Shift_JISもEUC_JPもISO-2022-JPもオワコン
Scrapboxもutf-8
最近のLinuxディストリビューションだとデフォルト
メリット
1ファイル内にほぼすべての地域で使われている文字が入れられる
デメリットもある
CJK漢字など多くの文字が3バイト
そのため、2バイトの文字コードに比べて容量が1.5倍ほどになる
絵文字や多言語を使わず、容量をバイト単位で切り詰める必要がある場合はShift_JIS
バッチファイルはShift_JIS