12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)

Turing Complete FM

Episode • Apr 1, 2018 • 1h 18m

Androidのテキスト処理を担当しているのなさんと、UnicodeやUnicode絵文字、テキスト処理の複雑さ、文字トリビアなどについて話をしました。

出演者: のな (@ttuusskk)、Rui Ueyama (@rui314)

https://turingcomplete.fm/12

ハッシュタグは#tcfmです。

TCFMはサポーターの投げ銭によって収益を上げています。このコンテンツに課金してもいいよという方はぜひクリエイター支援サイトPatreonから登録してご協力ください。

イントロ (0:00)
自分の読めない言語のテキスト処理は大変 (1:28)
MMDDYYYYとDDMMYYYYの違いによる国際化バグ (3:07)
Left-to-right言語とright-to-left言語 (5:23)
アラビア語と英語のハイフネーション (6:15)
日本語の禁則処理 (7:19)
Android Oで絵文字の表示が最大3倍速くなった (9:12)
結合絵文字の規格が決まっていない状態で実装を書くのは大変 (12:23)
国旗の絵文字の仕組みと仕様バグ (14:49)
ハンバーガー絵文字では肉の上にチーズが乗っているべきか (18:18)
絵文字はガラケー起源 (20:30)
モヤイ像の絵文字はあるけどモアイ像の絵文字はない (23:42)
ガラケーに存在したけどUnicodeに収録されなかった稀な絵文字 (24:52)
新元号の合成文字 (27:28)
ひらがなやカタカナはもっと若いコードポイントに割り当ててくれればよかった (30:49)
UTF-8は新世界のASCII (33:40)
英語はフォントの機能を比較的ふんだんに使う言語 (38:47)
汎用的な数式プロセッサをフォントだけで作ることができるかも？ (40:40)
Unicode規格書の紙バージョン (42:42)
JISの幽霊文字 (43:41)
将棋の相手の駒の記号（上下逆の漢字）をUnicodeに追加したい (47:01)
100万文字は十分か (50:32)
Unicodeの文字名称の規格バグ (52:12)
Swiftは文字がgrapheme単位 (53:47)
Goだとコードポイント単位 (55:21)
ミャンマーのZawgyiフォントがUnicodeの既存の文字を勝手に使っている (57:50)
東アジアのコンピュータ用文字セットの歴史的経緯 (1:00:36)
ハイフネーションは多種多様 (1:03:00)
最近の多言語処理はコンピュータの金字塔の一つ (1:05:38)
Android Oでは明朝体が標準で入るかもしれない (1:09:21)
サブピクセルレンダリング (1:15:20)

追記

JIS委員会が何の手がかりも得られなかった文字は「妛」ではなく「彁」です。

Activity