文字コード判定

テキストファイルの文字コード判定コマンドです。いつからこんなコマンドが?

auto_ef - auto encoding finder


# auto_ef /etc/system
ASCII
# auto_ef /root/.cpanplus/5.10.0/build/DateTime-Format-Strptime-1.0702
/t/004_locale_defaults.t
8859-1
# auto_ef euc.txt
eucJP
# auto_ef sjis.txt
PCK

-a オプションでスコア?出力されます。


$ auto_ef -a euc.txt
eucJP 0.74
zh_CN.euc 0.24
ko_KR.euc 0.01
$ auto_ef -a sjis.txt
PCK 0.65
zh_CN.gb18030 0.34

混在した場合。


$ cat euc.txt sjis.txt > euc_sjis_txt
$ auto_ef -a euc_sjis_txt
PCK 0.60
zh_CN.gb18030 0.39
意図した動作をしていない気がする。。。

後でもうちょっとくわしくやってみよう。