文字コード判定
テキストファイルの文字コード判定コマンドです。いつからこんなコマンドが?
auto_ef - auto encoding finder
# auto_ef /etc/system
ASCII
# auto_ef /root/.cpanplus/5.10.0/build/DateTime-Format-Strptime-1.0702
/t/004_locale_defaults.t
8859-1
# auto_ef euc.txt
eucJP
# auto_ef sjis.txt
PCK
-a オプションでスコア?出力されます。
$ auto_ef -a euc.txt
eucJP 0.74
zh_CN.euc 0.24
ko_KR.euc 0.01
$ auto_ef -a sjis.txt
PCK 0.65
zh_CN.gb18030 0.34
混在した場合。
意図した動作をしていない気がする。。。
$ cat euc.txt sjis.txt > euc_sjis_txt
$ auto_ef -a euc_sjis_txt
PCK 0.60
zh_CN.gb18030 0.39
後でもうちょっとくわしくやってみよう。