Unicodeと戦う

漢字プロジェクトを開始したときから,Unicodeに関しては気にはなっていたのですが,本日は朝からずっと調べてきて,ようやくわかってきました。

1 そもそも文字コードとは
 文字コードに関しては以下の記事が参考になるので,読んでいただけると幸いです。Unicode誕生までのASCIIコードものべられているからです。なお,この記事を読むときにはバイナリ・エディタStirlingをダウンロードしてから読まれるとよいでしょう。

【参考】
文字コードの基本:ITpro
バイナリ・エディタ Stirling(ベクタ)

2 UnicodeとUTF-8
 そもそも,UnicodeとUTF-8の違いがわかりにくいのです。特に,BOMのありなしで,UTF-8とUTF-8Nの区別があるんです。Wikipediaを引用しましょう。
——–
日本国内でのみ、BOM (Byte Order Mark) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを基本とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF の3バイトが付与されることがある。
———

 さて,UTF-8対応のテキストエディタ(秀丸やTepaEditor)は当然,中国語やハングルに対応するのか思いきや,未対応です。これらのエディタへ中国語(特に簡体字)やハングルを張り込めば,?マークが連発して,もうそこには何もデータはないんです。

【出典】
Unicode – Wikipedia
Unicodeとは 【ユニコード】 – 意味・解説 : IT用語辞典

 BOMやUTF-16などを調べていると,最終的にはVistaのメモ帳が最も安全です。しかし,メモ帳は使いにくいので,結局,EmEditor(有料)をダウロードすると,BOMもUTF-16もUTF-8もすべて対応しているんです。

【参考】
EmEditor – Unicode、巨大ファイルにも対応する Windows 用テキスト エディター!

3 UnicodeのCSVファイル
 これには謎が多いのです。EXCEL2007では「Unicodeで保存」と「CSVで保存」が別なんです。だから,Unicodeで保存したテキストファイルをもう一度EXCEL2007で読み込んで「CSVで保存」しても,s_jisになります。???
 そこで,先ほどのEmEditorで,Unicodeで保存したテキストファイルで,CSVになるように,コンマを挿入しました。そのあとは,以下のサイトにあるようにEXCEL2007で読み込みとうまくいきました。
 ここで気とつけてほしいのは,Unicode保存のテキストファイルは,たとえ,文中にコンマが大量にあって,しかも拡張子をCSVに変換しても,CSVとして認識できません。
【参考】
Excel 2007 の CSV と 文字エンコーディング の関係 – Hello Another World!

 いずれにしても,Unicodeは大変です。みなさん,勉強してみましょう。

【アジア各国の留学生が集まる大学院】
京都情報大学院大学 | トップ
京都情報大学院大学KCGIがMOTランキングトップに
京都情報大学院大学 の入学説明会は8月23日(土),9月13日(土)の午後

comments

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*