トップへ
田村研究室

マルチメディア論および演習

2009年度

2009
4/14

文字のデジタル表現

文字コードとは

コンピュータにおけるデジタルデータの表現で説明したように,コンピュータ上のデータはすべて2進数で表現されている.その2進数を特定のルールに従って解釈することで,画像や音声そして文字などを表現させる.文字の場合には,文字コードを使用する.

コンピュータでは,表現したい文字ひとつひとつ(字体と呼ぶ)に対して固有の識別番号を割り振る.これを文字コードと呼ぶ.例えばアルファベットや記号・数字,制御文字を表現させるために,ASCIIコードが決められている.

※制御文字とは改行やタブなどの,画面に表示されることなく画面内容を制御するための文字を表す.特に改行コードは,Windowsでは「CR+LF」の2byte使用されるのに対して,旧Mac OSでは「CR」,Linuxや現在のMac OSXなどのUNIX系OSでは「LF」だけが使用される.このため,これらの機種間でテキストファイルをやりとりする場合には注意が必要である.

ASCIIコードは,1byte(0から255)分だけのコード表である.欧米系の言語では文字種類が少ないためこれで十分であった.しかし日本語ではひらがな・カタカナ・漢字と,多数の文字種類があり,少なくとも2byteは必要であり,そのためのコードが作成された.

文字コードと文字フォント

文字コードは,あくまで番号(二進数)でしかない.ある文字コードに対応した文字の「形」をディスプレイに表示するためには,フォント(font)と呼ぶグラフィックデータが別に用意されている.フォントには様々なデザインのものが存在するため,ある字体に対して文字コードはひとつだけだが,フォントデータは複数対応する一対多の関係にある

最初期のコンピュータでは,モニターディスプレイは存在せず,例えば紙テープに一列にあけた穴の配置で二進数を表現していた.この紙テープを入力と出力両方に用いていた.その画像などは「コンピュータ 紙テープ」で画像検索すると見ることができる.