いわゆる文字コード問題について私はいままであまり興味を持ってこなかった。
簡単にいえばそれは政治的問題であり、技術的問題ではなかったからだ。
別の言い方で言えば、Unicodeが間違っていることは議論の余地無くあきら
かであり、その時点で文字コード問題については議論することすら意味のな
いものに感じていたからだ。
私の立場を簡単に示せば「ISO-2022でいいじゃん」、つまり太田昌孝氏や和
田英一氏を支持する立場であり、単純保守派だろう。
UTF-2000については単純に知らなかった。情報処理のインタラクティブエッ
セイは読んでいたし、新部氏の文章も読んでいたが、UTF-2000についての記
述については理解していなかった。
UTF-2000について、漢字コードに頼らない漢字情報化のありかたを示そうと
しているものだということはわかったが、どのように示そうとしているのか
はまだ理解できていない。
■漢字問題についての雑感
漢字(文字)にコード(数値)を割り当てるという発想は、活字の情報化である
ように思う。
●この部分については、守岡氏の指摘によれば間違いとのこと。
もともと漢字にコードをわりふる発想は、中国の電報のインターフェイスから生まれた。
中国で電報を送る場合は、そもそも日本語のように読みを表わす文字は無いので、
もちろん漢字で送ることになる。そのとき、元々は局の人が漢字のメッセージを
数字に変換し、また受けとった側が再度漢字に戻して渡していたのが、
その数字化の部分が外部化し、数字のままで受け取り人に渡すようになったと。
それが漢字コードの起源であるとのこと。
しかし、いわゆるコンピュータによる情報化としての漢字コード化は日本語が
最初に行なったという記述もあり、そのときにこの中国の電報における漢字コードが
どの程度影響しているのかはわからない。
またそのときの漢字コード化の以前に、旧国鉄などの内部で、機械的な接続による
日本語タイプライターがあり、それは機械的な配列であったため、それと一致させるため、
漢字コードを頻度順にしてほしいという要望が強くあったそうだ。
それに対して、UTF-2000で示すことができるのは、活字化されていない文字、
書かれた文字、書であるように思う。
ある言語を情報化する際に、まずその前提として、その言語が活字化される
という段階が必要であるように思う。そしてその「活字化された文字」に順
に数字をわりふっていったものが、文字コードであるように感じる。つまり
文字コードの限界は、活字化された文字の限界であると考えるのがわかりや
すいのではないか。
また活字化の次の段階として、タイプライターという段階が考えられる。タ
イプライターという段階では様々な抽象化がなされ、また印刷された表示の
見た目も初めからかなり簡略化されたもであるのが前提であるので、このレ
ベルでの抽象化も多少混っている。
例えば、重ね打ちによる合成文字の生成のような発想は、タイプライターか
ら来ている。しかし通常の印刷においては、重ね打ちによる合成文字という
のは不可能である。正確には、二回印刷しなければならないので、二倍のコ
ストがかかる。
アルファベットの場合、通常は文字の大きさによってスペーシングを変える
のだが、タイプライターではモノスペースである。またキーを打つこととそ
れによって文字が印字されることは物理的に結びついており、対応関係は一
目瞭然である。またリターンやTABなどの機構も物理的に結びついており、
制御コードを文字コードの一部として入れるという発想に結びつく。
日本語タイプライターにおける、その平面にひろげられた文字表の上をカー
ソルをすべらせ、目的とする文字をひろい、印字するというプロセスが、い
わゆる漢字コード表という発想へと結びついたのだろう。
日本語タイプライターは、その大きさから、そもそも一般に普及することは
ありえなかった。そのためここにおける発想が一般のレベルから上っていく
ということは考えにくかった。
→ここから、いわゆる日本語制限論者のいう、日本語をいかにしてタイプラ
イターに対応可能とするかという議論がでてくる。日本語をカタカナ化する
とか、日本語をローマ字でかくべしとか、そういった議論につながる。
またハングルの世界では、活字化された文字とタイプライター化された文字
との間に明白な違いがある。タイプライター化された文字は、わりきって、
ハングルの構成要素の組み合わせをタイプライターで実現するものである。
機構としては複雑にできないので、ここれは文字の形の整合性を犠牲にする
ことになった。字の形としてはまるで崩れているのだが、意味上の形の結び
つきだけを表現することとなった。ここではタイプライターの文字と活字の
字形とが違うことが自明のこととなった。
中国の漢字は、簡体字の発明が大きく影響しているだろう。日本の漢字制限
論と同じような流れが中国にもあり、しかし中国語は漢字だけから成る言語
なので、表音文字だけにするということはできない。そこで漢字を簡略化し
ようとしたのが簡体字である。簡体字というのはまさしくある漢字を簡略化
したものなので、意味上ではその二つはまったく同じものなのである。つま
りまったく同じ意味の漢字が、表現形としては二つあることがここでは常識
となっているのだった。そしてそれは文字コード化されたときにもそのまま
の形として残る。簡体字の文字コードと繁体字の文字コードを体系まるごと
分けてしまって、それぞれの文字のコードそのものは同じであるという表現
方法をとった。簡体字のある文字と無い文字とがあるのだが、そのため無い
文字のところは、その両者の表示形態はまったく同じものが入ることになる。
しかしここでUTF-2000に目をむけると、ここで可能とされた技術と、上記の
流れとの整合性がとれないことに気付く。漢字をパーツに分け、そのデータ
を元に情報化するという方法は、いままでとってこなかったのだ。かろうじ
て、ハングルのタイプライターに近いものがあるが。そのような文脈を考え
ると、これは実は活字のコード化ではなく、書字の技術そのもののコード化
として考えるのが適切なのではないだろうか。
例えば間違った文字というものがある。この間違った文字というのはいかに
してコード化可能であろうか? 例えば私は子供のころ、「前」という漢字
を間違って書いていた。草冠は、千の下に点をはみださせてはいけないのだっ
たが、私はよくはみだして書いていた。このような文章を書くとき、実際の
その間違った字形そのものを表示して、「このように書き間違えていた」と
いう文章を書くことを考えてみよう。現在の文字コード化のやりかたでは実
現できないことは明白だろう。
逆に言えば、個々の漢字が英語のスペル一つに対応すると考えると、英語に
おいては、ミススペルは簡単に表現できる。その通りに記述すればよいだけ
である。(逆にこの場合はスペルをミスしないように気をつかう必要がでて
くる。そして次にスペルチェッカーのようなものが開発され、普及すること
になる。)
間違った文字を情報化することそのものが意味がないという立場もあるだろ
う。おそらく効率を優先した情報化においてはそれは正しいのであるが、
間違った文字も含めて情報化したいという、主に研究者における立場は
常に存在する。
→ジェイムス・ジョイスは、「e」と「f」の中間の文字を作り、それを用い
て表現していた。そのときはつまりわざわざ、その中間の文字の字形の活字
をそのために起していたのである。柳瀬直樹氏はその翻訳で、「よ」と「ま」
の中間の字形を作り、その間違った文字を表現した。
もちろんそれ以外にも、正しい文字であるが、文字の字形そのものに着目し
た情報を含むコード化という要求も存在するだろう。
つまりこの文脈でいうと、UTF-2000は、研究者向けの需要をベースにするべ
きだということになる。漢字の研究者が、例えば拓本などを情報化する際に、
細かい間違いなども含めて情報化したいという需要に答えることができるよ
うなものにすることが第一のターゲットとなるだろう。
いわゆる漢字コードへのalternativeとしてのうったえは非常に難しいだろ
うと感じる。基本的な文字コード化については、徹底した文字の数値化が、
まずはとりうる戦略だと感じるからだ。特にanti Unicodeをするべき立場か
らすると、必要とする文字全ての徹底したコード化をまずする必要がある。
もちろんこれは、プロジェクト全体をどうするか、どのように見せるのがい
いか、どのような立場と位置づけるのが一番得かという議論からは離れている。
活字化ということをしたのがグーテンベルクだと言われるが、しかしそこで
印刷が発生したと考えるのは単純にすぎる。印刷という技術が蒸気機関と結
びつき、輪転機という機械が発明された段階、そこが印刷の誕生であると考
えるべきである。蓮実重彦によれば、全てのテクノロジーは二度誕生すると
のこと。第一の誕生がグーテンベルクによる活字化であり、第二の誕生が輪
転機の発明である。
→蓮実重彦、ICCシンポジウムでの講演。
→ヴィレム・フルッサー「グラモフォン、タイプライター」
■書き言葉と帝国の文化
漢字は(正確には書き言葉は)、帝国の文化である。
例えばヨーロッパ圏内ではラテン語がその役割を果していた。
日本は漢字を基本とする文化圏であるが、それは明白に、中国という帝国の
周辺を構成する一部であったことを示している。
書き言葉であることが重要である。
→柄谷行人「日本精神分析」。
漢字とひらがなの交え書きについての分析
■RFC1815 http://www.cis.ohio-state.edu/cgi-bin/rfc/rfc1815.html
Unicodeに対する処方箋、どのように制限するか。
UTF-2000は、漢字を漢字データベースへのポインターとして表す。
従って漢字を表す情報本体はデータベース内へとねむっているが、それを
指し示すポインターは30bitsの値として表現される。
この30bitsの値は、固定された値なのか? この値そのものには意味があるのか?
例えば、「A」を示すポインターは、0x00000041だったりするのか?
それともメモリ上の配置を意味するのか?
■ほら貝 http://www.horagai.com/www/moji/annai.htm
http://www.horagai.com/www/moji/juki.htm 住基ネット明朝
http://www.kajo.co.jp/digital/perfect.html
http://www.horagai.com/www/moji/int/bunka.htm
■いま日本語が危ない
http://www.kt.rim.or.jp/~tyamamot/charcode/onabunai.html →かなりだめな批判。
■師茂樹
仏典のデジタル化の現状 http://www.ya.sakura.ne.jp/~moro/resources/ascii_257/butten.html
http://www.iijnet.or.jp/iriz/
漢字ベース http://www.iijnet.or.jp/iriz/irizhtml/kanjibas/cefintroj.htm