私の掌の歴史(3)

<日本語辞書!>

Pilot1000に日本語環境を入れたときに使用していた辞書は、容量を食わない代わりに語彙もあまり入ってはいませんでした。
その後他の方々が日本語環境(J-OS)に対応した語彙の多い辞書や、単語の追加登録が簡単に行えるツールが出てきましたが、やはり容量に制限のある中で思ったような変換を行うためには工夫が必要でした。
そのころのJ-OSは辞書学習を持っていなかったので、ある意味本当に辞書勝負だったのです。

始めのうちはそれほど大きな文章を入れるわけでもないし、大量の入力が必要ならPCで行えば良いと考えていたので、あまり困ることはありませんでした。
しかし毎日持ち歩いて、気が向いたときやちょっと気になった事のメモなどを取ろうとすると、辞書が自分に合っていないと痛感するようになりました。

そんな時にMac用の辞書変換ツールがプログラム作家の方から出てきたのです。
専用形式のテキストと辞書形式のファイルの相互変換だったので、まずは標準の辞書をテキストに変換してみました。
変換された辞書を眺めてみると、大体どのような形式でファイルを作ればいいかが判ります。で、自分でも手を付けられそうな気がしたのです。

"んー。ダメもとでやってみてもいいかなぁ"って思ってしまったのです。
自分の辞書を作るためにどうしたらいいか?
ちょっと考えたのですが、元になる辞書を用意して変更していくしか無いかなと。
ちょっとグレーだと思うので最初に謝っておきます。ごめんなさい。
自分が使っているかな漢字変換の辞書をテキストに展開して、それをソースにしたのです。

その中からまずはカタカナとアルファベットを削除しました。J-OSは入力時に文字種の変更が出来るので、辞書にある必要はありません。
次に長すぎる読みの単語を削除しました。一番長くて漢字4文字位まで。それ以上に長い単語は、短い単語に分割。
固有名詞も辞書にある必要が無いので削除。人名、地名も必要なら辞書登録すればいいと考えて、大部分を削除しました。
送りがなの違いなどもすっぱり削除してどんどん切り詰めていきます。

このレベルで大ざっぱな編集が終わったと言うところですか。

ここから地味な作業に入ります。
ファイル中の単語を一つ一つ見て、自分が使わない単語を削除していくのです。
元々Pilotで文を入れる為の辞書なのだから、必要以上に凝った単語や、自分で読みが判らない単語は削ります。
また、自分の文体を考えて、使わない単語も削除します。
削りすぎると困るので、いらないと思った単語は一回マークして、もう一回確認してから削除したのです。

今考えると自分も暇だったなぁと思うのですが、この作業にひと月くらいかけましたね。

削除が終わると今度は変換候補の並べ換えです。
同じ読みの単語を眺めて使いそうなものが前に来るように並べ替えます。単漢字については入れられるだけ入れておかないといざというときに困るので、可能な限り残して置きましたが、並べ換えは単漢字についても行います。

。。。。。。。と、これだけの手間をかけてテキスト状態で数MBあった辞書を200kB程度にまでまとめあげました。
いや。本当に疲れた。

これを変換ツールで辞書ファイルにすると160kBくらい。このサイズならメモリもそれほど圧迫しないし、自分用に仕立ててあるので、使い勝手もあまり悪くありません。
何より全ての単語を一度は見ているのですから、どう入力すればいいのか自分で判っています。
それに候補に出ないからって辞書のせいにできないんですよね。そのまま自分に返ってきちゃうから。


これだけの手間が必要だったかは判りませんが、ともかくちょっとした文章位は楽に入れられるようになったのです。それは嬉しかったですね。