KAKASI

職場のPCにkakasiを入れてみました。
activeperlですが、ppmでは検索が見つからないので、repoを登録してinstall。
ソース自体はかなり短くて意外でした。コンパイルする前は、辞書はテキストなので、追加もやりやすそうですね。
出力に品詞などはないですが、動詞の活用などは考えているみたい。
AquesTalkの音声合成に入力するテキストを作るために利用していますが、


まず、漢字含む日本語文をkakasiで、かなのわかち書きされた文章に変換して、
それを、名詞+助詞といった単位で「/」で分割して(息継ぎです)
さらに、「とうきょう」などを「とーきょー」と長音にします
助詞の「は」「へ」なども「わ」「え」とします。
そんで、「たまご」を「た'まご」のようにアクセントをつけます。


長音とか/での分割は、プログラムで処理できそうですが、
問題はアクセント。これも法則性がありそうだけど、基本的に辞書で片っ端から持たないといかんのかねえ?
たとえば、午後の「ごご」は、アクセントが「ご'ご」と来る。
仮に、同じ文字が重なるときは、アクセントが来る、といった一般化ルールがあるならば、
大量に辞書を持つ必要がないので助かるのですが……