来月仕事で海外に行くことになりそうなので、買っただけで読んでなかった カタカナ英語の本 を取り出して読んでたのですが、TV 付けて酒飲みながらじゃあ勉強にならない。カタカナ英語といえば ルー大柴 だよなあ、と脱線しはじめる。
「ディスイヤーは私にとって再チャレンジのファンデーション作りのイヤーだった」(原文)
↓
翻訳すると「今年は私にとって再挑戦の基礎作りの年だった」
ということは何か普通の文章をルー化するスクリプトをすぐ書けそうな予感。ルーさんが使いそうな単語を片っ端からマップにしてもいいけど、それはめんどい。それより、文章を形態素解析 → 単語を英訳 → 英語をカタカナ読みに翻訳 → というようにすれば楽に書けるんじゃないか?と発展。
- 形態素解析は MeCab でいいよね
- 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT project というのを発見。Perl のインターフェースを書いてみる。こういう再配布可能な辞書データを利用した統一的なインターフェースのモジュールってあってもよさそうだけどなあ
- 英語のカタカナ読みは、文章読み上げエンジンの Bilingual Emacspeak Project の日本語風モード辞書が使えそうなので これもPerlのインターフェースを書いてみる
できたのがこちらっ
まじめなページを入れると楽しい。たとえば 安倍内閣の発足時の記者会見もこんな感じ
第90代キャビネットゥ総理大臣を拝命いたしました、安倍晋三です。どうぞよろしくプリーズいたします。
私は、フリーダムデモクラティック党・公明党アライアンスアドゥミニストゥレイションの下、戦後バース初の総理大臣として、しっかりと正しいダイレクションにリーダーシップをエクシビションしてまいります。ジャパンをヴァイタリティーとチャンスと優しさに満ちあふれた国にしてまいります。トゥデイより、新しい国づくりに向けてしっかりとスタートしてまいります。
みたいに、不まじめな感じになります。政治系は楽しいね。「ホウプの国」とか。
コンテンツ変換は、名詞なら大丈夫か、と思って普通に正規表現で全置換してる。軽く仕上げたジョークなので、うまくいかないこともあるかも。ていうか、年の瀬に何やってんだ、自分 笑。ネクストイヤーもどうぞよろしくお願いします。
追記: Happy New Year 2007!
そうこうしているうちに2007年になりました、おめでとうございます。寝ようと思いますが、ルー語変換 に任意のテキストの変換をつけてみました。ノリノリで新年の挨拶をしたい方は使ってください。
例えば・・ 新年もどうぞよろしくお願いいたします。 とか。このページのルー化がおもしろかったぜーとかあったら教えてください。
ちょっと手直しした
- 長い文章を入れると、MeCab v0.90 はインデックスのオーバーフローを起こすらしい。MeCab を 0.93 にしたら直った。MeCab 使いはアテンションされたし
- ちょっと変換されすぎでうざすぎルーという声があったので、80%くらいだけを変換するようにチェンジ。面白い組み合わせとは一期一会!
- 動詞も変換するようにしてみた。活用形がめんどくさいので基本形だけ。食べる → イートゥする
- 重いので調整
でも そもそも英語の勉強してたんだった!! このままだと「トゥギャザーでプリーズ願います」みたいのしかしゃべれない日本人に! ・・・