どんなページもルー大柴ナイズ

魔法の発音 カタカナ英語来月仕事で海外に行くことになりそうなので、買っただけで読んでなかった カタカナ英語の本 を取り出して読んでたのですが、TV 付けて酒飲みながらじゃあ勉強にならない。カタカナ英語といえば ルー大柴 だよなあ、と脱線しはじめる。

「ディスイヤーは私にとって再チャレンジのファンデーション作りのイヤーだった」(原文
 ↓
翻訳すると「今年は私にとって再挑戦の基礎作りの年だった」

ということは何か普通の文章をルー化するスクリプトをすぐ書けそうな予感。ルーさんが使いそうな単語を片っ端からマップにしてもいいけど、それはめんどい。それより、文章を形態素解析 → 単語を英訳 → 英語をカタカナ読みに翻訳 → というようにすれば楽に書けるんじゃないか?と発展。

  • 形態素解析は MeCab でいいよね
  • 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT project というのを発見。Perl のインターフェースを書いてみる。こういう再配布可能な辞書データを利用した統一的なインターフェースのモジュールってあってもよさそうだけどなあ
  • 英語のカタカナ読みは、文章読み上げエンジンの Bilingual Emacspeak Project の日本語風モード辞書が使えそうなので これもPerlのインターフェースを書いてみる

できたのがこちらっ

ルー語変換

まじめなページを入れると楽しい。たとえば 安倍内閣の発足時の記者会見もこんな感じ

 第90代キャビネットゥ総理大臣を拝命いたしました、安倍晋三です。どうぞよろしくプリーズいたします。
 
 私は、フリーダムデモクラティック党・公明党アライアンスアドゥミニストゥレイションの下、戦後バース初の総理大臣として、しっかりと正しいダイレクションにリーダーシップをエクシビションしてまいります。ジャパンをヴァイタリティーとチャンスと優しさに満ちあふれた国にしてまいります。トゥデイより、新しい国づくりに向けてしっかりとスタートしてまいります。

みたいに、不まじめな感じになります。政治系は楽しいね。「ホウプの国」とか

コンテンツ変換は、名詞なら大丈夫か、と思って普通に正規表現で全置換してる。軽く仕上げたジョークなので、うまくいかないこともあるかも。ていうか、年の瀬に何やってんだ、自分 笑。ネクストイヤーもどうぞよろしくお願いします。

追記: Happy New Year 2007!

そうこうしているうちに2007年になりました、おめでとうございます。寝ようと思いますが、ルー語変換 に任意のテキストの変換をつけてみました。ノリノリで新年の挨拶をしたい方は使ってください。

例えば・・ 新年もどうぞよろしくお願いいたします。 とか。このページのルー化がおもしろかったぜーとかあったら教えてください。

ちょっと手直しした

  • 長い文章を入れると、MeCab v0.90 はインデックスのオーバーフローを起こすらしい。MeCab を 0.93 にしたら直った。MeCab 使いはアテンションされたし
  • ちょっと変換されすぎでうざすぎルーという声があったので、80%くらいだけを変換するようにチェンジ。面白い組み合わせとは一期一会!
  • 動詞も変換するようにしてみた。活用形がめんどくさいので基本形だけ。食べる → イートゥする
  • 重いので調整

でも そもそも英語の勉強してたんだった!! このままだと「トゥギャザーでプリーズ願います」みたいのしかしゃべれない日本人に! ・・・