BlankTar

about | blog | works | photo


MeCabに記号を食わせた時に
+       名詞,サ変接続,*,*,*,*,*
EOS
みたいになってしまう。
これは困る。凄く困る。
なんやねん、サ変接続て。「+する」とか言うんかい。

これじゃ困るので、対処。
まず、ipadicがある場所を探します。
MeCabのインストールディレクトリ内のdic/ipadicとかにある、かな?
で、そこにあるunk.defってファイルを開きます。unknown word。未知語の分類を定義してるらしい。
SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*
って書いてある行を
SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*
に変更。

それが出来たら、あとはコンパイルして終了。
先ほど編集したipadicがあるディレクトリで
$ mecab-dict-index -f CSVファイルの文字コード -c 出力する辞書の文字コード
とすればおっけー。 ちなみに文字コード2つは省略可能なようです。

MeCabが起動してる時に編集しようとすると「permission denied」って言われるので注意ね。

ここまで無事できたら、
+       記号,一般,*,*,*,*,*
EOS
こんな感じで、出力が正しい感じになってるはずです。

参考:
MeCab の辞書構造と汎用テキスト変換ツールとしての利用 - MeCab document
MeCab: 品詞IDの定義 - MeCab document
< RFIDで遊んでみたかった。 キーワード機能を実装してみた >