01.04a MeCabユーザ辞書に不具合報告

【現 象】

自然言語編サンプルプログラム試験中下記プログラム起動後分かち書きを一切せず変数「senrence」のまま表示されました

【テストケース1】
# coding: utf-8
from __future__ import print_function
import sys, os
sys.path.append("c:\\VisualStudio2017\\Python3.5_GPU\\Zero_NLP")
from common.np import *

import MeCab

wakati = MeCab.Tagger("-Owakati")
sentence = "吾輩は猫である"
# sentence = "これはAKB48という新しい単語のテストです"
words = wakati.parse(sentence).split()
print(words)

追加試験として文例を初回仕様した内容に変更すると、分かち書きは実施しましたが形態素分類は異常となりました。

【テストケース2】
# coding: utf-8
from __future__ import print_function
import sys, os
sys.path.append("c:\\VisualStudio2017\\Python3.5_GPU\\Zero_NLP")
from common.np import *
import MeCab

sentence = ("すもももももももものうち")
wakati = MeCab.Tagger("-Owakati")

words = wakati.parse(sentence).split()
print(words)


wakati = MeCab.Tagger("-Ochasen")
words = wakati.parse(sentence)
print("\n\n",words)

次にユーザ辞書区分にあるキーワード「AKB48」を入れた以前HPに掲載した内容を表示すると正常に分かち書き実施しました。

【テストケース3】
# coding: utf-8
from __future__ import print_function
import sys, os
sys.path.append("c:\\VisualStudio2017\\Python3.5_GPU\\Zero_NLP")
from common.np import *

import MeCab

wakati = MeCab.Tagger("-Owakati")
sentence = "これはAKB48という新しい単語のテストです"
words = wakati.parse(sentence).split()
print(words)



① 調査 MeCab再インストール

一部MeCab32bitと64bitが混合状態にあったため、全て削除しMeCab64bitを再インストールしましたところ、

テストケース1 正常、テストケース2 正常、テストケース3 「AKB」「48」のように分離したが正常

ウィキペディアで作成したユーザ辞書を追加、異常な状態に戻った



② ユーザー辞書の再作成

ユーザー辞書を再作成したが、結果は同じく異常になりました。




③ MeCab32ビット版で再試験

結果は同じく異常になりました。

【原 因】

原因はMeCabコンフィグ用ファイル「mecabrc」にユーザー辞書を追加したことによります。
ユーザ辞書を追加すると、単語が追加されたのではなく、辞書そのものが置き換わってしまったようなイメージと思っていました。

【2022/08/09追記】
ところが2022/08/09、固有表現抽出を自作するためMeCabユーザー辞書に読み仮名・詳細品詞追加された新しいユーザー辞書内容に変更されて、形態素を品詞付きで表示してみると、このようになり驚きました。
吾輩は猫である 名詞,固有名詞,一般,*,*,*,吾輩は猫である,ワガハイハネコデアル,ワガハイハネコデアル,wikipedia

実はこれ、分かち書きされなくなったのではなく、きちんとされていたのです。
つまり、ウィキペディアに「吾輩は猫である」が夏目漱石の本の題名として掲載されていたのです。

https://ja.wikipedia.org/wiki/%E5%90%BE%E8%BC%A9%E3%81%AF%E7%8C%AB%E3%81%A7%E3%81%82%E3%82%8B

それでユーザー辞書内に固有名詞「吾輩は猫である」として登録されてしまいました。そうすると、以降「吾輩は猫である」は1つの固有名詞として出てきてしまうため分かち書きはされないように見えたということです。

【対 策】

対策は無くて良い

【参考文献】


≪清須電脳倶楽部メインページへ戻る場合はここをクリックしてください≫
Copyright(c)2018 GGE Kiyosu Cyber Club Allrights Reserved
inserted by FC2 system