2020年2月頃後にインストールしたPEK(Python Keyphrase Extraction)を使ってキーフレーズの処理を実装していたのだが、2021年1月29日にアップデートしたら、PEKの仕様変更により、使えなくなってしまいました。
原因は、変数「ISO_to_language」がなくなってしまったためです。
最新のPKEで日本語のキーフレーズ処理できる方法を解説します。
キーフレーズとは
キーフレーズ(key phrase)とは、検索するときに2つ以上の単語のことを指します。
例えば、「脱毛エステ」などが、「脱毛」と「エステ」が、組み合わさって構成されています。
PEKを使うと、文章から、意味があるキーフレーズを取り出してくれます。
修正方法
以前のPEKを使っていて、「ISO_to_language」の部分でエラーになっているなら、
以下の部分を修正すれば使えるようになります。
#修正前
#pke.base.ISO_to_language['ja_ginza'] = 'japanese'
#修正後
pke.base.lang_stopwords['ja_ginza'] = 'japanese'
なお、PEKの使い方、インストール方法などは、以下のサイトにて詳しく解説されています。
はじめての自然言語処理・第5回 pke によるキーフレーズ抽出
その上で、次にキーフレーズの取得する方法をコードにて解説します。
PKEの実装例
PKE実装例は以下の通です。
その結果、それらしく単語のつながりを表現できていると思います。
なお詳細な関数の説明などは、以下のサイトが大変参考になります。
まとめ
以上、アップデートしたらPKEが使えなくなってしまった場合の修正方法でした。
アップデートしたら動かなくなることは、多々あるので、アップデートする前に、前バージョンのバックアップが必要になるかもしれません。
プログラミング・実務経験がある方も必見!
空いた時間をスキルアップ・収入増に使ってみませんか?