トピックモデリングアプローチ: Top2Vec 対 BERTopic

プラトン再発行

フォロワー： 0

トピックモデリングアプローチ: Top2Vec と BERTopic
による写真ミケチー・エスパラゴサ

私たちは毎日ほとんどの時間をラベルのないテキストを扱っており、教師あり学習アルゴリズムを使用してデータから情報を抽出することはまったくできません。自然言語のサブフィールドは、大量のテキストの根底にある構造を明らかにすることができます。この分野はトピックモデリングと呼ばれ、テキストからトピックを抽出することに特化しています。

これに関連して、潜在的ディリクレ配分法や非負行列因数分解などの従来のアプローチは、単語のバッグに基づいているため、単語間の関係をうまく捉えられないことが実証されました。

このため、事前にトレーニングされた言語モデルを利用してトピックを生成することでこれらの欠点に対処する、Top2Vec と BERTopic という XNUMX つの有望なアプローチに焦点を当てます。始めましょう！

Top2Vec は、事前トレーニング済みの単語ベクトルを使用し、意味のある埋め込みトピック、ドキュメント、および単語ベクトルを作成することにより、テキストからトピックを自動的に検出できるモデルです。

このアプローチでは、トピックを抽出する手順をさまざまなステップに分割できます。

セマンティック埋め込みの作成: 一緒に埋め込まれたドキュメントと単語ベクトルが作成されます。アイデアは、類似したドキュメントは埋め込みスペース内でより近くにある必要があり、類似していないドキュメントはそれらの間で離れている必要があるということです。
ドキュメント埋め込みの次元を減らす: 次元削減アプローチの適用は、高次元空間を削減しながら、ドキュメントの埋め込みの変動性のほとんどを保持するために重要です。さらに、各点が文書ベクトルを表す高密度領域の識別が可能になります。 UMAP は、高次元データのローカル構造とグローバル構造を保持できるため、このステップで選択される典型的な次元削減アプローチです。
ドキュメントのクラスターを特定する: 密度ベースのクラスタリングアプローチである HDBScan を適用して、類似したドキュメントの密な領域を見つけます。各ドキュメントは、密集したクラスターに属していない場合はノイズとして割り当てられ、密集した領域に属している場合はラベルが割り当てられます。
元の埋め込み空間で重心を計算する: 重心は、縮小された埋め込み空間ではなく、高次元空間を考慮して計算されます。古典的な戦略は、前のステップで HDBSCAN を使用して取得した、密集した領域に属するすべてのドキュメントベクトルの算術平均を計算することです。このようにして、クラスタごとにトピックベクトルが生成されます。
各トピックベクトルの単語を検索します。: ドキュメントベクトルに最も近い単語ベクトルが意味的に最も代表的です。

Top2Vec の例

このチュートリアルでは、で利用可能なデータセットからマクドナルドの否定的なレビューを分析します。データ.ワールド. これらのレビューからトピックを特定することは、多国籍企業がデータによって提供される米国の場所にあるこのファストフードチェーンの製品と組織を改善するのに役立ちます。

import pandas as pd
from top2vec import Top2Vec file_path = "McDonalds-Yelp-Sentiment-DFE.csv"
df = pd.read_csv( file_path, usecols=["_unit_id", "city", "review"], encoding="unicode_escape",
)
df.head()
docs_bad = df["review"].values.tolist()

トピックモデリングアプローチ: Top2Vec と BERTopic

2 行のコードで、前に説明した topXNUMXvec のすべてのステップを実行します。

topic_model = Top2Vec( docs_bad, embedding_model="universal-sentence-encoder", speed="deep-learn", tokenizer=tok, ngram_vocab=True, ngram_vocab_args={"connector_words": "phrases.ENGLISH_CONNECTOR_WORDS"},
)

Top2Vec の主な引数は次のとおりです。

docs_bad: 文字列のリストです。
ユニバーサルセンテンスエンコーダー: 選択された事前トレーニング済みの埋め込みモデルです。
deep-learn: 生成されるドキュメントベクトルの品質を決定するパラメーターです。

topic_model.get_num_topics() #3
topic_words, word_scores, topic_nums = topic_model.get_topics(3) for topic in topic_nums: topic_model.generate_topic_wordcloud(topic)

最も

トピックモデリングアプローチ: Top2Vec と BERTopic

ワードクラウドから、トピック 0 は「サービスが遅い」、「ひどいサービス」、「注文が間違っている」など、マクドナルドのサービスに関する一般的な苦情に関するものであると推測できますが、トピック 1 と 2 はそれぞれ朝食用食品 (マックマフィン、ビスケット、卵）とコーヒー（アイスコーヒーとカップコーヒー）。

次に、wrong と slow の XNUMX つのキーワードを使用してドキュメントを検索します。

( documents, document_scores, document_ids,
) = topic_model.search_documents_by_keywords( keywords=["wrong", "slow"], num_docs=5
)
for doc, score, doc_id in zip(documents, document_scores, document_ids): print(f"Document: {doc_id}, Score: {score}") print("-----------") print(doc) print("-----------") print()

出力：

Document: 707, Score: 0.5517634093633295
-----------
horrible.... that is all. do not go there.
----------- Document: 930, Score: 0.4242547340973836
-----------
no drive through :-/
----------- Document: 185, Score: 0.39162203345993046
-----------
the drive through line is terrible. they are painfully slow.
----------- Document: 181, Score: 0.3775083338082392
-----------
awful service and extremely slow. go elsewhere.
----------- Document: 846, Score: 0.35400602635951994
-----------
they have bad service and very rude
-----------

「BERTopic は、トランスフォーマーと c-TF-IDF を活用して密集したクラスターを作成するトピックモデリング手法であり、トピックの説明に重要な単語を保持しながら、簡単に解釈できるトピックを可能にします。」

名前が示すように、BERTopic は強力な変換モデルを利用して、テキストに含まれるトピックを識別します。このトピックモデリングアルゴリズムのもう XNUMX つの特徴は、TF-IDF のクラスベースのバリエーションと呼ばれる TF-IDF のバリエーションの使用です。

Top2Vec と同様に、トピックの数を知る必要はありませんが、トピックを自動的に抽出します。

また、Top2Vec と同様に、異なるフェーズを含むアルゴリズムです。最初の XNUMX つの手順は同じです。埋め込みドキュメントの作成、UMAP による次元削減、HDBScan によるクラスタリングです。

連続するフェーズは、Top2Vec から分岐し始めます。 HDBSCAN で密集した領域を見つけた後、各トピックは、単語がドキュメントに表示されるかどうかを考慮して、bag-of-words 表現にトークン化されます。クラスターに属するドキュメントが一意のドキュメントと見なされた後、TF-IDF が適用されます。そのため、トピックごとに、最も関連性の高い単語を特定し、c-TF-IDF が最も高くなるはずです。

BERTopic の例

同じデータセットで分析を繰り返します。

BERTopic を使用してレビューからトピックを抽出します。

model_path_bad = 'model/bert_bad'
topic_model_bad = train_bert(docs_bad,model_path_bad)
freq_df = topic_model_bad.get_topic_info()
print("Number of topics: {}".format( len(freq_df)))
freq_df['Percentage'] = round(freq_df['Count']/freq_df['Count'].sum() * 100,2)
freq_df = freq_df.iloc[:,[0,1,3,2]]
freq_df.head()

トピックモデリングアプローチ: Top2Vec と BERTopic

モデルによって返されるテーブルは、抽出された 14 のトピックに関する情報を提供します。トピックは、-1 とラベル付けされた無視されるすべての外れ値を除いて、トピック ID に対応します。

ここで、各トピックに最も関連性の高い用語の視覚化、トピック間距離マップ、埋め込み空間の XNUMX 次元表現など、トピックのインタラクティブなグラフへの視覚化に関する最も興味深い部分に移りますトピック階層。

上位 XNUMX のトピックの棒グラフを表示してみましょう。トピックごとに、c-TF-IDF スコアに基づいて降順にソートされた最も重要な単語を観察できます。単語の関連性が高いほど、スコアが高くなります。

最初のトピックには、場所と食べ物、トピック 1 注文と待機、トピック 2 最悪とサービス、トピック 3 場所と汚い、広告などの一般的な単語が含まれています。

棒グラフを視覚化したら、トピック間距離マップを見てみましょう。プロット内のトピックを視覚化するために、c-TF-IDF スコアの次元を XNUMX 次元空間に減らします。下部には、赤で色付けされるトピックを選択できるスライダーがあります。トピックが XNUMX つの異なるクラスターにグループ化されていることがわかります。XNUMX つは食べ物、鶏肉、場所などの一般的なテーマで、もう XNUMX つは最悪のサービス、汚い、場所、寒さなどのさまざまな否定的な側面です。

次のグラフは、レビューとトピックの関係を示しています。特に、レビューが特定のトピックに割り当てられ、見つかった最も関連性の高い単語と一致している理由を理解することは有用です。たとえば、最悪のサービスに関するいくつかの単語を含むトピック 2 に対応する赤いクラスターに焦点を当てることができます。この密集したエリア内のドキュメントは、「ひどい顧客サービスとさらに悪い食べ物」のように、かなり否定的に見えます。

一見すると、これらのアプローチには多くの共通点があります。たとえば、トピックの数を自動的に見つけること、ほとんどの場合前処理が不要であること、UMAP を適用してドキュメントの埋め込みの次元を削減すること、そして HDBSCAN を次の目的で使用することなどです。これらの削減されたドキュメント埋め込みをモデル化しますが、トピックをドキュメントに割り当てる方法を見ると、それらは根本的に異なります。

Top2Vec は、クラスターの重心の近くにある単語を見つけることによって、トピック表現を作成します。

Top2Vec とは異なり、BERTopic はクラスターの重心を考慮しませんが、クラスター内のすべてのドキュメントを一意のドキュメントと見なし、TF-IDF のクラスベースのバリエーションを使用してトピック表現を抽出します。

トップ2Vec	BERトピック
クラスターの重心に基づいてトピックを抽出する戦略。	c-TF-IDF に基づいてトピックを抽出する戦略。
動的トピックモデリングはサポートされていません。	動的トピックモデリングをサポートしています。
各トピックのワードクラウドを構築し、トピック、ドキュメント、単語の検索ツールを提供します。	抽出されたトピックの解釈を可能にするインタラクティブな視覚化プロットの構築が可能です。

トピックモデリングは、自然言語処理の成長分野であり、レビュー、オーディオ、ソーシャルメディアの投稿など、多数の可能なアプリケーションがあります。前述のとおり、この記事では、Topi2Vec と BERTopic の概要を説明します。これらは、数行のコードでトピックを識別し、データの視覚化を通じて結果を解釈するのに役立つ XNUMX つの有望なアプローチです。これらの手法について質問がある場合、またはトピックを検出するための他のアプローチについて他の提案がある場合は、コメントに記入してください。

ユージニア・アネロ 現在、イタリアのパドバ大学の情報工学科の研究員です。彼女の研究プロジェクトは、異常検出と組み合わせた継続的学習に焦点を当てています。