#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

出力

上記から、チューリッヒという単語にUnicode（文字「u」がエンコードされている）、ASCII文字（Alu017eupine）、ルピーの通貨記号、HTMLリンク、句読点が含まれていることがわかります。

clean関数では、必要なASCII、Unicode、URL、数値、通貨、句読点を指定するだけです。または、上記の関数で置換パラメーターに置き換えることができます。たとえば、ルピー記号をルピーに変更しました。

正規表現や長いコードを使用する必要はまったくありません。特にスクレイピングやソーシャルメディアデータからテキストをクリーンアップしたい場合に非常に便利なライブラリ。要件に基づいて、引数をすべて組み合わせるのではなく、個別に渡すこともできます。

詳しくはこちらをご確認ください GitHubリポジトリ.

2.ドローデータ

Drawdataは、私のもうXNUMXつのクールなPythonライブラリの発見です。 MLの概念をチームに説明する必要がある状況に何度も遭遇しましたか？データサイエンスはチームワークがすべてであるため、これは頻繁に発生する必要があります。このライブラリは、Jupyterノートブックでデータセットを描画するのに役立ちます。
個人的には、MLの概念をチームに説明したときに、このライブラリを使用するのが本当に楽しかったです。このライブラリを作成した開発者に称賛を！

Drawdataは、XNUMXつのクラスの分類問題専用です。

インストール

!pip install drawdata

例

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

出力

著者による画像

上記の描画ウィンドウは、draw_Scatter（）の実行後に開きます。明らかに、A、B、C、DのXNUMXつのクラスがあります。任意のクラスをクリックして、必要なポイントを描くことができます。各クラスは、図面内のさまざまな色を表します。データをcsvまたはjsonファイルとしてダウンロードするオプションもあります。また、データをクリップボードにコピーして、以下のコードから読み取ることができます

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

このライブラリの制限のXNUMXつは、XNUMXつのクラスを持つXNUMXつのデータポイントしか提供しないことです。しかしそうでなければ、それは間違いなくそれだけの価値があります。詳しくはこちらをご確認ください GitHubリンク.

3.オートビズ

matplotlibを使用して探索的データ分析を行った時間を忘れることはありません。多くの単純な視覚化ライブラリがあります。しかし、最近、XNUMX行のコードでデータセットを自動的に視覚化するAutovizについて知りました。

インストール

!pip install autoviz

例

この例では、IRISデータセットを使用しました。

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

上記のパラメータはデフォルトです。詳しくはご確認くださいこちら.

出力

著者による画像

すべてのビジュアルを確認し、XNUMX行のコードでEDAを完成させることができます。自動視覚化ライブラリはたくさんありますが、特にこれに慣れることは本当に楽しかったです。

4.水戸

誰もがExcelが好きですよね？これは、最初にデータセットを探索する最も簡単な方法のXNUMXつです。数ヶ月前に水戸に出会ったのですが、つい最近試してみて、とても気に入りました！

これは、スプレッドシート機能を追加するGUIサポートを備えたJupyter-lab拡張Pythonライブラリです。 csvデータを読み込んで、データセットをスプレッドシートとして編集すると、Pandasコードが自動的に生成されます。とてもかっこいい。

水戸は本当にブログ投稿全体に値する。ただし、今日はあまり詳しく説明しません。代わりに、簡単なタスクのデモンストレーションを示します。詳しくはご確認くださいこちら.

インストール

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

インストールの詳細については、チェックしてくださいこちら.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

上記のコードを実行すると、mitosheetがjupyterラボで開きます。 IRISデータセットを使用しています。まず、XNUMXつの新しい列を作成しました。 XNUMXつは平均がく片の長さで、もうXNUMXつはがく片の幅の合計です。次に、平均がく片の長さの列名を変更しました。最後に、平均がく片の長さの列のヒストグラムを作成しました。

上記の手順を実行すると、コードが自動的に生成されます。

出力

著者による画像

上記の手順のために、以下のコードが生成されました。

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5.グラムフォーマー

さらに別の印象的なライブラリであるGramformerは、文の文法を修正するのに役立つ生成モデルに基づいています。このライブラリには、 検出器、蛍光ペン、および補正器。検出器は、テキストの文法が正しくないかどうかを識別します。蛍光ペンは品詞の誤りをマークし、コレクターはエラーを修正します。 Gramformerは完全にオープンソースであり、初期段階にあります。ただし、文レベルでのみ機能し、64の長さの文用にトレーニングされているため、長い段落には適していません。

現在、コレクターとハイライターのモデルが機能しています。いくつかの例を見てみましょう。

インストール

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Gramformerのインスタンス化

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

例

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

出力

著者による画像

上記の出力から、文法やスペルミスさえも修正していることがわかります。本当に素晴らしいライブラリであり、機能も非常に優れています。ここでは蛍光ペンを試していません。詳細については、このGitHubドキュメントを試して確認してください。細部.

6.スタイルフォーマー

Gramformerでの前向きな経験から、もっとユニークなライブラリを探すようになりました。このようにして、もうXNUMXつの非常に魅力的なPythonライブラリであるStyleformerを見つけました。 GramformerとStyleformerはどちらもPrithivirajDamodaranによって作成され、どちらも生成モデルに基づいています。それをオープンソーシングしてくれたクリエイターへの称賛。

Styleformerは、カジュアルからフォーマルセンテンス、フォーマルからカジュアルセンテンス、アクティブからパッシブ、パッシブからアクティブセンテンスへの変換を支援します。

いくつかの例を見てみましょう

インストール

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Styleformerをインスタンス化する

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

例

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

上記の出力を参照してください。正確に変換されます。私はこのライブラリを使用して、カジュアルからフォーマルに変換しました。特に、私の分析のXNUMXつでソーシャルメディアの投稿に使用しました。詳しくはご確認ください GitHubの.

前述のライブラリのいくつかに精通しているかもしれませんが、GramformerやStyleformerのようなライブラリは最近のプレーヤーです。それらは非常に過小評価されており、私の時間を大幅に節約し、NLPプロジェクトに頻繁に使用したため、知っておく価値があります。

読んでくれてありがとう。追加するものがあれば、コメントを残してください！

あなたも私の前の記事が好きかもしれません データサイエンスのためのXNUMXつのクールなPythonライブラリ

バイオ：ディリップスブラマニアン 機械エンジニアであり、アナリティクスの修士号を取得しています。彼は、IT、マーケティング、バンキング、電力、製造などのデータに関連するさまざまな分野での専門分野で9年の経験があります。彼はNLPと機械学習に熱心です。彼はに貢献しています SASコミュニティまた、Mediumプラットフォームでデータサイエンスのさまざまな側面に関する技術記事を書くことが大好きです。

元の。許可を得て転載。

関連する