הועלה מחדש על ידי אפלטון

עוקב: 0

6 ספריות פייתון מגניבות שהגעתי אליהן לאחרונה

= הפוסט הקודם

הפוסט הבא =>

תגיות: מדע נתונים, למידת מכונה, פיתון

בדוק את ספריות Python המדהימות הללו עבור למידת מכונה.

הערות

By דיליפ סוברמניאן, מדען נתונים וחובב בינה מלאכותית

תמונה

Python הוא חלק בלתי נפרד מלמידת מכונה וספריות הופכות את חיינו לפשוטים יותר. לאחרונה, נתקלתי ב-6 ספריות מדהימות בזמן שעבדתי על פרויקטי ה-ML שלי. הם עזרו לי לחסוך הרבה זמן ואני הולך לדון עליהם בבלוג הזה.

1. טקסט נקי

ספרייה מדהימה באמת, טקסט נקי צריך להיות הבחירה שלך כאשר אתה צריך להתמודד עם גרידה או נתונים של מדיה חברתית. הדבר הכי מגניב בו הוא שהוא לא דורש שום קוד מפואר ארוך או ביטויים רגולריים כדי לנקות את הנתונים שלנו. בוא נראה כמה דוגמאות:

הַתקָנָה

!pip install cleantext

דוגמה

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

תְפוּקָה

מהאמור לעיל, אנו יכולים לראות שיש לו Unicode במילה Zurich (האות 'u' קודדה), תווי ASCII (ב-Alu017eupine.), סמל מטבע ברופי, קישור HTML, סימני פיסוק.

אתה רק צריך להזכיר את ה-ASCII, Unicode, כתובות האתרים, המספרים, המטבע וסימני הפיסוק הנדרשים בפונקציית הניקוי. לחלופין, ניתן להחליף אותם בפרמטרי החלפה בפונקציה לעיל. למשל, שיניתי את סמל הרופי לרופי.

אין צורך להשתמש בביטויים רגולריים או קודים ארוכים. ספרייה שימושית מאוד במיוחד אם אתה רוצה לנקות את הטקסטים משריטה או נתוני מדיה חברתית. בהתבסס על הדרישה שלך, אתה יכול גם להעביר את הטיעונים בנפרד במקום לשלב את כולם.

לפרטים נוספים, אנא בדוק זאת מאגר GitHub.

2. drawdata

Drawdata הוא עוד ממצא מגניב של ספריית פיתון שלי. כמה פעמים נתקלתם במצב שבו אתם צריכים להסביר לצוות את מושגי ה-ML? זה חייב לקרות לעתים קרובות כי מדעי הנתונים עוסקים בעבודת צוות. ספרייה זו עוזרת לך לצייר מערך נתונים במחברת Jupyter.
באופן אישי, מאוד נהניתי להשתמש בספרייה הזו כשהסברתי לצוות שלי מושגי ML. כל הכבוד למפתחים שיצרו את הספרייה הזו!

Drawdata מיועד רק לבעיית הסיווג עם ארבע מחלקות.

הַתקָנָה

!pip install drawdata

דוגמה

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

תְפוּקָה

תמונה של המחבר

חלונות הציור שלמעלה ייפתחו לאחר ביצוע ה- draw_Scatter(). ברור שיש ארבע מחלקות כלומר A, B, C ו-D. אתה יכול ללחוץ על כל מחלקה ולצייר את הנקודות שאתה רוצה. כל כיתה מייצגת את הצבעים השונים בציור. יש לך גם אפשרות להוריד את הנתונים כקובץ csv או json. כמו כן, ניתן להעתיק את הנתונים ללוח ולקרוא מהקוד שלהלן

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

אחת המגבלות של ספרייה זו היא שהיא נותנת רק שתי נקודות נתונים עם ארבע מחלקות. אבל אחרת, זה בהחלט שווה את זה. לפרטים נוספים, אנא בדוק זאת קישור GitHub.

3. Autoviz

לעולם לא אשכח את הזמן שביליתי בניתוח נתונים חקרני באמצעות matplotlib. יש הרבה ספריות ויזואליזציה פשוטות. עם זאת, גיליתי לאחרונה על Autoviz אשר מציגה באופן אוטומטי כל מערך נתונים עם שורת קוד אחת.

הַתקָנָה

!pip install autoviz

דוגמה

השתמשתי במערך הנתונים של IRIS עבור דוגמה זו.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

הפרמטרים לעיל הם ברירת מחדל. למידע נוסף, אנא בדוק כאן.

תְפוּקָה

תמונה של המחבר

אנחנו יכולים לראות את כל התמונות ולהשלים את ה-EDA שלנו עם שורת קוד אחת. יש הרבה ספריות להדמיה אוטומטית אבל מאוד נהניתי להכיר את הספר הזה במיוחד.

4. מיטו

כולם אוהבים אקסל, נכון? זוהי אחת הדרכים הקלות ביותר לחקור מערך נתונים בשלב ראשון. נתקלתי במיטו לפני כמה חודשים, אבל ניסיתי את זה רק לאחרונה וממש אהבתי את זה!

זוהי ספריית פיתון של Jupyter-lab עם תמיכה ב-GUI שמוסיפה פונקציונליות של גיליון אלקטרוני. אתה יכול לטעון את נתוני ה-CSV שלך ולערוך את מערך הנתונים כגיליון אלקטרוני, והוא יוצר אוטומטית קוד Pandas. מגניב מאוד.

למיטו באמת מגיע פוסט שלם בבלוג. עם זאת, היום לא אפרט יותר מדי. הנה הדגמת משימה פשוטה עבורך במקום זאת. לפרטים נוספים, אנא בדוק כאן.

הַתקָנָה

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

למידע נוסף על התקנה, אנא בדוק כאן.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

לאחר ביצוע הקוד שלמעלה, mitosheet ייפתח במעבדת jupyter. אני משתמש במערך הנתונים של IRIS. ראשית, יצרתי שני עמודות חדשות. האחד הוא אורך הגלב הממוצע והשני הוא רוחב הגלב סכום. שנית, שיניתי את שם העמודה עבור אורך הגלב הממוצע. לבסוף, יצרתי היסטוגרמה עבור עמודת אורך הגלב הממוצעת.

הקוד נוצר אוטומטית לאחר ביצוע השלבים שהוזכרו לעיל.

תְפוּקָה

תמונה של המחבר

הקוד שלהלן נוצר עבור השלבים לעיל:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformer

ספרייה מרשימה נוספת, Gramformer מבוססת על מודלים גנרטיביים שעוזרים לנו לתקן את הדקדוק במשפטים. לספרייה זו יש שלושה דגמים שיש להם א גלאי, מדגיש ומתקן. הגלאי מזהה אם לטקסט יש דקדוק שגוי. המדגיש מסמן את חלקי הדיבור הפגומים והמתקן מתקן את השגיאות. Gramformer הוא קוד פתוח לחלוטין ונמצא בשלבים הראשונים שלו. אבל זה לא מתאים לפסקאות ארוכות מכיוון שהוא עובד רק ברמת המשפט והוכשר ל-64 משפטים באורך.

נכון לעכשיו, דגם המתקן וההיילייטר פועל. בואו נראה כמה דוגמאות.

הַתקָנָה

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

הפעלה של Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

דוגמה

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

תְפוּקָה

תמונה של המחבר

מהפלט לעיל, אנו יכולים לראות שהוא מתקן שגיאות דקדוק ואפילו שגיאות כתיב. ספרייה ממש מדהימה ומתפקדת טוב מאוד. לא ניסיתי היילייטר כאן, אתה יכול לנסות ולבדוק את התיעוד הזה של GitHub למידע נוסף פרטים.

6. Styleformer

הניסיון החיובי שלי עם Gramformer עודדה אותי לחפש ספריות ייחודיות יותר. כך מצאתי את Styleformer, עוד ספריית Python מושכת מאוד. גם Gramformer וגם Styleformer נוצרו על ידי Prithiviraj Damodaran ושניהם מבוססים על מודלים גנרטיביים. כל הכבוד ליוצר על המקור הפתוח.

Styleformer עוזר להמיר משפטים סתמיים לפורמליים, משפטים רשמיים למשפטים סתמיים, משפטים אקטיביים לפסיביים וממשפטים פסיביים לאקטיביים.

בואו נראה כמה דוגמאות

הַתקָנָה

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instantiate Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

דוגמאות

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

ראה את הפלט לעיל, הוא ממיר במדויק. השתמשתי בספרייה זו להמרת מזדמנים לפורמליים, במיוחד עבור פוסטים במדיה חברתית באחד הניתוחים שלי. לפרטים נוספים, אנא בדוק GitHub.

אולי אתה מכיר כמה מהספריות שהוזכרו קודם לכן, אבל אלה כמו Gramformer ו- Styleformer הם שחקנים אחרונים. הם מאוד לא מוערכים ובוודאי ראויים להכרה כי הם חסכו הרבה מזמני והשתמשתי בהם רבות עבור פרויקטי ה-NLP שלי.

תודה שקראת. אם יש לך משהו להוסיף, אתה מוזמן להשאיר תגובה!

אולי תאהב גם את המאמר הקודם שלי חמש ספריות פייתון מגניבות למדעי נתונים

Bio you דיליפ סוברמניאן הוא מהנדס מכונות וסיים תואר שני באנליטיקה. יש לו 9 שנות ניסיון בהתמחות בתחומים שונים הקשורים לנתונים לרבות IT, שיווק, בנקאות, חשמל וייצור. הוא נלהב מ-NLP ולמידת מכונה. הוא תורם ל- קהילת SAS ואוהב לכתוב מאמרים טכניים על היבטים שונים של מדעי הנתונים בפלטפורמה הבינונית.

מְקוֹרִי. פורסם מחדש באישור.

מידע נוסף: