מאחורי קודקס OpenAI: 5 אתגרים מרתקים לגבי בניית קודקס שלא ידעת עליהם

צומת המקור: 1068192

מאחורי קודקס OpenAI: 5 אתגרים מרתקים לגבי בניית קודקס שלא ידעת עליהם

תגיות: , ,

כמה אתגרי הנדסה ומודלים של ML שנתקלים במהלך הבנייה של Codex.




קודקס OpenAI
מקור: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

לפני מספר שבועות, OpenAI הדהימה את עולם הבינה המלאכותית (AI) עם שחרורו של Codex, מודל ענק שיכול לתרגם שפה טבעית לקוד. Codex יכול ליצור ביעילות מקצה לקצה מהוראות שפה בסיסיות. אם אתם לא מאמינים לי, כדאי שתצפו בסרטון הזה שיכול להיחשב לאחת מהדגמות הבינה המלאכותית הטובות ביותר בכל הזמנים 😉



קרדיט וידאו: OpenAI

 

הרבה נכתב על היכולות של Codex מאז ההשקה הראשונית.

עם זאת, הסתקרנתי יותר מהדרישות הקטנות שהופכות לרלוונטיות להפליא לבניית מודל בסדר גודל כזה. בצלילה עמוקה לתוך Codex, יש כמה דברים מעניינים שמצאתי שחשבתי שיהיה טוב להדגיש:

1. Codex שולט בתריסר שפות אבל הוא הוכשר לפייתון

 
מצאתי את זה מעורר תובנה להפליא. המטרה המקורית של OpenAI הייתה להפוך את Codex למיומן ב-Python אבל מסתבר שהמודל קלט שפות אחרות במהלך תהליך ההכשרה המקדים. זה מדבר על היכולות הייחודיות של מודלים שהוכשרו מראש בשפה.

2. בדיקת זה של Codex הייתה יותר מסובכת

 
קהילת הבינה המלאכותית הופתעה מהמחקר מאחורי Codex, אבל אני חושב שהצד ההנדסי היה מרשים לא פחות. היבט אחד שסיקרן אותי במיוחד היה חלק הבדיקות. איך לעזאזל בודקים קוד חי מבלי לקחת סיכונים גדולים. מסתבר שצוות OpenAI השקיע המון עבודה בבניית ארגזי חול מתוחכמים מאוד כדי לבדוק את התפוקות מ- Codex בבידוד.

3. התאמת סמנטיקה לקוד רחוקה מלהיות טריוויאלית

 
אימון מודל בכל קוד המקור בעולם נשמע מגניב אבל זה רחוק מלהיות טריוויאלי. אחרי הכל, לא כל הקוד נוצר שווה. ניתן לתעד קוד ב-Github בצורה גרועה בעוד למחברות יכול להיות מידע סמנטי עשיר. באופן דומה, לקטעי קוד ב-Stack Overflow יש רמות עשירות יותר של מידע סמנטי. מיפוי קטעי קוד לסמנטיקה של השפה היה אחד האתגרים של בניית Codex.

4. קודקס עדיין נאבק בפירוק משימות

 
אם אתה חושב איך מתכנתים עובדים, אנחנו נוטים לפרק בעיה למשימות קטנות יותר ולייצר קוד עבורן. מסתבר ש-Codex מצויין באחרון אבל עדיין נאבק במשימות פירוק בעייתיות. זה לא צריך להיות מפתיע אם אנחנו חושבים שפירוק הבעיה דורש מיומנויות קוגניטיביות מורכבות מאוד.

5. כוונון עדין מפוקח היה חלק עצום בבניית Codex

 
קוד באינטרנט מופיע בכל מיני רמות של שלמות, תיעוד, עושר תחבירי וכו'. אימון מודל במערכות קוד מגוונות כל כך יכול להניב תוצאות לא אמינות. במובן זה היה על OpenAI לעבור מאמץ מסיבי של כוונון עדין מפוקח.

 
אלו הם חלק מההיבטים של Codex שאינם סופר מוכרים אך תרמו עיקריים להצלחת הגרסה הראשונה של הדגם. הצלחת Codex נבעה גם ממחקר ML מתקדם וגם מאמצי הנדסה ותשתית ML מסיביים.

 
Bio you ישו רודריגז כיום הוא CTO ב- Intotheblock. הוא מומחה טכנולוגי, משקיע בכיר ויועץ סטארטאפים. ישו ייסד את Tellago, חברה לפיתוח תוכנה עטורת פרסים המתמקדת בסיוע לחברות להפוך לארגוני תוכנה גדולים על ידי מינוף מגמות תוכנה ארגוניות חדשות.

מְקוֹרִי. פורסם מחדש באישור.

מידע נוסף:

מקור: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

בול זמן:

עוד מ KDnuggets