Bio Eats World: שימוש בבינה מלאכותית כדי לקחת את הביו רחוק יותר

Bio Eats World: שימוש בבינה מלאכותית כדי לקחת את הביו רחוק יותר

צומת המקור: 1896777

בפרק זה, Vijay Pande מדבר עם Jakob Uszkoreit, המייסד והמנכ"ל של Inceptive. יחד, הם דנים בכל הקשור ל-AI.

אנו מפרסמים את התמליל במלואו למטה, למקרה שתרצו לקרוא.

***

אוליביה ווב: שלום, וברוכים הבאים ל-Bio Eats World, פודקאסט בצומת של ביו, בריאות וטכנולוגיה. אני אוליביה ווב, מובילת העריכה של Bio + Health ב-a16z. בפרק זה, שוחחנו עם Jakob Uszkoreit, לשעבר מ-Google Brain, והמייסד השותף של Inceptive. ג'ייקוב הוא גם אחד המחברים של מאמר המחקר המכונן של AI Attention is All You Need, אליו נקשר בהערות התוכנית. יעקב ישב עם Vijay Pande, שותף מייסד של a16z Bio + Health כדי לדבר על כל מה שנוגע לבינה מלאכותית: מהתקופה שלו ב-Google Brain, דרך איך בני אדם ומחשבים מעבדים שפה, ועד לאמונה של Inceptive בהבטחה של RNA, ואיך יאקוב מאמין שאנחנו נכנסים לטריטוריה של נקודות פיתול עם AI.

זה פרק שאתה לא רוצה לפספס — אבל זה גם דיון ברמה של בוגר בינה מלאכותית, אז אנחנו נפרסם תמליל לצד הפרק. בואו נתחיל.

אלגוריתמים ישימים

ויג'אי פנדה: אז יעקב, תודה רבה שהיית ב-Bio Eats World. זה נהדר שיש אותך.

יעקב אוסקורייט: נהדר להיות כאן. תודה שהזמנת אותי.

ויג'אי פנדה: במיוחד מכיוון שיש לך סיפור כל כך מרתק כמדען מחשבים ויזם ומייסד, אשמח שתדריך אותנו במסע הקריירה שלך, תתחיל איפה שתרצה, אבל מה שהביא אותך ל-Google Brain הוא כנראה מקום נחמד להתחיל בו .

יעקב אוסקורייט: אני זוכר במידה מסוימת באמת, אה, נתקל בבעיה הזו של למידת מכונה, אולי במובן הרחב, [ו] הבנת השפה, קצת יותר ספציפית, כבעיה שעוברת במשפחה. אז אבא שלי הוא מדען מחשבים ובלשן חישובי, ואתה יודע, גידול דברים כמו מכונות טיורינג לא היו בהכרח מושגים זרים לגמרי בשלב מוקדם למדי.

ויג'אי פנדה: כן, זה נשמע כאילו זה יכול היה להיות שיחה על שולחן ארוחת הערב, למעשה.

יעקב אוסקורייט: הם היו שיחות שולחן לארוחת ערב. ולכן במיוחד אוטומטים סופיים, והאופן שבו הם קשורים למעשה למכונות אוטומטיות, היו, אתם יודעים, נושאים נפוצים. ככל שהתבגרתי, כך רציתי להבטיח שאכן בסופו של דבר אעשה משהו אחר. וכך הסתכלתי שם לא מעט על מתמטיקה טהורה ותחומים קשורים. [אני] באמת התמקדתי לא מעט באופטימיזציה, באלגוריתמי אופטימיזציה, אלגוריתמים בסך הכל, תיאוריית המורכבות רחבה יותר, לפני שהבנתי שאולי זה לא היה הדבר הכי מעשי והדבר הכי ישים, מה, אתה יודע, קצת הפך להיות. קצת חוט אדום לאורך הקריירה שלי. ואז ממש נתקלת בהתמחות בגוגל בשנת 2005.

קיבלתי כמה אפשרויות שונות [באשר] לאיזה סוג של פרויקטי מחקר להצטרף, [ו] ביניהם היו מאמצי ראייה ממוחשבת שונים, אבל גם פרויקט תרגום המכונה שבעצם הפך ל-Google Translate. בדיוק באותה תקופה, או קצת לפני כן, השיקה [Translate] את המוצר הראשון שלה שהופעל באמת על ידי מערכות פנימיות של גוגל שפותחו ובמובן מסוים, למורת רוחי, מסתבר ש-Google Translate ב- בתקופה שבה היו ללא ספק הבעיות המעניינות ביותר באלגוריתמים בקנה מידה גדול.

בזמנו, זה היה ממש מעניין לראות, כי מה ששכנע אותי להפסיק לאחר מכן את הדוקטורט שלי ולמעשה לחזור לגוגל אחרי ההתמחות ההיא, זה באמת התברר בתקופה שלי שם שאם אתה רוצה לעבוד על משהו ב למידת מכונה שהייתה לא רק מעניינת, נניח מבחינה אינטלקטואלית ומדעית, מרגשת, מאתגרת ומעוררת, אלא שגם היו לה תקוות גדולות מאוד להזיז את המחט מיד בתעשייה ובמוצרים. באמת, בערך באותה תקופה, לא היו הרבה מקומות בעולם. והם בהחלט לא היו מעבדות אקדמיות באותה תקופה, אלא מאוד מקומות כמו גוגל. וגוגל שם ואז היה למעשה מאוד בחזית של זה. אז, אתה יודע, בזמנו חשבתי שזה מדהים להפעיל את אלגוריתמי האשכולות הראשונים שלי בקנה מידה גדול על אלף מכונות, וזה היה פשוט בלתי אפשרי לעשות זאת במקומות אחרים.

ויג'אי פנדה: כשאתה מדבר עם הקולגות הבכירים שלנו, יש הרבה רומנטיקה בימי הזוהר של Bell Labs, ותמיד תהיתי אם Google Brain עשויה להיות אחת הגרסאות הקרובות יותר כיום. איך הייתה הסביבה?

יעקב אוסקורייט: אז אני מרגיש בעצם בין התקופה ההיא ועד ש-Google Brain באמת התחיל, שזה בערך חמש שנים מאוחר יותר, היה שינוי משמעותי. לפני ש-Brain and Translate התחילו, זה היה הרבה יותר מונע על ידי מוצרים שבאמת עשו את ההבדל ממה שאני מאמין ש-Bell Labs הייתה. והיו לנו מספר לא מבוטל של בוגרי Bell Labs, כמובן, בינינו, אבל זה היה הרבה יותר מונע מיישום ישיר.

מה שבעיני היה ממש מדהים לראות איך תרגום מכונה הפך [ממשהו] טוב לצחוק במסיבה, פשוטו כמשמעו. אם היו שואלים אותך איפה אתה עובד? ואתה אמרת, גוגל. ואז הם אמרו, מה אתה עושה שם? והם התרשמו בהתחלה. ואז אמרת, הו, אני עובד על Google Translate. ואז הם צחקו ושאלו, האם זה יעבוד אי פעם? אני לא חושב כך. אבל אז באותו הזמן, הייתי אומר שהגל של למידת מכונה, גל הרנסנס של למידת מכונה שלפני הלמידה העמוקה, התחיל להגיע לרמה. אתה יודע, למידה עמוקה הייתה משהו שעשיתי בעבר בבית הספר, ואהבתי את זה, אבל זה לא היה משהו שבאמת יכולת ליישם באותם ימים.

ויג'אי פנדה: כן, במיוחד בגלל שלא היה לך קנה מידה באקדמיה לעשות את החישובים שאתה צריך לעשות.

יעקב אוסקורייט: בטח לא באקדמיה, אלא אפילו בגוגל. למרות שבזמנו, ב-Translate, למעשה, המאפיין המעניין ביותר היה, הייתי אומר, באמת האמנו בכוח המוחלט של נתונים בסופו של יום.

אז ניסינו לא ליצור אלגוריתמים מסובכים ומתוחכמים יותר, אלא לפשט ולהרחיב אותם ככל האפשר ואז לאפשר להם להתאמן על עוד ועוד נתונים. אבל פשוט פגענו שם בתקרה. הפשטות שהיית צריך לעשות כדי להרחיב אותן למה שהיה בזמנו קנה המידה של גוגל, זו באמת הייתה המטרה שלנו. אבל אז, וזו הייתה סוג של אחת מתנועות המטוטלת האלה, שהתנדנדה לאחור, אל מחוץ לאקדמיה, חבורה של אנשים עם חבורה של GPUs - למידה עמוקה חזרה במובן מסוים עם נקמה. ופתאום הסביבה הסתגלה, כי לא היה ברור מה יהיה המסלול הישיר בקנה מידה לייצור.

וכך כל הסביבה עברה מלהיות יותר יישום ומוצר אוריינטציה, למשהו שלפחות הרגיש במשך לא מעט שנים, הרבה יותר אקדמי. זה עדיין קצת שונה ממעבדות אקדמיות כי יכולנו להרשות לעצמנו הרבה יותר GPUs, אבל הרבה יותר בקנה אחד, במובן מסוים, עם הרעיון הזה של, [להיות] מונע על ידי פרסומים, מונע על ידי קפיצות ולא צעדים. [זה] הפך ל[סביבה] מאוד מאוד פרודוקטיבית - ובאמת מדהימה - אבל הרבה יותר פתוחה.

תשומת לב היא כל מה שאתה צריך

ויג'אי פנדה: ובכן, אתה יודע, אם כבר מדברים על פרסומים, מקום טבעי לחשוב עליו הוא כשאתה והצוות פרסמת את Attention is All You Need. ואתה יודע, זה היה מאמר כה מכונן עבור כל כך הרבה בינה מלאכותית של בינה מלאכותית מאז זה היה כאשר אלגוריתם השנאים הונח לראשונה.

יעקב אוסקורייט: שנתיים לפני פרסום המאמר הזה, הבנו [ש] מה שהיה אז עדכני לבעיות כמו תרגום מכונה, או [מה] מתגלה כמתקדם, כלומר מבוסס LSTM או RNN , ל-Seq2Seq בסך הכל כפרדיגמת אימון וכהגדרה, אבל גם כארכיטקטורת רשת - היו בעיות מדהימות אפילו במעבדי ה-GPU המודרניים ביותר באותה תקופה, בכל הנוגע לקנה מידה במונחים של נתונים.

לדוגמה, מערכת תרגום המכונה העצבית הראשונה שגוגל השיקה, GNMT, למעשה, למיטב ידיעתי, מעולם לא הוכשרה באמת על כל נתוני האימון שהיו לנו, שכרינו בעבר עבור מערכות סטטיסטיות מבוססות ביטויים. וזה היה בגלל שהאלגוריתמים פשוט לא התאימו היטב מבחינת כמות הנתונים. אז, בקיצור, הסתכלנו, בזמנו, לא בתרגום מכונה, אלא בבעיות שבהן, פנימית בגוגל, היו לנו כמויות גדולות עוד יותר של נתוני הדרכה זמינים. אז אלו היו בעיות שהגיעו מחיפוש, שבהן יש לך בעצם עוד שלושה או ארבעה סדרי גודל. אתה יודע, עכשיו כבר אין מיליארדי מילים, אלא טריליונים בקלות, ופתאום נתקלנו בדפוס הזה שבו רשתות הזדמנויות פשוטות, למרות שהניחו הנחות מפשטות מגוחכות כמו, זה רק שק של מילים, או שזה רק שק של ביגרמות , ואתה סוג של ממוצע אותם ואתה שולח אותם דרך MNLP גדול, הם למעשה הצליחו על RNNs ו- LSTMs, לפחות כשהם מאומנים על יותר נתונים.

[והם היו] מהירים פי n, בקלות פי 10, פי 20, כדי להתאמן. וכך תוכל לאמן אותם על הרבה יותר נתונים. במקרים מסוימים, [הם היו] מהירים פי מאה להתאמן. וכך המשכנו בעקביות למעשה בסופו של דבר עם מודלים פשוטים יותר ושלא יכלו לבטא או ללכוד תופעות מסוימות שאנו יודעים שהן בהחלט נפוצות בשפה.
ועדיין, אתה יודע, בשורה התחתונה, הם היו זולים יותר לאימון ו[הם] הופיעו טוב יותר.

ויג'אי פנדה: בואו רק ניתן דוגמה לאנשים שלא מכירים. אז, בשביל שקית של מילים, אם אגיד, תראה לי את כל המסעדות הקרובות חוץ מאיטלקית, זה יראה לך את כל המסעדות האיטלקיות, נכון?

יעקב אוסקורייט: בְּדִיוּק. למעשה, מה שאמרת כנראה ניתן לסדר מחדש, כדי להראות לי את כל המסעדות האיטלקיות מלבד בקרבת מקום. זה רק מרק של מילים ואתה יכול לסדר אותו מחדש למשהו שבוודאי אומר משהו אחר.

ויג'אי פנדה: כן.

יעקב אוסקורייט: ואז אתה משער להגיע למבנה ולהגיע לתופעות היותר גלובליות על ידי הכנסת ביגרמות. אז בעצם קבוצות של שתי מילים רצופות ודברים כאלה. אבל ברור שבוודאי בשפות כמו גרמנית, שבהן אתה יכול בעצם לשים את הפועל ממש בסוף המשפט...

ויג'אי פנדה: וזה משנה את כל המשמעות, נכון?

יעקב אוסקורייט: משנה את כל המשמעות, בדיוק, כן. לא משנה מה גודל ה-n-גרם שלך - או קבוצות המילים הקטנות שלך - בסופו של דבר לא תצליח. והתברר לנו שחייבת להיות דרך אחרת שלא מצריכה הישנות של ה-RNN באורך, או הישנות ברצף של, נגיד מילים או פיקסלים, אלא שלמעשה מעבדת קלט ופלט בצורה מקבילה יותר ובאמת. בסופו של דבר מספקים את החוזקות של חומרת המאיץ המודרנית.

ויג'אי פנדה: תחשוב על זה, כמו שקית של מילים היא מילים בסדר אקראי. LSTM, או זיכרון ארוך טווח קצר, אולי נותן לך איזושהי [יכולת] להסתכל קצת על העבר, נכון? אבל שנאים עושים משהו שונה בתכלית. איך שנאים לוקחים את זה לשלב הבא?

יעקב אוסקורייט: תמיד יש שתי דרכים להסתכל על זה. האחת היא דרך עדשת היעילות, אבל הדרך השנייה שהיא אולי קצת יותר אינטואיטיבית היא להסתכל על זה במונחים של, אתה יודע, כמה הקשר אתה יכול לשמור. וכמו שאמרת, LSTMs, או רשתות עצביות חוזרות באופן כללי, הם עוברים דרך התשומות שלהם צעד אחר צעד, באופן כללי, ובעוד שהם, בתיאוריה, מסוגלים לשמור על חלונות הקשר ארוכים באופן שרירותי לתוך התשומות - העבר - מה קורה בפועל הוא שלמעשה קשה להם לזהות אירועים, לומר מילים או פיקסלים, שהם מאוד רחוקים בעבר שבאמת משפיעים על המשמעות בסופו של יום. הם נוטים להתמקד בדברים שנמצאים בסביבה.

השנאי, לעומת זאת, בעצם רק הופך את זה על הראש ואומר, לא, בכל שלב מה שאנחנו עושים הוא לא זז דרך הקלט. בכל שלב, אנו מסתכלים על מכלול הקלט או הפלט, ובעצם אנו מתקנים בהדרגה ייצוגים של כל מילה או כל פיקסל או כל תיקון או כל פריים של סרטון, תוך כדי תנועה, לא במרחב הקלט. , אבל במרחב הייצוג.

ויג'אי פנדה: כן.

יעקב אוסקורייט: ולרעיון הזה היו כמה חסרונות מבחינת האופן שבו תתאים אותו לחומרה מודרנית, אבל בהשוואה לרשתות עצביות חוזרות, היו לו בעיקר יתרונות מכיוון שכעת לא היית מחויב למעשה לחשב ייצוגים ברצף, נגיד, מילה במילה. מה שהיית קשור אליו הוא, באמת, עד כמה הם צריכים להיות טובים? כמה שכבות של סוג זה של עיבוד מקביל של כל המיקומים שבהם הכל, שבו כל זוגות המילים או כל זוגות טלאי התמונות יכולים לקיים אינטראקציה מיידית? כמה תיקונים של ייצוגים אלה אני באמת יכול "להרשות לעצמי"?

ויג'אי פנדה: מה שבאמת מעניין גם הוא שברור שההשראה היא שפה טבעית, אבל שיש הרבה מבנים שהיית רוצה להזין שבהם אתה לא רוצה פשוט ללמוד את זה ברצף, כמו רצף DNA - ואנחנו ניכנס לביולוגיה מהר מספיק - שאתה רוצה שיהיה לך דגם של כל העניין.

זה קצת מצחיק עם שפה. כשאני מדבר או כשאני מקשיב לך, אני מעבד כל מילה, אבל בסופו של דבר אני צריך לא רק לסמן את המילים למשמעויות אינדיבידואליות, אלא אני צריך לפתח את הייצוג הזה. כן? הלוואי והיינו יכולים לעשות את זה כמו שנאים עושים. ואולי זה החוכמה היא ש-LSTMs קרובים יותר לדרך בה אנו בני האדם עושים זאת, ושנאים הם אולי בדיוק הדרך שבה עלינו לעשות זאת, או הלוואי והיינו יכולים לעשות זאת.

יעקב אוסקורייט: באופן שטחי, אני חושב שזה נכון, אם כי בסופו של יום - טיעונים מופנמים כמו אלה הם עדינים ומסורבלים.

אז אני מניח שרבים מאיתנו מכירים את התופעה הזו שבה אתה צועק או צועק עם מישהו שמנסה לתקשר משהו מעבר לרחוב סואן. וכך אתה שומע משהו שהם אומרים, וזה לא רצף קצר של מילים, ובעצם לא הבנת כלום. אבל אז חצי שניה אחר כך, פתאום הבנת את המשפט כולו. זה למעשה רומז לעובדה שבעוד שאנחנו נאלצים לכתוב ולהגות שפה באופן רציף - רק בגלל חץ הזמן - לא כל כך ברור שההבנה העמוקה יותר שלנו באמת פועלת בצורה הרציפה הזו.

בניית צוות

ויג'אי פנדה: אם מישהו לומד אפילו רק את הנייר Attention is All You Need או איך עובד שנאי, יש בזה הרבה חלקים. ונראה כאילו זה כנראה עבר את הנקודה שבה אדם אחד יכול לבצע את העבודה ביעילות בעצמו בכל פרק זמן קצר.

יעקב אוסקורייט: בהחלט.

ויג'אי פנדה: אז עכשיו אתה באמת צריך צוות של אנשים שיעשה דברים מהסוג הזה. מהי הסוציולוגיה של זה? איך דבר כזה קורה?

יעקב אוסקורייט: המקרה הספציפי הזה, אני אישית מרגיש, הוא דוגמה נפלאה באמת למשהו שמתאים בצורה יוצאת דופן לגישה תעשייתית יותר, נניח, למחקר מדעי. כי אתה ממש צודק. זה לא היה הניצוץ הגדול של דמיון ושל יצירתיות שמניע את הכל.

זו הייתה באמת חבורה שלמה של תרומות שכולן היו נחוצות, בסופו של דבר. בעלת סביבה, ספרייה - שלימים גם הייתה בקוד פתוח, בשם Tensor2Tensor - שכללה למעשה יישומים. ולא סתם יישום, אלא יישום טוב במיוחד, יישום מהיר של כל מיני טריקים של למידה עמוקה.
אבל אז גם עד למנגנוני הקשב האלה שיצאו מפרסומים קודמים - כמו מודל הקשב המתפרק [שפורסם] קודם לכן - אבל אז בעצם שולבו עם שיפורים וחידושים, המצאות סביב אופטימייזרים. לא תמצא אנשים, אני חושב, שהם באמת בין המומחים המובילים בעולם בכל אלה בו זמנית ושהם באמת גם נלהבים באותה מידה לגבי כל ההיבטים האלה.

ויג'אי פנדה: ובמיוחד יש את הרעיון הראשוני, יש את היישום שלו, יש את קנה המידה שלו. להגיע לסוג זה של קנה מידה בכל מקום אחר מלבד בחברה גדולה, כרגע, כנראה לא נעשה באופן ישים רק בגלל העלות.

יעקב אוסקורייט: אני חושב שבעצם אולי ההיבט של החברה הגדולה הוא לא כל כך מכריע.

ויג'אי פנדה: ללא שם: כן?

יעקב אוסקורייט: היבט החברה הוא כזה שהייתי מעריך יותר. החברה הגדולה בהחלט לא מזיקה אם אתה צריך אלפי ואלפי TPUs או GPUs או מה יש לך. כיסים עמוקים אף פעם לא יזיקו לדברים מהסוג הזה. אבל יחד עם זאת, אני מאמין שמבנה התמריצים סביב סוג זה של מחקר חקרני בתעשייה פשוט מתאים הרבה יותר לפרויקטים מסוג זה. ואני חושב שזה בעצם משהו שאנחנו רואים, כשמסתכלים על פרויקטי AI גנרטיביים על פני השטח.

ויג'אי פנדה: כֵּן. ולנקודה שלך, זה יכול להיות סטארט-אפ.

יעקב אוסקורייט: זה בהחלט יכול להיות סטארטאפ. ואני חושב שאנחנו רואים עכשיו ששימוש בחומרת מאיץ הופך לפחות סביר יותר. ויש סטארטאפים שמתחרים מאוד בכל הנוגע ל-AI גנרטיבי הממוקד ליצירת תמונות או יצירת טקסט.

קפיצה למדעי החיים

ויג'אי פנדה: אני אשמח לעבור למה שאתה עושה עכשיו. אתה המנכ"ל של Inceptive, חברה המיישמת בינה מלאכותית לביולוגיה של RNA לצורך טיפולי RNA. איך עברת למדעי החיים? באופן שטחי, אם מדברים על מודלים של שפה סביב ארוחת הערב [השולחן] ולאחר מכן מסביב לקפיטריה של גוגל... נראה שזה עשוי להיות קפיצה לדור הבא של טיפולים. איך כל זה בא?

יעקב אוסקורייט: לא יכולתי להסכים יותר. זו חווית למידה מדהימה, מהקצה שלי. כבר די הרבה זמן, הביולוגיה נראתה לי כבעיה כזו שבה לא נראה בלתי נתפס שיש גבול לכמה רחוק אנחנו יכולים ללכת במונחים של, נגיד, פיתוח תרופות ועיצוב ישיר עם הביולוגיה המסורתית כעמוד השדרה של האופן שבו אנחנו ללכת לתכנן - או לגלות שיטות לעצב - את תרופות העתיד.

נראה שלמידה עמוקה, במיוחד, בקנה מידה הוא, מכמה סיבות, פוטנציאל כלי מתאים כאן. ואחת הסיבות הללו היא בעצם משהו שלעתים קרובות לא בהכרח מחויב כיתרון, והיא העובדה שזו הקופסה השחורה הגדולה הזו שאתה יכול פשוט לזרוק על משהו. וזה לא נכון שאפשר פשוט לזרוק את זה. זה משהו שאתה צריך לדעת איך לזרוק אותו.

ויג'אי פנדה: וזה גם לא בדיוק שחור. נוכל להתווכח על זה אחר כך.

יעקב אוסקורייט: כן בדיוק. בְּדִיוּק. אבל, בסופו של יום, אם נחזור לאנלוגיה לשפה, מעולם לא הצלחנו להבין באופן מלא, במובן הזה, להבין ולהמשיג את השפה במידה שאתה יכול לטעון, הו, עכשיו אני אלך ואומר לך התיאוריה הזו מאחורי השפה, ואז לאחר מכן תוכל ליישם אלגוריתם ש"מבין" אותה. מעולם לא הגענו למצב הזה. במקום זאת, היינו צריכים להפיל וללכת לקחת צעד אחורה ולדעתי, במידה מסוימת, להודות בפני עצמנו שאולי זו לא הייתה הגישה הפרגמטית ביותר. במקום זאת, עלינו לנסות גישות שאינן דורשות רמה כזו של הבנה מושגית. ואני חושב שאולי זה נכון לגבי חלקים בביולוגיה.

שימוש בבינה מלאכותית כדי לקחת את הביולוגי רחוק יותר

ויג'אי פנדה: זה מעניין, דיברנו על דברים כאלה בעבר. אתה חושב על המאה הקודמת, [שהייתה] מאוד המאה של הפיזיקה והחשבון. יש שם מנטליות מסוימת שבה יש דרך שאתה יכול לקבל פישוט מאוד אלגנטי של דברים שאתה יכול לקבל משוואה בודדת כמו משוואות השדה של איינשטיין שמתארות כל כך הרבה, וזו משוואה מאוד פשוטה בשפה מאוד מורכבת. דיברת על כך שגישת פיינמן, כמעט כמו הסוציולוגיה של הפיזיקה, אולי לא תחול כאן בביולוגיה, נכון?

יעקב אוסקורייט: ייתכן שזה לא יחול, לפחות משתי סיבות שאני יכול לראות בשלב זה. מספר אחד הוא שיש יותר מדי שחקנים מעורבים. ולמרות שזה נכון שאולי אנחנו יכולים פשוט לצמצם את הכל למשוואה של שרדינגר ופשוט לפתור אותה, זה במקרה, לא רק בלתי פתיר מבחינה חישובית, אלא גם נצטרך לדעת על כל השחקנים השונים האלה, וכרגע אנחנו לא יודעים. . אפילו לא קרוב. אז זה היבט אחד.

ואז השני הוא בעצם העקשנות מבחינה חישובית, שבו ההפחתה, במובן מסוים, הגיעה עד כדי כך שאמנם היא מחזירה הכל לדבר אחד בודד, אבל היא לא עוזרת לנו כי הגישות החישוביות שלנו להשתמש בעצם היסודות הללו על מנת לבצע תחזיות הם פשוט איטיים מכדי לבצע את התחזיות הללו עבור מערכות גדולות מספיק כדי באמת חשובות לחיים.

ויג'אי פנדה: כֵּן. אז זו לא משוואת n-body, אבל עדיין יש תחושה של פורמליזם - אולי זה פורמליזם יותר מונע נתונים או יותר פורמליזם בייסיאני. איך זה משתלב במה שהיית רוצה לעשות? איך זה נעזר ביישום AI וסוגים אחרים של אלגוריתמים חדשים?

יעקב אוסקורייט: אני חושב שיש כמה היבטים שונים. בסופו של יום, אחת ההפרעות הגדולות לדעתי ממה שאנחנו רואים כרגע ב-AI גנרטיבי היא שאנחנו לא צריכים יותר להתאמן על נתונים שהם לא רק נקיים לחלוטין, אלא גם בדיוק מהדומיין. ומסוגי המשימות שבהמשך תרצה להתמודד. אבל במקום זאת זה עשוי להיות מועיל יותר או אפילו הדרך היחידה שמצאנו עד כה לנסות להתאמן על כל מה שאתה מוצא שקשור אפילו מרחוק. ולאחר מכן השתמש במידע שנאסף ביעילות מהנתונים האלה כדי להגיע למודלים כביכול בסיס, שאותם תוכל לכוונן עדין לכל מיני משימות ספציפיות תוך שימוש בכמויות קטנות הרבה יותר, הרבה יותר ניתנות לניהול, של נתונים נקיים יותר.

אני חושב שאנחנו ממעיטים מעט במה שיש לנו לדעת על התופעות בכלל. כדי לבנות מודל שפה גדול מאוד, אתה צריך להבין שיש את הדבר הזה שנקרא אינטרנט ויש בו הרבה טקסט. אתה צריך להבין לא מעט, למעשה, על איך למצוא את הטקסט הזה, מה זה לא טקסט, וכן הלאה, כדי לזקק ממנו בעצם את נתוני האימון שבהם אתה משתמש אז.

אני מאמין שיהיו אתגרים מקבילים מאוד סביב הביולוגיה. השאלה הגדולה היא: מהם ניסויים שאנו יכולים להתאים כך שנוכל לצפות בחיים בקנה מידה מספיק עם מספיק נאמנות בערך - אבל הרבה פחות ספציפיות תוך התחשבות בבעיות שאתה מנסה לפתור בסופו של דבר - כך שנוכל בעצם לקחת מזה את הנתונים שאנחנו צריכים כדי להתחיל לבנות את המודלים הבסיסיים האלה, שאחר כך נוכל להשתמש בהם, מכוונים ומהונדסים במיוחד, כדי לגשת באמת לבעיות שאנחנו רוצים להתמודד איתם.

חלק יצירת הנתונים הוא ללא ספק אחד מהם. ארכיטקטורות ובעצם קיום מודלים וארכיטקטורות רשת המחקות את מה שאנחנו כן יודעים, על, למשל, הפיזיקה שמתחתיה, עדיין יישארו דרך עוצמתית להפליא לחסוך חישוב בפועל וגם להפחית את התיאבון העצום עדיין לנתונים שיצטרכו להיות למודלים האלה , לרמה ריאלית. אז דבר אחד שלדעתי באמת מעניין לציין הוא שהרבה מהיישומים הנוכחיים של מודלים, נניח שנאים, אשר [נמצאו] מתארכים די טוב בשיטות אחרות, תחומים אחרים, שפה, חזון, יצירת תמונות, וכו' וכו', והחלתם בביולוגיה בעצם מתעלמת מהעובדה שאנחנו יודעים שיש דבר כזה זמן, ושחוקי הפיזיקה, לפחות למיטב ידיעתנו, לא נראה סתם משתנים שעות נוספות.

תהליך קיפול החלבון, תוך התעלמות מהעובדה שיש טונות על גבי טונות של שחקנים - צ'פרונים ומה לא - הוא למעשה, במובן מסוים, בעיה המופרדת באופן שרירותי למדי משאר הקינטיקה של החלבון. זו קינטיקה בדיוק כמו שארית הקינטיקה, או שארית החיים של החלבון הזה, של אותה מולקולה. אז למה אנחנו מנסים לאמן מודלים במיוחד עבור אחד, ואולי לפחות, מתעלמים מהנתונים שיש לנו על השני? במקרה הזה, אולי ליתר דיוק, האם חלק מהמודלים של חיזוי מבנה החלבון שיש לנו היום, האם הם כבר לומדים משהו על קינטיקה באופן מרומז בגלל העובדה שהם לאט לאט מתחילים לאמץ, אתה יודע, את קיומו של זמן?

פיתוח ארכיטקטורות חדשות

ויג'אי פנדה: אחד הדברים המעניינים שאני חושב על המקום שבו אתה עומד כרגע הוא שעם כמה יוצאי דופן נדירים, רוב הרשתות העצביות העמוקות או סוגים אחרים של AI בביולוגיה מרגישים כאילו הם לוקחים משהו שהומצא למקום אחר וסוחב אותו. כאילו נשתמש ברשתות עצביות קונבולוציוניות לתמונות. אולי עבור מולקולות קטנות... במעבדה שלי בסטנפורד, השתמשנו ברשתות עצביות גרפיות ובכמה רשתות עצביות קונבולוציוניות. אבל באמת לפתח אלגוריתם באופן מפורש לבעיה הביולוגית זה די נדיר. ותמיד הנחתי שזה בגלל שפשוט קשה להחזיק במיומנויות של צוות חזק בתחום הביולוגיה ובתחום מדעי המחשב. אבל אני סקרן לקבל את דעתך. או שמא זה פשוט נדיר לפתח ארכיטקטורות חדשות מלכתחילה?

יעקב אוסקורייט: ובכן, אני חושב, בסופו של יום, מה שאנחנו רואים הוא שהארכיטקטורות החדשות, למרות שהן מונעות מבעיות ספציפיות, אם הן באמת עושות את ההבדל, אז הן נוטות להיות ישימות גם במקומות אחרים. זה לא אומר, מצד שני, שבדרך לשם, בחירה בקפידה מה הם היישומים והתחומים המניעים לא תעשה הבדל עצום. ולדעתי זה בהחלט כן.

אני מרגיש שאחד האתגרים המרכזיים כאן הוא באמת שאנחנו עדיין לא במשטר בביולוגיה שבו יש לנו המון המון נתונים, למרות שבהשוואה למה שהיה לנו לפני זמן מה, זה מדהים. אבל אנחנו עדיין לא במשטר הזה שבו זה רק יושב על המקבילה של האינטרנט, ואנחנו יכולים לסנן את זה קצת, להוריד את זה ולסיים עם זה. אבל במקום זאת, אני חושב שעלינו ליצור את זה במידה רבה למדי. וזה לא ייעשה על ידי מומחי למידה עמוקה, לפחות לא על ידי רובם.

ואני מאמין שזה צריך לקרות תוך כדי כך שגם באמת הבנת את המוזרויות של הנתונים האמורים, נכון? סוגי הרעש שאתה נתקל שם. העובדה שאלו נוצרים למעשה בבריכות בקנה מידה גדול מאוד, ניסויים בתפוקה גבוהה, אבל עדיין, ניסויים שמתנהלים בימים שונים על ידי נסיינים שונים וכן הלאה וכן הלאה. ובמקום שבו האנשים עם רקע למידה עמוק יותר עובדים קרוב מספיק עם אנשים עם רקע ביולוגי, לומדים מספיק על מה שאנחנו יודעים על התופעות הבסיסיות, [הם] בעצם יקבלו השראה לנסות גישות חדשות מעניינות.

ויג'אי פנדה: ובכן, אהבתי כשדיברת רק על הדוגמה של הנייר Attention is All You Need, על איך רצית להשיג את הקבוצה המגוונת הזו של אנשים שתשוקותיהם היו, אתה יודע, די אורתוגונליות אחת מהשנייה. ובמובן מסוים, כשאתה עושה את זה בביולוגיה ובמיוחד בשביל מה שאתה עושה ב-Inceptive, אתה גם צריך להשקיע את כל העבודה הזו ביצירת הנתונים. ויצירת הנתונים פירושו, להיות מאוד מפורש, להפעיל ניסויים ביולוגיים בקנה מידה. חלק הקלט עצמו מאוד יקר ומאוד טכני, וכמו שאמרת, יש כל כך הרבה דרכים להשתבש. אבל זה נשמע כאילו אתה בונה על התרבות שעשית בעבר ועכשיו זה רק יותר מומחים עם תשוקות שונות שמתואמים בצורה אנלוגית.

יעקב אוסקורייט: אני באמת צריך, ואנשים צריכים את זה. זו, למיטב ידיעתי, השדרה המבטיחה ביותר. [זהו] לא לשאוף, במובן מסוים, למודל צינור, שבו נתונים מסוימים במעבדה שבה הם נוצרו, בהתחשב במיטב הידע שלנו, על ההיבטים הבסיסיים של החיים. ואז מתחילים להפעיל עליו גישות קיימות של למידה עמוקה ואז לצבוט אותן. אבל במקום זה באמת שיהיו אנשים שבמובן מסוים הם עשויים להיות בין האנשים הראשונים שעובדים באמת בדיסציפלינה שכרגע אין לה באמת שם גדול עדיין.

אולי המכנה המשותף הפחות משותף הוא סקרנות שמתרחבת מעבר למה שאתה יודע, למה שלמדת קודם ולמה שאולי השקעת את רוב זמנך בעשייה. אנחנו מגלים שבדיוק כמו בהרבה מאוד תחומים אחרים, מה שאנחנו באמת מחפשים זה קבוצה של אנשים עם רקע מגוון מאוד, אבל חולקים סקרנות.

לאן ה-AI הולך?

ויג'אי פנדה: היכן לדעתך נמצאת AI כרגע עבור הבעיות הקשות האלה, עבור עיצוב תרופות, שירותי בריאות וכו'? מה צריך לעשות? מתי זה יגיע לשם?

יעקב אוסקורייט: הייתי מצפה - וזה תמיד מסוכן מאוד לנבא תחזיות לגבי העתיד - אופתע מאוד אם בשלוש השנים הקרובות לא נתחיל לראות נקודת [הטיה] מתרחשת בכל הנוגע להשפעות העולם האמיתי של למידת מכונה, למידה עמוקה בקנה מידה גדול בפיתוח תרופות, עיצוב תרופות. איפה בדיוק הם יהיו הראשונים, כמובן, אני מאמין שהרבה מהם יקרו סביב רנ"א, טיפולי רנ"א וחיסונים. זה בהחלט לא יהיה האזור היחיד שמושפע מכך, אבל אני בהחלט חושב שאנחנו הולכים לטריטוריית נקודות הפיתול.

ויג'אי פנדה: העלית נקודה מעניינת. מה שונה ב-RNA? כי אני חושב שזה מעניין במיוחד, לא רק שעברת מ-Google Brain לביולוגיה, אלא נכנסת ל-RNA ספציפית. מה מושך אותך ל-RNA, במיוחד אולי מנקודת מבט של AI או ML?

יעקב אוסקורייט: דבר אחד שמעניין ב-RNA הוא השילוב בין, כפי שראינו, ישימות רחבה מאוד - למרות שהוא עדיין צר במובן של אינדיקציה בודדת - אבל רק להסתכל על הגל הזה של תהליכי אישור שמתחיל והתחיל, זה די יפה. ברור שהישימות היא מאוד מאוד רחבה, יחד עם - זה קצת מעורפל - בעיה פשוטה מבחינה מבנית. וזה פשוט מבחינה מבנית לא במשפט שחיזוי מבני RNA הוא פשוט, אלא זה פשוט מבחינה מבנית במובן שהוא ביופולימר עם ארבעה בסיסים שונים. אנחנו לא מדברים על יותר מ-20 חומצות אמינו. זה משהו שניתן לייצר בצורה יעילה למדי.

יש שם כמה אתגרים, אבל סינתזה היא משהו שיכול להגדיל את קנה המידה ומתרחב במהירות, והדברים האלה מתאחדים באמת כדי לאפשר את לולאת המשוב המהירה הזו, שלדעתי מרמזת עליה לעתים קרובות, אך לעתים רחוקות מאוד, לפחות ממה שאני יודע, מיושמת בפועל. וניתן ליישום בסופו של יום.

ויג'אי פנדה: כן, כנראה שזו לולאת משוב מהירה יותר, במיוחד עבור הדרך שבה אתה הולך אחריה.

יעקב אוסקורייט: כן. ובהתחשב בעובדה שאני מאמין שאנחנו צריכים ליצור את נתח הארי של הנתונים כדי להכשיר את המודלים שאנחנו מתאמנים, אנחנו באמת משקיעים את Inceptive ביצירת נתונים כאלה בקנה מידה. והייתי אומר קנה מידה די מסיבי יחסית, בהתחשב בכך ש-RNA נראה ללא ספק השילוב הטוב ביותר בכל מה שקשור לפשטות המבנית, אבל גם להרחבה של הסינתזה והניסוי הזה. יש כאן פוטנציאל עצום שעד כה לא נוצל.

ויג'אי פנדה: כן, ואני חושב שבמיוחד היכולת לקבל את המחזורים המהירים האלה, הן פרה-קליניות ולכן להגיע מהר יותר למרפאה ולהיות במרפאה [לפרק זמן קצר יותר].

יעקב אוסקורייט: בהחלט. זה באמת מה שאנחנו מקווים לו. אנחנו גם רואים אולי רמזים מוקדמים שמצביעים על כך שזה עשוי להיות המקרה ושאנחנו כמובן, ממש ממש נרגשים.

ויג'אי פנדה: המחשבה על 10 השנים האחרונות הייתה מדהימה, אתה יודע, 2012 עד עכשיו. איך לדעתך ייראו 10 השנים הבאות? איפה אתה חושב שאנחנו בעוד 10 שנים מהיום עם AI? או באופן רחב או במיוחד לביו?

יעקב אוסקורייט: אני חושב שאם זה באמת נכון שאנחנו נכנסים לטריטוריית נקודת הפיתול הזו, כשנסתכל אחורה בעוד 10 שנים, זה ייראה כמו מהפכה גדולה ומרחיבה לפחות כמו זו שאנחנו חושבים שראינו ב- 10 השנים האחרונות. לכל הפחות. עכשיו אני חושב שיהיה הבדל מכריע, והוא שלא כל כך ברור באיזו מידה המהפכה שאנו עדים לה בעשר השנים האחרונות משפיעה על החיים של כולם. ישנם תחומים מסוימים, מנועי חיפוש או כתיבה בסיוע וכו', שבהם זה ניכר, אבל לא ברור עד כמה המהפכה הזו ישימה. אני מאמין שזה מאוד כך, אבל אנחנו עדיין לא רואים את זה. אני חושב שהמהפכה שאנחנו הולכים לראות במיוחד סביב הביו במהלך 10 השנים הבאות, או שאנחנו הולכים להסתכל אחורה בעוד 10 שנים מהיום, תהיה שונה באמת מבחינת ההשפעה העמוקה שלה על כל חיינו .

אפילו אם נניח בצד יישומי עיצוב וגילוי תרופות, יש יישומים מדהימים כל כך בגילוי מדעי ובסביבתם, שבהם אתה יכול עכשיו לדמיין שעם ממשק אינטרנט, אתה יכול בעצם לעצב מולקולות שבאורגניזמים מסוימים יש סבירות גבוהה מאוד ללכת ענו על שאלות מסוימות, תוך הפקת קריאות אמינות יותר ממה שהייתם יכולים להגיע אליו בעבר. אז אפילו אם רק משאירים את כל סוג המורכבות של איך זה ישפיע, בסופו של דבר, על חולים ועל כולם, זה די ברור, אני חושב, שהכלים האלה פשוט יאיץ במהירות תחומים כמו ביולוגיה.

ויג'אי פנדה: זה נראה כמו מקום מצוין לסיים את זה. תודה רבה לך, יעקב, שהצטרפת ל-Bio Eats World.

יעקב אוסקורייט: תודה רבה שיש לך אותי.

אוליביה ווב: תודה שהצטרפת ל-Bio Eats World. Bio Eats World מתארח ומופק על ידי, אוליביה ווב, בעזרת צוות Bio + Health ב-a16z ובעריכת Phil Hegseth. Bio Eats World הוא חלק מרשת הפודקאסטים a16z.

אם יש לך שאלות לגבי הפרק או רוצה להציע נושאים לפרק עתידי, אנא שלח דוא"ל אחרון חביב, אם אתה נהנה מ-Bio Eats World, אנא השאר לנו דירוג וסקור בכל מקום שבו אתה מאזין לפודקאסטים.

שימו לב שהתוכן כאן למטרות מידע בלבד, אין לראות בו כייעוץ משפטי, עסקי, מס או השקעות, או לשמש להערכת כל השקעה או נייר ערך, ואינו מופנה כלפי משקיעים או משקיעים פוטנציאליים בקרן a16z כלשהי. . לפרטים נוספים, ראה a16z.com/disclosures.

***

הדעות המובעות כאן הן אלה של אנשי AH Capital Management, LLC ("a16z") המצוטטות ואינן הדעות של a16z או החברות הקשורות לה. מידע מסוים הכלול כאן התקבל ממקורות צד שלישי, כולל מחברות פורטפוליו של קרנות המנוהלות על ידי a16z. למרות שנלקחה ממקורות האמינים כאמינים, a16z לא אימתה מידע כזה באופן עצמאי ואינה מציגה מצגים לגבי הדיוק המתמשך של המידע או התאמתו למצב נתון. בנוסף, תוכן זה עשוי לכלול פרסומות של צד שלישי; a16z לא סקרה פרסומות כאלה ואינה תומכת בתוכן פרסומי כלשהו הכלול בהן.

תוכן זה מסופק למטרות מידע בלבד, ואין להסתמך עליו כייעוץ משפטי, עסקי, השקעות או מס. עליך להתייעץ עם היועצים שלך באשר לעניינים אלה. הפניות לניירות ערך או לנכסים דיגיטליים כלשהם נועדו למטרות המחשה בלבד, ואינן מהוות המלצת השקעה או הצעה לספק שירותי ייעוץ השקעות. יתר על כן, תוכן זה אינו מכוון ואינו מיועד לשימוש על ידי משקיעים או משקיעים פוטנציאליים כלשהם, ואין להסתמך עליו בשום פנים ואופן בעת ​​קבלת החלטה להשקיע בקרן כלשהי המנוהלת על ידי a16z. (הצעה להשקעה בקרן a16z תתבצע רק על ידי מזכר ההנפקה הפרטית, הסכם המנוי ותיעוד רלוונטי אחר של כל קרן כזו ויש לקרוא אותה במלואה). המתוארים אינם מייצגים את כל ההשקעות בכלי רכב המנוהלים על ידי a16z, ואין כל ודאות שההשקעות יהיו רווחיות או שלהשקעות אחרות שיבוצעו בעתיד יהיו מאפיינים או תוצאות דומות. רשימה של השקעות שבוצעו על ידי קרנות המנוהלות על ידי אנדריסן הורוביץ (למעט השקעות שעבורן המנפיק לא נתן אישור ל-a16z לחשוף בפומבי וכן השקעות בלתי מוקדמות בנכסים דיגיטליים הנסחרים בבורסה) זמינה בכתובת https://a16z.com/investments /.

תרשימים וגרפים המסופקים בתוכן הם למטרות מידע בלבד ואין להסתמך עליהם בעת קבלת החלטת השקעה כלשהי. ביצועי העבר אינם מעידים על תוצאות עתידיות. התוכן מדבר רק לתאריך המצוין. כל תחזיות, אומדנים, תחזיות, יעדים, סיכויים ו/או דעות המובעות בחומרים אלו כפופים לשינויים ללא הודעה מוקדמת ועשויים להיות שונים או מנוגדים לדעות שהובעו על ידי אחרים. אנא ראה https://a16z.com/disclosures למידע חשוב נוסף.

בול זמן:

עוד מ אנדריסן הורוביץ