サムが初めて額に軽量のカメラを装着したのは、生後6か月の時でした。
これから1年半、 カメラは彼の人生の断片を捉えた。彼は家族のペットの周りを這い、両親が料理をするのを眺め、おばあちゃんと一緒に玄関で泣きました。その間ずっと、カメラは彼が聞いたすべてを記録していました。
かわいい幼児のホームビデオのように聞こえますが、実は大胆なコンセプトです。「AI は子どものように言語を学習できるのか?」この結果は、子供たちがどのようにして幼い頃から言語や概念を急速に習得するのかも明らかにする可能性がある。
新しい研究 in 科学 は、研究者がサムの録音を使用して AI に言語を理解させるトレーニングを行った方法を説明しています。 1 人の子供の 1 年間にわたる人生経験のほんの一部だけで、AI はボール、蝶、バケツなどの基本的な概念を理解することができました。
Child's View for Contrastive Learning (CVCL) と呼ばれるこの AI は、視覚と音声を一致させることで、幼児の学習方法をほぼ模倣します。これは、次のような大規模な言語モデルが採用するアプローチとは大きく異なります。 ChatGPT または Bard の背後にある。エッセイ、詩、さらにはポッドキャストの脚本を作成するこれらのモデルの驚異的な能力は、世界を興奮させました。しかし、これらのスキルを開発するには、さまざまなニュース記事、脚本、書籍から何兆もの単語を消化する必要があります。
対照的に、子供たちははるかに少ないインプットで学習し、成長するにつれて学習した内容を急速に一般化します。科学者たちは長い間、AI が日常の経験だけでこれらの能力を獲得できるのではないかと考えてきました。
「私たちは、一人の子供からの発達上現実的な入力に基づいて訓練されたニューラルネットワークが、言葉と視覚的な対応物を結び付けることを学習できることを初めて示しました」と研究著者であるニューヨーク大学データサイエンスセンターのワイ・キーン・ヴォン博士は述べています。 プレスリリースで述べています 研究について。
おままごと
子どもたちは日常の経験から言葉とその意味を簡単に吸収します。
生後わずか 300 か月で、彼らは見ているものと言葉を結びつけ始めます。たとえば、丸い弾むものは「ボール」です。 XNUMX歳までに、彼らは約XNUMXの単語とその概念を知っています。
科学者たちはこれがどのようにして起こるのかについて長い間議論してきました。一説によると、子供たちは見ているものと聞いているものを一致させることを学ぶそうです。別の研究者は、言語学習には社会的交流や推論能力など、より幅広い世界経験が必要であると示唆しています。
幼児を対象とした従来の認知テストを使ってこれらのアイデアを区別するのは困難です。しかし、子供の目と耳を通して AI を訓練することで答えが得られるかもしれません。
M3GAN?
新しい研究では、と呼ばれる豊富なビデオリソースが利用されました。 セイカムこれには、額に取り付けられた GoPro のようなカメラを使用して、生後 6 か月から 32 か月の XNUMX 人の子供から収集されたデータが含まれています。
カメラは週に 2 回、授乳したり、はいはいしたり、遊んだりする様子を約 1 時間の映像と音声で記録しました。すべての可聴対話は「発話」、つまり話者または会話が変わる前に話された単語または文に転写されました。その結果、乳児や幼児の視点から見た豊富なマルチメディア データが得られます。
新しいシステムのために、チームはそれらを調整する「ジャッジ」を備えた 2 つのニューラル ネットワークを設計しました。あるシーンでは、一人称視点のビジュアルを、シーンの誰が何なのかを翻訳しました。これはお母さんが料理をしているのですか?もう一人は音声録音から単語と意味を解読しました。
その後、2 つのシステムが時間内に関連付けられるため、AI は正しいビジュアルと単語を関連付けることを学習しました。たとえば、AI は、赤ちゃんの画像と「ほら、赤ちゃんがいるよ」という言葉を一致させたり、ヨガ ボールの画像と「わぁ、大きなボールだ」という言葉を一致させたりすることを学習しました。トレーニングを重ねることで、赤ちゃんはヨガボールという概念を赤ちゃんから切り離すことができるようになりました。
「これにより、どの単語をどのオブジェクトに関連付けるべきかについてモデルに手がかりが得られます」とヴォング氏は述べています。
次にチームは、サムの人生の約 600,000 年半のビデオを使って AI をトレーニングしました。これは、37,500 の音声文字起こしと合わせて、XNUMX を超えるビデオ フレームに相当します。この数字は大きいように思えますが、大規模な言語モデルのトレーニングに使用されるデータ量と比較すると、サムの毎日の起床時間のわずか XNUMX% にすぎません。
台頭するベイビー AI
システムをテストするために、チームは子供の言語能力を測定するために使用される一般的な認知テストを採用しました。彼らは AI に猫、ベビーベッド、ボール、芝生という 4 つの新しい画像を見せ、どれがボールであるかを尋ねました。
全体として、AI は約 62% の確率で正しい画像を選択しました。このパフォーマンスは、Web 上の 400 億の画像とテキストのペアでトレーニングされた最先端のアルゴリズムとほぼ一致しました。これは、研究で AI のトレーニングに使用されたデータよりも桁違いに多くのデータでした。彼らは、ビデオ画像とオーディオをリンクすることが重要であることを発見しました。チームがビデオ フレームとそれに関連する発話をシャッフルしたところ、モデルは完全に破綻しました。
AI は、既成概念にとらわれずに「思考」し、新しい状況に一般化することもできます。
別のテストでは、サムの親の「アヒルと蝶だよ」という絵本の視点で訓練されました。その後、「蝶をやってもいいですか?」と尋ねられたとき、彼はおもちゃの蝶を掲げました。 AI がこれまで見たことのない色とりどりの蝶の画像に挑戦すると、80 つの例のうち XNUMX つが「蝶」であると XNUMX% 以上の精度で検出されました。
すべての単語の概念が同じスコアを獲得したわけではありません。例えば「スプーン」は苦労しました。しかし、それは指摘する価値があります。 reCAPTCHAは、トレーニング画像は人間でも解読するのが困難でした。
産みの苦しみ
AI はマルチモーダル機械学習の最近の進歩に基づいて構築されています、テキスト、画像、オーディオ、ビデオを組み合わせて機械の脳を訓練します。
たった 1 人の子供の経験からの入力をもとに、アルゴリズムは単語がどのように相互に関係しているかを捉え、単語を画像や概念に結び付けることができました。これは、幼児にとって、単語を聞いて、見ているものとそれを一致させることが、語彙力の構築に役立つことを示唆しています。
だからといって、社会的な合図や推論などの他の脳のプロセスが機能しないというわけではありません。これらのコンポーネントをアルゴリズムに追加すると、アルゴリズムが改善される可能性があると著者らは書いています。
研究チームは実験を継続する予定だ。今のところ、「赤ちゃん」AI は静止画フレームからのみ学習し、語彙の大部分が名詞で構成されています。ビデオには動きが含まれるため、ビデオセグメントをトレーニングに統合すると、AI が動詞を学習するのに役立つ可能性があります。
音声データにイントネーションを追加することも役立つ可能性があります。子どもたちは、母親の「うーん」という言葉が、その口調によって大きく異なる意味を持つことを早い段階で学びます。
しかし全体として、AI と人生の経験を組み合わせるのは、機械と人間の脳の両方を研究するための強力な新しい方法です。これは、子どものように学習する新しい AI モデルの開発に役立ち、脳が言語や概念を学習する方法についての理解を再構築する可能性があります。
画像クレジット: ワイ・キーン・ヴォング
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://singularityhub.com/2024/02/01/an-ai-just-learned-language-through-the-eyes-and-ears-of-a-toddler/
- :持っている
- :は
- :not
- $UP
- 000
- 300
- 32
- 400
- 500
- 600
- 80
- a
- 能力
- 能力
- できる
- 私たちについて
- 上記の.
- 精度
- 取得する
- 実際に
- 適合しました
- 追加
- 進歩
- 年齢
- AI
- AIモデル
- アルゴリズム
- すべて
- 一人で
- また
- しかし
- 量
- an
- および
- 別の
- 回答
- 離れて
- アプローチ
- 周りに
- 物品
- AS
- 仲間
- 関連する
- At
- 聞こえる
- オーディオ
- 著者
- 著者
- 赤ちゃん
- 玉
- 基本
- BE
- なぜなら
- 始まる
- の間に
- ビッグ
- 本
- 本
- 両言語で
- ボックス
- 脳
- 脳
- より広い
- 壊れた
- ビルド
- 構築します
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼ばれます
- カメラ
- カメラ
- 缶
- キャプチャー
- 捕捉した
- CAT
- センター
- 挑戦した
- 変更
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- 子
- 子供達
- 認知
- 組み合わせ
- 結合
- 来ます
- コマンドと
- 比べ
- 完全に
- コンポーネント
- 構成
- コンセプト
- コンセプト
- お問合せ
- 続ける
- コントラスト
- 会話
- 料理
- 調整する
- 正しい
- 相関
- 可能性
- 対応
- クラフト
- クレジット
- 重大な
- daily
- データ
- データサイエンス
- 解読
- によっては
- 説明する
- 設計
- 検出された
- 開発する
- 対話
- 異なります
- ダイジェスト
- do
- ドント
- ダウン
- dr
- 各
- 早い
- 簡単に
- さらに
- あらゆる
- 日常
- すべてのもの
- 例
- 例
- 体験
- エクスペリエンス
- 実験
- 視線
- 遠く
- 名
- 初回
- 額
- 発見
- 4
- から
- フロント
- 取得する
- でログイン
- 徐々に
- 把握
- 成長する
- 持っていました
- 半分
- 起こります
- ハード
- 持ってる
- he
- 聞いた
- 耳
- ヒーロー
- 助けます
- ことができます
- 彼の
- ホーム
- 時間
- 認定条件
- HTTP
- HTTPS
- 人間
- 考え
- if
- 画像
- 画像
- 改善します
- in
- 含ま
- 統合
- 相互作用
- に
- IT
- ただ
- 一つだけ
- キーン
- 子供たち
- 知っている
- 言語
- 大
- 後で
- LEARN
- 学んだ
- 学習
- less
- 生活
- 軽量
- ような
- LINK
- 連結
- 長い
- 機械
- 一致
- マッチ
- マッチング
- 五月..
- 意味
- だけど
- 方法
- 百万
- モデル
- ママ
- ヶ月
- 他には?
- 主に
- 運動
- マルチメディア
- ほぼ
- 必要
- ネットワーク
- ネットワーク
- ニューラル
- ニューラルネットワーク
- ニューラルネットワーク
- 決して
- 新作
- ニュース
- 次の
- NIHの
- 名詞
- 今
- 番号
- オブジェクト
- of
- 古い
- on
- ONE
- もの
- の
- or
- その他
- 私たちの
- でる
- 外側
- が
- 全体
- 対になった
- 足
- 両親
- パーセント
- パフォーマンス
- 視点
- ペット
- ピックアップ
- 画像
- プラン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 演奏
- ポッドキャスト
- 詩
- 部分
- :
- 強力な
- ラボレーション
- は、大阪で
- 急速に
- 現実的な
- 理由
- 最近
- 記録された
- 必要
- 研究
- 研究者
- 形を変える
- リソースを追加する。
- 結果
- 結果
- 明らかにする
- 富裕層
- 大体
- 円形
- 前記
- 同じ
- 言う
- 言う
- 科学
- 科学者たち
- ゴール
- スクリプト
- 見ること
- 見て
- セグメント
- 別
- すべき
- 表示する
- 示されました
- 視力
- 状況
- SIX
- 半年
- スキル
- So
- 社会
- 音
- 音
- スピーカー
- スピーチ
- 話
- 最先端の
- まだ
- 奮闘
- 勉強
- そのような
- 提案する
- システム
- 撮影
- タップ
- チーム
- test
- テスト
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 世界
- アプリ環境に合わせて
- それら
- その後
- 理論
- ボーマン
- 彼ら
- もの
- この
- 三
- 興奮
- 介して
- 時間
- 〜へ
- 一緒に
- TONE
- 厳しい
- おもちゃ
- 伝統的な
- トレーニング
- 訓練された
- トレーニング
- 数兆
- 2
- わかる
- 理解する
- us
- 中古
- 多様
- 非常に
- ビデオ
- 動画
- 詳しく見る
- ビジュアル
- ビジュアル
- ました
- we
- 富
- 週間
- した
- この試験は
- いただきました!
- いつ
- which
- while
- ワイド
- Word
- 言葉
- 世界
- 価値
- 書いた
- 年
- 年
- ヨガ
- 貴社
- ゼファーネット