Может ли генеративный ИИ перезарядить рынки телефонов? - Семивики

Может ли генеративный ИИ перезарядить рынки телефонов? - Семивики

Исходный узел: 2926005

Консенсус на рынках смартфонов колеблется где-то между небольшим снижением и небольшим ростом, что указывает на отсутствие очевидных драйверов для более устойчивого роста. С точки зрения возможностей для бизнеса это непривлекательное состояние несколько компенсируется огромным объемом продаж (по данным одного источника, 500 миллиардов долларов в 2023 году), но мы уже близки к пику внедрения за пределами Китая, поэтому реальный вопрос для производителей телефонов должен звучать так: «Какой следующий убийца?» приложение, которое может сдвинуть иглу?»

Может ли генеративный ИИ оживить рынки телефонов?

Мы, потребители, непостоянны, и развлечения, кажется, занимают одно из первых мест в нашем списке обязательных вещей. Рука ставки на мобильные игры. Другой возможностью может стать генеративный искусственный интеллект для создания/манипулирования изображениями. Квалкомм уже продемонстрировал возможности на базе телефона в то время как другие, включая Apple, по-прежнему сосредоточены на приложениях с большими языковыми моделями. Мне стоит присмотреться к имиджевому аспекту генеративного ИИ просто для того, чтобы быть немного более осведомленным, если и когда это произойдет. Ради интереса я создал это изображение с помощью Image Creator от Microsoft Bing.

Диффузионная генерация

Я попытаюсь объяснить эту концепцию, сравнив ее с LLM. LLM обучаются на текстовых последовательностях, обязательно линейных. Многое из этого. И они работают с токенизированным текстом, изучая, когда видят определенную последовательность токенов, что обычно может следовать за этой последовательностью. Отлично подходит для текста, но не для изображений, которые являются 2D и, как правило, не токенизированы, поэтому подход к обучению должен быть другим. При обучении на основе диффузии первый шум постепенно добавляется к обучающим изображениям (прямая диффузия), в то время как сеть обучается путем шумоподавления изображений модифицированных изображений для восстановления каждого исходного изображения (обратная диффузия). Звучит запутанно, но, очевидно, метод шумоподавления (решение стохастических дифференциальных уравнений) четко определен и надежен. Модель стабильной диффузии, например, общедоступна.

Затем из этой обученной сети можно генерировать новые изображения, начиная со случайного шумового изображения. Теперь вам нужен метод, который определит, какое изображение вы хотите создать. Dall.E-2, Midjourney и Stable Diffusion могут принимать текстовые подсказки. Они зависят от обучения, взятого из текстовых меток, предоставленных вместе с обучающими изображениями. Затем вывод включает оперативную информацию в процесс внимания на пути к выводу окончательного изображения. Как и LLM, в этих системах также используются трансформаторы, а это означает, что для поддержки этой возможности требуется новое оборудование.

Генерация не ограничивается созданием изображений с нуля. Техника под названием рисование может использоваться для улучшения или замены частей изображения. Думайте об этом как о версии редактирования изображений на основе искусственного интеллекта, уже популярной на смартфонах. Не только базовый цвет, баланс света, вырезание фотобомб и т. д., но и решение гораздо более сложных проблем или переделка себя в костюмах для косплея — что угодно. Теперь я вижу, что он очень популярен.

Сможет ли генеративный ИИ изменить ситуацию?

Понятия не имею – см. выше комментарий о непостоянных потребителях. С другой стороны, зрительный стимул, особенно вокруг нас самих, и игра нравятся почти каждому. Если вы можете сделать это на своем телефоне, почему бы и нет? Искусственный интеллект — это быстро развивающаяся область, которая, похоже, поощряет большие ставки. Я бы, конечно, не хотел бы делать ставку против такой возможности.

Я также должен упомянуть, что генеративная визуализация уже имеет более серьезные применения, особенно в области медицины, где ее можно использовать для исправления шумных компьютерных томографий или восстановления деталей, потенциально заблокированных структурой кости. Я даже могу представить, как эта технология проникнет в набор инструментов криминалистики. Мы все видели телешоу — Эбби или Анджела восполняют недостающие детали на фотографии, экстраполируя обученные данные из того, что видно. Генеративная визуализация может сделать это возможным!

Поделитесь этим постом через:

Отметка времени:

Больше от Полувики