DALL-E OpenAI превращает странный текст в странные изображения

DALL-E OpenAI превращает странный текст в странные изображения

Вкратце: OpenAI хочет создать общий искусственный интеллект (AGI), который принесет пользу всему человечеству и который включает в себя возможность понимать повседневные концепции и сочетать их творческими способами. Последние модели искусственного интеллекта компании сочетают обработку естественного языка с распознаванием изображений и показывают многообещающие результаты в достижении этой цели.

OpenAI известен разработкой впечатляющих моделей искусственного интеллекта, таких как GPT-2 и GPT-3, которые способны писать правдоподобные фейковые новости, но также могут стать важным инструментом для обнаружения и фильтрации онлайн-дезинформации и спама. Раньше они также создавали ботов, которые могут побеждать человеческих противников в таких играх, как Dota 2, поскольку они могут играть таким образом, что потребовались бы тысячи лет обучения.

Исследовательская группа разработала две дополнительные модели, основанные на этом фундаменте. Первая, называемая DALL-E, — это нейронная сеть, которая может создавать изображение на основе ввода текста. Соучредитель и главный научный сотрудник OpenAI Илья Суцкевер отмечает, что с его 12 миллиардами параметров DALL-E способен создавать практически все, что вы можете описать, даже концепции, которые он никогда бы не увидел при обучении.

Например, новая система ИИ может генерировать изображение, которое представляет Иллюстрация маленького редиса дайкон в пачке, выгуливающего собаку, витраж с изображением голубой клубники, кресло в форме авокадо, или же улитка из арфы.

DALL-E может генерировать несколько правдоподобных результатов для этих и многих других описаний, которые показывают, что теперь можно манипулировать визуальными концепциями с помощью естественного языка.

Суцкевер говорит, что Работа с генеративными моделями может оказать значительное и широкое влияние на общество. В будущем мы планируем проанализировать, как модели, подобные DALL-E, связаны с социальными проблемами, такими как экономическое влияние на определенные рабочие процессы и профессии, возможность предвзятости в результатах модели и долгосрочные этические проблемы, связанные с этой технологией.

Вторая мультимодальная модель ИИ, представленная OpenAI, называется CLIP. Обученный не менее чем на 400 миллионах пар текста и изображений, собранных со всего Интернета, CLIP сильной стороной является его способность брать визуальную концепцию и находить текстовое описание, которое, скорее всего, будет точным его описанием с минимальным обучением.

Это может снизить вычислительные затраты на ИИ в некоторых приложениях, таких как распознавание символов объектов (OCR), распознавание действий и геолокация. Однако исследователи обнаружили, что он не справляется с другими задачами, такими как обнаружение опухоли лимфатических узлов и классификация спутниковых изображений.

В конечном итоге и DALL-E, и CLIP были созданы, чтобы дать языковым моделям, таким как GPT-3, лучшее понимание повседневных концепций, которые мы используем для понимания окружающего мира, даже если они все еще далеки от совершенства. Это важная веха для искусственного интеллекта, которая может открыть путь ко многим полезным инструментам, которые улучшат работу людей.

Оставьте ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *