Пређи на садржај

Модел текста у слику

С Википедије, слободне енциклопедије
Слика са називом „астронаут који јаше коња, од Хирошига“, генерисан од стране Стабилне дифузије, великог модела текста-у-слику објављеног 2022.

Модел текста у слику је модел машинског учења који узима улазни опис природног језика и производи слику која одговара том опису.

Модели текста у слику почели су да се развијају средином 2010-их током почетка бума вештачке интелигенције, као резултат напретка у дубоким неуронским мрежама. Године 2022, за излазе најсавременијих модела текста у слику – као што су ОпенАИ-ов ДАЛЛ-Е 2, Гоогле Браин-ов Имаген, Стабилитy АИ-ов Стабле Диффусион и Мидјоурнеy – почело се сматрати да се приближава квалитету реалних фотографија и људске уметности.

Модели текста у слику генерално комбинују језички модел, који претвара улазни текст у латентну репрезентацију, и генеративни модел слике, који производи слику условљену том репрезентацијом. Најефикаснији модели су генерално обучени на огромним количинама сликовних и текстуалних података преузетих са веба.[1]

Референце

[уреди | уреди извор]
  1. ^ Винцент, Јамес (24. 5. 2022). „Алл тхесе имагес wере генератед бy Гоогле'с латест теxт-то-имаге АИ”. Тхе Верге. Воx Медиа. Приступљено 28. 5. 2022.