Модел текста у слику

Модел текста у слику је модел машинског учења који узима улазни опис природног језика и производи слику која одговара том опису.

Модели текста у слику почели су да се развијају средином 2010-их током почетка бума вештачке интелигенције, као резултат напретка у дубоким неуронским мрежама. Године 2022, за излазе најсавременијих модела текста у слику – као што су ОпенАИ-ов ДАЛЛ-Е 2, Гоогле Браин-ов Имаген, Стабилитy АИ-ов Стабле Диффусион и Мидјоурнеy – почело се сматрати да се приближава квалитету реалних фотографија и људске уметности.

Модели текста у слику генерално комбинују језички модел, који претвара улазни текст у латентну репрезентацију, и генеративни модел слике, који производи слику условљену том репрезентацијом. Најефикаснији модели су генерално обучени на огромним количинама сликовних и текстуалних података преузетих са веба.^[1]

Референце

^ Винцент, Јамес (24. 5. 2022). „Алл тхесе имагес wере генератед бy Гоогле'с латест теxт-то-имаге АИ”. Тхе Верге. Воx Медиа. Приступљено 28. 5. 2022.

[imagen-verge-1] Винцент, Јамес (24. 5. 2022). „Алл тхесе имагес wере генератед бy Гоогле'с латест теxт-то-имаге АИ”. Тхе Верге. Воx Медиа. Приступљено 28. 5. 2022.

[1]