AI绘画元年降临:探索新科技如何重塑艺术创作与展陈的未来

介绍

艺术的变革总是与材料、技术、科学观念的发展密切相关。尤其是进入现代后,新技术要么影响艺术家的某些观念,要么直接介入艺术创作,创造新的艺术风格。但技术既不等同于艺术,也不能完全理解为另一个人。它以新事物、新媒介、新手段的形式与艺术发生联系,使科技实践的变革与我们的艺术意识更加紧密地联系在一起。 ,这样我们对“艺术”的定义才不会太快变得僵化。

本专栏我们将把关注点从“创造”延伸,将话题拓展到新科技环境下不同类型空间的展览、收藏、传播等各个环节,引发艺术与科技的流动。性思维。

AI绘画元年即将到来,技术链是什么?

任婷

2022年,人工智能(AI)绘画将快速发展。上半年,用户如果想使用Disco Diffusion创作AI绘画,需要使用本地高性能计算显卡,或者远程使用colab配置开发者提供的项目文件,迭代调整参数并提供文字说明,等待时间较长。需要一段时间才能看到生成的结果。但这并不妨碍开发者、新技术爱好者和专业画家对这一领域的热情关注。过去六个月,AI绘画技术可谓是一场众神之战。 Midjourney、DALL·E、Imagen、NUWA、Patri等应用都引起了热议。到了8月份,随着用户认可度最高的Stable Diffusion全面开源,各种封装的API应用不断涌现,甚至出现了更多对国人更加友好的中文版应用,比如draft、iPromopt。先锋科技将AI绘画直接落地应用场景。现在用户甚至不需要在本地安装应用程序。他们只需要在浏览器甚至微信小程序(盗梦者、西湖大学、西湖新辰)中输入文字,选择风格和尺寸,等待几秒钟就可以完成一幅AI绘画。

图:使用Dreamstudio.ai生成的AI绘画

输入文字:在月亮城堡前跳舞的女孩,梵高

DreamStudio是Stability AI基于Stable Diffusion开发的AI绘画应用。它提供了浏览器用户交互界面,可以根据给定的文本提示(Prompt)生成高质量且非常准确的匹配图像,且生成速度最快。只需要几秒钟。该应用程序目前已向所有互联网用户开放测试。

科技绘画表现发展中国特色_表现中国科技发展的绘画_中国科技发展画画

之所以能有如此实质性的进步和提升,源于多年来对计算机视觉领域文本到图像转换核心技术的研究和积累。结合领域的具体需求,应用工具的开发是水到渠成的事情。目前流行的AI绘画工具一般采用从文本到二维图像的生成方式,即用户输入想要生成的内容的文本描述,AI根据计算模型自动生成相应的图像。在此过程中,用户需要尽可能仔细地描述理想的视觉对象内容,并指定艺术家风格和生成的图像尺寸。这个看似简单的流程,实际上需要分解为很多关键的技术环节进行处理。首先,我们要考虑如何让机器理解用户的意图。最直观、最传统的解决方案是使用文本进行图像检索,这本质上是一个图像分类问题。需要算法来确定大量目标对象中哪些图像在语义上与用户输入文本一致。

图:使用DreamStudio生成的两张图像

输入文字:一条鱼在水中游泳。不同的是,左图添加了描述:梵高,右图添加了描述:齐白石。显然AI无法理解齐白石的绘画风格,但它大致知道他应该是中国人,甚至还模拟了典型的中国绘画元素:书法和印章。

事实上,图像识别和分类是人工智能最早超越人类判断能力的经典领域。 2017年,基于ImageNet竞赛的图像识别AI模型的错误率达到2.25%,超过人类识别率5.1%。然而,这一时期的深度学习模型在零样本学习方面表现不佳,即算法无法准确识别训练集中包含的数据类别,并且无法迁移到新的分类。这个问题的突破点出现在2021年1月,OpenAI团队开源了用于图像分类的深度学习模型CLIP(Contrastive Language-Image)。预训练),其训练数据来自互联网用户标注的 40 亿个文本图像对。通过比较学习,该模型可以学习图像和文本描述之间的匹配关系,达到比各种基于ImageNet的模型更好的准确率。 ,并且具有良好的零样本学习能力,即利用见过的图片的特征来判断没见过的图片的类别。

图:零样本学习。左边是训练集的图片,最右边的斑马是测试集的图片。该类别不会出现在训练集中。零样本学习可以从训练集图像中学习到一些属性,比如上图中学习到的马样、条纹和块白,然后将这些属性组合起来得到融合特征。该特征与测试集的斑马特征相匹配,因此预测结果为斑马。 。

图片来自文献:CH Lampert、H. Nickisch、S. Harmeling。学习通过类间属性转移来检测不可见的对象类。 CVPR 2009

但找到相应的目标和生成理想图像显然不是同一轨道上的命题。 CLIP本身并没有涵盖生成模型的算法效果,但通过将其与高性能生成模型相结合,人工智能绘画的第一波热门应用出现了。

这一时期AI领域比较前沿的生成模型有生成对抗网络(GAN)、变分自动编码器(VAE)和Transformer。第一个从提示文字到图像的AI绘画工具是开源AI研发团队EleutherAI的数据科学家Katherine Crowson提出的CLIP+VQGAN开源作品。几乎在同一时间,OpenAI推出了DALL·E,一个文本到图像生成引擎。其原理是结合dVAE、Transformer和CLIP三种模型,通过迭代生成和判别来实现图像生成。这期间的相关工作思路很相似,都是将CLIP模型中图像与文本描述的匹配验证过程链接到生成图像的AI模型上。生成的模型通过解码和编码生成匹配的图像特征值,可以满足判别器的要求。匹配图像是生成的与用户描述相匹配的结果图像。然而,这种通过生成和判别来生成图像的方法有局限性。与生成可以为设计师提供创意指导的图像任务相比,基于GAN模型的工具更适合风格迁移,生成的结果过于随机。 。

科技绘画表现发展中国特色_中国科技发展画画_表现中国科技发展的绘画

图:StyleGAN的生成结果

另一种深度生成模型是 Diffusion 扩散模型。 CLIP和Diffusion相结合的典型代表就是现阶段非常流行的Disco Diffusion。该模型的基本思想是构造一个分布稳定的马尔可夫链为高斯分布,在前向扩散过程中系统地扰动数据中的分布,然后通过学习反向扩散过程来恢复数据的分布。但Disco Diffusion在描绘具体细节方面表现力不够,而且渲染时间很长,很难满足艺术家的真实需求。真正让AI绘画展现出改变设计师创作行为习惯潜力的工具是Stable Diffusion。该模型将于 2022 年 8 月全面开源。这项工作最大的贡献是提出了隐藏空间(Latent Space)的概念,将图像变换从像素空间映射到底层的低维空间,然后将其用于复杂的模型训练和图像生成计算。这一改进使得这项工作与传统的 Diffusion 模型相比大大减少了内存和计算需求。直接将AI绘画从依赖大厂商强大算力的研究阶段推向了应用。赢得了开发者、AI爱好者和艺术家的关注和肯定,也得到了市场的关注。近日,乘着这波热潮,Stable Diffusion 背后的主要开发团队 Stability AI 开启种子轮融资,融资 1.01 亿美元,估值超过 10 亿美元,在冰冷的资本中显得格外抢眼市场。

图:使用DreamStudio生成的AI绘画

输入文字:马克·西蒙内蒂·乔纳森·索尔特·格雷格·鲁特科夫斯基的哑光绘画,中国古建筑单体,冬天,森林,虚幻,游戏绘画

除了核心技术本身在应用领域的适配和提升外,AI绘画之所以能在短短一年内取得如此长足的发展,还得益于周边技术的有力支撑。与其他基于深度网络训练的模型一样,AI绘画背后的数据模型也依赖于训练数据集。随着专业用户的参与和训练数据集的大量增加,网络模型可以适应日益丰富的风格效果并生成更自然的绘画笔触。从呈现形式来看,基于webUI的交互界面对于支撑AI绘画的快速普及起到了非常重要的作用。以HTML5为首的新一代互联网协议、云计算、区块链分布式存储计算等都为AI绘画应用的落地提供了可能。

图:使用支持中文的AI绘画工具draft.art实现

输入文字:春江潮涨至海平面,明月随海潮而升。

信息技术发展以来,计算机辅助设计在专业领域的应用技术研究不断在两个方向寻求突破:一是为领域专家提供更专业、更强大的专业工具,提高用户工作效率。 ;第二,为广大用户提供更加人性化、简单实用的工具,旨在降低工具的使用门槛,扩大用户群。 AI绘画应用无疑在这两个维度都取得了令人瞩目的成就。创作者可以在没有任何技术背景的情况下创作出对话式绘画,这甚至有望改变设计师的工作习惯:毕竟,曾经需要很长时间手工绘制的视觉创意现在只需要几秒钟就可以看到效果。 。更不用说设计师需要积累数年甚至数十年的专业实践才能实现这一点。在AI绘画工具的支持下,设计师可以投入更多的时间和经验进行更加情感化、个性化的思考和创作。相信在不久的将来,会有越来越多的设计师愿意拥抱AI,将自己从重复的机械体力劳动中解放出来,转而利用AI不断拓展自己的创意边界。

上一篇:科技与文艺的关系探析:从传播属性看科技对文艺发展的内在驱动 下一篇:高中科技利弊作文800字:探讨高科技发展的利与弊及范文参考
标签:
分享到:

相关文章

    最新文章
    热门
    最新推荐