创成式AI与图片创作:跨模态带来丰富想象空间
2022年,随着CLIP、Diffusion大模型的诞生与开源,DALL·E2、StableDiffusion模型落地进一步推动,文本生成图像等跨模态生成成为AIGC落地主线。OpenAI具备大模型基础、开源数据库中海量图文对应数据、头部厂商的算力支撑以及门槛降低三要素条件后,发布升级版“文生图”模型DALL·E2,将AI作画(文本跨模态生成图像)推向落地,掀起AI作画浪潮;2022年8月,StabilityAI开源StableDiffusion模型,标志着AIGC在AI作画领域跨模态应用的门槛大幅降低,开启全民创作的“工业化生产”时代。海外应用层在此基础上催生出Midjourney、ChilloutMix、Controlnet等精调模型、插件,不断提高生成图像质量,逐步推动AI图片创作商业化。
海外案例1:“文生图”开山者DALL·E及DALL·E2
DALL·E由OpenAI率先推出,并于2021年通过AzureOpenAI服务开始将其技术商业化,2022年4月发布升级版DALL·E2。凭借OpenAI在2021年发布的基于GPT-3的图像文本匹配模型CLIP,DALL·E2具备了联系文本和视觉图像的能力;又通过基于Diffusion的图像生成模型GLIDE,DALL·E2能够按照文本生成逼真的图像,分辨率提升了4倍,准确率更高,并且业务更广,具备三种功能:1)根据文本提示生成图像,2)以给定图像生成新图像,3)以文本编辑图像元素。
DALL·E2目前采取付费购买次数的商业模式:加入OpenBeta项目后,首月50个免费点数,每一个点数对应一次绘图,之后每个月免费补充15个点数,目前的价格是15美元115个点数。相较于DALL·E,DALL·E2不仅能够生成更真实、更准确的图像,还能够更完整地表达场景并通过自然语言描述对现有图像进行增删元素等编辑。而相较于该领域内其他模型,DALL·E2的可控性较高,空间结构关系处理优异,高写实的图像仿真度较强。DALL·E2的技术成熟和率先落地将AI作画从想象照进现实,2022年7月,DALL·E2开启邀请制公测,为AIGC在2022年热度提升的重要推动力。
图表:DALL·E2通过文字添加图片元素
资料来源:DALL·E2官网,中金公司研究部
图表:DALL·E2通过文字输入生成图片结果示例
资料来源:DALL·E2官网,中金公司研究部
海外案例2:StabilityAI开源StableDiffusion,以AI作画对外输出
StabilityAI成立于2020年,2022年凭借推出并开源StableDiffusion的底层能力,投后估值超10亿美元,在种子轮融资阶段即晋升为独角兽。StableDiffusion主要基于潜扩散模型(LatentDiffusionModel),通过迭代“去噪”输入并解码输出来生成图像,使用空间降维解决内存和模型推理时长痛点,不仅使用户仅在消费级显卡上就能够快速生成高分辨率、高清晰度图像,而且建立开源生态,大大降低用户的使用门槛。至此,开源生态推动AIGC的数据、模型与算力问题初步解决,直接降低了使用者的门槛,渗透进多个垂直领域。
海外案例3:成功变现的商业模式,AI作图现象级应用Midjourney
Midjourney基于CLIP和Diffusion构建了闭源的“文生图”模型,已实现1000万用户和超1亿美元。该产品搭载于Discord社区,用户通过将Midjourney机器人邀请至频道内,并输入以“/image”为开头的prompt生成想要的图片。Midjourney拥有超1000万名社区成员,通过用户对生成结果的选择来获取反馈,从而具备了庞大且独特的数据集,建立起竞争壁垒。Midjourney生成的图片所需prompt较短、质量高、具有科幻色彩,受设计人群、Web3&NFT从业者以及个人用户喜爱,采用SaaS付费的商业模式,已经实现盈利。
比起海外前沿技术,国内的AI图片创作落地相对早期,但相应成果也取得了一定的进展,涌现出一批创新的产品和技术。其中以百度的文心·一格、万兴科技的万兴爱画为代表,不仅展现了国内拥有人工智能作画的能力,同时进行创新研发出“AI简笔画生图”,拓展了创作的交互方式,提高了用户使用的效率和体验。
国内案例1:百度基于文心大模型,AI作画能力对标海外
文心·一格是百度依托飞桨、文心大模型推出的首款AI作画产品。该产品支持文本生成国风、油画、水彩、水粉、动漫、写实等十余种不同风格的图像,为专业内容创作者提供创作平台的同时为入门级用户、大众用户实现想象力落地提供可能。而面对应用落地的三重挑战:创作需求理解、图像原创生成和创作需求满足,文心·一格进行了三大技术创新,分别是基于知识的prompt学习、文本跨模深度融合和文本驱动的图像编辑,实现了创意规划、细节刻画能力和多轮交互提升质量。
国内案例2:万兴科技深耕AIGC作画,OpenAI赋能国内厂商的案例标杆
万兴科技深耕海外业务20年,接入OpenAI的API,打造出面向绘图创意领域的新型创作神器:万兴爱画。万兴爱画定位于专业打造“AI生成高品质艺术品”,提供随机生成与关键词创作两种AI文生图模式,用户可以自行输入关键词、选择图片比例和艺术风格,30秒就可以获得由AI生成的绘画作品,作品支持各种艺术风格,比如手绘、赛博朋克、二次元、CG数字渲染等。而且产品支持中文和英文双语创作,通过感叹号和括号强调关键词。
2023年2月,万兴爱画在业界率先推出“AI简笔画”。该产品成为全球首款通过用户交互并以此“图生图”的AI作画软件,标志着万兴爱画助力AI绘画进入新时代。相比之前的作画方式,简笔画对用户原先的prompt要求更低,如今只需简单几笔就能在5秒内生成高质量艺术画作;用户同样可以通过图片选择反馈使模型迭代升级。通过简笔画“图生图”,用户在创作中更具参与感,过程也更有趣味性。
图表:万兴“AI绘画”创作界面
资料来源:万兴爱画官网,中金公司研究部
图表:万兴爱画“特色艺术品”效果图
资料来源:万兴爱画官网,中金公司研究部
创成式AI与视频创作:跨模态阶跃尚处早期,有望打开应用天花板
海外科技巨头的标杆案例打开AI视频创作的想象空间。2022年9月,Meta发布了从文本生成视频的Make-A-Video,能够基于几个词或句生成数秒的短视频。仅一周后,谷歌发布ImagenVideo、Phenaki,分别定位于生成高画质、长时段视频。目前AIGC跨模态生成视频领域仍存不足,利用AI生成的视频有明显的缺点,例如物体的模糊与扭曲,也不能生成更长的场景来详细、连贯的讲述故事,但我们认为AIGC视频生成有望在技术上实现突破,打开应用天花板。
案例1:Make-A-Video实现文本与视频之间的跨模态生成
Make-A-Video能够基于文本生成视频。Make-A-Video是2022年7月Meta发布的文本生成图像模型Make-A-Scene的进一步升级。通过向Make-A-Video输入文本即可生成数秒的视频,支持不同的视频风格。除了文本生成视频,Make-A-Video还能够实现输入单个或两个图像来创建运动,即图像生成视频。
图表:通过向Make-A-Video输入文本生成的视频
资料来源:Meta官网,中金公司研究部
案例2:谷歌在视频的跨模态生成领域不断产出成果
谷歌在文本生成视频、图像生成视频均有涉猎。谷歌在Meta推出Make-A-Video一周后,推出了ImagenVideo和Phenaki,其中ImagenVideo画质较高但生成视频时长较短,Phenaki生成视频的画质较差但能生成超过2分钟的视频;2022年11月,谷歌首次发布将二者相结合的视频,兼顾品质与长度。2023年2月2日,谷歌提出视频编辑新方法Dreamix,能够实现对已有视频的编辑和通过提供图片与描述生成视频。
案例3:Runway推出的GEN-1模型在生成视频质量上更胜一筹
由GEN-1模型生成的视频风格多样化。Runway成立于2018年,是StableDiffusion的联合发布方之一。2023年2月,Runway推出AI视频生成模型GEN-1,通过将图像或文本提示的构图和风格应用于源视频的结构上以合成新视频,在生成视频的画质和长度上再迈进一个台阶。
国内厂商:亦处于早期探索期,辅助创作效率提升
国内厂商在生成视频领域也处于早期探索期。国内厂商在视频领域应用AIGC技术更多落在视频内容创作及品质升级的层面,实现视频的属性变化与“流水线式”内容创作,目前多应用于B端、为内容创作者提供生产效率的提升。
文本生成视频:2022年5月,清华大学联合智源研究院发布基于Transformer架构的CogVideo模型,该模型是业内首个开源的文本生成视频AI模型,但生成视频的分辨率较低、长度也较为有限,目前只支持中文输入。
画质增强与修复:当虹科技在画质增强类产品已较为成熟,其中包括视频插帧、视频细节增强、提升视频画质、老旧影像的修复与上色等。
视频自动创作:百度孵化的智能视频创作工具VidPress支持导入图文链接后自动实现配音、字幕、画面的视频内容生产,目前已为人民日报等媒体机构、百家号和好看视频等平台的终端用户提供智能生成视频功能。
智能脚本创作:商汤智影推出的“视频元素分析”能够提取并分析视频中多种元素,例如人物、场景、道具、台词等信息,自动生成分镜头脚本,准确率达98,并提取视频爆款元素,有效减少脚本撰写时间,助力广告厂商节约内容制作成本。
受限于技术成熟度,AI独立创作的视频仍无法直接实现2B端落地变现,但目前已经在辅助商业化创作的过程中发力。2023年1月31日,Netflix与小冰公司日本分部(rinna)、WITSTUDIO共同创作的首支由AIGC技术辅助的发行级别动画片《犬与少年》正式发布,该动画全长3分多钟,使用AIGC完成部分场景绘制,证明了AI技术在辅助视频创作过程中已经开始实现商业化落地,但距离真正应用到大型项目、实现商业化变现仍有距离。
此外,基于自研稀疏模型在垂直领域落地的厂商具备多模态矩阵,以出门问问为例,打造文本、图像、语音、视频、数字人等多模态AIGC产品矩阵,布局提供一站式内容生成工具。出门问问于2020年推出其第一款AIGC商业化产品——配音平台“魔音工坊”后,全面布局AI声音、AI写作、AI图片生成、声音与形象克隆、数字人视频等AIGC领域,多点开花聚焦广泛的商业场景。
创成式AI与3D模型创作:以参数化建模为基,GPT文字处理赋能
工业场景的3D建模对AI能力要求较高,现阶段创成式设计无法完全支持。区别于图片和视频的创作,3D模型主要用于生产工业场景,需要更加严谨理性的建模创作能力,而目前ChatGPT等AI工具的数学和逻辑能力有所欠缺,因此通过文字描述进行创成式AI直接建模的进展相对较慢。另一方面,大装配场景如飞机、船舶等模型的设计需要非常严谨的过程和






