中金：关注创成式AI对工具软件赋能短期保守、长期不低估

发布日期：2023/3/15 11:16:50 浏览：320

势

创成式AI与文字创作：ChatGPT有望加速AI文字创作落地

创成式AI能够在文字创作场景下完成写作、改写、修正、翻译等功能。AI可以借助互联网广泛的文本数据对文字创作工具进行训练，目前Transformer大模型在自然语言场景下的应用能力已经相对成熟，我们认为文字创作有望成为创成式AI快速落地的应用场景。我们观察到Notion、微软等已经开始将AI语言模型接入笔记和办公软件；第四范式也推出了面向企业客户的AIGC工具，办公软件龙头金山办公在中长期来看也有望实现AI赋能，提升文字创作效率。我们认为创成式AI在文字创作场景下主要能够实现四大能力：

写作：基于海量的语料库，Transformer神经网络拥有语言理解和文本生成能力，因此可以根据使用者的简单指令生成逻辑连贯、事实丰富的语段；

改写：与普通规模的语言模型相比，大型语言模型拥有一定推理能力，能够形成思维链来解决抽象问题，因此可以根据用户要求完成文本改写任务；

修正：通过在海量文本数据中对比学习和总结规律，创成式AI可以纠正所给文本的拼写、语法、标点等错误，使修改后的文本更加符合常用语言范式；

翻译：创成式AI可以利用循环神经网络和卷积神经网络拆解结构复杂的语段并联系上下文进行翻译，从而大幅提升翻译的整体性、准确性和可读性。

图表：创成式AI在文字创作场景中的四大能力

资料来源：OpenAI，中金公司研究部

案例1:NotionAI优化文字创作

NotionAI能基于简单指令生成丰富的文字内容。NotionAI是用于Notion产品的人工智能工具，通过集成机器学习和NLP技术，帮助用户提高文字创作的效率和体验。在AI大规模语言模型赋能下，用户只需要罗列出基本需求，产品即可自动生成丰富的文字内容，文字内容的类型覆盖会议议程、销售邮件、新闻发布稿等多种场景。NotionAI还拥有总结、改错、翻译、续写、头脑风暴等功能；后续NotionAI还将会成为Notion知识库的接口，用户只需要输入搜索要求，NotionAI即会自动呈现相关信息。我们预期NotionAI的自动文本生成、文本摘要、文本编辑等功能或将大大优化用户的创作流程和使用体验，帮助Notion的产品力实现跃升。

案例2:微软AI与Office的融合计划

AI赋能下微软Office料将优化产品体验。微软2019年以10亿美元投资OpenAI并与之建立了较为深入的合作关系，近期微软计划将OpenAI的下一代语言模型整合进Office办公软件中的Word、PowerPoint、Outlook等应用程序，用户只需要输入简单指令，即可获得自动产生的文字内容。新版Office将拥有自动总结、内容建议以及文本生成功能，可提供类似Bing-ChatGPT侧边栏的体验，用户可在侧边栏中与聊天机器人交互。

庞大用户规模和训练数据有望助力OfficeAI应用能力快速迭代。Office办公软件用户规模优势明显(21年PC版全球装机量15亿套)，我们认为OpenAI的人工智能技术与Office软件的融合一方面能让AI找到优质的落地场景；另一方面，Office软件庞大的用户规模有望为AI提供源源不断的海量训练数据，从而形成飞轮效应，不断改善AI的文字创作体验。

案例3:模力表格提供内嵌于表格场景的AI文字处理应用

模力表格通过AI大模型实现表格中文本内容的“批量化计算”。模力表格由面壁智能公司和大模型开源社区OpenBMB(主要成员来自清华大学)联合开发，其将AI大模型的文字处理能力嵌入到函数中，通过在表格中输入函数即可调用模型，目前支持的函数包括IE(信息抽取)、QA(问答)、MT(翻译)、SA(情感分析)、TG(标题生成)等，同时支持和Excel基础函数集成使用。我们认为通过表格中的AI文字处理应用能够实现文本批量化计算，大幅提升办公效率。

图表：模力表格实现表格场景下AI文字处理能力

资料来源：OpenBMB开源社区微信公众号，中金公司研究部

案例4:第四范式满足企业场景AIGC需求

第四范式推出企业级类GPT产品“式说”，助力企业利用内部知识解决问题。第四范式通过将类GPT语言模型与垂直领域知识进行融合，推出“式说”产品，旨在解决大型生成式语言模型在企业内部使用场景下的局限，满足企业场景下的AIGC需求。“式说”主打三大产品特点：1)数据安全，通过私有化部署解决企业客户对数据安全的顾虑；2)内容可信，“式说”基于企业内部数据库，并且在提供回答时标注信息原始出处，增加了回答的可信性和可靠性；3)成本可控，“式说”算力成本相对可控，而且对数据标注量的需求较小。我们认为“式说”这类服务于B端客户的AIGC工具能够助力实现企业知识复用，提高企业生产和管理效率。

图表：第四范式“式说”产品工作界面

资料来源：公司官网，中金公司研究部

案例5:竹间智能借助AIGC赋能写作&对话&知识搜索等多场景

竹间智能推出类ChatGPT产品，赋能企业级AIGC应用。公司成立于2015年，为金融、企业、健康医疗、制造、智能终端、政务六大领域提供AI赋能解决方案。2022年9月公司推出AISaaS产品，涵盖客户服务、销售服务、企业内部服务等多场景，为中小企业提供云端AI工具。在AIGC领域公司亦持续深耕，先前已推出MagicWriter等多款智能创作写作软件，并于近期推出企业级GeminiGPT产品系列，包括企业对话机器人KKBot、交互式认知搜索引擎ChatSearch，在销售客服、人机交互、知识探索等方面借助AI实现全面赋能。

案例6:印象笔记借助自研轻量化大模型辅助文字创作

基于自研“大象GPT”模型，推出“印象AI”创成式文字工具。2019年以来，国内笔记应用厂商印象笔记发力AI在笔记文字处理中的AI应用场景，陆续推出了智能推荐、智能标签、智能摘要、知识星图等AI工具。印象笔记同时持续投入大模型研发，于2023年推出了结合OPT、BLOOM等类GPT-3.5结构大语言模型自主研发构建的大语言模型“大象GPT”，并基于此推出“印象AI”创成式文字工具模块内嵌于自身的笔记产品中，实现了国内厂商通过自研模型实现AI文字创作的先发应用。未来印象笔记计划利用基于人类反馈的强化学习(RLHF)来优化模型，并计划与私人语料结合赋能具备个人风格文字创作。

案例7:Minimax打开C端落地新场景

区别于ChatGPT的专业知识问答，MiniMax推出的Glow主打聊天社交功能。公司成立于2021年年底，已自研文本到视觉、文本到语音、文本到文本三个模态的通用大模型。2022年11月，MiniMax推出首款AI对话机器人平台Glow，用户可选择已存在的智能体进行对话，或者通过简短描述创造智能体并在后续对话中实现优化调整，智能体的对话生成、人物头像生成、音色生成调用了MiniMax三大模态模型的能力。区别于ChatGPT聊天机器人倾向于问题搜索、文本生成等功能，由Glow生成的智能体拥有不同的背景和性格设定，与用户对话的内容也偏向于闲聊陪伴、情感互动、剧情演绎。我们认为，MiniMax的聊天机器人与用户交互效果较好、具备较强的用户粘性，打开C端落地新场景。

案例8:金山办公潜在的AI应用场景

金山办公在AI领域已有扎实布局。国内办公软件龙头金山办公在计算机视觉、自然语言处理、语音处理等AI领域也都有广泛的技术与业务布局。公司自2017年开始搭建AI中台，围绕办公领域已经开发出近100项AI能力。在自然语言处理方向，金山办公已经开发出辅助写作功能，用户只需提供一个提纲，AI即可基于语料算法自动生成文本，用户可以将AI生成的文本作为底稿，大大提升写作效率。此外，金山办公也已实现AI校对、翻译、纠错等功能，并将其作为WPS办公软件套件的重要增量功能。

我们判断金山办公会在紧跟AI产业趋势的同时，适时切入跟进。我们判断金山办公会把主要发力点瞄准AI应用端。公司现有产品WPS积累的用户量级大、用户场景多样且复杂度高，我们认为金山办公若能深挖用户场景，将可以在邮件、办公、营销、政务、文学等各个细分场景中提供相应的AI文字创作服务，提升用户使用体验，加深产品护城河。未来我们判断公司会在充分考量国内各家AI大模型厂商的能力之后，适时尝试接入应用，尽可能地发挥AI大模型在办公软件领域的应用潜能。

创成式AI与音频生成：跨模态应用进军音频行业

海外案例1:谷歌不同团队均有音频生成研究成果

谷歌在2023年发布了不同的音频生成模型，并且有各自的特点。在此之前也出现过相关AI创作音乐的尝试，如可视化音乐创作模型Riffusion、谷歌发布的AudioML和OpenAI推出的Jukebox.而现在的研究成果基于Diffusion模型、标注好的音频数据，通过提取数据特征、文本和音频的配对，实现文本生成音频。

MusicLM:这是一种从文本描述中生成高保真音乐的模型，例如用户可以输入“平静的小提琴旋律伴随失真的吉他即兴演奏”。MusicLM将条件音乐生成过程转换为层次化的Seq-to-Seq建模任务，并能够保持24kHz的频率生成一段几分钟的音乐，无论是文本描述还是音频质量都优于之前的模型。此外，MusicLM还能够基于文本的描述转变原来的旋律、根据图片画作和文字描述生成对应的音乐伴奏。

图表：MusicLM基于艺术画作生成相关伴奏

资料来源：MusicLM项目主页，中金公司研究部

Noise2Music:连续应用Diffusion模型生成24kHZ的音频片段，使用两个深度模型伪标记大型伪标记音频数据集生成训练集，大预言模型生成音乐描述性文本，嵌入预训练的音乐-文本联合模型，通过zero-shot分类为音频分配相应文本。Noise2Music可以理解更加复杂的prompt语义，生成不同风格，如“一位女低音在现场表演中演唱一首慢速爵士民谣”；或者模仿不同的乐器，如钢琴、萨克斯、非洲鼓等。

SingSong:该模型可以根据人声自动生成伴奏，其技术基础建立在人声的音源分离和音频生成上。用户只需要输入其人声，就可以获得对应的乐器伴奏。研究人员召集了一批听众评估模型的效果，展示两个具有相同人声的10秒伴奏音频，SingSong获得的反馈明显优于其他基线模型。

海外案例2:英国学术机构提出AudioLDM，提升质量并优化算力消耗

AudioLDM模型解决了“文本到音频”的研究存在的质量有限、计算成本高的问题。英国萨里大学和帝国理工学院联合发布并开源了一个基于去噪扩散隐式模型和对比学习的框架：AudioLDM.该模型提升了文本生成音频的质量；训练过程中仅仅需要文本数据就达到了比使用音频-文本相当甚至更好的效果；此外模型训练计算资源消耗低，并且不需要额外训练就可以对声音风格进行变换或者模仿。

国内案例1:推出全新训练框架优化语音韵律

科大讯飞推出SMART-TTS框架并上线讯飞开放平台、讯飞有声以及学习强国。SMART-TTS不直接学习文本与音频特征的映射，而是通过模块化拆解语音合成的学习过程，预训练加强各个模块。该框架可以提供“高兴、抱歉、悲伤”等11种情感，每种情感有20档强弱度调节；也能提供声音的停顿、重音、语速等，可以在数字人语音上实现真人表达的感情。此外，科大讯飞的语音合成支持37个语种、11种方言、2种民族语言以及中英混合自然合成。

国内案例2:国产AI语音生成“独角兽”云知声

除了文本生成音乐以外，语音合成也是音频生成的重要方向。国内“独角兽”云知声提供语音合成产品服务，包

上一页 [1] [2] [3] [4] [5] 下一页

上一个团队：白杨SEO：本地生活SEO搜索流量有吗？美团、抖音、高德与百度地图
下一个团队：山东第一批！临沂这些项目入选！

你可能会喜欢