聊一下AIGC

“UGC不存在了”——借鉴自《三体》

ChatGPT 的横空出世将一个全新的概念推上风口——AIGC（ AI Generated Content）。

GC即创作内容（Generated Content），和传统的UGC、PGC，OGC不同的是，AIGC的创作主体由人变成了人工智能。

xGC

PGC：Professionally Generated Content，专业生产内容
UGC：User Generated Content，用户生产内容
OGC：Occupationally Generated Content，品牌生产内容。

AI 可以 Generate 哪些 Content？

作为淘宝内容线的开发，我们每天都在和内容打交道，那么AI到底能生成什么内容？

围绕着不同形式的内容生产，AIGC大致分为以下几个领域：

文本生成

基于NLP的文本内容生成根据使用场景可分为非交互式文本生成与交互式文本生成。

非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。

交互式文本生成主要包括聊天机器人、文本交互游戏等。

【代表性产品或模型】：JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。

图像生成

图像生成根据使用场可分为图像编辑修改与图像自主生成。

图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。

图像自主生成包括端到端的生成，如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。

【代表性产品或模型】：EditGAN，Deepfake，DALL-E、MidJourney、Stable Diffusion，文心一格等。

音频生成

音频生成技术较为成熟，在C端产品中也较为常见，如语音克隆，将人声1替换为人声2。还可应用于文本生成特定场景语音，如数字人播报、语音客服等。此外，可基于文本描述、图片内容理解生成场景化音频、乐曲等。

【代表性产品或模型】：DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

视频生成

视频生成与图像生成在原理上相似，主要分为视频编辑与视频自主生成。

视频编辑可应用于视频超分（视频画质增强）、视频修复（老电影上色、画质修复）、视频画面剪辑（识别画面内容，自动场景剪辑） 。

视频自主生成可应用于图像生成视频（给定参照图像，生成一段运动视频）、文本生成视频（给定一段描述性文字，生成内容相符视频） 。

【代表性产品或模型】：Deepfake，videoGPT，Gliacloud、Make-A-Video、Imagen video等。

多模态生成

以上四种模态可以进行组合搭配，进行模态间转换生成。如文本生成图像（AI绘画、根据prompt提示语生成特定风格图像）、文本生成音频（AI作曲、根据prompt提示语生成特定场景音频）、文本生成视频（AI视频制作、根据一段描述性文本生成语义内容相符视频片段）、图像生成文本（根据图像生成标题、根据图像生成故事）、图像生成视频。

【代表性产品或模型】：DALL-E、MidJourney、Stable Diffusion等。

本文接下来将会着重讲述文本类AIGC和图像类AIGC。

文本类AIGC

RNN → Transformer → GPT（ChatGPT）

最近势头正猛的ChatGPT就是文本类AIGC的代表。

ChatGPT（Chat Generative Pre-trained Transformer），即聊天生成型预训练变换模型，Transformer指的是一种非常重要的算法模型，稍后将会介绍。

其实现在的用户对于聊天机器人已经很熟悉了，比如天猫精灵、小爱同学或是Siri等语音助手。那为什么ChatGPT一出现，这些语音助手就显得相形见绌呢？

本质上是NLP模型之间的差异。

在自然语义理解领域（NLP）中，RNN和Transformer是最常见的两类模型。

循环神经网络（recurrent neural network）

RNN，即循环神经网络（recurrent neural network）源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。下图所示是一个RNN网络的简易展示图，左侧是一个简单的循环神经网络，它由输入层、隐藏层和输出层组成。

RNN 的主要特点在于 w 带蓝色箭头的部分。输入层为 x，隐藏层为 s，输出层为 o。U 是输入层到隐藏层的权重，V 是隐藏层到输出层的权重。隐藏层的值 s 不仅取决于当前时刻的输入 x，还取决于上一时刻的输入。权重矩阵 w 就是隐藏层上一次的值作为这一次的输入的权重。由此可见，这种网络的特点是，每一个时刻的输入依赖于上一个时刻的输出，难以并行化计算。

从人类视角理解RNN 人类可以根据语境或者上下文，推断语义信息。就比如，一个人说了：我喜欢旅游，其中最喜欢的地方是三亚，以后有机会一定要去___，很显然这里应该填”三亚”。但是机器要做到这一步就比较困难。RNN的本质是像人一样拥有记忆的能力，因此，它的输出就依赖于当前的输入和记忆。

Transformer

而Transformer模型诞生于2017年，起源自《Attention Is All You Need》。这是一种基于Attention机制来加速深度学习算法的模型，可以进行并行化计算，而且每个单词在处理过程中注意到了其他单词的影响，效果非常好。

Attention机制：又称为注意力机制，顾名思义，是一种能让模型对重要信息重点关注并充分学习吸收的技术。通俗的讲就是把注意力集中放在重要的点上，而忽略其他不重要的因素。其中重要程度的判断取决于应用场景，根据应用场景的不同，Attention分为空间注意力和时间注意力，前者用于图像处理，后者用于自然语言处理。

Transformer是完全基于自注意力机制的一个深度学习模型，有关该模型的介绍，详情可参考下面这篇文章👇

人工智能 LLM 革命前夜：一文读懂横扫自然语言处理的 Transformer 模型

由于Transformer的存在加速了深度学习的效果，基于海量数据的进行样本训练便有了可能。至此，LLM正式从幕后走向台前。

LLM，Large Language Model 即大型语言模型。这个大不仅仅指数据集的“大”，同样也是指算法模型的“大”。一般来说，在训练数据足够充足的情况下，往往是模型越大效果越好。在某种程度上说，甚至只要样本足够，哪怕模型“稍微简单”一些，也是可以取得不错的结果的。

笔者在2019年时曾翻译过一篇文章👇

机器学习竞赛实际上是一场数据竞赛

这篇文章的主要观点便是“AI竞争本质上就是数据之争”，所有希望创建有影响力、有价值的AI应用都应该认识到以下三点：

差异化数据是这场AI游戏成功的关键
有意义的数据比全面的数据好
起点应该是自己所擅长的东西

以ChatGPT为例，其本质是基于GPT3的一种变体，而GPT又是基于Transformer模型的一种演化。从模型参数上来说，GPT3共使用了1750亿个参数训练而成，而ChatGPT只使用了15亿个参数，但其数据集是却是整个互联网和几百万本书大概3千亿文字。哪怕是这样，却也是对一众使用RNN的NLP程序造成了降维打击。

GPT

这篇文章写到一半的时候GPT-4发布了，现在作为小插曲来扩展一下

笔者在和朋友的日常交流中发现大家总是将ChatGPT和GPT混为一谈，其实这是两个不同的东西。让我们来问一下New Bing这两者的区别。

很显然，从Bing给我的回答看来，为了让对话更加生动和有趣，ChatGPT是一个专为聊天设计的专业模型，而GPT则是一个通用语言模型。GPT4就是这个模型发展到第四代的模样，相较于GPT3，GPT4可以做的事情变得更多了。

GPT-4 是一个更大的模型，网传拥有约 1000 万亿个参数，这意味着它能够处理更多的数据，学习更多的知识和技能。
GPT-4 能够接受多模态的输入，例如文本、图像、音频和视频，并生成相应的输出。这使得它能够处理更复杂和丰富的任务，例如图像描述、语音识别和视频生成。

类ChatGPT

在国内一直都有一句调侃的话，叫做“国外一开源，国内就自主研发”。那既然算法模型是公开的，代码也已经开源了，那在国内，那些类ChatGPT的模型是不是应该如“雨后春笋”般涌现了呢？

事实上并没有，本质上还是因为LLM的扩展和维护是相当困难的。主要来源于以下几点：

漫长的训练时间
高昂的费用开支
海量的训练数据
稀缺的高端人才

时代的眼泪

2017 - Attention is all you need
2023 - Money is all you need

以复旦大学开源的类ChatGPT应用MOSS为例，虽然不知道具体的模型参数数量，但其负责人表示相较于ChatGPT少了一个数量级，再加上简中互联网作为其训练样本，训练质量可想而知。

点此体验👉moss.fastnlp.top/

关于训练的样本数据，这里举一个小例子🌰。同样是搜索代码段，ChatGPT给你推StackOverflow的答案，MOSS给你推csdn的答案，高下立判

本来还想补充一下百度的文心一言的，结果他们发布了一个ChatPPT，网上一堆段子，这里就不吐槽了。

图像类AIGC

说完了文本类AIGC，我们再来看看最近另一个比较火的领域——图像类AIGC。

俗话说，饱暖思淫欲。作为“第一生产力”的“性”，很多技术发展都离不开他。扎克伯克创建Facebook的起因就是为了更好的认识小姐姐。而图像类AIGC出圈的一个很大原因就在于，他生成的美女小姐姐越来越真实了。

作为一个业余摄影师，第一眼也没能正确分辨出下面这两张图谁是真人，谁是AI画出来的人。

那么问题来了：这些由AI生成出来的美女是如何生成的呢？

GAN → DiffusioModel → Stable Diffusion

生成对抗网络（ Generative Adversarial Networks，GAN ）

2014年 Ian GoodFellow提出了生成对抗网络，成为早期最著名的生成模型。GAN使用零和博弈策略学习，在图像生成中应用广泛。以GAN为基础产生了多种变体，如DCGAN，StytleGAN，CycleGAN等。

零和博弈是指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零” ，双方不存在合作的可能。

一个简单易懂的例子

有两个人，都快要渴死了，现在他们面前只有一杯水，抢到水的那人得到的收益是1，没抢到水的那个人会死掉，收益为-1，总收益为0。这就是零和博弈。

GAN包含两个部分：

生成器： 学习生成合理的数据。对于图像生成来说是给定一个向量，生成一张图片。其生成的数据作为判别器的负样本。
判别器：判别输入是生成数据还是真实数据。网络输出越接近于0，生成数据可能性越大；反之，真实数据可能性越大。

如上图，我们希望通过GAN生成一些手写体来以假乱真。我们定义生成器与判别器：

生成器：图中蓝色部分网络结构，其输入为一组向量，可以表征数字编号、字体、粗细、潦草程度等。在这里使用特定分布随机生成。
判别器：在训练阶段，利用真实数据与生成数据训练二分类模型，输出为0-1之间概率，越接近1，输入为真实数据可能性越大。

生成器与判别器相互对立。在不断迭代训练中，双方能力不断加强，最终的理想结果是生成器生成的数据，判别器无法判别是真是假。（和周伯通的左右互搏很像）

以生成对抗网络为基础产生的应用：图像超分、人脸替换、卡通头像生成等。

扩散模型（ Diffusion Model，里程碑式模型）

扩散是受到非平衡热力学的启发，定义一个扩散步骤的马尔科夫链，并逐渐向数据中添加噪声，然后学习逆扩散过程，从噪声中构建出所需的样本。扩散模型的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好，可以从纯噪声作为唯一输入，生成逼真的图片。

马尔科夫链指的是一种随机过程，它的特点是当前状态只依赖于前一个状态，而与其他历史状态无关。

一个马尔科夫链的例子是股市模型，它有三种状态：牛市、熊市和横盘。每种状态之间有一定的转移概率，例如从牛市到熊市的概率是0.4，从熊市到牛市的概率是0.2，等等。这样就可以用一个转移矩阵来描述这个马尔科夫链。

一个标准的扩散模型分为两个过程：前向过程与反向过程。在前向扩散阶段，图像被逐渐引入的噪声污染，直到图像成为完全随机噪声。在反向过程中，利用一系列马尔可夫链在每个时间步逐步去除预测噪声，从而从高斯噪声中恢复数据。

前向扩散过程，向原图中逐步加入噪声，直到图像成为完全随机噪声。

反向降噪过程，在每个时间步逐步去除噪声，从而从高斯噪声中恢复源数据。

扩散模型的工作原理是通过添加噪声来破坏训练数据，然后通过逆转这个噪声过程来学习恢复数据。换句话说，扩散模型可以从噪声中生成连贯的图像。

扩散模型通过向图像添加噪声进行训练，然后模型学习如何去除噪声。然后，该模型将此去噪过程应用于随机种子以生成逼真的图像。

下图为向原始图像中添加噪声，使原始图像成为随机噪声。

下图为从噪声中恢复的原始图像的变种图像。

Stable Diffusion（Stability AI 文本生成图像，代码与模型开源）

2022年8月，Stability AI发布了Stable Diffusion ，这是一种开源Diffusion模型，代码与模型权重均向公众开放。

通过prompt提示语“郊区街区一栋房子的照片，灯光明亮的超现实主义艺术，高度细致8K”，生成图像如下，整体风格与内容锲合度高，AI作画质量较高。

在线体验👉huggingface.co/spaces/stab…

仰望星空：AIGC与元宇宙

结论先行，我认为Web3.0就是元宇宙，AIGC为元宇宙提供养料。

第一代互联网（Web1.0）是PC（个人计算机）互联网，从1994年发展至今。Web1.0让人类第一次掌握高效的传输信息的手段，随着各大网页应用的普及，互联网用户被迅速的连接起来，从而提升了全球信息的传输效率，各大门户网站从此处开始大放异彩。

第二代互联网（Web2.0）是移动互联网，从2008年左右拉开大幕，至今仍精彩纷呈。正是由于移动设备具备“永远在线”和“随时随地”的特点，“上网”二字逐渐从大众的视野消失，因为每个人时时刻刻都生活在网络里。

第三代互联网（Web3.0）是互联网的下一代技术发展方向，主要特征是去中心化、安全、开放和自主。元宇宙是一种虚拟的、持续的、共享的和交互的数字世界，可以让人们以不同的身份和形式参与其中。Web 3.0为元宇宙提供了技术基础和可能性，而元宇宙则是Web3.0在应用场景和生活方式上的体现。

百度百科对于元宇宙的定义是👇

元宇宙（Metaverse），是人类运用数字技术构建的，由现实世界映射或超越现实世界，可与现实世界交互的虚拟世界，具备新型社会体系的数字生活空间。

本质上，元宇宙是一种新型社会形态，在元宇宙中，更多工作和生活将被数字化。

更多的数字化，意味着需要更丰富的虚拟地图、虚拟场景、虚拟对象和虚拟角色，这其中涉及到大量数字内容的生产和制作。以往，数字内容制作开发周期较长，通常以年计，在生产方式上，或来源于现实，通过扫描或重建模型实现材质、光影、动作捕捉等，或通过创作工具辅助艺术家实现。而这些刚好是AIGC所擅长的。AIGC广泛的适用性可以为元宇宙提供全新内容生成解决方案。

🌰 脑洞一下开放世界游戏一直被大家视作元宇宙“数字世界”的雏形，试想一下，如果未来的3A大作，NPC的脸部模型、肢体动作是Diffusion Model生成的，聊天是ChatGPT和你对话，语音是Deep Voice创作的，你还会觉得他就只是一个普普通通的NPC吗？抑或是，此时看文章的你，才是地球Online里的一个NPC呢？

脚踏实地：AIGC的应用场景

元宇宙目前还只是大家的一个美好幻想，Web3.0究竟走向何方还需要大家共同探索，作为时代的先锋，既要学会抬头仰望星空，也不能忘记低头看路。

如今，AIGC的浪潮已起，作为非算法行业的从业者，底层的算法实现并非我们关心的重点，如何发挥AI的作用，创造出实际的价值才是我们应该探讨的方向。除了聊天机器人、画画这种不痛不痒的功能外，AIGC可能会颠覆的应用场景会有哪些呢？

人工智能助理

AIGC+搜索已经成为我现在获取信息的第一途径了。目前，New Bing作为我的贴心小助手，不管是什么想要了解的知识点，他都可以快速的给我解答，省去了我在海量信息中筛选的过程。

辅助工作流

摘自Microsoft 365 Copilot官网

人类天生就有梦想、创造、创新的本能。我们每个人都渴望做一些有意义的工作——写一部伟大的小说，做一个发现，建立一个强大的社区，照顾生病的人。我们都有与工作核心相连的冲动。但是今天，我们花了太多时间在那些消耗我们时间、创造力和精力的琐碎任务上。为了重新连接到工作的灵魂，我们不仅需要一种更好地做同样事情的方法。我们需要一种全新的工作方式。 —— 翻译自 ChatGPT

GPT4发布的第二天，Microsoft 365 Copilot变横空出世，宣传片相信大家都已经看到了，从此以后我们的工作方式将永远改变，开启新一轮的生产力大爆发。

除此之外，前段时间笔记软件Notion也上线了自己的AI助手，可以帮助用户更轻松、更快捷地完成日常任务。主要包括自动文本生成、内容推荐、智能搜索、情感分析等。

可以预见，AIGC的出现将会极大的改变现有的工作模式，未来，越来越多的效率软件、办公软件将会推出其自己的AI解决方案。

🎺 插播一条行业动态 36氪独家获悉，钉钉已完成对协同办公厂商「我来wolai」的全资收购。3月5日，我来wolai（上海我云网络科技有限公司）数位核心团队成员已经退出公司股东名单。公司法人已变为钉钉总裁叶军，公司则由阿里100%控股。36氪就上述消息向钉钉求证，钉钉官方表示：我来wolai团队已加入钉钉，将负责智能化协作文档的研发，和个人版文档的产品设计。

文本生成器（对话、文案、代码……）

笔者最近一直沉迷“以xxx的口吻调教ChatGPT”，上图便是在绩效季到来之际用chatGPT给老板们整的活，别的不说，效果还是蛮不错的。自行跳转👉 《老板评语生成器》

ChatGPT最强大的便是其背后的庞大数据，基于此，你甚至可以让那些不存在的人物、已故的人物出现。笔者最近刚看完电视剧《三体》，如果真的有一款“三体游戏”，里面的墨子、秦始皇等人物会不会就是ChatGPT生成的呢？

如果你也想调教出一个自己的对话机器人，可以试试这个网站👉open-gpt.app/

关于AIGC的落地，最后推荐两个和我们饭碗有关的AIGC产品

Codeium

Github Copilot

AIGC在伦理问题上的攻与守

攻——利用AIGC生成有害内容

AIGC技术强大的创作能力也引发对技术作恶的担忧。当要求类ChatGPT应用制造有害信息时，它确实可以做到，输出主要以文本和图片为主。

网络诈骗话术教学者
人机交互意味着无限可能，ChatGPT 可能会遵守某种虚假设定下的邪恶指令。
黑产团伙可精细化训练AIGC技术生成各类话术，用于网络诈骗、评论刷量等，不仅能够主动发帖，还会对其他用户的帖子做出响应，并展开长期的运营。
错误信息超级传播者
ChatGPT的不可靠之处还在于，可能会加剧虚假消息和错误消息的传播。ChatGPT不具有识别甄别能力，给出的答案很可能拼凑而来，看似合理，却暗藏事实性错误。如果用户没有这方面的鉴别能力，就可能产生比较大的风险，特别是在一些政治文化、医疗健康、交通安全方面的话题，错误的回答可能引起严重后果。
色情暴力素材生成机
用户利用AIGC生成虚假名人照片等违禁图片，甚至会制作出暴力和性有关的画作，LAION-5B数据库包含色情、种族、恶意等内容，目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。

AIGC对个人肖像权等权利的侵犯

finance.sina.com.cn

AIGC对原创作品的版权侵犯

网易LOFTER风波警醒了谁？_风闻

守——如何应对AIGC的“暗黑”一面？

在可预见的未来，AIGC将会以井喷的态势席卷各个行业，在享受AI赋能我们生产力的同时，也应该警惕AIGC带来的危害。

《Nature》杂志在《ChatGPT: five priorities for research》一文中提到，对AIGC的进一步研究需要关注的五个问题：

务必要对模型进行持续校对；
制定问责制与规则；
投资于真正开放的大语言模型；
扩大辩论范围；
拥抱人工智能的好处。

ChatGPT会设置多层道德底线，兼顾科学和伦理，约束“经济人”行为，以保持“人尽其才、物尽其用”特性。未来，亦有可能出现“以子之矛，攻子之盾”的场景，用AI去识别/对抗AI。

也许未来会出现很多这样的文章👇
《一种基于xxx的AI文本/图像检测技术》

最后

对行业的思考

Meta AI 负责人、图灵奖得主杨立昆Yann LeCun近日表示：就底层技术而言，ChatGPT 并没有特别的创新。与其说 ChatGPT 是一个科学突破，不如说它是一个像样的工程实例。

AI人工智能的底层三大件，数据，算力，算法的发展给ChatGPT的出现提供了爆发的基础，Open AI 将它组合的很好，不但是算法而且还包括了算力，数据。

数据方面，互联网的几十年高速发展，积累了海量人类的文本。

算力方面，计算机技术的发展，从芯片的制程到类似Chiplet，等助力AI芯片蓬勃发展。

算法，从神经元算法起步，到Transformer 等各类算法的炉火纯青的应用。

所以AI底层三大件的发展，一定会催生出更多类似于ChatGPT的通用人工智能应用，但我们更应该关注底层三大件的发展，未来数据类似于宝藏和矿产；芯片算力，成了决胜AI的大器，没有芯片那么数据矿产无法挖掘；算法，犹如矿藏提纯配方。

对于行业而言，未来做好AI三大件的工作，才能在AI时代赢得红利。

对个人的启发

说到最后，很多人变得焦虑，担心自己会被取代，那么从个人的角度出发，我们对于AIGC的态度究竟应该是什么样的呢？

马克思说过，人和其他动物的最大区别是“使用工具制造工具”，而GPT是进入信息时代以来，人类最伟大的工具之一。使用 GPT 能够直接调用人类千年以来积累的知识与技能，对于我们普通人而言，自己身上没有神迹，也非天才，与其尝试与机器、GPT和AI竞争，不如站在AI这个巨人的肩膀上，利用这些工具让自己变得更强。

未来，能否使用AI将会成为衡量一个人能力的标准之一。就像当年智能设备普及时，那些不会使用智能手机的人注定会被淘汰一样。

作者：插猹的闰土
来源：juejin.cn/post/7212924329428615226

AI 可以 Generate 哪些 Content？

文本生成

图像生成

音频生成