近年来,人工智能(AI)技术突飞猛进,其中,文本到图像生成模型成为创意领域的热门话题。这些模型能够将文字描述转化为栩栩如生的图像,为艺术创作、设计和娱乐等领域带来了无限可能。
工作原理
文本到图像生成模型的核心是深度学习和神经网络。它们通过对大量图像和文本数据的学习,建立起文字与视觉元素之间的联系。当用户输入文本描述时,模型会根据学习到的知识生成相应的图像。
主流模型
- DALL-E
创建者: OpenAI – 位于旧金山的 AI 研究实验室,由微软支持
首次发布: 2021 年 1 月
当前版本: DALL-E 3
OpenAI 的 DALL-E 可以根据文本输入生成高质量的图像。根据 OpenAI 的数据,已有超过 150 万用户使用该工具,每天生成超过 200 万张图像。
DALL-E 通过一种类似免费增值模式的方式提供:用户注册时获得 50 个积分,随后每月获得 15 个积分。想要更多积分的用户可以购买。
除了 OpenAI 自己的平台外,DALL-E 还可以作为 Shutterstock 文本到图像平台底层机器学习组件的一部分。母公司 OpenAI 去年 10 月与 Shutterstock 达成协议,为该平台提供支持,并收集与 AI 生成内容相关的用户洞察,以解决潜在的影响。
- Stable Diffusion
创建者:
- Stability AI - 位于伦敦,负责模型的市场营销和管理。
- CompVis LMU - 慕尼黑路德维希-马克西米利安大学 (LMU Munich) 的研究小组,创建了为模型提供支持的深度生成神经网络。
- Runway - 位于纽约的应用 AI 研究公司,使用生成式 AI 构建下一代创意工具。Runway 负责 Stable Diffusion 背后的底层算法。
- LAION - 一个德国非营利组织,构建了 Stable Diffusion 的底层数据集
首次发布: 2022 年 8 月
当前版本: Stable Diffusion XL 1.0
Stable Diffusion 使用深度学习来生成结果,可用于修复图像,并在文本提示的指导下生成图像到图像的转换,以及标准的文本到图像生成。
Stable Diffusion 可以在消费级硬件上运行 - 只需要一个 8 GB 内存的 GPU,这使其区别于需要云服务才能运行的 DALL-E 和 Midjourney。
Stable Diffusion 背后的团队正在展望图像之外的领域,从其旗舰模型中吸取的经验教训将应用于音频、语言、视频和 3D 生成,以满足消费者和企业用例的需求。
Stable Diffusion 的流行将 Runway 和 Stability AI 推到了聚光灯下,帮助这两家公司最近分别在融资轮中筹集了 5000 万美元和 1.01 亿美元。
- Midjourney
创建者: David Holz,Leap Motion(现为 UltraLeap)的联合创始人
首次发布: 2022 年 7 月
当前版本: 版本 5.2 Midjourney 只能通过官方 Discord 服务器上的 Discord 机器人访问。用户直接向机器人发送消息,或者可以将 Midjourney 机器人邀请到第三方服务器,使用 /imagine 命令并输入提示,然后机器人将根据请求生成四张图像。用户可以放大图像。
Midjourney 正在开发一个 Web 界面,类似于 Stable Diffusion 拥有 ClipDrop 的方式。
在 GitHub 上访问 Midjourney 代码:https://github.com/midjourney
- Imagen
创建者: Google
首次发布: 2022 年 5 月
当前版本: 2023.10.3
Imagen 尚未向公众发布,它是一个文本到图像扩散模型,使用 transformer 语言模型来理解文本,并依靠扩散模型的强度以高保真度生成图像。其文本到图像模型的 DrawBench 基准允许将 Imagen 与其他方法进行比较,包括 VQGAN+CLIP、潜在扩散模型和 DALL-E 3。Google 表示,在样本质量和图像文本对齐方面,人类评估者更喜欢 Imagen 而不是其他模型。
- GauGAN
创建者: Nvidia - 芯片制造巨头和 AI 强者
首次发布: 2021 年 11 月
当前版本: GauGan2
GauGAN 以法国后印象派画家 Paul Gauguin 的名字命名,其工作方式与此列表中的其他图像模型略有不同。它从分割图(或描绘场景的标记草图)创建逼真的图像。
用户有一个类似 MS Paint 的平台来设计景观或上传他们自己的分割图。也可以应用自然语言提示。然后,系统将生成场景的逼真描绘 - 用户可以使用智能画笔调整图像的各个方面。
- Pixray-text2image
创建者: Pixray
首次发布: 2022 年 5 月
当前版本: 50f96fcd
Pixray-text2image 可以从文本提示生成图像。它结合了图像生成功能,例如感知引擎和 CLIP 引导的 GAN 图像,以生成高质量的图像。
通过 Replicate 访问 Pixray-text2image:https://replicate.com/pixray/text2image
访问 Pixray-text2image:https://github.com/pixray/pixray
应用工具
- Jasper Art
创建者: Jasper - 成立于 2015 年,Jasper 是一家由 Y Combinator 支持的初创公司,开发 AI 驱动的生产力工具。
使用的 AI 模型: DALL-E 2
首次发布: 2022 年 8 月
Jasper 用户可以从文本和图像生成图像。通过输入书面提示或图像并选择样式,系统将返回一系列图像。
Jasper Art 可以通过用户仪表板访问,并支持 29 种语言。Jasper 将其 Art 工具宣传为用户“放弃库存照片”的一种方式。
访问 Jasper Art:https://www.jasper.ai/tools/ai-image-generator
- Craiyon
创建者: Craiyon - Boris Dayma 的一个独立研究项目变成了一个流行的图像生成器。
首次发布: 2022 年 4 月
Craiyon 以前称为 DALL-E Mini,旨在成为此列表中文本到图像模型的轻量级版本。
Craiyon 是一个免费使用的工具,用于非商业目的。要将模型用于商业用例,可以使用付费订阅。高级层的用户可以缩短其生成时间。Craiyon 还依靠广告来支付其服务器费用。
访问 Craiyon:https://www.craiyon.com/
- NightCafe
创建者: NightCafe Studio - 由 Angus Russell 在 2019 年 11 月的 Reddit 帖子中创立
使用的 AI 模型: Stable Diffusion、Coherent (CLIP-Guided Diffusion)、Artistic (VQGAN+CLIP)、Style Transfer
首次发布: 2019 年 11 月
NightCafe 可以使用自然语言提示生成 AI 艺术。用户必须创建一个帐户才能访问该工具。
NightCafe 因使用 VQGAN+CLIP 文本到图像艺术生成方法而声名鹊起,因此迅速流行起来。
截至 2022 年 10 月,NightCafe 平台上已创建了超过 3500 万件 AI 生成的艺术品。
NightCafe 的名字显然是对文森特·梵高的同名画作的致敬。
访问 NightCafe:https://nightcafe.studio/
- WOMBO Dream
创建者: Wombo - 加拿大 AI 公司,其名称来自《任天堂明星大乱斗》电子游戏中的术语“wombo combo”。
使用的 AI 模型: VQGAN+CLIP
首次发布: 2021 年 2 月
当前版本: 版本 3.5.0
使用手机将文字变成图像:Wombo Dream 是一款可作为移动应用程序使用的文本到图像工具。
其 AI 生成器允许用户创建和分享图像。根据其 App Store 描述,Wombo Dream 的应用安装量已超过 1.4 亿次。
Wombo 提供涵盖月度和年度订阅的应用内购买。
在 Apple 的 App Store 上访问 Wombo 应用程序:https://apps.apple.com/in/app/wombo-dream-ai-art-generator/id1586366816
在 Google Play 商店访问 Wombo 应用程序:https://play.google.com/store/apps/details?id=com.womboai.wombodream
- Wonder
创建者: Codeway Digital - 由 Anıl Simsek 创立,Codeway 是一家土耳其 AI 应用程序开发商,还创建了 Ask AI、Facemix 和 PixelUp
首次发布: 2022 年 6 月
当前版本: 3.2.0
Wonder 是一款基于应用程序的 AI 图像生成器,手机用户可以使用自然语言提示生成艺术品和图像。
在应用程序上生成的图像可以分享到社交媒体。Wonder 提供高级订阅服务以增加生成量。
在 Google Play 商店访问 Wonder:https://play.google.com/store/apps/details?id=com.codeway.wonder&hl=en&gl=US
在 Apple 的 App Store 上访问 Wonder 应用程序:https://apps.apple.com/us/app/wonder-ai-art-generator/id1621278575
未来展望
人工智能图像生成技术仍在快速发展,未来将更加智能、高效,并应用于更多领域。它将改变人们创作和表达的方式,为创意产业带来新的机遇和挑战。