AI 赋能创意：图像生成工具推荐及使用指南

近年来，人工智能（AI）技术突飞猛进，其中，文本到图像生成模型成为创意领域的热门话题。这些模型能够将文字描述转化为栩栩如生的图像，为艺术创作、设计和娱乐等领域带来了无限可能。

工作原理

文本到图像生成模型的核心是深度学习和神经网络。它们通过对大量图像和文本数据的学习，建立起文字与视觉元素之间的联系。当用户输入文本描述时，模型会根据学习到的知识生成相应的图像。

主流模型

DALL-E

创建者： OpenAI – 位于旧金山的 AI 研究实验室，由微软支持

首次发布： 2021 年 1 月

当前版本： DALL-E 3

OpenAI 的 DALL-E 可以根据文本输入生成高质量的图像。根据 OpenAI 的数据，已有超过 150 万用户使用该工具，每天生成超过 200 万张图像。

DALL-E 通过一种类似免费增值模式的方式提供：用户注册时获得 50 个积分，随后每月获得 15 个积分。想要更多积分的用户可以购买。

除了 OpenAI 自己的平台外，DALL-E 还可以作为 Shutterstock 文本到图像平台底层机器学习组件的一部分。母公司 OpenAI 去年 10 月与 Shutterstock 达成协议，为该平台提供支持，并收集与 AI 生成内容相关的用户洞察，以解决潜在的影响。

访问地址：https://github.com/openai/DALL-E

Stable Diffusion

创建者：

Stability AI - 位于伦敦，负责模型的市场营销和管理。

CompVis LMU - 慕尼黑路德维希-马克西米利安大学 (LMU Munich) 的研究小组，创建了为模型提供支持的深度生成神经网络。

Runway - 位于纽约的应用 AI 研究公司，使用生成式 AI 构建下一代创意工具。Runway 负责 Stable Diffusion 背后的底层算法。

LAION - 一个德国非营利组织，构建了 Stable Diffusion 的底层数据集

首次发布： 2022 年 8 月

当前版本： Stable Diffusion XL 1.0

Stable Diffusion 使用深度学习来生成结果，可用于修复图像，并在文本提示的指导下生成图像到图像的转换，以及标准的文本到图像生成。

Stable Diffusion 可以在消费级硬件上运行 - 只需要一个 8 GB 内存的 GPU，这使其区别于需要云服务才能运行的 DALL-E 和 Midjourney。

Stable Diffusion 背后的团队正在展望图像之外的领域，从其旗舰模型中吸取的经验教训将应用于音频、语言、视频和 3D 生成，以满足消费者和企业用例的需求。

Stable Diffusion 的流行将 Runway 和 Stability AI 推到了聚光灯下，帮助这两家公司最近分别在融资轮中筹集了 5000 万美元和 1.01 亿美元。

Midjourney

创建者： David Holz，Leap Motion（现为 UltraLeap）的联合创始人

首次发布： 2022 年 7 月

当前版本： 版本 5.2 Midjourney 只能通过官方 Discord 服务器上的 Discord 机器人访问。用户直接向机器人发送消息，或者可以将 Midjourney 机器人邀请到第三方服务器，使用 /imagine 命令并输入提示，然后机器人将根据请求生成四张图像。用户可以放大图像。

Midjourney 正在开发一个 Web 界面，类似于 Stable Diffusion 拥有 ClipDrop 的方式。

在 GitHub 上访问 Midjourney 代码：https://github.com/midjourney

Imagen

创建者： Google

首次发布： 2022 年 5 月

当前版本： 2023.10.3

Imagen 尚未向公众发布，它是一个文本到图像扩散模型，使用 transformer 语言模型来理解文本，并依靠扩散模型的强度以高保真度生成图像。其文本到图像模型的 DrawBench 基准允许将 Imagen 与其他方法进行比较，包括 VQGAN+CLIP、潜在扩散模型和 DALL-E 3。Google 表示，在样本质量和图像文本对齐方面，人类评估者更喜欢 Imagen 而不是其他模型。

GauGAN

创建者： Nvidia - 芯片制造巨头和 AI 强者

首次发布： 2021 年 11 月

当前版本： GauGan2

GauGAN 以法国后印象派画家 Paul Gauguin 的名字命名，其工作方式与此列表中的其他图像模型略有不同。它从分割图（或描绘场景的标记草图）创建逼真的图像。

用户有一个类似 MS Paint 的平台来设计景观或上传他们自己的分割图。也可以应用自然语言提示。然后，系统将生成场景的逼真描绘 - 用户可以使用智能画笔调整图像的各个方面。

Pixray-text2image

创建者： Pixray

首次发布： 2022 年 5 月

当前版本： 50f96fcd

Pixray-text2image 可以从文本提示生成图像。它结合了图像生成功能，例如感知引擎和 CLIP 引导的 GAN 图像，以生成高质量的图像。

通过 Replicate 访问 Pixray-text2image：https://replicate.com/pixray/text2image

访问 Pixray-text2image：https://github.com/pixray/pixray

应用工具

Jasper Art

创建者： Jasper - 成立于 2015 年，Jasper 是一家由 Y Combinator 支持的初创公司，开发 AI 驱动的生产力工具。

使用的 AI 模型： DALL-E 2

首次发布： 2022 年 8 月

Jasper 用户可以从文本和图像生成图像。通过输入书面提示或图像并选择样式，系统将返回一系列图像。

Jasper Art 可以通过用户仪表板访问，并支持 29 种语言。Jasper 将其 Art 工具宣传为用户“放弃库存照片”的一种方式。

访问 Jasper Art：https://www.jasper.ai/tools/ai-image-generator

Craiyon

创建者： Craiyon - Boris Dayma 的一个独立研究项目变成了一个流行的图像生成器。

首次发布： 2022 年 4 月

Craiyon 以前称为 DALL-E Mini，旨在成为此列表中文本到图像模型的轻量级版本。

Craiyon 是一个免费使用的工具，用于非商业目的。要将模型用于商业用例，可以使用付费订阅。高级层的用户可以缩短其生成时间。Craiyon 还依靠广告来支付其服务器费用。

访问 Craiyon：https://www.craiyon.com/

NightCafe

创建者： NightCafe Studio - 由 Angus Russell 在 2019 年 11 月的 Reddit 帖子中创立

使用的 AI 模型： Stable Diffusion、Coherent (CLIP-Guided Diffusion)、Artistic (VQGAN+CLIP)、Style Transfer

首次发布： 2019 年 11 月

NightCafe 可以使用自然语言提示生成 AI 艺术。用户必须创建一个帐户才能访问该工具。

NightCafe 因使用 VQGAN+CLIP 文本到图像艺术生成方法而声名鹊起，因此迅速流行起来。

截至 2022 年 10 月，NightCafe 平台上已创建了超过 3500 万件 AI 生成的艺术品。

NightCafe 的名字显然是对文森特·梵高的同名画作的致敬。

访问 NightCafe：https://nightcafe.studio/

WOMBO Dream

创建者： Wombo - 加拿大 AI 公司，其名称来自《任天堂明星大乱斗》电子游戏中的术语“wombo combo”。

使用的 AI 模型： VQGAN+CLIP

首次发布： 2021 年 2 月

当前版本： 版本 3.5.0

使用手机将文字变成图像：Wombo Dream 是一款可作为移动应用程序使用的文本到图像工具。

其 AI 生成器允许用户创建和分享图像。根据其 App Store 描述，Wombo Dream 的应用安装量已超过 1.4 亿次。

Wombo 提供涵盖月度和年度订阅的应用内购买。

在 Apple 的 App Store 上访问 Wombo 应用程序：https://apps.apple.com/in/app/wombo-dream-ai-art-generator/id1586366816

在 Google Play 商店访问 Wombo 应用程序：https://play.google.com/store/apps/details?id=com.womboai.wombodream

Wonder

创建者： Codeway Digital - 由 Anıl Simsek 创立，Codeway 是一家土耳其 AI 应用程序开发商，还创建了 Ask AI、Facemix 和 PixelUp

首次发布： 2022 年 6 月

当前版本： 3.2.0

Wonder 是一款基于应用程序的 AI 图像生成器，手机用户可以使用自然语言提示生成艺术品和图像。

在应用程序上生成的图像可以分享到社交媒体。Wonder 提供高级订阅服务以增加生成量。

在 Google Play 商店访问 Wonder：https://play.google.com/store/apps/details?id=com.codeway.wonder&hl=en&gl=US

在 Apple 的 App Store 上访问 Wonder 应用程序：https://apps.apple.com/us/app/wonder-ai-art-generator/id1621278575

未来展望

人工智能图像生成技术仍在快速发展，未来将更加智能、高效，并应用于更多领域。它将改变人们创作和表达的方式，为创意产业带来新的机遇和挑战。