Featured image of post AI 赋能创意:图像生成工具推荐及使用指南

AI 赋能创意:图像生成工具推荐及使用指南

本文收集总结了目前市面上流行的各种 AI 图像生成工具及应用指南

近年来,人工智能(AI)技术突飞猛进,其中,文本到图像生成模型成为创意领域的热门话题。这些模型能够将文字描述转化为栩栩如生的图像,为艺术创作、设计和娱乐等领域带来了无限可能。

工作原理

文本到图像生成模型的核心是深度学习和神经网络。它们通过对大量图像和文本数据的学习,建立起文字与视觉元素之间的联系。当用户输入文本描述时,模型会根据学习到的知识生成相应的图像。

主流模型

  • DALL-E

创建者: OpenAI – 位于旧金山的 AI 研究实验室,由微软支持

首次发布: 2021 年 1 月

当前版本: DALL-E 3

OpenAI 的 DALL-E 可以根据文本输入生成高质量的图像。根据 OpenAI 的数据,已有超过 150 万用户使用该工具,每天生成超过 200 万张图像。

DALL-E 通过一种类似免费增值模式的方式提供:用户注册时获得 50 个积分,随后每月获得 15 个积分。想要更多积分的用户可以购买。

除了 OpenAI 自己的平台外,DALL-E 还可以作为 Shutterstock 文本到图像平台底层机器学习组件的一部分。母公司 OpenAI 去年 10 月与 Shutterstock 达成协议,为该平台提供支持,并收集与 AI 生成内容相关的用户洞察,以解决潜在的影响。

访问地址:https://github.com/openai/DALL-E

  • Stable Diffusion

创建者:

  • Stability AI - 位于伦敦,负责模型的市场营销和管理。
  • CompVis LMU - 慕尼黑路德维希-马克西米利安大学 (LMU Munich) 的研究小组,创建了为模型提供支持的深度生成神经网络。
  • Runway - 位于纽约的应用 AI 研究公司,使用生成式 AI 构建下一代创意工具。Runway 负责 Stable Diffusion 背后的底层算法。
  • LAION - 一个德国非营利组织,构建了 Stable Diffusion 的底层数据集

首次发布: 2022 年 8 月

当前版本: Stable Diffusion XL 1.0

Stable Diffusion 使用深度学习来生成结果,可用于修复图像,并在文本提示的指导下生成图像到图像的转换,以及标准的文本到图像生成。

Stable Diffusion 可以在消费级硬件上运行 - 只需要一个 8 GB 内存的 GPU,这使其区别于需要云服务才能运行的 DALL-E 和 Midjourney。

Stable Diffusion 背后的团队正在展望图像之外的领域,从其旗舰模型中吸取的经验教训将应用于音频、语言、视频和 3D 生成,以满足消费者和企业用例的需求。

Stable Diffusion 的流行将 Runway 和 Stability AI 推到了聚光灯下,帮助这两家公司最近分别在融资轮中筹集了 5000 万美元和 1.01 亿美元。

  • Midjourney

创建者: David Holz,Leap Motion(现为 UltraLeap)的联合创始人

首次发布: 2022 年 7 月

当前版本: 版本 5.2 Midjourney 只能通过官方 Discord 服务器上的 Discord 机器人访问。用户直接向机器人发送消息,或者可以将 Midjourney 机器人邀请到第三方服务器,使用 /imagine 命令并输入提示,然后机器人将根据请求生成四张图像。用户可以放大图像。

Midjourney 正在开发一个 Web 界面,类似于 Stable Diffusion 拥有 ClipDrop 的方式。

在 GitHub 上访问 Midjourney 代码:https://github.com/midjourney

  • Imagen

创建者: Google

首次发布: 2022 年 5 月

当前版本: 2023.10.3

Imagen 尚未向公众发布,它是一个文本到图像扩散模型,使用 transformer 语言模型来理解文本,并依靠扩散模型的强度以高保真度生成图像。其文本到图像模型的 DrawBench 基准允许将 Imagen 与其他方法进行比较,包括 VQGAN+CLIP、潜在扩散模型和 DALL-E 3。Google 表示,在样本质量和图像文本对齐方面,人类评估者更喜欢 Imagen 而不是其他模型。

  • GauGAN

创建者: Nvidia - 芯片制造巨头和 AI 强者

首次发布: 2021 年 11 月

当前版本: GauGan2

GauGAN 以法国后印象派画家 Paul Gauguin 的名字命名,其工作方式与此列表中的其他图像模型略有不同。它从分割图(或描绘场景的标记草图)创建逼真的图像。

用户有一个类似 MS Paint 的平台来设计景观或上传他们自己的分割图。也可以应用自然语言提示。然后,系统将生成场景的逼真描绘 - 用户可以使用智能画笔调整图像的各个方面。

  • Pixray-text2image

创建者: Pixray

首次发布: 2022 年 5 月

当前版本: 50f96fcd

Pixray-text2image 可以从文本提示生成图像。它结合了图像生成功能,例如感知引擎和 CLIP 引导的 GAN 图像,以生成高质量的图像。

通过 Replicate 访问 Pixray-text2image:https://replicate.com/pixray/text2image

访问 Pixray-text2image:https://github.com/pixray/pixray

应用工具

  • Jasper Art

创建者: Jasper - 成立于 2015 年,Jasper 是一家由 Y Combinator 支持的初创公司,开发 AI 驱动的生产力工具。

使用的 AI 模型: DALL-E 2

首次发布: 2022 年 8 月

Jasper 用户可以从文本和图像生成图像。通过输入书面提示或图像并选择样式,系统将返回一系列图像。

Jasper Art 可以通过用户仪表板访问,并支持 29 种语言。Jasper 将其 Art 工具宣传为用户“放弃库存照片”的一种方式。

访问 Jasper Art:https://www.jasper.ai/tools/ai-image-generator

  • Craiyon

创建者: Craiyon - Boris Dayma 的一个独立研究项目变成了一个流行的图像生成器。

首次发布: 2022 年 4 月

Craiyon 以前称为 DALL-E Mini,旨在成为此列表中文本到图像模型的轻量级版本。

Craiyon 是一个免费使用的工具,用于非商业目的。要将模型用于商业用例,可以使用付费订阅。高级层的用户可以缩短其生成时间。Craiyon 还依靠广告来支付其服务器费用。

访问 Craiyon:https://www.craiyon.com/

  • NightCafe

创建者: NightCafe Studio - 由 Angus Russell 在 2019 年 11 月的 Reddit 帖子中创立

使用的 AI 模型: Stable Diffusion、Coherent (CLIP-Guided Diffusion)、Artistic (VQGAN+CLIP)、Style Transfer

首次发布: 2019 年 11 月

NightCafe 可以使用自然语言提示生成 AI 艺术。用户必须创建一个帐户才能访问该工具。

NightCafe 因使用 VQGAN+CLIP 文本到图像艺术生成方法而声名鹊起,因此迅速流行起来。

截至 2022 年 10 月,NightCafe 平台上已创建了超过 3500 万件 AI 生成的艺术品。

NightCafe 的名字显然是对文森特·梵高的同名画作的致敬。

访问 NightCafe:https://nightcafe.studio/

  • WOMBO Dream

创建者: Wombo - 加拿大 AI 公司,其名称来自《任天堂明星大乱斗》电子游戏中的术语“wombo combo”。

使用的 AI 模型: VQGAN+CLIP

首次发布: 2021 年 2 月

当前版本: 版本 3.5.0

使用手机将文字变成图像:Wombo Dream 是一款可作为移动应用程序使用的文本到图像工具。

其 AI 生成器允许用户创建和分享图像。根据其 App Store 描述,Wombo Dream 的应用安装量已超过 1.4 亿次。

Wombo 提供涵盖月度和年度订阅的应用内购买。

在 Apple 的 App Store 上访问 Wombo 应用程序:https://apps.apple.com/in/app/wombo-dream-ai-art-generator/id1586366816

在 Google Play 商店访问 Wombo 应用程序:https://play.google.com/store/apps/details?id=com.womboai.wombodream

  • Wonder

创建者: Codeway Digital - 由 Anıl Simsek 创立,Codeway 是一家土耳其 AI 应用程序开发商,还创建了 Ask AI、Facemix 和 PixelUp

首次发布: 2022 年 6 月

当前版本: 3.2.0

Wonder 是一款基于应用程序的 AI 图像生成器,手机用户可以使用自然语言提示生成艺术品和图像。

在应用程序上生成的图像可以分享到社交媒体。Wonder 提供高级订阅服务以增加生成量。

在 Google Play 商店访问 Wonder:https://play.google.com/store/apps/details?id=com.codeway.wonder&hl=en&gl=US

在 Apple 的 App Store 上访问 Wonder 应用程序:https://apps.apple.com/us/app/wonder-ai-art-generator/id1621278575

未来展望

人工智能图像生成技术仍在快速发展,未来将更加智能、高效,并应用于更多领域。它将改变人们创作和表达的方式,为创意产业带来新的机遇和挑战。

GPT先锋,引领未来
Built with Hugo
Theme Stack designed by Jimmy