简介

欢迎来到亚马逊 Nova Canvas 研讨会! 在这个动手实践的环节中, 我们将探索亚马逊最新的图像生成基础模型的强大功能。我们将体验到虚构的服装品牌 OctankFashion 如何利用该模型丰富的功能来完成一系列任务 - 从服装设计到营销和广告再到零售。

用例

OctankFashion 希望利用 AI 图像生成来简化他们的服装设计过程和营销广告图像的制作。具体任务包括:

  1. 使用 AI 迭代新的 T 恤设计。
  2. 在设计好 T 恤后, 使用 AI 创造该衬衫的夏季主题变体。
  3. 创建一个特殊的宣传照片, 展示该衬衫在生活场景中的效果。
  4. 取出现有成功的服装广告中的背景, 以便将服装部分用作零售网站上的产品图像。

研讨会目标

通过本次研讨会, 我们将:

  1. 了解亚马逊 Nova Canvas 模型的关键功能。
  2. 学习如何将这些功能应用于设计、营销和零售用例。
  3. 亲身体验使用亚马逊 Bedrock API 进行图像生成任务。

我们将使用的功能

在本次研讨会中, 我们将利用亚马逊 Nova Canvas 的以下功能:

  1. 文本到图像
  2. 图像修复
  3. 图像扩展
  4. 背景移除
  5. 图像变体
  6. 图像条件化
  7. 颜色条件化

先决条件: 请先运行 00-prerequisites.ipynb 中的先决条件, 然后再继续。

文本到图像简介

使用该模型最简单的方法是根据文本描述生成图像。在 Nova Canvas 中, 这种生成模式被标识为 “TEXT_IMAGE” 任务类型。在本笔记本中, 我们将探索 “TEXT_IMAGE” 任务类型支持的一些参数。

要开始, 请运行下面的单元格以创建 Bedrock Runtime 客户端的实例。我们将使用它来稍后调用该模型。

重要提示: 请注意, 我们将客户端配置为使用 5 分钟的较长读取超时。这是在使用 Nova Canvas 时的最佳实践, 因为根据我们配置的参数和请求的图像数量, 处理可能需要超过 AWS SDK 默认 60 秒的超时时间。

示例 1: 探索 “seed” 参数

让我们首先生成一些带有狗图案的 T 恤。我们将使用以下文本提示:

一件男士白色有领 T 恤, 中间有一个狗的图像; 整件 T 恤都可见

有关如何编写有效的图像生成提示的指南, 请参见 Amazon Nova Canvas Prompting Guide

我们希望生成几种设计供我们选择。seed 参数可以帮助我们实现这一目标。

seed 参数提供了一种在给定文本提示的情况下引入随机性的方法。使用不同的种子值, 同时保持文本提示不变, 将生成符合提示但在视觉外观上有所不同的图像。因此, seed 可以是一种有用的方式, 根据单一文本提示生成多种不同的变体。

让我们看看不同的种子值如何影响结果。运行下面的单元格。生成的图像将保存到 “output” 文件夹。

示例 2: 探索分辨率和纵横比

我们可以通过提供不同的高度和宽度值来更改图像的纵横比。例如, 1024x1024 表示 1:1 的纵横比, 而 1280x720 表示 16:9 的纵横比。

Nova Canvas 支持广泛的分辨率和纵横比。我们可以使用任何宽度和高度, 只要最终分辨率符合以下所有要求:

  • 每个边的长度不短于 320, 不长于 4096
  • 每个边的长度都是 16 的倍数
  • 纵横比范围从 1:4 (纵向) 到 4:1 (横向)
  • 总像素数 (宽度 x 高度) 不超过 4,194,304 (相当于 2048 x 2048)

让我们看看不同的纵横比如何影响图像的构图。运行下面的单元格。生成的图像将保存到 “output” 文件夹。

示例 3: 探索 “cfgScale” 参数

cfgScale 参数控制了我们的提示被遵循的程度。在这个例子中, 我们将使用不同的 cfgScale 值生成图像, 以观察它们的效果。

cfgScale 可以设置为最小 1.1 到最大 10。较低的值允许模型更自由地解释我们的提示。较高的值更忠实于我们的提示, 但如果设置得太高,可能会导致提示中提到的某些内容过度强调。默认值为 6.5, 是一个很好的起点。

运行下面的单元格。生成的图像将保存到 “output” 文件夹。请注意, 值为 10 (最大值) 会导致 “skate shop” 部分过度强调, 在所有东西上都添加了轮子!

总结

文本到图像生成是一个强大的功能, 它使用户能够从文本描述创造出视觉内容。只需编写描述性的文本提示, 个人就可以生成与其愿景相符的独特和多样的图像。这种创新工具有广泛的应用, 从概念艺术和故事板到快速原型制作和视觉头脑风暴。无论我们是寻求灵感的艺术家、创造宣传材料的营销人员还是设计角色的游戏开发人员, Nova Canvas 的文本到图像功能都提供了一种高效和易访问的方式来将想法视觉化。