Nova Reel - 图像到视频

通过提供初始起始图像和文本提示来生成视频。

为了获得最佳效果, 文本提示应该描述图像, 并提供希望视频具有的所需动作和摄像机移动的详细信息。

将下面的图片下载保存为sample-frame-1.png

img

修改下面代码的s3_destination_bucketinput_image_pathvideo_prompt变量并运行:

from random import randint
import json
import boto3
import base64


client = boto3.client(service_name='bedrock-runtime', region_name="us-east-1")
s3_destination_bucket = "xx-videos"  # Change this to a unique bucket name.

# Define the image to use as the input image.
input_image_path = "sample-frame-1.png"  # Must be 1280 x 720
# Load the input image as a Base64 string.
with open(input_image_path, "rb") as f:
    input_image_bytes = f.read()
    input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")

inference_params = {
    "taskType": "TEXT_VIDEO",
    "textToVideoParams": {
        "text": "dolly forward", # 向前移动
        "images": [
            {
                "format": "png",  # May be "png" or "jpeg"
                "source": {
                    "bytes": input_image_base64
                }
            }
        ]
    },
    "videoGenerationConfig": {
        "durationSeconds": 6,  # 6 is the only supported value currently.
        "fps": 24,  # 24 is the only supported value currently.
        "dimension": "1280x720",  # "1280x720" is the only supported value currently.
        "seed": randint(
            0, 2147483648
        ),  # A random seed guarantees we'll get a different result each time this code runs.
    },
}

response = client.start_async_invoke(
    modelInput=inference_params,
    modelId="amazon.nova-reel-v1:0",
    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{s3_destination_bucket}"}},
)

print(response)

参数说明

{
    "taskType": "TEXT_VIDEO"
    "textToVideoParams": {
        "text": 字符串,
        "images": ImageSource[] (包含单个ImageSource的列表)
    }
    "videoGenerationConfig": {
        "durationSeconds": 整数,
        "fps": 整数,
        "dimension": 字符串, 
        "seed": 整数
    }
}
  • text (必填) – 用于生成视频的文本提示。长度必须在1 - 512个字符之间。
  • images (可选) – 单个JPEG或PNG图像,用作输出视频的起始关键帧。此输入图像与文本提示一起用于生成视频。图像必须格式化为Base64字符串。图像可以是PNG或JPEG格式,每个颜色通道必须为8位(RGB)。PNG图像可能包含额外的alpha通道,但该通道不得包含任何透明或半透明像素。目前,该模型仅接受1280(宽)x720(高)的图像。
  • durationSeconds (必填) - 输出视频的持续时间。目前仅支持6秒。
  • fps (必填)- 输出视频的帧率。目前仅支持24帧/秒。
  • dimension (必填) - 输出视频的宽度和高度。目前仅支持1280x720。
  • seed (可选) – 确定生成过程的初始噪声设置。在保持所有其他参数不变的情况下更改种子值将产生一个完全新的图像,但仍符合我们的提示、尺寸和其他设置。通常需要尝试各种种子值才能找到完美的图像。

检查作业状态并查看视频

等待任务完成:

image-20241215142307337

查看输出视频:

image-20241215142521717