谷歌推出了迄今為止最先進的生成影片模型 Google Veo 2。谷歌Veo 2旨在將詳細的文字提示轉化為電影品質的影片,它能建立逼真的動作、自然的物理效果和視覺豐富的場景,風格多樣。目前,Google Veo 2 僅面向美國 18 歲及以上的使用者,透過 Gemini、Whisk Animate 和 VideoFX 等平臺的等待名單提供。預計 2025 年晚些時候將在 YouTube Shorts 和 Vertex AI 上推出更廣泛的使用。在本教學指南中,我們將向您展示如何使用 Google AI Studio 訪問 Google Veo 2,這是一個基於提示的動手工具,用於探索其影片生成功能。
什麼是Google Veo 2?
Google Veo 2 是 Google DeepMind 的最新影片生成模型。它可以建立長達 8 秒的高質量影片,具有清晰的動作、電影般的燈光和令人印象深刻的場景細節。該系統旨在解讀詳細的文字提示,並將其轉化為具有逼真元素和強烈視覺敘事的完整動畫短片。
該工具可透過 Gemini、Whisk Animate 和 VideoFX 等多個谷歌平臺使用,並有望在不久的將來與 YouTube Shorts 和 Vertex AI 整合。
Source: Veo 2
Google Veo 2有何過人之處?
以下是 Google Veo 2 的幾個突出特點:
- 動作流暢逼真:人物、動物和物體動作流暢,逼真模擬自然行為。
- 提示準確性高:它能根據您的描述處理場景構圖、照明和攝像機角度。
- 電影感:無論是戲劇性的日落還是充滿懸念的實驗室實驗,Veo 都能準確把握視覺基調。
- 為 4K 做好準備:雖然目前的訪問支援 720p,但系統設計可擴充套件至 4K 解析度。
- 多個接入點:使用者可以透過文字提示、影像動畫工具或實驗影片生成器訪問 Google Veo 2。
怎樣才能用上Google Veo 2?
以下是使用體驗 Google Veo 2 的 3 種方法:
1. Google Studio
在 Google Studio 上,您只需使用文字提示即可建立影片短片。
如何使用:
- 訪問 aistudio 網站。
- 選擇 Google Veo 2 模型(如果您所在地區有售)
- 輸入提示,例如:“A panoramic shot of a misty mountain valley at sunrise with birds flying overhead.”
系統將返回與描述相符的影片短片。
2. Whisk Animate (圖片轉影片)
Whisk Animate 可讓你使用 Google Veo 2 引擎將靜態圖片轉化為動畫短片。該工具僅在美國正式提供,但你可以使用 VPN 從其他地區訪問它。
非常適合
- 希望將作品製作成動畫的插圖畫家
- 將視覺效果轉化為宣傳片的營銷團隊
- 讓內容更吸引人的教育工作者
試用網址:Whisk Animation
3. VideoFX(基於提示的影片生成)
VideoFX 可以讓你詳細描述一個場景,並透過 Google Veo 2 生成電影品質的短片。它非常適合講故事、原型設計或創意實驗:
- Close-up of a scientist adjusting a microscope under fluorescent lights.
- A robot dancing in a cyberpunk alleyway during rainfall.
與 Whisk Animate 一樣,VideoFX 目前也僅限於美國使用者使用,但可以使用 VPN 訪問。
試用網址:VideoFX
Google Veo 2影片示例
讓我們來看看 Google Veo 2 可以根據詳細提示生成的一些令人難以置信的影片示例。這些示例展示了精心製作的說明所帶來的多功能性和創造性。以下是一些根據獨特提示製作的影片:
1. 提示詞:Turn the word “GEMINI” into bright blue jello 3D text jumping up and down in a kitchen on a circular jello dish.
2. 提示詞: An old man sitting alone at a train station as seasons change around him, time-lapse style, melancholic tone.
3. 提示詞: A giant koi fish flying in the sky above a quiet village, clouds parting as it swims through the air
4. 提示詞: Form the word “NICOLE” using bright-colored animal pool floaties in a swimming pool, overhead shot.
實際操作:在Vertex AI上使用Google Veo 2生成電影影片
雖然 Google Veo 2 可透過 Gemini、Whisk Animate 和 VideoFX 等平臺訪問,但開發人員還可以更進一步,透過 Vertex AI 使用 Google GenAI SDK for Python 將 Google Veo 2 直接整合到自己的應用程式中。
本實踐教學將指導您在 Google Colab 或 Jupyter Notebook 等 Python 環境中構建自己的提示影片生成器。
前提條件
開始之前,請確保
- 您的谷歌雲專案已啟用 Vertex AI API
- 已設定計費和雲端儲存
- 您的環境已透過身份驗證,可以訪問 Google 雲(例如,透過 Google Colab 或本地 gcloud auth)。
Step 1:安裝所需的庫
安裝 GenAI SDK 和一些輔助庫,如用於在 notebook 中顯示影片的 mediapy。
%pip install --upgrade --quiet google-genai %pip install -q mediapy
Step 2:驗證(僅限Colab)
如果在 Google Colab 中執行此程式,請驗證您的 Google 賬戶:
import sys if "google.colab" in sys.modules: from google.colab import auth auth.authenticate_user()
Step 3:匯入Python庫
匯入與 Google Veo 2 互動和視覺化輸出所需的一切。
import os import time import urllib import matplotlib.pyplot as plt import mediapy as media from PIL import Image as PIL_Image from google import genai
Step 4:設定專案和客戶端
您需要連線到 Google Cloud 專案並指定區域。
PROJECT_ID = "[your-project-id]" # Replace with your actual Project ID if not PROJECT_ID or PROJECT_ID == "[your-project-id]": PROJECT_ID = str(os.environ.get("GOOGLE_CLOUD_PROJECT")) LOCATION = os.environ.get("GOOGLE_CLOUD_REGION", "us-central1") client = genai.Client(vertexai=True, project=PROJECT_ID, location=LOCATION)
Step 5:定義輔助函式
這些函式可幫助從雲端儲存中下載生成的影片,並將其顯示在 notebook 中。
def show_video(gcs_uri): file_name = gcs_uri.split("/")[-1] !gsutil cp {gcs_uri} {file_name} media.show_video(media.read_video(file_name), height=500) def display_images(image): fig, axis = plt.subplots(1, 1, figsize=(12, 6)) axis.imshow(image) axis.set_title("Starting Image") axis.axis("off") plt.show()
Step 6:載入Google Veo 2模型
使用生成影片所需的特定模型名稱。
video_model = "veo-2.0-generate-001"
Step 7:根據文字提示生成影片
現在,讓我們用自己的提示生成一段影片。方法如下
prompt = "A dreamy, slow-motion shot of a Bengal tiger walking through misty jungle under golden morning light, as leaves fall and birds fly away. " # Example prompt aspect_ratio = "16:9" # "16:9" or "9:16" output_gcs = "gs://your-bucket-name/cat-reading.mp4" # Replace with your GCS path operation = client.models.generate_videos( model=video_model, prompt=prompt, config=types.GenerateVideosConfig( aspect_ratio=aspect_ratio, output_gcs_uri=output_gcs, number_of_videos=1, duration_seconds=5, # 5 to 8 seconds person_generation="dont_allow", # For safe content generation enhance_prompt=True # Improves prompt quality ), )
監控操作直至完成:
while not operation.done: time.sleep(15) operation = client.operations.get(operation) print(operation) Finally, display the generated video: if operation.response: show_video(operation.result.generated_videos[0].video.uri)
輸出
這種整合允許在自定義應用程式、創意工具或教育內容中生成可擴充套件的人工智慧驅動影片。藉助 Google 的 SynthID 水印和模型增強功能,您還可以獲得符合道德規範、可隨時製作的媒體輸出。
Google Veo 2平替方案:探索其他人工智慧影片生成工具
雖然谷歌的 Google Veo 2 提供了強大的影片生成功能,但其他幾個平臺也在以獨特的方式推動人工智慧影片生成的發展。以下是一些值得探索的頂級替代方案:
Sora
Sora 是 OpenAI 的旗艦文字影片模型,能以 1080p 解析度建立長達 20 秒的高質量影片片段。它支援文字、圖片和影片的多模態輸入,並透過風格預設和混音功能提供強大的創意控制。它直接整合到 ChatGPT 中,Plus 和 Pro 使用者均可使用,是追求高保真和易用性的創作者的強大選擇。
Runway Gen-3 Alpha
Runway Gen-3 Alpha 專為電影和媒體專業人士打造。它具有先進的文字到影片和影像到影片生成功能,以及逼真的渲染和精確的關鍵幀工具。它能夠捕捉細微的面部表情和動作,是講故事、內容營銷和電影實驗的理想選擇。
Dream Machine
Luma Labs 的 Dream Machine 以其電影級的質量和自然的動作生成而脫穎而出。它能將提示或靜止影像轉化為動態影片場景,並配以流暢的攝像和逼真的動畫。它的介面非常友好,初學者和經驗豐富的設計師都可以使用。
Kling AI
Kling AI 由快手開發,因其能夠製作長達兩分鐘的高畫質影片而迅速聞名。它強調真實感和想象力,透過簡單的測試版註冊即可提供全球訪問。它的視覺質量和長度支援使其成為講故事或創意內容的理想選擇。
Hailuo AI
Hailuo AI 是一款免費、輕量級的影片生成器,可根據文字提示製作富有想象力的短片。它在提示的遵從性和創造性方面表現尤為突出,是使用者在無需成本或技術開銷的情況下進行嘗試的絕佳工具。
這些 Google Veo 2 替代品具有不同的優勢,包括更長的持續時間、高解析度、專業級工具和易用性。無論您是電影製片人、教育工作者、營銷人員還是業餘愛好者,探索這些平臺都能為人工智慧生成的影片故事帶來令人興奮的可能性。
谷歌Veo 2與OpenAI的Sora相比如何?
谷歌和 OpenAI 現在都進入了生成影片領域。
我們透過這個有趣的提示對它們進行了測試:
提示詞:A tiny penguin barista serves frothy cappuccinos with latte art at an ice café, expertly balancing mugs on a tray as curious polar bears wait in line.
Google Veo 2 將這一氛圍表現得淋漓盡致,以電影般的魅力和令人驚歎的細節將這一提示栩栩如生地呈現出來。企鵝自然地蹣跚著,蒸著卡布奇諾,北極熊的反應真實可信,所有這些都被柔和的雪景和動態燈光所襯托。然而,Sora 卻差強人意。企鵝很僵硬,托盤很笨拙,卡布奇諾有蠟燭。與 Google Veo 2 相比,它的視覺效果平平,沒有真正的故事性,簡直就是失分。
以下是 Google Veo 2 與 OpenAI 的 Sora 的對比:
功能/特徵 | Google Veo 2 | Sora |
最大影片長度 | 8 秒 | 5 秒 |
解析度 | 720p(支援 4K) | 1080p |
提示詞解讀 | 非常高 | 高 |
電影元素 | 是(攝像機角度、照明) | 有限 |
可用性 | Gemini, Labs, VideoFX | 封閉式預覽(僅限 Sora) |
水印 | 內嵌 SynthID | 不詳 |
在超過 58% 的提示對齊和偏好比較中,Google Veo 2 的得分高於 Sora,尤其是在涉及物理現實、人體運動或講故事的場景中。
製作更好提示的技巧
要充分利用 Google Veo 2,請在編寫提示時牢記以下關鍵提示:
- 要有描述性:提及顏色、動作、時間、環境和其他感官細節,以建立生動的心理影像。
- 使用電影語言:包括拍攝角度、轉場或照明方式(如“wide-angle shot”、“overhead drone view”、“sunset backlight”)。
- 設定情感基調:“tense”、“peaceful”或“thrilling”等詞語有助於塑造影片的情緒和節奏。
- 新增具體行動:不要只描述場景,還應加入人物或物體正在做的事情,讓場景栩栩如生。
舉例說明:
- 效果較差的提示詞:A tiger in the jungle.
- 效果更佳的提示詞:A slow-motion tracking shot of a Bengal tiger prowling through dense, misty jungle foliage at dawn, sunlight filtering through the trees and glinting off its golden-orange fur as birds scatter in the background.
嵌入式水印以增加透明度:Google Veo 2中的SynthID
谷歌已將數字水印系統 SynthID 整合到谷歌 Veo 2 生成的所有影片中。這種隱形標記旨在識別人工智慧生成的內容,即使在編輯之後也是如此。SynthID 的加入至關重要,因為它提高了透明度,使平臺更容易識別和過濾被操縱的媒體。此外,它還能確保人工智慧生成的內容可追溯,從而支援人工智慧的道德使用。即使是常見的剪輯,如裁剪或應用濾鏡,水印仍然可以被檢測到,從而可以識別被重新利用的影片。
小結
谷歌的 Google Veo 2 是一款出色的生成式人工智慧工具,它能根據詳細的提示建立電影級質量的影片。它具有逼真的動作、電影般的燈光和高度的提示準確性等功能,必將改變影片製作。SynthID 的整合透過嵌入數字水印確保了人工智慧的道德使用,使人工智慧生成的內容易於識別和過濾。隨著 Google Veo 2 在各個平臺的推廣,它有望重新定義我們建立和使用影片內容的方式。
常見問題
Q1. 什麼是 Google Veo 2?
答案:Google Veo 2 是谷歌最新的人工智慧影片生成模型,能夠將詳細的文字提示轉化為電影級質量的影片。它動作流暢,視覺細節豐富,能以逼真的元素詮釋複雜的場景。
Q2. 如何訪問 Google Veo 2?
答:Google Veo 2 目前可透過 Gemini、Whisk Animate 和 VideoFX 等平臺提供給美國使用者。使用者可透過 Google Labs 上的等待名單獲得訪問權,預計 2025 年將在更大範圍內提供。
Q3. 我可以在哪些平臺上使用 Google Veo 2?
答:您可以在 Gemini(用於文字到影片的生成)、Whisk Animate(用於影像到影片的轉換)和 VideoFX(用於基於提示的影片生成)上使用 Google Veo 2。未來,它還將整合到 YouTube Shorts 和 Vertex AI 中。
Q4. Google Veo 2 可以生成的最大影片長度是多少?
答案:Google Veo 2 可以生成最長 8 秒的影片,影片細節豐富,包括逼真的動作和電影般的燈光。
Q5. 如何使用 Google Veo 2 建立影片?
要建立影片,您可以在 Gemini 或 Whisk Animate 等平臺上提供詳細的文字提示。例如,提示可以是 “日出時的山谷全景,鳥兒從頭頂飛過”。
Q6. Google Veo 2 能否生成 4K 影片?
答案:Google Veo 2 目前支援 720p 解析度,但將來可以擴充套件到 4K。
Q7. Google Veo 2 與 OpenAI 的 Sora 相比有何優勢?
答:與 Sora 相比,Google Veo 2 提供了更好的提示解釋和電影元素,如攝像機角度和照明。它還支援更長的影片(最長 8 秒),在物理逼真度和人體動作方面具有更高的細節水平。
Q8. 什麼是 SynthID?
SynthID 是嵌入每個 Google Veo 2 影片的數字水印系統。它有助於識別人工智慧生成的內容,確保人工智慧使用的透明度和道德性。即使經過裁剪或過濾等常見編輯,水印仍可被檢測到。
評論留言