OpenAI 推出全新 Sora 模型,正式宣告生成式 AI 已經從文字進化到影片!從 OpenAI 展示的影片,幾乎分辨不出來是 AI 產生的,只需要輸入文字,就能夠產生 1 分鐘的短片,完全是電影級的影片,各式的細節,不論是街道、人物、招牌等都非常逼真,任意輸入幾個文字,人人都可以產生電影級的電影作品,各位可以一起來看看這個劃時代的 AI 進展。
Sora 是一個 OpenAI 全新推出的 AI 模型,可以從文字指令中建立逼真和富有想像力的影片場景,目前影片長度限制為 1 分鐘。技術方面的原理則是 Sora 為一種擴散模型,它從看起來像靜態雜訊的影片開始產生,然後透過多個步驟消除雜訊來逐漸轉換成影片。與 GPT 模型類似,Sora 使用 transformer 架構,產生出卓越的擴展表現。
Sora 模型訓練過程中,還經過視覺藝術家、設計師和電影製作人等專家的建議進行修正。Sora 能夠產生具有多個角色、特定運動、主題/背景的準確細節進行影片生成。此模型不僅了解使用者在文字敘述中要求的內容,還了解這些東西在物理世界中的存在方式。Sora 模型是建立在過去 DALLE 和 GPT 模型的基礎下而生的。它使用了 DALL·E 3 涉及到視覺訓練數據產生高度描述性的標題。因此,該模型能夠更忠實根據文字而產生符合描述的影片。
Sora 對語言有更深刻的理解,因此能夠精準產生符合使用者敘述的的生動角色,此外還可以在單部影片中建立多個鏡頭,準確保留角色和視覺風格。關於文字的限制,若有暴力、色情內容、仇恨、名人肖像等文字敘述,OpenAI 會確保這些內容不會被顯示出來,以符合使用者政策。
不過目前 Sora 模型也有弱點,像是難以精準類比複雜場景的物理特性,並且可能無法理解因果關係。例如:跑步機上的人往反方向跑,或是一個人咬一口餅乾,餅乾卻可能沒有咬痕等情形。資料來源:OpenAI