得益于NVIDIAResearch新的AI模型,越來越多的公司而創(chuàng)作者創(chuàng)造的大規(guī)模虛擬世界,可以更輕松地填充一系列各種各樣的3D建筑、車輛、人物等內容。
NVIDIAGET3D僅使用2D圖像進行訓練,可以生成具有高保真紋理和復雜幾何細節(jié)的3D圖形。這些3D對象以與流行的圖形軟件應用程序相同的格式創(chuàng)建,允許用戶立即將其形狀導入3D渲染器和游戲引擎進行后續(xù)編輯。
生成的對象可用于建筑物、戶外空間或整個城市的3D表示,并為游戲、機器人開發(fā)、建筑和社交媒體等行業(yè)量身定制。
GET3D可以根據訓練中使用的數(shù)據生成幾乎無限的三維圖形。就像藝術家用一塊粘土制作精美的雕塑一樣,模型會將數(shù)字轉換成復雜的三維圖形。
例如,在2D汽車圖像的訓練數(shù)據集的幫助下,它創(chuàng)建了汽車、卡車、賽車和貨車的系列集。當在動物圖像上訓練時,它會產生狐貍、犀牛、馬和熊等生物。如果輸入椅子,模型會生成各種旋轉椅、餐椅、舒適躺椅。
NVIDIA人工智能研究副總裁SanjaFidler負責領導創(chuàng)建這個工具的多倫多人工智能實驗室。她說,“GET3D讓我們離普及人工智能驅動的3D內容創(chuàng)作更近了一步。它可以即時生成有紋理的三維圖形,這可能會給開發(fā)者帶來顛覆性的變化,幫助他們快速填充包含各種有趣物體的虛擬世界?!?/p>
11月26日至12月4日在新奧爾良(及線上)舉行的NeurIPSAI大會上,NVIDIA有超過20篇論文和研討會,其中GET3D是其中之一。
創(chuàng)建一個虛擬世界需要多種人工智能類型。
現(xiàn)實世界充滿了多樣性:街上的建筑各具特色,不同的車輛呼嘯而過,絡繹不絕的人流更是五彩繽紛。手動建模反映這一場景的3D虛擬世界非常耗時,因此很難填充詳細的數(shù)字環(huán)境。
以前的3D創(chuàng)成式人工智能模型雖然比手動方法更快,但在可以生成的細節(jié)層次上也是有限的。即使是最新的反向渲染方法也只能從多個角度拍攝的2D圖像中生成3D對象,這需要開發(fā)人員一次構建一個3D圖形。
相反,當推理在單個NVIDIAGPU上運行時,GET3D每秒可以生成大約20個物體,就像處理2D圖像的生成式對抗網絡一樣,但只生成3D物體。作為學習源,訓練數(shù)據集更大更多樣,輸出也會更多樣更細致。
英偉達研究人員使用合成數(shù)據來訓練GET3D,其中包含用不同相機角度拍攝的3D圖形的2D圖像。團隊只用了兩天時間,就用NVIDIAA100TensorCoreGPU訓練了100萬張圖片的模型。
使創(chuàng)作者能夠修改形狀,紋理,材料。
GET3D因其能夠3D(generateexplicitextured 3D(generateexplicited 3D)網格而得名,這意味著它將以三角形網格的形式創(chuàng)建形狀,并用紋理材料覆蓋它們,就像papier-mché模型一樣。這使用戶能夠輕松地將對象導入游戲引擎、3D建模軟件和電影渲染器,并對其進行編輯。
創(chuàng)作者將GET3D生成的形狀導出到圖形應用程序后,當這些對象移動或旋轉時,可以使用逼真的燈光效果。通過集成NVIDIAResearch提供的另一個AI工具StyleGAN-NADA,開發(fā)人員可以使用文本提示為圖像添加特定的樣式,例如將渲染的汽車調整為燒毀的汽車或出租車,或將普通房屋設置為鬼屋。
研究人員指出,未來版本的GET3D可以使用相機姿態(tài)估計技術,允許開發(fā)人員使用真實世界的數(shù)據(而不是合成數(shù)據集)來訓練模型。它還可以改進為支持通用生成,這意味著開發(fā)人員可以一次性為各種3D圖形訓練GET3D,而不是一次只針對一個對象類別進行訓練。