加入最愛專欄  收藏文章 

2025-01-10

機械人ChatGPT時刻將臨?NVIDIA世界模型Cosmos加速全球Robot開發,但有侵權隱憂!

  輝達(NVIDIA)執行長黃仁勳在全球最大消費電子展CES 2025的主題演講上,發表名為 Cosmos的「世界基礎模型」,能夠生成逼真且符合物理法則的合成數據,有助降低機械人「實體AI」的開發成本與門檻,因此他豪言:「機械人的ChatGPT時刻即將到來。」到底甚麼是世界基礎模型?除NVIDIA外,在此賽道上還有哪些主要玩家?

 

Read More

機械人要變成「人」?黃仁勳、馬斯克押寶人形機械人!拆解人形設計的優勢與市場潛力

當機械人懂得摺衣服:家務智能化是否已到來?Physical Intelligence如何重塑AI機械人市場?

代理式AI崛起!Gemini 2.0變身智能助理,無需人類介入,完全自主決策和行動,我們準備好了嗎?

 

AI從感知型演進到實體智能

 

  2025年1月7日,NVIDIA創辦人兼執行長黃仁勳在CES主題演講開場,展示並解說AI技術的4大演進階段:感知型AI(Perception AI)、生成式AI(Generative AI)、代理式AI(Agentic AI)、以及實體AI(Physical AI,又稱物理AI)。

 

  AlexNet神經網絡系統於2012年以驚人的影像辨識準確率,震撼整個AI學術界,開啟了感知型AI時代。此後,AI能夠理解和分析輸入的圖像或語音,廣泛應用於醫療影像辨識和語音識別等範疇。2022年,ChatGPT全球爆紅,催生了生成式AI熱潮,除文案外,能夠生成圖像、影片、程式碼的模型陸續誕生,令AI應用日漸普及。

 

黃仁勳在CES 2025主題演講上大喊:「機械人的ChatGPT時刻即將到來。」但他坦承,在達到「ChatGPT時刻」之前,Cosmos仍需努力積累更多數據。(圖片來源:翻攝NVIDIA官方YouTube影片)

 

  來到2025年,AI業界開始步入代理式AI階段:AI代理(AI Agent)能夠自行蒐集環境資訊,繼而自主作出決策並執行任務,適用於金融分析、客戶服務和診斷治療。AI技術發展的下一站將邁向實體AI領域,讓AI可以走出數碼世界,以人形機械人或自駕車的姿態進入物理世界,與人接觸、與現實環境互動。

 

懂物理定律的世界基礎模型

 

  黃仁勳表示,為求普及實體AI,NVIDIA創建了Cosmos世界基礎模型(World Fundamental Model)。實體AI需要大量現實世界的環境數據來訓練模型,而Cosmos就可以輕鬆產製大量極富真實感、兼且符合物理規律的合成數據。開發人員只要輸入文字描述、圖片或影片,Cosmos即能生成依循物理法則的虛擬動態影像,例如煙塵飄動、水花濺射、以及光線明暗變化等,讓機械人或自駕車可以在虛擬世界中接受訓練。

 

黃仁勳表示,Cosmos在輸入文字或圖像後,即可產製大量虛擬世界動態影像,藉此進行機械人或自駕車的模型訓練。(圖片來源:翻攝NVIDIA官方YouTube影片)

 

  同時,開發人員又可以按照開發需要,微調Cosmos自訂模型,譬如模擬物流倉庫、工廠生產線、甚或各種路面情況。如此一來,初創公司訓練機械人時,無需僱用真人進行動作示範;車廠研發自駕系統時,不用派出實體測試車到馬路上收集行車數據,有助於大幅降低開發成本,並縮短研發時間。

 

  Cosmos模型使用來自現實世界的2,000萬小時影片做訓練,包羅真人互動、環境變化、工業生產、機械人活動、汽車駕駛等9,000兆組標記數據。黃仁勳指出,透過這些資料影片,可以教導AI理解物理世界各種法則,諸如重力、慣性、摩擦力、幾何和空間關係、以及因果關係等。

 

Google發表第二代世界模型

 

  為了加快機械人和自駕車的發展,Cosmos以開放授權方式提供外界使用。目前首批採用Cosmos模型的業者,包括機械人公司1X、Agile Robots、Agility Robotics、Figure AI,自駕系統開發商Foretellix、自駕貨車初創Waabi、電動車廠小鵬汽車,以及叫車服務龍頭Uber等。

 

Cosmos能夠模擬各種路況的駕駛環境。(圖片來源:翻攝NVIDIA官方YouTube影片)

 

  除NVIDIA外,近年愈來愈多科技公司投入世界模型的研發,計有Google、OpenAI、Meta、Anthropic、AI教母李飛飛的World Labs、以色列初創Decart等,當中以Google 最為進取。早於2024年2月,Google DeepMind已推出世界模型Genie,單靠文字、圖片或影片,就能生成可供遊玩的2D遊戲世界。

 

  同年12月,DeepMind發表第二代世界模型Genie 2,能夠生成3D虛擬環境,讓開發人員可以在立體場景中訓練AI代理。DeepMind現正籌組一個世界模型的研發團隊,由10月從OpenAI跳槽的Sora影片生成模型開發主管提姆·布魯克斯(Tim Brooks)帶領。

 

遊戲、影視職位將被AI取代

 

  世界模型生成的3D虛擬世界,不僅可用作機械人和自駕車的訓練,還可用於影視製作、遊戲開發、以至VR內容創作,看似前途一片光明,但卻引發不少業者擔心,未來或許會減少人類的工作機會。譬如遊戲開發商動視暴雪(Activision Blizzard)在2024年3度裁員,然後使用AI來彌補部分員工流失。荷里活動畫師及漫畫家工會的調查報告顯示,預計2026年逾10萬個電影、電視、動畫的工作崗位將被AI取代。

 

Cosmos可以模擬電動拖板車在倉庫的所有行走軌跡,從中找出最佳的行駛路徑。(圖片來源:翻攝NVIDIA官方YouTube影片)

 

  再者,世界模型有可能涉及版權問題。以Decart的世界模型Oasis為例,能夠迅速生成類似微軟(Microsoft)遊戲作品《Minecraft》的虛擬世界,但未有明確表示已取得微軟的許可,使用《Minecraft》遊戲影片做模型訓練。另外,也有不少世界模型所產生的場景,跟《俠盜獵車手》(Grand Theft Auto)、《要塞英雄》(Fortnite)等遊戲的畫面非常近似。

 

  面對侵權疑慮,NVIDIA回應指,Cosmos所用的訓練數據採集自各種公共和私人來源,對數據的使用符合法律條例和精神,並強調Cosmos從中學習到的物理世界法則,既不受版權保護,亦不受任何個人或企業控制。然而,有版權專家認為,此說法未必能通過司法審查,最終結果如何還須法院裁決。

 

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇?】特朗普指不排除使用武力奪取格陵蘭及巴拿馬運河,你認為言論會否加劇美國與盟友間的不信任?► 立即投票

更多智城物語文章
你可能感興趣
#Smart Living #ChatGPT #輝達 #黃仁勳 #機械人 #Nvidia #世界基礎模型 #OpenAI #創科 #版權 #智慧生活 #AI #Google
編輯推介
即時報價
全文搜索
Search
最近搜看
大國博弈
貨幣攻略
More
Share