今日,螞蟻集團開源發布全模態大模型Ming-Flash-Omni 2.0。在多項公開基準測試中,該模型在視覺語言理解、語音可控生成、圖像生成與編輯等關鍵能力表現突出,部分指標超越Gemini 2.5 Pro,成為開源全模態大模型性能新標桿。
據介紹,Ming-Flash-Omni 2.0也是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂。用戶只需用自然語言下指令,即可對音色、語速、語調、音量、情緒與方言等進行精細控制。
《經濟通通訊社11日專訊》
【你點睇?】美以空襲伊朗,最高領袖哈梅內伊身亡。你認為事件會否引發更大規模戰爭?油價及環球股市會否大幅波動?國際社會應介入調停? ► 立即投票
























