2025年12月12日,蚂蚁技术研究院发布LLaDA2.0系列离散扩散大语言模型,包含16B和100B两个版本,宣称是业内首个达100B参数规模的扩散语言模型。该模型采用创新的WSD持续预训练策略及CAP、扩散DPO等训练方法,继承自回归(AR)模型知识,实现2.1倍推理加速,在代码、数学等结构化生成任务上表现超越同级AR模型。模型权重与训练代码已开源至Huggingface。
原创文章,作者:梁志镅,如若转载,请注明出处:https://www.liangzhimei.com/806.html
相关推荐
-
知乎2025年度 AI 产品榜单揭晓,豆包位居榜首
近日,知乎正式发布了备受关注的 “2025年度 AI 产品榜单”。这一榜单经过了多轮筛选与系统化的加权计算,旨在汇聚广大用户的真实反馈与专业视角,成为一份反映市场趋势的权威报告。榜…
-
摩尔线程发布MTT AIBOOK笔记本:首发自研长江SoC!32GB+1TB售价9999元
摩尔线程在首届MUSA开发者大会上发布长江智能SoC,并推出基于该芯片的MTT AIBOOK笔记本电脑。产品已在京东预售,32GB+1TB配置售价9999元,将于2026年1月10…
-
AI日报:字节发布Seed Prover1.5;MiniMax M2.1开源;通义开源语音交互大模型Fun-Audio-Chat-8B
1、字节跳动发布 Seed Prover1.5:推动形式化数学推理的新进展 字节跳动Seed团队推出的Seed Prover1.5在形式化数学推理领域取得重要突破,其通过Agent…
-
全国首个规划资源大模型“云宇星空”发布!6000亿参数,让城市规划“问不倒、调图快、识图准”
城市治理迈入“AI原生”时代。 12 月 24 日,上海市规划和自然资源局联合商汤科技“大装置”正式发布全国规划资源领域首个基础大模型——“云宇星空大模型(专业版)。该模型以 60…
-
腾讯元宝:DeepSeek模式使用量较年初增长超100倍
快科技12月24日消息,今天,腾讯元宝发布的《元宝 x DeepSeek年度报告》。 报告显示,自今年2月接入DeepSeek模型以来,其DeepSeek模式使用量持续飙升,12月…
-
贝索斯拟设千亿美元基金押注AI制造转型
2026年3月20日,据多方知情人士透露,前亚马逊CEO杰夫·贝索斯正推进设立一只规模达1000亿美元的专项基金,旨在收购芯片制造、国防及航空航天等领域的传统制造业企业,并通过其旗…
-
可灵AI启动NEXTGEN全球新影像创作大赛,创作者获选作品将赴戛纳、东京展出
近日,快手旗下全球领先的AI创意生产力平台 ——可灵AI,正式宣布启动“可灵AI NEXTGEN 全球新影像创作大赛”,面向全球创作者征集AI生成的视频作品。大赛优胜者不仅将获得可…
-
美物科技推出AI战略洞察计划
2026年3月20日,美物科技有限公司正式发布人工智能战略洞察计划。该计划面向其功效护肤业务,旨在提升研发协作效率与整体运营效能。计划由公司自主研发团队主导推进,覆盖数据整合、智能…
-
礼来公司推出TuneLab平台,向生物技术企业开放AI药物发现模型
9月9日,礼来宣布将推出人工智能与机器学习平台TuneLab,该平台将向生物技术企业开放基于其多年研究数据训练的AI药物发现模型。礼来表示,此次首发的AI模型包含耗资逾10亿美元获…
-
可灵2.1最强首尾帧上线 生成效果提升235%
8月22日,可灵AI正式推出基于2.1模型的全新首尾帧功能。该功能通过端到端多模态语义推理能力的升级,显著提升首尾帧功能视频生成效果。据评测数据显示,与此前1.6版本相比效果提升2…
