2026年4月29日,AI公司DeepSeek正对“识图模式”进行灰度测试。该模式支持用户上传图片并生成语义化描述,标志着其正式具备多模态理解能力。目前仅部分用户可启用,其余用户提示“暂不可用”。技术验证显示,后端已集成vision模型类型,配套欢迎语及功能说明均已上线。此举旨在增强图像理解交互体验,替代传统OCR单一文字提取。测试仍在内测阶段,尚未全量开放。
原创文章,作者:梁志镅,如若转载,请注明出处:https://www.liangzhimei.com/908.html
相关推荐
-
阿里上线“千问智学”,字节推“AnyGen”:AI 应用正式接管你的书包与办公桌
随着人工智能技术的深度演进,大厂正加速将 AI 能力具象化为垂直场景的终端应用。近日,阿里巴巴正式推出 AI 教育应用程序“千问智学”,而字节跳动则在海外市场低调上线了 AI 办公…
-
全国首个规划资源大模型“云宇星空”发布!6000亿参数,让城市规划“问不倒、调图快、识图准”
城市治理迈入“AI原生”时代。 12 月 24 日,上海市规划和自然资源局联合商汤科技“大装置”正式发布全国规划资源领域首个基础大模型——“云宇星空大模型(专业版)。该模型以 60…
-
豆包DAU突破1亿,字节AI战略再升级
2025年12月24日,据36氪报道,字节跳动旗下AI应用豆包的日均活跃用户(DAU)已突破1亿,成为字节又一“亿级DAU”产品。该数据经多方证实属实,且市场推广成本为历史最低。豆…
-
蚂蚁推出业内首个100B扩散语言模型
2025年12月12日,蚂蚁技术研究院发布LLaDA2.0系列离散扩散大语言模型,包含16B和100B两个版本,宣称是业内首个达100B参数规模的扩散语言模型。该模型采用创新的WS…
-
Ingenico与Visa合作推出智能POS支付解决方案
2026年3月20日,全球支付受理服务商Ingenico与Visa宣布达成战略合作。双方将整合Ingenico安卓平台AXIUM智能POS终端与Visa受理平台(含支付网关及风险管…
-
阿里通义开源语音交互大模型Fun-Audio-Chat-8B!超低延迟,能读懂情绪
阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,这款模型以超低延迟、自然流畅的语音交互为核心,标志着开源语音AI进入全新阶段。它不仅能实时理…
-
OPPO推AI妙听:文章转双人播客
2025年12月,OPPO ColorOS将上线“AI妙听”功能,可将文字内容一键转化为双人播客。该功能不仅实现文本转语音,还重构内容并加入背景音乐,以更自然的对话形式呈现。据Co…
-
知乎2025年度 AI 产品榜单揭晓,豆包位居榜首
近日,知乎正式发布了备受关注的 “2025年度 AI 产品榜单”。这一榜单经过了多轮筛选与系统化的加权计算,旨在汇聚广大用户的真实反馈与专业视角,成为一份反映市场趋势的权威报告。榜…
-
美物科技推出AI战略洞察计划
2026年3月20日,美物科技有限公司正式发布人工智能战略洞察计划。该计划面向其功效护肤业务,旨在提升研发协作效率与整体运营效能。计划由公司自主研发团队主导推进,覆盖数据整合、智能…
-
Runway发布GWM-1世界模型并拓展新领域
2025年12月12日,AI公司Runway发布GWM-1“世界模型”系列,宣称可保持数分钟画面连贯性,并具备物理规律模拟能力。该模型由三个后训练模型组成,旨在为机器人、物理及生命…
