大模型“注意力简史”:与两位AI研究者从DeepSeek、Kimi最新改进聊起
o1、R1 等推理模型的出现,给了长文本新课题。嘉宾丨肖朝军、傅天予整理丨程曼祺上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA。二者都聚焦对大模型中 “注意力机制” 的改进。注意力机制是当前大语言模型(LLM)的核心机制。2017 年 6 ......
GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手
朋友,先别急着退订 ChatGPT 会员。最近,DeepSeek 开源周搞得热火朝天,全球开发者忙着分享代码、碰撞灵感;而另一边,OpenAI 却选在开源周最后一天冷不丁地丢出了 GPT-4.5 这个「大杀器」。Sam Altman 在 X 平台在 X 分享了他的个人体验:这是我第一次觉得 AI 像在与 ......
一个向左一个向右, OpenAI与DeepSeek 谁能主导AI竞争格局?
北京时间2月28日凌晨,OpenAI发布GPT-4.5。“这是我们迄今为止最大、最好的聊天模型,是在扩大预训练和后训练道路上迈出的一步。” OpenAI介绍,这款新模型面向GPT Pro用户,下周起将向Plus用户和Team用户推出。OpenAI CEO山姆奥尔特曼(Sam Altman)因为“在医院照顾孩 ......
DeepSeek将尽快推出R2人工智能模型 机构看好AI应用加速爆发
据媒体报道,消息人士称,DeepSeek正在加速推出其R2人工智能模型,其最初计划在五月推出,但目前正在努力尽快推出。DeepSeek本地化部署持续扩容,在多个领域实现规模化应用。上海证券认为,凭借DeepSeek高效能、低成本的开源特性,其将为各行各业带来技术升级和效率提升 ......
DeepSeek推升AI芯片需求
◎记者 刘怡鹤“DeepSeek大模型‘低成本+高效能’的特点,表明有限算力也能实现较强的模型能力,有望为国产算力发展带来新机遇。”云计算上市公司优刻得(35.450,1.80,5.35%)董事长季昕华对上海证券报记者说。大模型应用端的门槛降低,将激活推理算力市场;DeepSeek对硬 ......
重庆瞭望丨万物皆可“AI”吗?
你是否也经历过这样的场景:当没有灵感时,会不自觉在AI对话框里敲下“帮忙写一篇关于……的文章”;当遇到难题时,会下意识向AI求助“遇到……该怎么办”;就连发个朋友圈,文案也习惯性地请AI润色打磨。从生活琐事到职场问题,从学业困惑到情感烦恼,“遇事不决,先问 ......
AI大模型发展路径之争将带来哪些巨变
一边是“大力出奇迹”,一边则瞄准“四两拨千斤”,2025年,AI大模型“下半场”有了新打法:路径分化,拥抱开源。“一方面,部分国家为保持在AI领域的领先优势,会不断地‘卷算力’‘卷数据’‘拼规模’;另一方面,我国的AI发展路径已经逐渐明显,在持续推进算力基础设 ......
中国AI“低成本+高性能+开源”重塑全球科技格局
中新经纬2月24日电 (孙庆阳)“随着中国人工智能发展潜力的不断释放,像DeepSeek这样的成果将不断涌现,国内人工智能企业在吸引全球资本方面将面临新的机遇。”23日,在“DeepSeek中国人工智能、跳跃式发展与全球2050目标”主题研讨会上,中国人民大学重阳金融研究院院长 ......
DeepSeek发布开源第一弹!让大模型在GPU上跑得更快
2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能。”DeepSeek说。简单来 ......
DeepSeek爆火:AI赛道的一次“非典型突围”
文 | 数字品牌榜互联网是“健忘”的。一般情况下,人们短暂地围观某个事件后短到十几分钟,长也不过三五天,很快就会投入到新的热点里。当然,也有极少数事件能打破这种遗忘惯性,作为“集体记忆”的一部分,活跃在大众视野。比如开年以来,一跃成为“顶流”的《哪吒2》 ......
效率跃升1.71倍,字节再降MoE训练成本,为何AI玩家接连开源最新技术?
每经记者:杨昕怡每经编辑:余婷婷训练大模型的成本之高一直是行业痛点,各路玩家都在思考如何用技术创新把成本“打”下来。3月10日,字节跳动豆包大模型团队发布了针对MoE(混合专家模型)架构的通信优化系统COMET,该方案通过细粒度计算-通信重叠技术,助力大模型训练 ......
美媒:中国人工智能突破标志着全球科技创新进入新阶段
来源:海外网海外网3月7日电 美国《外交学者》杂志网站近日刊文表示,中国深度求索(DeepSeek)推出的开源大模型R1,在国内外获得了广泛关注,标志着全球科技创新进入新阶段。作为全球首个实现高性能与全开源深度融合的AI模型,R1大模型已被国内外数十个技术平台接入应 ......