Ag真人国际

Ag真人国际新闻资讯

2025-01-28 17:32:33

中国人工智能产业几乎赶上了美国ag真人国际中国官方网站,

分享到:

  2024年9月,美国公司OpenAI发布了全球首个“推理模型”o1。这是一种先进的人工智能形式,运用“思维链”方法解答科学和数学难题:它将问题分解成多个步骤,在后台测试不同解决方案,最后向用户呈现结论。o1的成功迅速引发了技术竞争:12月,谷歌推出了“Gemini Flash Thinking”推理模型,而OpenAI随后发布了o1的升级版o3。

  然而,资源雄厚的谷歌并非首个跟进者。在o1发布后不到三个月,中国电商巨头阿里巴巴就为其问答机器人Qwen推出了新版本QwQ,具备同样的推理能力。阿里巴巴在一篇精心撰写的博客中提出“思考、质疑、理解意味着什么?”并附上了该模型的免费版本链接。另一家中国企业DeepSeek(深度求索)紧随其后,推出了名为R1的推理模型预览版。尽管美国政府试图遏制中国人工智能产业的发展,这两家中国公司却将与美国同行的技术差距缩短到了短短几周。

  中国公司的领先地位不仅体现在推理模型上。12月,DeepSeek发布了一款新的大型语言模型(LLM)。这个名为v3的AI文本分析与生成模型体积接近700GB,需要专用硬件才能运行,拥有6850亿个参数。这使其成为目前可免费下载的最大规模模型。相比之下,Meta在7月发布的旗舰LLM Llama 3.1仅有4050亿个参数。

  DeepSeek的LLM不仅规模更大,性能也更优越,几乎可与谷歌和OpenAI的专有模型媲美。AI编码平台Aider创始人保罗·戈蒂耶对该模型进行编码基准测试,发现它的表现仅次于o1,超越了所有其他竞争对手。在聊天机器人排名网站Lmsys的评测中,v3位列第七,不仅领先所有开源模型,还是除谷歌和OpenAI之外排名最高的商业模型(见图表)。

  中国人工智能的质量如今已接近其美国竞争对手,以至于OpenAI的首席执行官萨姆·阿尔特曼不得不对此作出回应。在DeepSeek发布v3后不久,他在X上愤然写道:“复制已知有效的技术(相对)容易。但在不确定成功与否的情况下ag真人国际中国官方网站,,去做新颖、冒险且困难的事情,才是真正的挑战。”

  中国人工智能产业最初显得平平无奇,部分原因是美国的制裁。2022年,美国禁止向中国出口先进芯片。英伟达不得不为中国市场专门设计降级版产品。美国还试图阻止中国发展国内顶级芯片制造能力,不仅禁止出口必要设备,还威胁要对可能提供协助的非美国公司处以罚款。

  国内因素构成了另一道障碍。出于监管顾虑,中国公司较晚进入LLM领域。他们担心审查机构对可能“胡言乱语”、提供错误信息,甚至发表政治敏感言论的模型会作何反应。搜索巨头百度虽然多年来一直在内部开发LLM,并创造了“文心一言”模型,但对其发布一直犹豫不决。即便在ChatGPT的成功促使百度重新考虑后,最初也仅向受邀用户开放文心一言的访问权限。

  转机出现在促进人工智能产业发展的法规发布之后。虽然这些法规要求模型开发商注重健康内容并坚持正确的价值观,但也承诺“鼓励生成式人工智能的创新发展”。据新闻网站TechTechChina的编辑Vivian Toh表示,中国正寻求在全球范围内展开竞争。阿里巴巴率先适应这一宽松环境,推出了自己的LLM,最初名为通义千问,后来简称为“Qwen”。

  在最初一年里,阿里巴巴的产品乏善可陈:仅是基于Meta开源LLM Llama的一个普通“分支”。但到了2024年,随着Qwen的持续迭代,其质量开始显著提升。西方人工智能实验室Anthropic的杰克·克拉克在阿里巴巴发布支持图像和文本分析的Qwen新版本时评价道:“这些模型似乎已能与西方顶尖实验室开发的强大模型相抗衡。”

  腾讯和华为等其他中国互联网巨头也在开发自己的模型。但DeepSeek的发展轨迹独树一帜。在阿里巴巴发布首个Qwen模型时,DeepSeek尚未成立。它源于高榕资本,一家成立于2015年的对冲基金,最初目标是利用人工智能优化股票交易。这些基础研究助力高榕资本成为中国最大的量化基金之一。

  高榕资本创始人梁文锋强调,其动机并非纯粹商业导向。他注意到OpenAI最初的支持者并非追求回报,而是“践行使命”。2023年,就在Qwen发布的同月,高榕资本宣布加入打造人类级别人工智能的竞赛,并将其人工智能研究部门分拆为DeepSeek。

  DeepSeek效仿OpenAI,承诺将人工智能用于公共利益。梁文锋表示,公司将公开大部分训练成果,以防止该技术被少数个人或企业“垄断”。与不得不寻求私人资金支付日益增长的训练成本的OpenAI不同,DeepSeek得益于高榕资本提供的充足计算资源。

  DeepSeek的LLM不仅规模庞大,训练效率更是令人瞩目。剑桥大学的尼克·莱恩指出,这种成功并非源于单一重大突破,而是来自一系列细微改进。例如,训练过程在适当时使用数字四舍五入以简化计算,但在关键时刻保持精确度。公司还对服务器集群进行了重新配置,优化了芯片间的通信效率。模型训练完成后,还通过DeepSeekR1(推理系统)的输出进行微调,以更低成本实现相似的性能。

  这些创新使得v3模型的训练成本大幅降低:生成数十亿参数仅需不到300万芯片小时,估计费用低于600万美元——仅为Llama 3.1计算成本的十分之一。v3仅需2000个芯片就能完成训练,而Llama 3.1则需要16000个。值得注意的是,即使在美国制裁下无法使用最先进的芯片,DeepSeek仍取得了这一成就。

  与此形成鲜明对比的是,西方公司似乎愈发奢侈:Meta计划建造一个配备35万个芯片的服务器集群。特斯拉前人工智能主管Andrej Karpathy形象地比喻道,DeepSeek就像姜·罗杰斯(Ginger Rogers)穿着高跟鞋倒着跳舞一样,让训练顶尖模型“看似轻而易举”,而且“预算极其有限”。

  这个模型不仅训练成本低,运营成本也更具优势。DeepSeek采用了更高效的任务分配方式,在一个步骤完成前就开始执行下一个步骤,使芯片始终保持满负荷运转,减少资源浪费。因此,当DeepSeek在2月份开放v3服务时,其收费仅为Anthropic旗下Claude使用费用的十分之一。人工智能专家西蒙·威利森评论说:“如果这些模型质量相当,这将在持续的LLM价格战中掀起一场戏剧性变革。”

  DeepSeek在效率方面的追求从未停止。本周,在完整发布R1的同时,公司还推出了一系列更小巧、更经济、更快速的“蒸馏”版本,其性能几乎可与完整模型媲美。这一举措效仿了阿里巴巴和Meta的类似做法,再次证明了DeepSeek有能力与行业巨头展开竞争。

  阿里巴巴和DeepSeek以独特方式挑战着西方顶尖实验室。与OpenAI和谷歌不同,这些中国实验室选择效仿Meta,采用开源许可方式提供系统。任何人都能免费下载Qwen AI并基于它开发程序。这种开放态度贯穿始终:两家公司在发布新模型时都会公开详细的技术论文,透明地展示其性能提升方法。

  阿里巴巴发布QwQ时,成为全球首个以开源许可发布此类模型的公司。用户可以下载完整的20GB文件在自己的系统上运行,也可以深入研究其运作机制。这与对o1内部工作原理讳莫如深的OpenAI形成鲜明对比。

  这两种模型都采用了“测试时计算”方法:不仅在训练阶段集中使用计算资源,回答问题时也比早期LLM投入更多算力。这体现了心理学家丹尼尔·卡尼曼所说的“第二类”思维的数字化,比起快速直觉的“第一类”思维,它更缓慢、更谨慎、更具分析性。这种方法在数学和编程等领域已取得显著成效。

  面对简单的客观问题时,人们能立即给出正确答案,例如:法国的首都是什么?传统聊天机器人也是如此,当语言统计模型指向明确答案时,它会直接作答。

  但在处理更复杂的问题时,人们会采用更有条理的思考方式。比如,要说出法国第五大城市,您可能会先列出主要城市清单,按人口排序后得出答案。

  o1及其追随者的高明之处在于引导大语言模型进行类似的结构化思考:系统不会简单地给出最可能的答案,而是将问题分解,循序渐进地寻找解决方案。

  但o1选择隐藏其思考过程,仅向用户展示总结和最终结论。OpenAI为此提供了几个解释:比如,模型在推理时可能会Ag真人国际,考虑使用某些冒犯性词汇或危险信息,最终决定不采用。若公开完整推理过程,这些敏感内容就会被暴露。然而,这种谨慎也让其实际推理机制成为潜在模仿者的障碍。

  相比之下,阿里巴巴采取Ag真人国际,了开放态度。当QwQ解决复杂数学问题时,它会详细展示每一步推理过程,有时在尝试不同方法时会产生数千字的自我分析。“我需要找到20198+1的最小奇质数因子。这个数很大,但我可以逐步分解它”——模型这样开始思考,最终通过2000字的分析得出正确答案97。

  为程序员开发AI工具的葡萄牙公司Poolside的联合创始人艾索·坎特认为,阿里巴巴的开放策略别具深意。他指出,中国实验室正在全球范围内竞争优秀人才。“对考虑移居海外的研究人员来说,西方实验室唯一无法提供的是什么?我们已经不能公开研究成果了。竞争迫使我们对一切保密。”坎特表示,即使中国公司的工程师不是首个发现某项技术的,他们往往是首个公开发表的。

  “如果想了解最新技术动态,关注中国的开源研究人员就对了。他们会详尽发布所有内容,而且做得极其出色。”莱恩指出,v3发布论文署名了139位作者,这种认可比在美国实验室默默工作更具吸引力。

  美国政府限制先进技术流向中国的政策使在美中国研究人员的处境日益艰难。这不仅源于保护创新机密的新法规带来的行政负担,更因为普遍存在的猜疑氛围。甚至在社交场合,间谍指控也时有发生。

  中国的模型也存在局限。以DeepSeekv3为例,当被询问关于南海问题时,模型最初会解释它是一个位于东亚的岛屿。但在简短叙述后,模型会删除初始回答,转而建议:“让我们谈谈其他事情吧。”

  中国实验室十分透明,部分原因在于它们致力于打造以人工智能为核心的企业生态系统。这种策略具有商业价值,基于开源模型开发的企业最终可能会选择购买创建者的产品或服务。同时,这也为中国带来战略优势,因为在中美人工智能角力中,这种做法帮助赢得了盟友。

  中国企业倾向于采用本土模型,这样可以避免新的禁令或限制切断与底层平台的连接。他们也清楚,相比西方模型,本土模型更容易符合中国的监管与审核要求。上海科技投资者弗朗西斯·杨指出,对苹果和三星等希望在中国销售设备中植入AI工具的公司而言,本土合作伙伴不可或缺。海外公司选择中国模型也有其独特优势:Qwen专门强化了乌尔都语和孟加拉语等“小语种”能力,而美国模型主要专注于英语数据。更重要的是ag真人国际中国官方网站,,中国模型的运营成本显著更低。

  然而,这并不意味着中国模型将主导全球市场。美国的人工智能仍具有中国竞争对手尚未企及的能力。谷歌正在研究让Gemini聊天机器人操控用户的网络浏览器,推进了AI“代理”与网络交互的可能性。Anthropic和OpenAI的聊天机器人不仅能协助编程,还能执行代码。Claude更可以构建和托管完整应用。逐步推理并非解决复杂问题的唯一途径,向传统版ChatGPT提出同样的数学问题,它会直接编写程序求解。

  阿尔特曼表示,更多创新即将面世。他预计不久将宣布OpenAI开发出了一个“博士级超级代理”,其各项智力任务能力可与人类专家媲美。这种竞争态势很可能推动美国人工智能取得更大突破。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  被国产大模型DeepSeek超越,ChatGPT表示:排名变化也许是暂时的

  我问DeepSeek“普通人过年如何挣10万”,它的回答简直是一言难尽

  DeepSeek除夕炸场!开源多模态模型发布,仅128颗A100训练,英伟达市值减4.3万亿|钛媒体AGI

  《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

上一篇:ag真人国际中国官方网站,光启科学(00439HK)1月28日收盘下跌284%成交2669万港元
下一篇:ag真人国际中国官方网站,2024全球科技十大新闻:量子计算与人形机器人引领创新浪潮