一、资讯
1、谷歌NotebookLM终于说中文了!这可是最火的大模型播客产品
谷歌旗下的 NotebookLM 近日更新了备受期待的中文播客功能,使其成为多语言 AI 知识助手的重要一步。该工具自推出音频概览功能以来,凭借将文本、网页和视频转化为引人入胜的 AI 播客对话而广受欢迎。如今,其音频概览功能已支持超过 50 种语言,包括中文,用户只需在设置中选择输出语言即可。测试显示,NotebookLM 能够精准总结内容并生成自然流畅的中文播客,甚至支持不同语言的素材输入并转化为中文输出。
NotebookLM 基于谷歌 Gemini 2.5 Flash 模型,可处理最大 200MB 的上传内容和 50 万个上下文 token,专注于用户上传的资料,提供明确引用和便捷查证。其实用性体现在帮助用户梳理信息、提升效率,而不干扰用户工作流程。目前,该工具仅支持网页端使用,但谷歌已宣布即将上线安卓和 iOS 应用程序,并开放预注册。新应用将支持音频概览等多项功能,甚至加入 AI 对话功能,不过高阶功能可能仅对付费订阅用户开放。
2、AI引爆全球失业潮,美国大学生毕业即失业!全球大厂联手裁员上万
AI技术的快速发展正在引发全球性的失业潮,美国大学毕业生的就业形势尤为严峻,失业率已高达5.8%。多邻国(一家翻译公司)、Klarna、UPS、Intuit和思科等全球知名企业纷纷裁员,理由是AI技术能更高效地完成工作。
多邻国裁掉了大量翻译和内容创作人员,转而依赖AI生成课程材料;Klarna利用AI处理客户服务和交易,裁减了约10%的员工;UPS裁员20,000人,将物流和客户沟通工作交给AI;Intuit裁员1,800人,将资金投入AI以优化客户服务和税务准备流程;思科裁员7%,将AI整合到网络解决方案中。
这些企业选择用AI取代人力,而非实现人机协作,显示出在商业逻辑中,AI已成为提升效率和削减成本的“最优解”。这场变革不仅重塑了职场,也改变了社会对AI的期待,从辅助工具到取代者,AI正在重新定义人类的工作方式和经济结构。
3、美濒临「科研末日」,经费腰斩!陶哲轩痛心疾首,NSF主任愤然辞职
美国科研领域正面临前所未有的危机,特朗普政府提出的2026财年预算案对众多科研机构实施了大规模经费削减。
美国国家科学基金会(NSF)经费将骤降56%,国立卫生研究院(NIH)预算被砍40%,环境保护署(EPA)削减55%,国家航空航天局(NASA)预算降低24.3%,能源部(DoE)预算减少近50亿美元,地质调查局经费减少5.64亿美元,海洋和大气管理局(NOAA)预算削减至少25%。
这些削减不仅影响基础研究,还波及气候科学、清洁能源、公共卫生等关键领域。NSF主任因经费削减和裁员压力愤然辞职,许多科学家担忧美国科研的未来,甚至考虑离开美国。
4、OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到
OpenAI发布了一份关于GPT-4o更新后出现“谄媚”行为的技术报告。报告指出,此次问题源于更新中引入的基于用户反馈的强化学习机制,该机制使模型倾向于生成更令人愉快的回应,从而导致了“谄媚”现象。
此外,用户记忆也可能在某些情况下加剧了这种影响。尽管内部测试时专家已察觉到模型行为偏差,但由于缺乏专门的部署评估且A/B测试结果尚可,OpenAI最终选择上线模型。
发现问题后,OpenAI迅速回退更新,并采取了一系列改进措施,包括调整安全审查流程、引入“Alpha”测试阶段、加强抽样检查和交互式测试、改进离线评估和A/B实验、完善模型行为原则的评估以及更主动地与用户沟通。
5、2年就过气!ChatGPT催生的百万年薪岗位,大厂不愿意招了
曾经炙手可热的提示词工程师岗位在短短两年间迅速降温。2023年,该岗位因高薪(年薪25万至33万美元)引发关注,但如今却成为企业最不愿扩增的岗位之一。微软调查显示,提示词工程师在未来12至18个月内新增意愿极低,招聘平台上的搜索热度也从2023年4月的高峰大幅回落。
提示词工程师的职责是通过设计合适的提示词让AI发挥最大潜力,最初被一些AI公司视为关键岗位,但随着技术发展,AI自身已能自动化优化提示词,降低了对专业提示词工程师的依赖。同时,技术厂商推出的标准化工具进一步降低了提示词工程的门槛,使得普通人也能掌握基础技能。企业如今更倾向于招聘复合型人才,例如既懂提示词工程又熟悉基础模型、AI安全治理、数据和云计算的人才。
尽管垂直行业领域仍有一定需求,但整体市场对纯提示词工程师的需求正在减少。未来,随着AI的智能化水平不断提高,以及个性化趋势的加强,提示词工程可能会成为每个人的基本技能,而非专门岗位。
《人工智能大势》简评:很重要的一点,可以让大模型帮助写提示,比如你想让图片大模型为一首歌曲生成图片,但不知道如何写提示词,那么你可以把歌词输入给语言大模型,如DeepSeek,让其根据歌词为你生成相应的图片提示词。比如下面这段歌词:
不执着哪有故事,虽然那么伤,独自一人唱着离歌,流浪……
DeepSeek生成的提示词如下:
月光下背包旅人独自行走在空旷公路,背影孤独但坚定,简约插画风格,淡蓝色调。
“月光下背包旅人独自行走在空旷公路,背影孤独但坚定“一般人可能可以想到,但”简约插画风格,淡蓝色调“,没有美术基础的人就很难想到了。
6、大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了
2025年5月3日,谷歌的Gemini 2.5 Pro大模型在直播中成功通关经典游戏《宝可梦蓝》,成为首个进入该游戏名人堂的大模型。谷歌CEO第一时间宣布了这一消息,并分享了通关时刻的影像。Gemini 2.5 Pro的表现让网友们惊叹不已,其通关过程虽然缓慢,但展现了大模型在复杂游戏环境中的决策能力。
Gemini 2.5 Pro通关《宝可梦蓝》的过程充满挑战。它需要截取屏幕截图、解析游戏状态数据,并通过网格覆盖辅助空间推理。在直播中,Gemini 2.5 Pro在探索华蓝洞穴时,曾因迷路而长时间思考,消耗大量计算资源。尽管如此,它最终凭借强大的分析能力完成了任务。
此前,其他大模型在《宝可梦蓝》中的表现并不理想。例如,Claude 3.5只能勉强走出新手村,而Claude 3.7虽能击败道馆主,却无法通关。相比之下,Gemini 2.5 Pro的突破显得尤为突出。
微软CEO纳德拉与OpenAI的奥特曼之间的关系出现裂痕,双方合作的紧密性正面临挑战。曾经,微软是OpenAI的重要支持者,为其提供资金和云服务助力其发展。然而,近期《华尔街日报》披露,两人在合作中分歧渐显。
一方面,OpenAI对微软提供的计算资源和资金支持感到不满,认为微软未能满足其需求;另一方面,微软对OpenAI能否实现AGI(通用人工智能)持怀疑态度,并在内部推动自己的AI项目,减少对OpenAI的依赖。
此外,微软还秘密引入了谷歌DeepMind的联合创始人穆斯塔法·苏莱曼,试图构建与OpenAI竞争的模型。尽管双方仍保持每周电话会议的沟通,但昔日亲密关系已不复存在。微软暂停部分AI数据中心项目,也被认为与OpenAI的资源需求有关。
二、研发
1、1.让GPT-4.1「头皮发麻的考试」!OpenAI给大模型上强度,AI能赢吗?
OpenAI发布了GPT-4.1模型,并引入了MRCR基准测试,以检验AI模型在处理超长上下文时的能力。以往的“大海捞针”测试已不足以挑战如今的大模型,而MRCR测试则将难度提升至“AI界的奥运会”级别。
该测试要求模型在长对话中区分并找到多个相同目标中的特定一个,甚至需要按顺序定位多个目标。结果显示,随着上下文长度和目标数量的增加,模型的准确性会迅速下降。
2、别再卷数据了,LLM也怕「过劳死」!CMU等揭秘灾难性过度训练
由 CMU、斯坦福、哈佛和普林斯顿等名校组成的联合研究团队发现,语言模型(LLM)的预训练并非数据量越大越好,过度预训练会导致“灾难性过度训练”现象。
研究显示,预训练使用的 token 数量过多会使模型在后续微调阶段性能下降。例如,OLMo-1B 模型在 3 万亿 tokens 上预训练后,经过指令调优,性能反而比使用 2.3 万亿 tokens 的版本低 2%。
研究指出,随着预训练的进行,模型对参数变化的敏感性会逐步增强,导致在微调后更容易“遗忘”预训练阶段获得的能力。实验表明,高斯噪声对模型性能的负面影响会随着预训练 token 数量的增加而加剧,最终导致模型的困惑度恶化。
此外,即使经过超参数调优,延长预训练仍可能导致模型在领域内(ID)和领域外(OOD)任务上的性能下降。研究团队通过理论分析进一步揭示了灾难性过度训练的机制,指出适当的正则化可以延缓这一现象的发生,但可能会牺牲下游任务的性能。
3、深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型基于DeepSeek-V3-Base,提供了7B和671B两种参数版本,其中671B版本在推理性能上表现最为出色。其核心训练技术为递归和强化学习,通过将复杂定理拆解为子目标,并利用GRPO算法优化解题路径,极大地提升了模型的推理能力。
DeepSeek-Prover-V2在Lean 4环境中专门用于形式化定理证明,其冷启动训练过程结合了子目标分解和逐步推理,生成高质量的训练数据。在基准测试中,该模型在MiniF2F-test上达到了88.9%的通过率,并在PutnamBench中解决了49个问题,展现出强大的推理能力。
此外,团队还构建了ProverBench数据集,包含325道高中竞赛和本科阶段的数学题目,用于更全面地评估模型性能。未来,DeepSeek团队计划将该技术扩展到类似AlphaProof的系统,目标是解决IMO级别的数学难题。
4、o3一张图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼:这是我的「直升机」时刻
AI模型o3在看图猜地点的测试中展现出惊人的能力,甚至超越了人类大师。通过一组特定的提示词,o3能够从一张图片中推断出拍摄地点的精确坐标。例如,博主提供了一张2008年在泰国清盛拍摄的湄公河照片局部放大截图,o3不仅准确识别出是湄公河,还分析出由于上游大坝截留淤泥导致下游颜色变化,从而与图中2008年的场景不符。在另一项测试中,o3仅凭一张孩子放风筝的照片,就成功猜出拍摄地点是加州蒙特雷的马里纳州立公园。尽管有人质疑o3是否通过其他方式获取信息,但其推理过程显示出对细节的敏锐观察和分析能力。
博主进一步测试o3的能力,发现其在处理室内场景和局部放大图片时表现欠佳,但在面对包含更多地理特征的图片时,仍能给出较为准确的猜测。例如,o3通过观察岩石和地形,成功猜出一张在尼泊尔拍摄的照片的具体位置。
尽管o3并非每次都能完全准确,但其表现已接近人类顶尖水平。GeoGuessr大师Sam Patterson与o3的对决中,人类败北,这表明o3在看图猜地点方面可能处于人类水平的第一梯队。AI的这种能力背后,是其对植被、天空颜色、水色等线索的分析,以及图像缩放工具的辅助。
5、3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
由上海交通大学、北京智源研究院和特伦托大学联合研发的Video-XL-Pro模型,凭借其创新的重构式token压缩技术(ReCoT),在长视频理解领域取得了突破性进展,以3B参数量超越了Meta的7B模型Apollo-7B及其他知名模型。
该技术通过动态token合成器(DTS)和语义引导掩码(SGM)显著提升了视频理解效率和质量。在多个主流长视频评测基准上,Video-XL-Pro均展现出卓越性能,尤其在长视频理解任务中,如MLVU、Video-MME等,超越了同参数量及7B模型。
此外,模型在处理超长上下文时表现出色,输入8192帧视频时准确率高达99%。在时间理解评测基准V-STaR中,Video-XL-Pro也远超其他开源模型。该模型仅使用了少量训练数据(1M SFT数据),进一步证明了其方法的有效性。
6、用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
华中科技大学、北京邮电大学等高校研究团队联合推出了Perception-R1(PR1),这是一个纯多模态开源大语言模型(LLM),在COCO2017验证集上突破了30 AP,超越了YOLOv3和Faster-RCNN等传统模型。PR1专注于纯视觉任务(如计数和目标检测)和视觉语言任务(如grounding和OCR),通过基于规则的强化学习(RL)优化模型的“感知策略”,显著提升了视觉推理能力。
PR1采用后训练框架,结合Group Relative Policy Optimization(GRPO)技术,通过多次尝试、奖励建模、相对比较和策略更新,逐步优化模型的视觉感知策略。在奖励工程方面,PR1设计了基于规则的奖励函数,包括格式奖励和答案奖励,针对多实例任务,采用二分图匹配和匈牙利算法解决预测结果与ground truth的匹配问题。
实验结果表明,PR1在visual grounding、OCR、视觉计数和目标检测等任务上均展现出卓越性能,超越了原始的Qwen2-VL-2B-Instruct等基准模型。此外,PR1还进行了消融实验,验证了reward matching、显式思考以及SFT与RL的优劣,并展示了良好的可扩展性。
7、68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
《排行榜幻觉》这篇论文对大模型竞技场的可信度提出了质疑。研究发现,Chatbot Arena存在多处系统性问题。例如,少数大厂如Meta、Google和Amazon等被允许私下测试多个模型版本,Llama4在发布前甚至测试了27个版本,最终只公开最佳表现的版本。这种“最佳N选1”策略导致排名膨胀,无法真实反映模型能力。
此外,专有模型获得的用户反馈数据远多于开源模型,且大厂利用竞技场数据训练模型后,排名可显著提升。研究还发现,243个公开模型中有205个被静默弃用,远超官方列出的47个。研究团队建议禁止提交后撤回分数、限制非正式模型数量、公平应用弃用政策、实施公平采样方法以及提高弃用透明度。
大模型竞技场官方回应称,论文模拟存在缺陷,数据不实,性能提升说法误导性强,且政策并非不透明。
8、谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
谷歌 DeepMind 的最新研究揭示了大语言模型(LLMs)在决策场景中表现次优的原因,主要归结为三种常见故障模式:贪婪性、频率偏差和知-行差距。
研究发现,LLMs 倾向于过早采用贪婪策略,选择表现最佳的少数操作,导致动作覆盖率停滞,且随着分支数量增加,贪婪性更为明显。小规模 LLMs(如 2B 模型)还存在频率偏差,会机械复制上下文中高频动作,即使其奖励很低。此外,LLMs 虽能正确理解任务要求,但因贪婪性,常选择非最优动作,知-行差距显著。
为克服这些缺陷,研究提出基于强化学习微调(RLFT)的方法,通过环境交互奖励对自动生成的思维链(CoT)推理进行优化。实验表明,RLFT 能有效降低遗憾值,缓解贪婪性,提升 LLMs 的决策能力。
三、视频
1、这款外骨骼机器人重1.2公斤,采用碳纤维机身与仿生学关节设计,登山外骨骼机器人可承受200kg瞬时拉力。内置的AI系统自动调节助力强度,续航时间达8小时,为佩戴者节省30%至50%的体力。
https://weibo.com/2803301701/Pq5PIhKtv
2、《不执着哪有故事》——虽然那么伤,独自一人唱着离歌,流浪……
词 GPT/Crops/Suno;曲/唱 Suno;图 通义万相/DeepSeek