分类: AGI

通过WPeMatico自动添加.

  • 多模态:AI从理解世界到改造世界的关键跃迁

    多模态技术正在重塑AI的未来,从语音助手到自动驾驶,它让机器真正‘看懂’世界。2024年中国多模态市场规模已突破百亿,全球增速惊人。本文将深度剖析多模态技术如何突破单一信息维度,实现视听触嗅的融合处理,并揭示其在医疗、工业、智能家居等领域的颠覆性应用。从技术架构到商业落地,带你全面把握这场AI革命的底层逻辑与未来机遇。

    当你用语音向智能助手下达指令,它能同时识别语义、分析语气,并结合你的历史回答数据给出精准回应;当输入文字描述图片时,AI瞬间生成相应的图片;当你驾驶车辆开启自动驾驶模式的时候,车辆同步处理摄像头画面、雷达数据和交通音频信号,即便在复杂路况之下,依然能够处理,这便是多模态技术的厉害之处。

    在AI从弱智能迈向通用智能的进程中,多模态已经突破单一获取信息维度的方式,从多个方面实现了获取信息。对于产品人而言,理解多模态的技术边界、应用场景与发展趋势,更是十分关键。本文将从发展现状、行业共识、应用落地、利弊分析、核心类型、社会价值及未来趋势七大维度,全面解析多模态技术的商业价值与产业影响。

    发展现状:从技术突破到规模化落地的关键拐点

    当前,多模态技术正处于“技术成熟度加速提升、产业应用全面渗透”的关键阶段。从市场规模来看,2024年中国多模态大模型市场规模已达138.5亿元,同比增长67.3%,2025年预计攀升至236.8亿元;全球市场规模更是有望突破4200亿元人民币,中国以35%的占比成为全球第二大单体市场。

    在技术层面上,正在推动AI从“语言学习”迈入“多模态世界学习”阶段。。早期多模态模型多采用“组合式架构”,通过独立模块处理不同模态信息再进行融合,存在信息损耗、逻辑断裂等问题,例如Llama 3在“图文+语音”跨模态任务中逻辑断裂率高达28%。而当前随着多模态技术的发展,通过采用单一Transformer架构便能实现多模态理解与生成的原生统一,将逻辑断裂率降至9%以下,通过引入790年时长的长视频数据,让模型具备学习物理规律、因果逻辑的能力,让模型理解世界的能力更强。

    行业共识:多模态是通用AI与智能体的核心基座

    无论是科技企业还是学术专家,均已形成共识:多模态是AI迈向通用人工智能(AGI)的必经之路,更是构建智能体的核心技术基座。但不同的企业和个人,由于自身定位不一样,对多模态的发展方向形成了差异化但互补的认知。

    在学术领域上,北京智源人工智能研究院院长王仲远提出,2025年后第三代Scaling范式的关键在多模态,多模态世界模型是推动机器人从1.0专用时代进入2.0通用具身智能时代的核心动力,而当前具身智能仍面临“不好用、不通用、不易用”的三大挑战,需通过多模态技术突破数据瓶颈与架构割裂问题。

    企业层面,科技巨头纷纷将多模态作为战略核心。高通AI产品技术中国区负责人万卫星认为,终端侧正从单一文字模态向全模态演进,这是迈向智能体AI的基础,高通通过量化压缩、异构计算等技术突破,已实现终端侧8K-16K上下文的多模态模型部署。Google Cloud则通过推动A2A协议,实现不同智能体间的多模态信息安全互通,催生新商业模式。

    产业应用端,中关村科金总裁喻友平指出,多模态驱动的智能体是“超级连接器”,实现人与数据、知识的深度连接,企业落地需聚焦场景选择、数据整理与模型构建三大环节,通过“大模型平台+AI能力平台+AI数据平台”的协同支撑,实现营销服务、办公运营等环节的质效双升。

    核心定义:多模态的构成与具体类型

    多模态的核心定义:多模态是指机器同时处理、理解与生成两种及以上信息模态的能力,这些模态涵盖人类感知世界的多种方式,以及机器特有的数据形态。

    从构成维度来看,主要是包括类似与人类的五官感受,当前已经实现的视听嗅觉,如文本(文字、文档)、视觉(图片、视频、图像)、听觉(语音、音频、环境音)、触觉(压力、温度);二是“机器采集的结构化模态”,如传感器数据、定位数据、设备运行参数;三是“衍生模态”,如情绪标签、行为轨迹、知识图谱等经过加工处理的信息。

    当前主流的多模态类型可按应用场景分为六大类:

    1. 图文模态:最成熟的应用类型,实现文本与图片相互转换,如文生图、图生文、图文检索,比如设计师根据表述生成相应的素材以及电商方面的图文等方面。文生图、图文检索,如Midjourney、淘宝“拍图搜款”功能,日均处理检索请求超10亿次。
    2. 音视频模态:涵盖语音转文字、文字转语音、视频摘要生成,广泛应用于智能客服、会议记录、短视频创作。语音转文字、视频摘要,如讯飞听见会议系统,实时生成多语言字幕与会议纪要,准确率超98%
    3. 跨模态检索:打破模态壁垒的信息检索,如通过文字描述检索视频片段、通过图片查找相关音频,提升信息获取效率。
    4. 多模态生成:同时生成多种模态内容,如输入文字指令生成“图文+音频”的营销素材、生成带字幕的讲解视频,极大的方面了内容创作领域的相关人员。如Canva可画,输入文字指令生成含图文、音频的营销短视频,中小企业使用后创作效率提升8倍。
    5. 具身多模态:融合视觉、听觉、触觉与传感器数据,为机器人提供环境感知能力,能够具备抓取、导航等能力,是具身智能的核心大脑。如科沃斯扫地机器人,融合视觉避障与触觉感知,复杂环境清扫覆盖率提升至98%。
    6. 多模态决策:整合多维度数据进行逻辑推理与决策,如自动驾驶结合摄像头、激光雷达与音频数据判断行驶策略等,帮助用户进行总结推理,做出最优选择。如滴滴自动驾驶,整合路况图像、雷达数据与交通音频,危险场景响应速度较人类快0.8秒。

    AI训练师:多模态技术落地的核心赋能者

    在多模态技术从实验室走向实际应用的过程中,AI训练师扮演着“技术翻译官”与“能力打磨师”的关键角色。AI训练师的核心职责是通过数据处理、模型调优、Prompt设计等工作,让多模态模型更好地适配实际需求。由于多模态训练的复杂性,可能需要AI训练师具备跨领域的综合能力。

    从岗位价值来看,AI训练师是解决多模态技术落地痛点的核心力量。面对多模态训练中高质量标注数据稀缺、模态间语义对齐困难、模型泛化能力不足等问题,AI训练师通过建立具体详细的需求规则文档,对数据精细化处理,量身定制训练策略,提升模型性能——例如智能客服场景中,通过优化语音、文本、图像的跨模态训练数据,可降低模型交互误解率30%以上。

    1. 多模态训练的核心方向

    当前AI训练师的多模态训练工作主要聚焦四大核心方向,覆盖数据、架构、策略、应用全链路:

    1. 多模态数据治理与标注优化:这是训练的基础环节,核心目标是提升数据质量与标注效率。一方面,AI训练师需要根据需求方的要求,建立并丰富项目需求规则文档,构建多模态数据清洗标准,处理文本模糊、图像噪声、音频干扰等问题,同时实现不同模态数据的视频与音频对齐、文本描述与图像内容匹配等;另一方面,借助多模型实现对整个数据标注过程中的提效,借助大语言模型的推理能力与小模型的精细标注能力,提高标注效率,减低成本,让项目提前完成交付。
    2. 跨模态特征融合策略打磨:针对不同模态数据的差异化,AI训练师需根据任务需求制定不同的规则需求文档。训练师需通过实验对比调整融合权重与交互逻辑——例如在视觉问答任务中,通过优化跨模态注意力机制,让模型更精准地关联图像细节与文本问题;在多模态生成任务中,通过调整文本与视觉特征的关键点,提升生成内容的一致性。
    3. 自演进训练框架构建与优化:通过强化学习,训练reward模型,让模型自己训练解决高质量多模态推理数据稀缺的问题。AI训练师通过参与设计训练方法、奖励模型与提示词变异策略,让模型迭代学习自身输出结果,持续提升推理能力。对于训练过程中出现的性能饱和问题,通过建立动态平衡机制,缓解探索损失,确保模型性能稳步提升,在数学推理、多模态问答等任务中效果明显。
    4. 垂直场景训练与泛化能力提升:多模态模型在垂直场景下的需求变得更多,AI训练师需结合具体行业需求开展针对性训练。例如在医疗领域,围绕病历文本、医学影像、检查音频等多模态数据,训练模型掌握专业术语对齐与病理特征识别能力;在工业场景,通过融合设备传感器数据与视觉图像,优化模型的故障预判能力;同时,多任务训练等方式,让模型在陌生场景下的泛化性能增强,避免因场景差异导致的性能骤降。

    此外,AI训练师还需具备跨领域知识储备,既要掌握文本、图像、语音等不同模态的基础处理技术,了解Transformer、卷积神经网络等核心架构原理,也要熟悉业务场景的核心需求,才能实现技术与业务的深度适配,成为多模态技术规模化落地的关键桥梁。

    2. 未来趋势:从全模态融合到物理世界交互

    在未来几年之后,多模态技术将会变得更加的统一高效,更贴近物理世界,朝着更智能化的方面变化

    • 原生全模态成为主流:模型实现文本、视觉、听觉、触觉、传感器数据的深度融合,打破模态间的信息壁垒,具备更强大的世界建模与逻辑推理能力
    • 端云协同+轻量化部署:随着高通等企业在量化压缩、异构计算技术上的突破,多模态模型将实现“云端大模型+终端轻模型”的协同架构,终端侧支持更长上下文、更低延迟的多模态交互,个性化与隐私保护能力能够进一步提高。
    • 具身智能加速落地:多模态世界模型将成为具身智能的“大脑”,实现“感知-认知-行动”的端到端闭环,使得家庭类机器人、工业类机器人以及自动驾驶相关的产品功能·都能够得到一个巨大的飞跃,融入我们日常真实的生活和工作场景。
    • 生态化与标准化发展:推动形成“开源模型+垂直场景解决方案”生态格局,普及开源模型的同时,将A2A协议等跨智能体通信标准将逐步完善,实现多模态信息互通。多模态将变得更加协同智慧。

    把握多模态的“产品创新窗口”

    目前多模态技术本质上是AI向人类感知与思考方式的靠拢,类似通过能够模拟人的五官感受,逐步实现AGI。对于产品人来说,既要看到多模态在效率提升、体验优化上看得见得价值,更要注意潜在的市场需求,在催生新兴场景上的隐性潜力。

    未来,成功的智能产品将不再是单一模态的工具,而是能理解、感知、交互的多模态智能体。既能够帮助企业解决垂直场景中面临的困难,更能给个人提供个性化服务。能够了解多模态技术的核心能力并能够实现落地,将成为产品创新的关键。而在技术迭代的同时,兼顾数据安全、伦理规范,让多模态技术真正成为推动社会进步的积极力量。

    本文由 @冒泡泡 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自Unsplash,基于CC0协议

  • 闫俊杰把自己练成了算法

    MiniMax 的崛起不是靠热血故事,而是一套近乎冷酷的“硅基管理哲学”:去情绪化决策、反经验主义用人、多模态长期主义、以及以坐标下降法驱动的组织机制。本文深度拆解这家 AI Native 公司如何用算法思维重构创业逻辑,并揭示中间层管理者在 AGI 时代的生存危机。

    老罗最新一期采访 MiniMax 闫俊杰的播客,四个小时,终于稀稀拉拉听完了。

    听完后,也就没然后了;毕竟信息在脑中过去,犹如刮风一样丝滑,左耳朵进右耳朵出。所以,我又把播客下载下来,转换成文字,死磕了一遍。

    这一遍,让我对闫俊杰的表达,有了新的认识。

    如果说罗永浩代表古典互联网时代对“产品”和“情怀”的追求,那闫俊杰展示了一种全新的、甚至带着一点非人感的物种。

    你看他温吞、佛系,甚至有点迟钝,但在这张毫无攻击性的外表下,藏着一套近乎冷酷的操作系统。

    为什么我要下这个结论?复盘 MiniMax 的三年,我看到的第一个关键词,是「去魅」。

    咱们平时看那些 AI 大佬,要么极客范儿十足,要么满嘴改变世界的精英,但在老罗的直播间里,闫俊杰太“素”了。

    发际线有点高,人有点微胖,甚至在公司里,大家居然管他叫“中登”,意思就是“长相中等登样” 。你可能觉得这人挺逗、挺佛系;但细品他在访谈里说的一个细节,就大有不同了。

    他说为了减肥,去打了司美格鲁肽。打完之后,食欲没了。他的原话是:感觉自己变成了圣人。

    大家听了可能哈哈一笑,觉得是幽默。但在我眼里,这简直是一个狠人的隐喻,一个为了达成目标,可以随时修改自己身体参数的人。

    这种对欲望的剥离,一旦用到公司管理上,就是一种极度可怕的理性。

    你看他对危机的反应,完全不像个正常的碳基生物,当初硅谷银行倒闭,MiniMax 所有钱都在里面,眼看要发不出工资了;换一般创业者,这会儿估计早就崩溃了,或者至少得焦虑得睡不着觉吧?

    闫俊杰没有。

    他的回忆里,没有一丝惊慌失措,他说,这事儿既然发生了,那就别浪费时间去难受了,赶紧算算怎么活下来,怎么把损失降到最低 。

    再看他对竞争对手的态度。

    今年 DeepSeek 火成那样,把大家脸都打肿了;正常人心里多少得有点酸吧?有点“既生瑜何生亮”的不甘心吧?

    他没有。他淡淡地来了句:我不嫉妒……我觉得是他们应得的。这哪像人在说话啊?这简直是一台服务器在输出计算结果,在他那套操作系统里,好像根本就没有情绪这个模块。

    他在访谈里老说自己“认知不够”,还会自我 PUA。这话翻译成大白话是:我的模型没跑好,误差变大了。

    误差变大了怎么办?哭有用吗?没用。你得赶紧找找是哪层参数设错了,把权重改过来,然后接着跑,这就是第一代 AI Native CEO 最吓人的地方。

    他不跟你演什么热血沸腾的创业故事,把自己活成了一个没有感情的“算力节点”,输入信息,算出最优解,然后执行。

    所以,我说,看着佛系,其实是“情绪参数归零”,这种人,才是最难被击败的。

    既然有了这么一颗“莫得感情”的 CPU,那 1989 年出生的闫俊杰做出来的决定,自然就不可能按常理出牌。

    常理是什么?迷信大牛,迷信硅谷光环,是我们要聚焦,但他这套系统启动后的第一步,竟然不同。

    哪里不同呢?

    先说人。回想一下 2021 年那会儿,AI 圈子都在抢什么人?各家公司都在抢大厂高管、海归的博士、抢自带光环的“明星科学家”,那可是“诸神之战”。

    好像谁家没几个 Google、微软回来的大神,都不好意思跟投资人打招呼。

    但 MiniMax 呢?简直是“草台班子”。闫俊杰找了一帮什么人?一帮年轻得不像话的生瓜蛋子。外界甚至吐槽,这团队配置也太素了,连个能镇住场子的海归大牛都找不到。

    是请不起吗?肯定不是。

    闫俊杰在访谈里说了一句比较扎心的话:我觉得之前的经历很多东西是没用的……甚至很多传统 AI 的经验是相悖的。

    这就很有意思了。在咱们看来,经验是宝贵的财富;但在他的算法里,这叫过拟合 (Overfitting)。

    你想啊,旧时代专家,脑子里装的都是上一代参数,他们太懂怎么调优一个小模型,太懂怎么做一个人脸识别了,但在 AGI 这个新物种面前,这些旧权重反而成了偏见,成了阻碍。

    反倒年轻人,没经验,也没被污染,他们就像一张没被训练过的显卡,算力纯净,可塑性极强。

    他还搞出了“实习生也有实习生”的操作。让 AI Agent(智能体)去给实习生打下手,干写代码、修 Bug 的脏活累活,这哪是招人,这分明在搭建一个人机混合的算力集群。

    除了人,还有事儿。如果别的创业公司,投资人肯定会按着头让你“聚焦”,你一个小公司,资源有限,先把文本模型搞好行不行?

    但闫俊杰偏不。

    他一上来搞了个“全家桶”:语音、文本、视频,我全都要;在当时看来,这简直找死,不仅违反了商业教材里的定位理论,也违反了创业公司的资源约束。

    那他为什么要这么干呢?因为他信物理学里的 Scaling Law(规模定律) 。

    在他的算法里,Scaling Law 有个前提,你的输入数据必须是完备的;你想想,人类怎么感知世界的?不光靠读文字,更得靠听、靠看。

    如果我们想要造出真正的 AGI(通用人工智能),却只给它喂文字,那就像想培养一个天才,却先把他的眼睛蒙上、耳朵堵上。这在物理上就不可能收敛到人类智能这个全局最优解。

    既然终局一定是多模态融合,那为什么要为了短期的“容易”,去造一个“残疾”的模型呢?

    所以,在访谈里,他特淡定地说,做语音、做视频当时看起来很蠢,甚至做了两年语言模型都没啥直接产出,但只要目标函数是对的,中间的亏,都为了收敛到全局最优解所付出的代价。

    参数(人)找齐了,目标(多模态)也定好了,怎么让这几百号“生瓜蛋子”,像一颗大脑一样精密运转?

    按照熟悉的互联网大厂逻辑,这时该上“管理手段”了,定 OKR、搞赛马机制、建中台、设层级,这也是很多大厂最引以为傲的“屠龙术”,但闫俊杰把这些通通扔进了垃圾桶。

    他在访谈里有点凡尔赛地说:我们公司没有 OKR,也试过,发现根本行不通。

    为什么行不通?

    这要回到理工男的脑回路了。在他眼里,公司是一个巨大的、待优化的函数。传统OKR 是什么?我知道桥在河对面,咱们拆解一下怎么搭桥,那是确定性环境下的工程管理。

    但在 AI 这个无人区,前面是一片迷雾,根本不知道桥在哪。这时定 OKR,就是瞎指挥。

    那 MiniMax 靠什么管人?

    靠算法,全公司最核心的会议,叫CD 会;这个词儿听着挺玄乎,其实是数学术语 Coordinate Descent(坐标下降法)的缩写 。

    啥意思呢?

    在多维空间里,我们不知道最低点(最优解)在哪,但可以让每个人(每个坐标)轮流调整,每次调整都让整体的 Loss(误差) 往下降一点点。

    智远认为,这是一套极度理性的“硅基管理哲学”。

    第一,消灭了中间商。

    传统公司里,产品经理是干啥的?写文档(PRD)、画原型、催开发;但在 MiniMax,这套流程太慢了。

    闫俊杰要求,产品经理得自己能写代码,能做 Demo,因为在神经网络里,神经元之间是直接传递信号的,不需要一个翻译官在中间传话。

    那些只懂“协调资源”的中间层,在这个系统里就是增加了延迟(Latency),必须被优化掉。

    第二,残酷的“剪枝”。

    这套系统听着很美好,运作起来很冷酷;我记得前段时间看一个报道说,MiniMax 高管流动性很大,甚至有早期合伙人被请走。

    咱们看来,这叫内斗或者动荡,而闫俊杰的算法里,这叫剪枝(Pruning)。

    如果一个参数(员工)的调整,始终不能让全局的 Loss 下降,甚至导致了模型发散(团队内耗),那么,不管他资历多老,在这个函数里,他就是无效变量,必须归零。

    所以,你看 MiniMax 的组织,既没有大厂温情脉脉的家文化,也没有打鸡血的兄弟文化,它更像一个高压运转的计算集群。

    每个人是一个变量,大家不看脸色,不看 PPT,只看一件事:每一次迭代,有没有让那个该死的 Loss 值往下降一点?

    这就是 AI Native 公司的真面目:极致扁平,极致效率,以及,呃……极致的无情。

    既然这套“硅基管理系统”这么厉害,是不是就无敌了?

    并没有。

    这台精密的机器在 2024 年上半年,也差点死机;那是 MiniMax 最纠结的一段时间;虽然Talkie在海外火了,但也让整个公司染上了一种互联网旧势力的病毒。

    那就是,追求虚荣指标(Vanity Metrics),闫俊杰说,那时,投资人天天盯着问 DAU(日活),公司内部开始疯狂讨论投流、买量、留存。

    这好比一个本来要练神功的武林高手,突然跑去练胸口碎大石了,因为来钱快,观众爱看,而且,这个时刻DeepSeek(深度求索) 横空出世了。

    DeepSeek 干了什么?

    没买量,没做复杂的App,靠一个强得离谱的模型,几天之内用户量炸裂,把所有还在卷投流的公司(包括 Kimi,也包括 MiniMax)脸都打肿了,这种行为,间歇性给MiniMax一个大嘴巴子。

    他既没有像有的同行那样,在那儿愤愤不平地算 DeepSeek 到底亏了多少钱,也没有像有的巨头那样假装看不见继续硬推,而是,把大嘴巴子识别为了一个极为宝贵的误差信号。

    那MiniMax干了什么事儿呢?

    一,砍掉胸口碎大石的项目:为了堆产品功能、为了虚荣指标而分散算力的项目(比如那个类似“即梦”的视频产品),直接停掉。

    二,修正权重:既然智能才是核心,那就把算力从运营那里抢回来,重新 All-in 到数学、编程这些最硬核的基础能力上。

    三,认错迭代:在访谈里他坦然承认自己“认知不够”,这叫根据最新的误差值,更新了自己的参数。

    很多人觉得 DeepSeek 是 MiniMax 的对手。但智远看来,DeepSeek 更像 MiniMax 这个神经网络的一次强效“梯度修正”。

    如果没有被打脸,MiniMax还在互联网流量思维的局部最优解里打转。正是这种修正,证明了闫俊杰这套系统的“鲁棒性” (Robustness) 。

    一个优秀的系统,当巨大的外部冲击到来时,它能接受对手的启发,瞬间完成自我纠错。

    一颗莫得感情的 CPU(闫俊杰),带着一堆没被旧时代染过色的生瓜蛋子(年轻人),跑着一套只看结果、不讲面子的算法(CD会),最后,还得加上脸被打肿了、下一秒就能立马调头的狠劲儿(纠错机制)。

    这确实是一个能够在这个乱世中活下来、甚至跑得很快的新物种。

    但复盘最后,我不得不面对那个最扎心的问题,也是罗永浩在访谈里反复追问、甚至有点焦虑的问题:如果公司都变成了这样,那我们人类,比如:产品经理、中层管理者,在这个系统里还有位置吗?

    闫俊杰回答很含蓄,他说边界会模糊,说大家都要懂技术。 但在我看来,这层窗户纸捅破了极其残酷:因为传统的中间层,注定消亡。

    在罗永浩的古典认知里,产品经理是“我有想法,工程师来实现”的人,是负责“指挥”的;但在闫俊杰的算法里,这个协调者的角色权重,正在无限趋近于零。

    为什么?

    因为他要求产品经理得自己做 Demo,自己写代码;在 AI 赋能的组织里,“想法”到“实现”的路径被无限压缩了;以前需要一个部门、开五次会才能干完的事,现在一个超级个体+ AI就能干完。

    所以,智远认为,未来公司组织,大概率会收敛成一种“哑铃型结构”:

    一端是“架构师”,像闫俊杰这样,负责定义目标函数(Target Function),负责设计系统如何运转,负责在至暗时刻计算生路。

    一端是“超级节点”:能够直接利用 AI 产出结果的个体,或者是能提供高质量数据(Data)的人,哪怕你是写小说的、画画的,只要你有原创性,你就是高权重的参数。

    而夹在中间靠传递信息、协调资源、管理情绪为生的科层制管理者,将被系统无情地剪枝。

    这听起来很悲观吗?

    访谈最后,闫俊杰提到了特德·姜的小说《软件体的生命周期》;那是一个关于人类如何与数字生命共存、共同进化的故事,或许,这就是一场“物种进化”。

    MiniMax 的三年,不仅是一家创业公司的突围史,更是一份未来组织的生存实验报告。

    它告诉我们,在 AI 时代,想要不被组织系统优化掉,唯一的办法,成为那个定义算法的人,要么,让自己也进化成系统的一部分。

    至于还抱着旧地图、沉溺于中间管理的人,抱歉,系统对齐的函数里,容不下噪音;罗永浩用生意思维,巧妙地把这套冷酷但有效的生存逻辑给“聊”了出来。

    有意思。产品底层是模型,把模型做好,剩下的,都只是渠道。

    以上,仅代表智远个人看法。

    本文由人人都是产品经理作者【王智远】,微信公众号:【王智远】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

    题图来自Unsplash,基于 CC0 协议。