标签: startup

  • AI 语境下:多模态设计思考

    多模态交互正重塑人机互动的未来,从单一感官通道到视觉、听觉、触觉的融合,AI技术让交互方式无限接近真实世界的自然交流。本文将深入探讨多模态交互的定义、优势、理论基础及设计挑战,揭示其如何在不同场景中提升用户体验,以及在未来人机交互中的潜力与局限。

    随着 AI 时代的到来,越来越多的产品实现了从单一模态的交互到多模态交互的跨越。逐渐涌现的多模态大模型、具身智能等,让我们不再局限在单一维度的人机交互。

    AI 时代下的人机交互正无限接近于真实世界的人与人之间的自然交流,为用户提供多维度的输入输出能力及情感反馈。

    01 多模态交互的定义

    模态:多重感官通道

    在人机交互(HCI)领域,“模态”(Modality)一词有两种常见的含义:

    1. 指感官通道或输入输出通道:人机交互中所使用的感官通道。例如:视觉、听觉、触觉等。例如我们通过触控点击操作手机屏幕、通过对话控制智能音箱播放音乐。
    2. 指界面状态:聚焦某种界面状态,暂时锁定其他功能。例如我们经常使用的游戏菜单,必须要关闭菜单后,才能继续游戏,菜单就是一种模态状态。本文围绕第一种含义感官通道而展开探讨。

    单模态交互

    单模态交互(Unimodal Interaction)是指用户与系统之间仅通过单一感官通道(如视觉、听觉、触觉等)进行信息输入或输出的交互方式。例如:我们通过键盘输入文字,屏幕展示文字,传递单一视觉通道的信息。

    多模态交互

    想象一下,夏日傍晚走过一段热闹街区,我们能观察到沿街餐厅的布置,闻到食物飘散的香味,听见人群的谈笑声,同时还能品尝手中的饮料,所以人与环境、人与人天然就是多模态的交互。

    我们理解多模态交互定义之前,先明确三个概念:感官、媒介、模态:

    1. 感官:人类的感官包含视觉、听觉、嗅觉、味觉、触觉等,是我们获取去外界信息的通道。
    2. 媒介:传播信息的载体,例如:文字、图片、视频、音频;媒介是连接模态与感官的载体。
    3. 模态:感官通道、输入输出通道。

    多模态交互定义(Multimodal Interaction) 是指用户与系统之间通过多种感官通道或交互方式(如语音、视觉、触控、手势等)协同完成信息输入、处理和输出的过程。

    02 现状与优势

    多模态交互从1979年首次提出发展至今,PC 时代”Put That There”首次将语音和手势交互相结合,开创了多模态交互的先河。后续多模态交互逐渐应用在:智能手机、智能音箱、智能眼镜等产品形态。2024年,Open AI 发布的原生多模态大模型,支持语音和视觉的实时交互。它能够很好的理解用户语音中的语调和情感,并以富有情感化的语气、笑声进行回应。同年,谷歌也发布了支持实时视觉与语音交互的多模态手机助理。

    谷歌多模态大模型:支持视觉和语音实时问答

    多模态交互得以快速发展的原因:一、与多模态交互相关的 AI 算法逐渐成熟,包括语音识别、自然语言理解和计算机视觉技术;出现“会听、会说、会看、会写”的多模态大语言模型。二、AI 芯片和传感器能力增强与成本的下降。两者为多模态交互的推理能力和感知能力奠定了技术基础。

    “理想的界面是没有界面。计算机可以给我:我所想的东西、或者我应该考虑的东西。”—— 来源:Van Dam, Post-WIMP User Interface,1997

    提供自然、直观的体验

    多模态交互更贴近人类本能交互方式,可以通过对话、面部表情、肢体动作等表达自己的意图,而不是仅仅局限在单模态交互的方式。降低认知负荷,以智能音箱为例,对于正在咿呀学语的幼儿来说,通过对话方式让音箱播放音乐不仅有趣,而且比点击屏幕界面要简单得多,能让他们更轻松、直接地表达自己的意图。

    提升灵活性与无障碍包容性

    多模态交互提供多样化的输入输出模态,适应不同的人群需求。例如:在不方便操作手机的离手场景,用户可以通过语音执行指令;视障人群可以结合语音与手势进行交互;听障人群可以借助视觉与手势操作设备。

    提升效率与鲁棒性

    提升效率:多模态并行输入输出,不局限在单模态交互,提升交互效率。例如:现有的扫地机器人是围绕预设空间进行清理,在不远的未来,我们可以指着餐桌同时对扫地机器人说:“帮我清理一下餐桌下面的食物残渣。”通过手势和语音结合的多模态输入,提升输入效率。提升鲁棒性:在复杂多变的环境中,面对未知问题的抗干扰能力、容错性较强。例如:自动驾驶采用多传感器互补策略,通过摄像头、毫米波雷达、激光雷达等不同传感器的特性,识别交通信号灯、近距离障碍物等。

    增强沉浸感

    在增强现实(AR)、虚拟现实(MR)等应用中,通过视觉、声音、震动等多感官信息传输,能为用户营造更加身临其境的体验,从而提升其参与度和投入感。

    03 多模态交互的理论基础

    目前多模态交互的理论基础主要来自认知心理学领域,分别是:多重资源理论和记忆模型。

    多重资源理论

    多重资源理论(MRT)核心观点阐明了人的注意力不是单一维度,而是分布在多个维度(视觉、听觉、空间等感知)。

    如果任务都集中在一个感知通道,会造成认知负荷。多模态交互正是基于不同感官通道的协同,降低用户负荷。我们在开车时,视觉通道需要:看路面;车机导航如果仍然需要用户:看屏幕后点击操作,会导致视觉通道拥挤,互相抢占资源。如果此时导航操作采用语音的方式,就避免了这个问题,让驾驶场景更加安全。

    工作记忆模型

    Baddeley 定义的工作记忆模型将人类短时认知加工分为:语音环路、视觉空间模版、情景缓冲区、中央执行系统。可以看到我们对于短期记忆的信息处理天然就是“多模态的”,从人类短期信息存储与加工机制的角度,论证了多模态交互也能减轻认知负荷、提升效率。

    04 多模态交互的设计思考

    回到用户体验层面,多模态交互需要考虑什么呢?

    满足用户直觉化、个性化交互

    我们熟悉的界面交互是采用固定的流程进行约束,用户去学习、适应不同的功能。遇到错误异常情况,需要按照预设的路径:选择返回重新开始。而多模态交互意味着更直觉化、个人化的输入方式,不同用户之间行为习惯导致的差异性巨大。

    我们可以看到谷歌 Gemini 2.5 pro 对于多模态 AI 助理核心能力的定义是:

    • Personal深度理解用户意图:上下文感知对话;
    • Powerful多模态信息处理:内容检索、知识关联等;
    • Proactive自主决策与执行:包含界面控制、通话协助。

    例如:在一个修理单车的场景,用户可以与手机进行视觉加语言的实时多模态交互,用户可以随时查询墙面上单车零件信息,助理根据不同的指令自动化操作手机界面。当用户与其他朋友对话时候,AI 助理面对临时性的对话打断,也可以灵活的屏蔽非机主声音,等用户结束与他人的对话后,也可以完整的接续语境。

    2025 谷歌 I/O 大会Gemini 2.5 pro

    理解人类世界构建的文化基础

    除了应对用户更直觉、随性的输入,再往深层考虑,AI 时代的多模态交互需要理解:贯穿于生活中常识性、约定俗成的规则、人类信仰等内容。

    下面是心理学家兼语言学家斯蒂芬·平克(Steven Pinker)设计的一段简短对话:鲍勃:“我要离开你。”爱丽丝:“她是谁?”电视剧中经常出现这种对话,我们可以很容易的理解这段话意思,甚至可以推测出爱丽丝现在很生气。 但是让智能助手理解这段话并不简单,它需要理解贯穿于生活中的常识性规则、欲望和关系等等。

    再举个手势设计的例子,“ok”这个手势在不同的国家有不同的含义:在中国、美国表示事情是妥妥的;在土耳其、希腊则是极具侮辱性的手势。所以多模态交互需要从对话、手势、视觉、声音等维度去考虑人类的信仰、文化背景

    具备动态学习能力

    多模态交互在语音、触控、视觉的多维输入输出方式,让原本局限在手机屏幕内的界面交互向真实物理世界进行外延。设备可以感知物理世界的景象、声音,同时直接反馈给用户,让数字世界和物理世界开始深度融合

    真实物理世界是多变的,这就要求功能交互具备灵活的适应性、主动学习能力。正如 Rich Sutton 在 RLC 会议上表示物理世界是复杂的、非线性的、动态的。AI 要能够从运行中学习、规划、行动

    因为真正的 AI 与真实世界、人类进行交互的时候,会发现世界可能并不想原来预训练时所期望的那样,肯定无法完全预先了解、预见与世界互动交互所需要的所有复杂细节和所有抽象的概念。从中我们可以预见到动态学习、推理判断、执行能力是AI时代下多模态交互的基石。

    “我想任何有意识的实体可能都期望:将自己设置成被无限可能地使用。”—— 来源:《2001太空漫游》

    图左:特斯拉 Optimus

    图右:树宇 H 型人形机器人

    具身智能同样强调交互中的“动态适应”能力,能够在复杂、未知的环境中学习适应。通过“身体”的硬件与环境进行互动、实践,从而更贴近真实的人机交互场景。

    平衡隐私与个性化

    2025 谷歌 Android XR 智能眼镜

    2025 年谷歌 I/O 大会上,发布了搭载 AI 助手的 Android XR 智能眼镜,通过设备端通过内置镜头、麦克风“听到、看到”输入信息,通过镜片内置显示屏、扬声器反馈导航信息。

    “我们将迎来崭新的巨大平台,世间万物均可以与 AI(人工智能)链接,现实世界与数字化将完美融合,被称为镜像世界的 AR(增强现实)将会诞生”。—— 来源:凯文·凯利《5000天后的世界》

    谷歌智能眼镜

    左图:实时翻译

    右图:导航

    当多模态交互应用在智能眼镜、具身智能等场景,设备正在搜索、获取大量的非常个人化的数据,比如:你在你看什么、你的表情是什么、你做了什么动作、你所在位置、你周围的环境……所以我们应该更加注重用户隐私与个性化服务之间的平衡

    我们需要理解:一方面用户不希望自己的隐私数据被随意获取,另一方面想要获得个性化服务就必须提供相关数据。

    那么平衡隐私与个性化这个天平的核心在于:互见性。即用户拥有知情权,可以从知道自己哪些数据被获取、被谁调用或访问。同时用户有途径通过公开透明的途径进行申诉的机制。这样一来,当用户才会让渡部分隐私权,提供多模态的个人数据从而获取更优质的个性化服务。

    05 总结

    本文系统性梳理了多模态交互的核心定义、独特优势、理论基础及设计思考。

    在这个 AI 井喷式发展的时代语境下,变化的,是不断革新的硬件感知能力和多模态算法能力。促使多模态交互应用在手机、可穿戴设备、车载、具身智能等不同领域。

    不变的,是我们对更自然、更真实的人机交互方式的探索。人类天然是通过视觉、声音、表情、动作传递信息和表达自我,而“多模态交互”的意义,正是让人机交互逐渐贴近人与人、人与原生世界的交互范式。

    参考文献

    • 薛志荣. 《前瞻交互:从语音、手势设计到多模融合》[M]. 电子工业出版社,2022.
    • (英)迈克尔・伍尔德里奇. 《人工智能全传》[M]. 许舒 译。浙江科学技术出版社,2021.
    • (美)凯文・凯利、吴晨. 《2049:未来 10000 天的可能》[M]. 中信出版集团,2025.
    • Rich Sutton, The OaK Architecture: A Vision of SuperIntelligence from Experience – RLC 2025

    图片来自网络公开资料,若涉及版权请联系修改。

    本文由 @HAI Design 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自Unsplash,基于CC0协议

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

  • GPT-5.2功能范式!让产品经理的我看到哪些机会点?

    GPT-5.2的发布标志着AI从工具到智能体的革命性跨越。40万Token的上下文容量、增强的多模态能力与深度推理功能,正在重塑产品设计的底层逻辑。本文将剖析如何通过容错设计、角色化交互与主动协作机制,让这一代AI在中国本土场景中真正发挥’超级助理’的价值。

    GPT-5.2于2025年末发布,是OpenAI对GPT-5系列的重要升级。与之前版本相比,它在多方面有质的提升:

    1. 上下文容量更大,旗舰版上下文窗口高达40万Token;多模态能力增强,不仅能读文本,还更擅长识别屏幕截图、图表、UI界面并提取结构化信息;
    2. 推理能力升级,引入更深层次的思维链和多级“推理投入”调节(新增xhigh级别);
    3. 工具与智能体调用更加灵活,在API中提供新的参数和上下文压缩功能。

    OpenAI指出,GPT-5.2并非简单“更大的聊天模型”,而是由Instant/Thinking/Pro三个变体构成的多模态智能体家族,针对长文档推理、工具调用和视觉理解等任务进行优化。

    这些底层升级带来了一场功能范式的变革:产品不再只是给模型“按钮 + 功能”,而是与一个可“扮演角色”的智能体协作。GPT-5.2让AI在复杂工作流中表现更像“超级助理”而不是单点工具。

    接下来,我将从容错与场景、功能向角色迁移、主动交互设计以及商业模式等角度,结合中国本土视角,深度拆解GPT-5.2对产品的影响和机遇。

    技术升级重新定义“可用性”

    GPT-5.2的提升虽多,但仍不可能保证100%正确。这样的场景下,产品经理必须重新思考可用性:如何通过容错设计、场景选择和预期管理,让“非完美”AI依然产生价值?

    容错设计:AI本质上是“概率引擎”,回答可能多种多样。产品不应给出绝对结论,而应设计防错机制。例如,在推荐场景中,可加注说明“基于历史行为推荐,仅供参考”;提供多个备选答案让用户选择。对医疗、法律等要求严谨的应用,还要提供解释信息,如“贷款被拒,因为负债率过高”,而不是简单拒绝。在界面设计上,团队应避免对AI结果生搬硬套,鼓励“微调-试错-迭代”的非线性开发方式,不断通过用户反馈优化模型。

    场景选择:针对不同风险级别灵活应用。知名PM指南将场景分为“红灯、黄灯、绿灯”三类:在高风险场景如金融审批、医疗诊断等,AI结果必须人机回环——AI给出建议,最终由人审核并解释;而在低风险场景如垃圾邮件过滤、游戏NPC等,则可让AI直接输出,只需标注“AI生成”即可。这样既利用了AI效率,也控制了误伤风险。总之,应优先选择容错度高、受益大于风险的任务来部署GPT-5.2,避免在关键任务上盲目全权交给AI。

    用户预期管理:面对准确率,必须主动引导用户认知AI局限。交互层面要透明化AI身份与可信度:界面上明确标注“××由AI生成”,并可展示模型置信度或信息来源。文案上要提醒用户“我可能会错,请您核实重要信息”,切忌宣传“100%正确”。用户应保持决策权:AI生成结果可让用户编辑、删除、撤销;对于如自动发送邮件等高风险操作,需二次确认而非自动执行。此外,及时的反馈闭环也很重要:在每条AI回答后增加“点赞/点踩”按钮和问题分类(如“不相关”“过时”“有害”),将用户纠错反馈纳入训练流程,让系统“越用越准”。

    通过上述设计,产品既能利用GPT-5.2的长处,又能让用户在“模糊结果”中找到容错空间和信心,从而真正“可用”。

    从功能到“智能体”

    GPT-5.2带来的另一个革命是产品交互范式的变化:从传统的“按钮+功能”界面,向“角色+动作”的智能体交互迁移。即产品不再把AI当成黑盒工具,而是赋予它具体角色,让用户像指挥助手一样与之对话、协作。

    以下结合国内常见场景举例说明:

    智能办公助手:以办公软件为例。过去我们在办公套件里要手动选菜单生成报告、图表;如今可以让GPT-5.2以“资深助理”身份介入。钉钉ONE等平台已经推出了AI办公助手,例如自动生成文档和会议纪要、自动构建知识库并智能检索信息。

    下图显示了GPT-5.1(左)与GPT-5.2(右)在自动创建“人力规划模型”表格时的对比:GPT-5.2生成的表格布局更专业、细节更完善,错误率更低。

    如上图所示,用户仅输入高层需求,GPT-5.2便能生成规范的电子表格报表。Office产品经理可以将此类“AI助手”整合到工具栏或对话框中,让用户像和同事沟通一样,只需输入“帮我写份简报”或“列出PPT大纲”,AI便能快速交付内容,省去繁琐操作。

    智能客户关系管理(CRM):传统CRM更多是记录系统,业务人员要靠自己查询客户信息和商机。GPT-5.2能将CRM升级为“智能经营中枢“。模型可主动分析客户数据并自动完成筛选、评分与推荐:比如它会自动标记最有成交可能的潜在客户、提醒应跟进的客户;在销售过程中,AI助理还能自动撰写跟进邮件、生成沟通话术。

    换言之,GPT-5.2不再是后端计算,而是变成一名“销售助理”:它查看客户资料、建议行动计划、甚至发起自动触达。产品设计上,可以给用户一个角色+动作入口,比如“智能商务助理”对话窗口或自动提醒推送,把原本孤立的查询功能变为AI主动输出。

    内容创作平台:在媒体或营销平台中,GPT-5.2可以化身“智能写手”或“创意编辑”。例如国内星光AI助手等已经支持“一键生成营销文本、配图和短视频脚本等多类型内容”。内容平台可以集成GPT-5.2,让用户只需提供主题、风格要求,AI便能完成从标题、正文到配图、脚本的整个创作动作。产品上这意味着“发布按钮”前增加AI步骤:用户点击“生成稿件”,后端AI智能体会生成初稿,用户再对稿件做微调和审核。这样设计下,GPT-5.2不只是一个工具按钮,而是扮演了“内容策划师”、“视频编导”等角色,与用户展开角色扮演式交互。

    总的来说,在新范式下,产品由单一功能集合变为“多Agent生态”,用户不再手动串联功能流程,而是对话式地分配任务、审阅结果。这种转变要求产品经理在设计时把AI当成人物角色,规划它的行为方式和边界,从而让GPT-5.2的能力真正融入业务场景。

    未来已来——主动性、异步性与“教育”用户

    GPT-5.2带来了新的设计理念:AI可以主动发力、异步反馈并引导用户学习使用,这对国内用户行为特点提出了新要求。中国用户习惯即时响应、不喜欢多余操作,因而产品需要巧妙地将“智能体”能力与用户体验结合:

    AI主动提示:智能体可在用户尚未察觉前主动提供建议。比如,当用户输入“帮我安排会议”时,AI不仅给出初步日程,还会主动问“您偏好周几开会?”、“需要多长时间?”等引导性问题,形成多轮协作。在界面设计上,可通过悬浮提示、侧边栏建议等形式,让AI时时“盯着”用户需求,及时抛出补充信息与选项,而不是等用户按“执行”后再被动响应。此外,对于如支付、提交等关键操作,AI应主动请求用户确认,以可控的方式教育用户:AI即使可以自动完成,系统也要让用户插入判断,确保用户习惯逐步过渡,透明而有参与感。

    异步反馈:对于需要较长时间处理的任务(如大文档分析、复杂调用等),产品可以设计异步模式,改善中国用户的耐心阈值。比如用户提交生成需求后,系统应立即给出视觉反馈(如“我们正在努力生成中…”),而不是让用户空等。生成过程可以分阶段展示:第一阶段先返回部分结果或大纲,用户确认无误后继续深入细节。产品可以引入进度条、子任务清单等形式,让用户感觉到AI在“持续工作”,而非长时间毫无响应。加速首字生成时间和输出流畅度也是关键:研究建议聊天场景首字响应应控制在200ms以内,否则用户会认为系统“卡住了”。GPT-5.2本身性能更强,但在产品设计中仍要利用加载动画等策略及时给用户反馈,满足喜欢“秒回”的使用习惯。

    延迟回报式学习:面向不断提升用户对AI的熟悉度,可设计渐进式奖励机制。例如对首次尝试AI功能的用户,给予操作指引或引导教程,一步步展示GPT-5.2的能力和边界;同时通过游戏化元素(如成就徽章、等级体系)鼓励用户多尝试多反馈,形成闭环学习。产品可以记录用户历史输入与AI反馈情况,利用GPT-5.2的记忆能力,在后续会话中自动复用已验证有效的方案。这样用户在与AI互动中逐渐建立信任:因为系统“越用越聪明”,他们看到自己的反馈被采纳。结合“即时反馈+渐进学习”的设计,既满足了用户一开始希望快速见效的需求,也逐步教育用户拥抱AI协作的工作方式。

    简言之,新交互下用户像队友一样与AI共事,需要产品在设计上强化协同与教育功能。借鉴微软Magentic-UI等前沿实践:如其“共策划工作流设计器”让人机共同制定每一步方案,用户可随时修改、确认、介入;界面实时显示AI操作,让用户清楚看到AI在做什么。这些设计有助于“教学”用户理解AI行为、建立信任。面对用户“不喜欢多步骤但爱即时响应”的特点,合理平衡主动协作与简洁流程,将GPT-5.2无缝融入产品中,就是关键的一课。

    结语:PM的我们,可以做什么?

    GPT-5.2带来了新一代的功能范式跃迁:产品经理不再是单纯的“功能配置师”,而要成为AI的“调教师”和协作设计师。在这个过程中,PM需要完成思维转变:

    ①从“功能交付”到“效果交付”,关注AI提升效率、降低错误率等实际效果;

    ②从“确定性思维”到“概率思维”,习惯在不完美中寻优,并在成本、速度、质量间权衡;

    ③从“孤立工具”到“智能体生态”,设计由多个角色协作完成任务的新型应用。正如业内总结:“AI时代PM的核心竞争力,不是用了多牛的模型,而是懂不懂‘数据策展’、会不会‘模型选型’、能不能‘风险控制’”。未来的产品经理更像是一名模型教练:他们要训练和微调GPT-5.2,设置合理的提示和回路,让AI能力持续进化;同时与设计师、数据工程师一同塑造人机协作体验,强化反馈学习,让每一次交互都朝着更智能的方向迭代。

    拥抱GPT-5.2,就是拥抱智能涌现的时代。通过合适的设计和场景落地,我们可以让这一代模型既“靠谱”又“接地气”,为用户提供新颖有趣又切实可行的产品体验。在日新月异的AI浪潮中,未来产品的制胜之道,不仅是打磨功能本身,更在于驾驭模型、编织协作,让智能真正成为用户无形中最坚实的助力。

    本文由 @兔主任观测员 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自Unsplash,基于CC0协议

  • 一个 RAG 项目,在真实训练中是怎么被“做出来”的?

    RAG技术远非简单的数据注入,而是重塑AI理解与决策的核心框架。本文深度拆解RAG项目中的真实困境——从语料筛选、矛盾处理到结果交付,揭示为何90%的工作仍依赖人类判断。当多数团队将其视为过渡方案时,RAG正在成为连接静态模型与动态业务的关键基础设施。

    在上一篇里,我花了很多篇幅讲 RAG 为什么重要。但真正走到项目现场,你会很快意识到一件事:RAG 不是一个“加模块”的技术问题,而是一整套数据与判断体系。

    很多刚接触的人会以为,RAG 项目无非就是:

    给模型多喂点资料,让它照着说。

    但真实情况是——真正决定 RAG 效果的,从来不是“有没有资料”,而是“资料怎么被用”。

    一、先从一个最真实的工作场景说起

    在对话式 AI 助手场景中,RAG 项目面对的,通常不是“标准问答”,而是这样一种结构:

    • 一段可能是单轮、也可能是多轮的历史对话
    • 用户提出的最新问题
    • 系统检索到的 1–3 条参考材料

    模型要做的,不是简单复述材料,而是:

    理解对话语境 → 判断哪些材料有用 → 整合信息 → 给出一个“对用户有帮助”的回答

    从训练视角看,这本质是在做一件事:材料阅读理解 + 问题理解 + 信息整合 + 表达控制

    二、RAG 项目里的“三件套”:问题、材料、回答

    如果把一个 RAG 项目拆开来看,它其实由三块内容构成,但这三块,没有一块是“天然可靠”的

    1️⃣ 问题,本身就可能有问题

    你在项目中会频繁遇到这样的情况:

    • 问题语义不清
    • 上下文矛盾
    • 逻辑跳跃严重
    • 甚至包含明显不合理或有害的意图

    这意味着:不是每个问题,都值得被认真回答。

    2️⃣ 参考材料,也不一定“参考得了”

    很多人第一次看到“参考材料”,会下意识觉得它是权威的。但真实项目里,材料常见的问题包括:

    • 和问题不相关
    • 信息不完整
    • 多条材料之间互相冲突
    • 甚至存在常识性错误

    所以在 RAG 项目中,“材料”并不是答案,而只是候选证据

    3️⃣ 回答,才是最终交付物

    最终交付的不是“是否匹配材料”,而是一个用户能直接使用的回答。这意味着回答需要同时满足:

    • 理解用户真正想问什么
    • 不违背材料事实
    • 信息足够完整
    • 表达自然,不像“在念资料”

    三、为什么 RAG 项目不是“自动化就能搞定”的?

    很多人会问一个问题:

    既然现在模型已经这么强,为什么还需要大量人工介入?

    答案其实很现实:RAG 项目里,90% 的难点都在“判断”,而不是“生成”。

    比如:

    • 材料不全,要不要补?
    • 材料有错,要不要纠正?
    • 多条材料冲突,信哪一条?
    • 历史对话有问题,要不要直接跳过?

    这些问题,本质上都不是模型能自己解决的,而是人类在替模型建立判断边界

    四、RAG 项目真正训练的是什么能力?

    从表面看,RAG 项目是在训练模型“用资料回答问题”。但从更底层看,它在训练的是三种能力:

    1. 信息取舍能力什么该用,什么不该用,什么只能作为背景。
    2. 上下文对齐能力回答不是独立存在的,而是嵌在一段对话里。
    3. 结果导向能力不是“材料写了什么”,而是“用户看完能不能用”。

    也正因为如此,RAG 项目往往是很多大模型走向“可用”的关键一环。

    五、一个容易被忽略的事实

    在很多团队里,RAG 项目被当成“过渡方案”,但在真实业务中,它往往是长期存在的基础设施

    原因很简单:

    • 业务在变
    • 知识在变
    • 但模型不可能天天重训

    而 RAG,恰恰是连接“稳定模型”和“变化世界”的那座桥。

    写在最后

    如果说第一篇解决的是:“为什么一定要有 RAG?”

    那这一篇,其实是在回答:“RAG 项目里,人到底在做什么?”

    下一篇,我会继续往下拆一个更具体、也更“脏活累活”的问题:RAG 数据到底是怎么被标的?哪些情况该过,哪些必须跳?

    共勉!棒棒,你最棒!

    本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自unsplash,基于CC0协议

  • 我用谷歌NotebookLM,把黄铮的商业思考,一键转成了PPT!

    真正硬核的AI内容工具,一定得能解决「最后一公里」的难题:要么极度懂逻辑,能啃动深奥的长文本;要么有极强的可视化能力,能一键输出高质量成果。

    这两天,谷歌NotebookLM在Gemini 3 Pro加持下彻底杀疯了,镜哥深度实测了一下,用它把黄峥早期的几万字深度长文,一键翻译成了逻辑严密的商业PPT。

    在AI绘图和对话泛滥的当下,这种能读懂复杂商业逻辑并可视化的能力,简直是降维打击。、不少圈内朋友都感叹:这才是能真正帮打工人省时间的神级工作流。

    Follow me,一起来打破这个信息差!

    说心里话,镜哥在AI圈也摸爬了这么久,逐步对AI刺激开始有些免疫了,现在能让我有多巴胺快感到“头皮发麻”的AI工具,越来越少了。。

    咱们每天看着各种模型跑分刷榜,今天你超越GPT-5,明天他拳打Claude 4.5,但落到实际应用上,往往还是那个老样子:能聊几句天,但真要干活,还是离不开咱们人工上手擦屁股。

    实际场景往往是:进度条0-90%一路高歌,最后10%却耗费90%的额外精力,真真是卧了个大槽。

    前几天,Gemini 3 Pro,属实算是AI圈儿的一针强心剂,能打才是硬道理嘛~

    原本我以为Gemini 3之后,新的刺激怎么也得个把月,但是,这两天我是真被谷歌的NotebookLM给惊到了(内心os:这是谁的部下~)。

    实际上,镜哥在之前的文章中分享过NotebookLM:有没有真正好用的知识管理工具??

    不过,咱之前大家聊NotebookLM,都是冲着知识库调用、都是冲着那个“AI播客”功能去的——后者也确实好玩,听着两个AI搁那侃大山,hhhh。

    直到昨天,我顺手体验了其在Gemini 3 Pro级别的能力加持下的PPT生成能力,又被刺激到了。

    真的,完全超预期!

    01 实操案例:操作很方便,一键生成演示文稿

    熟悉黄峥的朋友都知道,他的文章思考极深,讲“劣币驱逐良币”,讲“反向保险”,讲“量子力学与商业逻辑”,这里面的逻辑密度极大,普通人读两遍都不一定能理解透。

    镜哥没事就会翻出来读一读,很受启发,本文咱们就以这个案例为例。

    当然,先讲下大概的使用流程,其实也非常简单:

    首先,咱们打开NotebookLM的网站,先上传需要的参考文件——《黄峥公众号原创文章全集.pdf》,上传文件后,NotebookLM会自动解析:

    解析完成后,咱们在右侧可以看到「演示文稿」的生成按钮,点击下,然后静待生成。

    接下来发生的一幕,确实让我对谷歌这次的更新刮目相看。

    也就几分钟,就生成了对应的PPT,哦,准确地说,应该是演示文稿,大家可以看一下,质量是相当的好啊:

    当然,咱们可以对生成好的演示文稿进行在线播放,也可以下载为pdf,甚至你还可以用邪修把水印去掉即可。

    02 不是在做摘抄:它真的读懂了商业逻辑

    首先,从用户场景出发来看一个问题:大家用AI做PPT,最头疼的是什么?

    镜哥觉得主要有两个:

    一个是AI不懂装懂,它往往只是机械地把文章里的句子摘抄下来,贴在PPT上,虽然字都对,但凑在一起就是不知所云。

    另一个是,界面风格不够美观,要么丑的让人脚趾抓地、要么一眼就是html的风格,改起来很难。

    但这次不一样。

    在Gemini 3 Pro这种新模型的加持下,NotebookLM给我的感觉是:它不是在做摘抄,它是在做翻译,而且 不是语言的翻译,而是把「复杂的文本逻辑」翻译成「可视化的商业逻辑」。

    大家可以看看这张图,这是它生成的关于“劣币驱逐良币”与“电影院现象”的幻灯片:

    注意看,它并非只给你堆砌文字,而是精准地提炼出了关键洞察,甚至根据原文内容给出了「造币厂」、「电影院」准确的定义、本质特征,而且配的图也很符合其对作者商业逻辑的理解。

    你敢相信,这是AI直接做出来的?!

    再比如,下图是关于质变的临界点的洞察总结:

    它抓住了黄峥原文中关于“临界点”的论述——一粒屎坏了一锅汤,劣质比例在2%到5%之间,而且,幻灯片右侧对商业应用、纠正成本的引用和总结,也是非常的到位。

    你看,这就是我在小群里常说的:AI的智商,不体现在它能写多少字,而体现在它能“删”多少字。

    这就类似于咱们产品经理做设计减法,如果AI能把几千字的废话删掉,只留下这最核心的一句洞察,这说明它是真的读懂了。

    03 审美在线:连“流程图”都能自动生成

    如果说逻辑理解是内功,那视觉呈现就是外功。

    说实话,以前用Gamma或者PPT Copilot这类工具,最让我抓狂的是它们只会列Bullet Points(要点列表)。

    不管你喂进去什么内容,它永远给你出三个小圆点,看多了真的会吐。

    但NotebookLM这次给了我一个巨大的惊喜。

    比如,下面这张图,他甚至知道把团队比喻成小树:

    再比如,下面这两张关于“个性化需求归集为计划性需求”的演变示意图,不仅很懂内容,而且个性化需求的散点效果,以及计划性需求的归集模块的效果,都很到位、很细腻:

    你看,它竟然自动画出了一个高度契合语境的“示意图”!

    从左边的“计划性需求”,到中间的“解耦”、“柔性化”,再到右边的“计划性需求”,路径画得清清楚楚。

    镜哥认为,这背后其实是非常恐怖的能力,因为要画对这种图,AI必须得理解“因果关系”和“先后顺序”,它得知道先有解耦,才能有柔性化。

    这种级别的图表,以前哪怕是找个刚入行的咨询顾问,都不一定能画得这么清晰,现在,谷歌NotebookLM一键就给你搞定了。

    这不仅仅是审美的重塑,更是效率的极大提升。

    04 信息差红利:产品经理的神级工作流

    看到这,可能有人会问:镜哥,这东西对我这种打工人有啥用?我又不去研究黄峥。

    这就得聊聊咱们最容易忽略的信息差了。

    我想很多做产品经理或者做行业研究的朋友,平时工作中最大的痛点就是:资料太多,整理太慢,分享太难。

    比如:

    1️⃣做完一轮客户访谈,手头全是乱七八糟的Word记录。

    2️⃣看完几十份竞品报告,脑子里一团浆糊。

    3️⃣想给老板做个汇报,光写PPT大纲就得憋一天。

    现在,这个游戏规则变了。

    我实测了一个新路径,效率高得吓人:

    1️⃣把这些杂乱的源文件,直接拖进NotebookLM。

    2️⃣利用最新的模型能力进行语义梳理。

    3️⃣点击右下角的「演示文稿」。

    4️⃣一键导出。

    你得到的不是一个草稿,而是一个可以直接转成PDF分享的知识资产。

    就像我这次生成的黄峥系列一样,咱们甚至该可以直接生成一个分享链接,设置为「网上知道链接的任何人都可以查看」。

    对方点开,看到的就是一份排版精美、逻辑闭环的商业分析报告。

    什么叫做专业,这就叫降维打击。

    当别人还在吭哧吭哧复制粘贴的时候,你已经用最强的模型把信息洗了一遍,变成了高质量的资产。

    总之,这次实测下来,我的个人感觉是:谷歌依托Gemini3模型,通过canvas绘图的新方式,直接与PPT演示错开了竞争路径。

    因为,它在另一个更高的维度上。

    客观上,NotebookLM结合这个级别的模型能力,确实切中了一个极其痛的场景——「从长难文本到高质量演示」的最后一公里。

    如果你手头正好有难啃的资料,或者急需输出一份有深度的报告,听我一句劝,赶紧去试试。

    毕竟,极速流变的AI时代,慢一步,往往就意味着失去了一个维度的竞争权。

    本文由人人都是产品经理作者【产品大峡谷】,微信公众号:【产品大峡谷】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

    题图来自Unsplash,基于CC0协议

  • 豆包AI手机,给我们踏出来了三条血路

    一款号称’能听懂人话’的AI手机引爆市场,却在真实体验中频频’翻车’。这背后折射出的不只是技术问题,更是AI产品设计中关于权限边界、体验链路与生态规则的深层思考。本文从产品经理视角,剖析当前AI交互设计的三大致命误区,并给出兼顾创新与落地的四步解法。

    最近科技圈那台“能听懂人话”的AI手机,大伙儿都看到了吧?

    从刷屏预售到主播们集体“翻车”,这过山车我都看乐了。

    (图片来源网络)

    作为一个天天琢磨产品的人,我没上手真机,但几乎蹲完了所有深度评测。

    看多了,一个问号越来越大:这么“炸裂”的功能,为什么深耕系统多年的苹果、华为,反而没做?

    这事儿绝不只是技术行不行那么简单。它像一面镜子,照出了当前AI产品经理最容易踩进去的几个大坑。

    今天,我就结合这些天的观察,聊聊我的看法。

    01 我最先注意的,是它那把“万能钥匙”

    它想做到的事情,说实话挺诱人:你一句话,手机代你点外卖、打开 App、处理流程,像个真正的数字管家。

    (图片来源网络)

    但真实世界里,它之所以能做到这些,是因为拿到了安卓系统深层的“注入事件权限”——我更愿意把它理解成“万能钥匙”。

    从产品逻辑上讲,这条路径看似合理:既然要代替手指,那就让 AI 能点击屏幕、滑动界面。

    但我最直观的感受是:这把钥匙不应该这么交出去。

    用户看到弹窗,会以为“助手要帮我操作一下”,但实际上是把微信、银行、聊天、相册、支付的一切底层入口都交给了一个服务。

    我做产品时最怕的就是这种“理解与后果不对等”。如果用户连自己授权了什么都无法判断,那这条能力不论多炫,都不应该轻易落地。

    安全不是禁止,而是把边界画清楚。权限可以拆、风险可以隔离,但“万能钥匙”式的一次性交付,是我个人永远不会允许上线的。

    02 我更清晰地看到:智能如果不改变链路,就是负担

    看评测的时候,我印象最深的是那段“点外卖”的演示。

    • 官方展示 30 秒搞定。
    • 博主实测 6 分钟,期间卡顿、误点、界面识别失败不断。

    那一刻我非常清楚:这不是技术不够强,而是路径选错了。

    AI 在现阶段通过视觉识别 App,再模拟点击流程,本质上就是把自动化测试的逻辑放到用户日常体验里。

    只要页面一点变动,按钮换个位置,多一个广告弹窗,它的整个流程就会像多米诺骨牌一样全部重来。

    这不是 AI 的问题,而是设计选择的问题。

    在我的实践里,一个真正能让用户觉得“智能”的能力,只有在符合两点时才成立:

    • 它真正重构了任务链路,让体验变得比原来短、快、确定。
    • 它可以在失败时优雅退化,而不是让用户成为它的“监工”。

    可惜,这台手机做的恰好相反:它既没有把原有流程拆解重构,也没有构建清晰的边界和失败处理方式。最终就变成了一个“看起来很厉害,但你需要盯着它的每一步”的半自动工具。

    03 技术再先进,触达用户的方式不对,体验就会反噬

    真正让我觉得“危险”的,是它和生态的正面冲突。

    这件事最值得所有产品人反思的,不是“技术实现”,而是它和整个移动生态之间的冲突。

    移动生态这么多年能够稳定运转,靠的是一整套相互制衡的规则:1. 敏感操作必须即时确认。2. 支付需要用户主动触发。3. 安全验证不能被绕过。4. 平台要识别自动化攻击。

    而这台手机的 AI 模式,却是一次性授权、全程自动代操作。

    你不用想也能猜到结果:微信、支付宝、银行类 App 把它当成异常设备或自动化攻击工具,直接拦截或封禁。

    我相信不是平台“封杀创新”,而是这个模式本质上破坏了它们赖以生存的安全模型。甚至某些平台的商业模式——广告曝光、任务链路、停留时长——也被自动化操作彻底抽离。

    换成我站在平台那边,我也不可能接受这样的冲击。

    做产品这几年我越来越相信一件事:任何挑战生态底层规则的创新,都必然要付出高昂代价。这次事件就是代价的真实样子。

    04 如果让我来做,我会怎么落地?

    如果把这件事放在我自己的工作场景里,我大概会这么做:

    第一,把能力拆开,让权限变得“可感知”。与其一次性撸到系统级权限,不如拆成“读取页面信息”“执行局部操作”“用户确认后代操作”这种可控的小能力,让用户知道每一步的边界。

    第二,不卖“全能”,只交付“可控”。我宁可宣传成“帮你加速 80% 的流程”,也不会为了营销把它说成“你一句话我全搞定”。

    第三,和关键平台提前做规则对齐。支付、登录、隐私敏感操作必须遵守现有机制,能辅佐就辅佐,不能接管就不要硬上。

    第四,为失败设计兜底逻辑。这在真实场景里尤其重要。我希望用户遇到异常时能清楚地知道发生了什么,并能随时接管,而不是在旁边焦急等待看它“下一步会点错哪里”。

    在我看来,真正的 AI 产品不是“炫技”,而是“靠谱”。

    最后的话

    这台手机让我重新审视了一句我以前没太在意的话:不是看 AI 能做什么,而是要看它“应不应该这么做”。

    技术当然要往前跑,但安全、体验、生态,这三条线永远不可能绕过去。越是面向大众的产品,越需要克制,需要反复琢磨边界在哪里、风险如何隔离、用户的理解和心智是否足够匹配。

    这次的讨论喧嚣很大,但对我来说,它更像一声警钟。

    不是对某一家公司,而是对我们所有在做 AI 产品的人。我们都想做突破性的东西,但突破从来不是靠“抢快”和“压风险”,而是靠把底层规则摸清、把用户的信任护住、把生态的张力处理平衡。

    希望带给你一些启发,加油!

    本文由人人都是产品经理作者【柳星聊产品】,微信公众号:【柳星聊产品】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

    题图来自Unsplash,基于 CC0 协议。

  • Netty(18)Netty的内存模型

    Netty的内存模型是基于ByteBuf的,它提供了一种灵活而高效的内存管理方式。下面是一个详细的解释,结合代码示例说明Netty的内存模型。 ByteBuf的类型: Netty中的ByteBuf是用
  • Netty(17)Netty如何处理大量的并发连接?

    Netty是一个高性能的网络通信框架,它通过使用异步、事件驱动的方式处理大量的并发连接。下面是一个详细的解释,结合代码示例说明Netty如何处理大量的并发连接。 使用多线程模型: Netty使用了多线
  • Tauri (20)——为什么 NSPanel 窗口不能用官方 API 全屏?

    在基于 Tauri 开发 macOS 桌面应用时,我们经常会遇到一种特殊的窗口类型:NSPanel。它通常用于 spotlight 搜索栏、悬浮工具条等场景。然而,当我们想给这种“小窗口”加上全屏能力
  • C++共享内存小白入门指南

    什么是共享内存? 想象一下,你和你的室友共用一个冰箱。你们都可以往里面放东西,也可以从里面拿东西,这就是共享内存的基本概念!在C++中,共享内存是一种让不同进程(可以理解为不同的程序)能够访问同一块内
  • C++程序崩溃时内存泄漏的真相

    想象这样一个场景:你的C++程序在运行过程中突然崩溃了——可能是段错误、除零异常,或是某个未处理的异常。程序申请的大量堆内存还未来得及释放。作为一名负责任的程序员,你不禁要问:这些内存算泄漏了吗?它们