标签： startup

AI 语境下：多模态设计思考
多模态交互正重塑人机互动的未来，从单一感官通道到视觉、听觉、触觉的融合，AI技术让交互方式无限接近真实世界的自然交流。本文将深入探讨多模态交互的定义、优势、理论基础及设计挑战，揭示其如何在不同场景中提升用户体验，以及在未来人机交互中的潜力与局限。

随着 AI 时代的到来，越来越多的产品实现了从单一模态的交互到多模态交互的跨越。逐渐涌现的多模态大模型、具身智能等，让我们不再局限在单一维度的人机交互。

AI 时代下的人机交互正无限接近于真实世界的人与人之间的自然交流，为用户提供多维度的输入输出能力及情感反馈。

01 多模态交互的定义

模态：多重感官通道

在人机交互（HCI）领域，“模态”（Modality）一词有两种常见的含义：
1. 指感官通道或输入输出通道：人机交互中所使用的感官通道。例如：视觉、听觉、触觉等。例如我们通过触控点击操作手机屏幕、通过对话控制智能音箱播放音乐。
2. 指界面状态：聚焦某种界面状态，暂时锁定其他功能。例如我们经常使用的游戏菜单，必须要关闭菜单后，才能继续游戏，菜单就是一种模态状态。本文围绕第一种含义感官通道而展开探讨。
单模态交互

单模态交互（Unimodal Interaction）是指用户与系统之间仅通过单一感官通道（如视觉、听觉、触觉等）进行信息输入或输出的交互方式。例如：我们通过键盘输入文字，屏幕展示文字，传递单一视觉通道的信息。

多模态交互

想象一下，夏日傍晚走过一段热闹街区，我们能观察到沿街餐厅的布置，闻到食物飘散的香味，听见人群的谈笑声，同时还能品尝手中的饮料，所以人与环境、人与人天然就是多模态的交互。

我们理解多模态交互定义之前，先明确三个概念：感官、媒介、模态：
1. 感官：人类的感官包含视觉、听觉、嗅觉、味觉、触觉等，是我们获取去外界信息的通道。
2. 媒介：传播信息的载体，例如：文字、图片、视频、音频；媒介是连接模态与感官的载体。
3. 模态：感官通道、输入输出通道。
多模态交互定义（Multimodal Interaction）是指用户与系统之间通过多种感官通道或交互方式（如语音、视觉、触控、手势等）协同完成信息输入、处理和输出的过程。

02 现状与优势

多模态交互从1979年首次提出发展至今，PC 时代”Put That There”首次将语音和手势交互相结合，开创了多模态交互的先河。后续多模态交互逐渐应用在：智能手机、智能音箱、智能眼镜等产品形态。2024年，Open AI 发布的原生多模态大模型，支持语音和视觉的实时交互。它能够很好的理解用户语音中的语调和情感，并以富有情感化的语气、笑声进行回应。同年，谷歌也发布了支持实时视觉与语音交互的多模态手机助理。

谷歌多模态大模型：支持视觉和语音实时问答

多模态交互得以快速发展的原因：一、与多模态交互相关的 AI 算法逐渐成熟，包括语音识别、自然语言理解和计算机视觉技术；出现“会听、会说、会看、会写”的多模态大语言模型。二、AI 芯片和传感器能力增强与成本的下降。两者为多模态交互的推理能力和感知能力奠定了技术基础。

“理想的界面是没有界面。计算机可以给我：我所想的东西、或者我应该考虑的东西。”—— 来源：Van Dam, Post-WIMP User Interface,1997

提供自然、直观的体验

多模态交互更贴近人类本能交互方式，可以通过对话、面部表情、肢体动作等表达自己的意图，而不是仅仅局限在单模态交互的方式。降低认知负荷，以智能音箱为例，对于正在咿呀学语的幼儿来说，通过对话方式让音箱播放音乐不仅有趣，而且比点击屏幕界面要简单得多，能让他们更轻松、直接地表达自己的意图。

提升灵活性与无障碍包容性

多模态交互提供多样化的输入输出模态，适应不同的人群需求。例如：在不方便操作手机的离手场景，用户可以通过语音执行指令；视障人群可以结合语音与手势进行交互；听障人群可以借助视觉与手势操作设备。

提升效率与鲁棒性

提升效率：多模态并行输入输出，不局限在单模态交互，提升交互效率。例如：现有的扫地机器人是围绕预设空间进行清理，在不远的未来，我们可以指着餐桌同时对扫地机器人说：“帮我清理一下餐桌下面的食物残渣。”通过手势和语音结合的多模态输入，提升输入效率。提升鲁棒性：在复杂多变的环境中，面对未知问题的抗干扰能力、容错性较强。例如：自动驾驶采用多传感器互补策略，通过摄像头、毫米波雷达、激光雷达等不同传感器的特性，识别交通信号灯、近距离障碍物等。

增强沉浸感

在增强现实（AR）、虚拟现实（MR）等应用中，通过视觉、声音、震动等多感官信息传输，能为用户营造更加身临其境的体验，从而提升其参与度和投入感。

03 多模态交互的理论基础

目前多模态交互的理论基础主要来自认知心理学领域，分别是：多重资源理论和记忆模型。

多重资源理论

多重资源理论（MRT）核心观点阐明了人的注意力不是单一维度，而是分布在多个维度（视觉、听觉、空间等感知）。

如果任务都集中在一个感知通道，会造成认知负荷。多模态交互正是基于不同感官通道的协同，降低用户负荷。我们在开车时，视觉通道需要：看路面；车机导航如果仍然需要用户：看屏幕后点击操作，会导致视觉通道拥挤，互相抢占资源。如果此时导航操作采用语音的方式，就避免了这个问题，让驾驶场景更加安全。

工作记忆模型

Baddeley 定义的工作记忆模型将人类短时认知加工分为：语音环路、视觉空间模版、情景缓冲区、中央执行系统。可以看到我们对于短期记忆的信息处理天然就是“多模态的”，从人类短期信息存储与加工机制的角度，论证了多模态交互也能减轻认知负荷、提升效率。

04 多模态交互的设计思考

回到用户体验层面，多模态交互需要考虑什么呢？

满足用户直觉化、个性化交互

我们熟悉的界面交互是采用固定的流程进行约束，用户去学习、适应不同的功能。遇到错误异常情况，需要按照预设的路径：选择返回重新开始。而多模态交互意味着更直觉化、个人化的输入方式，不同用户之间行为习惯导致的差异性巨大。

我们可以看到谷歌 Gemini 2.5 pro 对于多模态 AI 助理核心能力的定义是：
- Personal深度理解用户意图：上下文感知对话；
- Powerful多模态信息处理：内容检索、知识关联等；
- Proactive自主决策与执行：包含界面控制、通话协助。
例如：在一个修理单车的场景，用户可以与手机进行视觉加语言的实时多模态交互，用户可以随时查询墙面上单车零件信息，助理根据不同的指令自动化操作手机界面。当用户与其他朋友对话时候，AI 助理面对临时性的对话打断，也可以灵活的屏蔽非机主声音，等用户结束与他人的对话后，也可以完整的接续语境。

2025 谷歌 I/O 大会Gemini 2.5 pro

理解人类世界构建的文化基础

除了应对用户更直觉、随性的输入，再往深层考虑，AI 时代的多模态交互需要理解：贯穿于生活中常识性、约定俗成的规则、人类信仰等内容。

下面是心理学家兼语言学家斯蒂芬·平克(Steven Pinker)设计的一段简短对话：鲍勃：“我要离开你。”爱丽丝：“她是谁？”电视剧中经常出现这种对话，我们可以很容易的理解这段话意思，甚至可以推测出爱丽丝现在很生气。但是让智能助手理解这段话并不简单，它需要理解贯穿于生活中的常识性规则、欲望和关系等等。

再举个手势设计的例子，“ok”这个手势在不同的国家有不同的含义：在中国、美国表示事情是妥妥的；在土耳其、希腊则是极具侮辱性的手势。所以多模态交互需要从对话、手势、视觉、声音等维度去考虑人类的信仰、文化背景。

具备动态学习能力

多模态交互在语音、触控、视觉的多维输入输出方式，让原本局限在手机屏幕内的界面交互向真实物理世界进行外延。设备可以感知物理世界的景象、声音，同时直接反馈给用户，让数字世界和物理世界开始深度融合。

真实物理世界是多变的，这就要求功能交互具备灵活的适应性、主动学习能力。正如 Rich Sutton 在 RLC 会议上表示物理世界是复杂的、非线性的、动态的。AI 要能够从运行中学习、规划、行动。

因为真正的 AI 与真实世界、人类进行交互的时候，会发现世界可能并不想原来预训练时所期望的那样，肯定无法完全预先了解、预见与世界互动交互所需要的所有复杂细节和所有抽象的概念。从中我们可以预见到动态学习、推理判断、执行能力是AI时代下多模态交互的基石。

“我想任何有意识的实体可能都期望：将自己设置成被无限可能地使用。”—— 来源：《2001太空漫游》

图左：特斯拉 Optimus

图右：树宇 H 型人形机器人

具身智能同样强调交互中的“动态适应”能力，能够在复杂、未知的环境中学习适应。通过“身体”的硬件与环境进行互动、实践，从而更贴近真实的人机交互场景。

平衡隐私与个性化

2025 谷歌 Android XR 智能眼镜

2025 年谷歌 I/O 大会上，发布了搭载 AI 助手的 Android XR 智能眼镜，通过设备端通过内置镜头、麦克风“听到、看到”输入信息，通过镜片内置显示屏、扬声器反馈导航信息。

“我们将迎来崭新的巨大平台，世间万物均可以与 AI（人工智能）链接，现实世界与数字化将完美融合，被称为镜像世界的 AR（增强现实）将会诞生”。—— 来源：凯文·凯利《5000天后的世界》

谷歌智能眼镜

左图：实时翻译

右图：导航

当多模态交互应用在智能眼镜、具身智能等场景，设备正在搜索、获取大量的非常个人化的数据，比如：你在你看什么、你的表情是什么、你做了什么动作、你所在位置、你周围的环境……所以我们应该更加注重用户隐私与个性化服务之间的平衡。

我们需要理解：一方面用户不希望自己的隐私数据被随意获取，另一方面想要获得个性化服务就必须提供相关数据。

那么平衡隐私与个性化这个天平的核心在于：互见性。即用户拥有知情权，可以从知道自己哪些数据被获取、被谁调用或访问。同时用户有途径通过公开透明的途径进行申诉的机制。这样一来，当用户才会让渡部分隐私权，提供多模态的个人数据从而获取更优质的个性化服务。

05 总结

本文系统性梳理了多模态交互的核心定义、独特优势、理论基础及设计思考。

在这个 AI 井喷式发展的时代语境下，变化的，是不断革新的硬件感知能力和多模态算法能力。促使多模态交互应用在手机、可穿戴设备、车载、具身智能等不同领域。

不变的，是我们对更自然、更真实的人机交互方式的探索。人类天然是通过视觉、声音、表情、动作传递信息和表达自我，而“多模态交互”的意义，正是让人机交互逐渐贴近人与人、人与原生世界的交互范式。

参考文献
- 薛志荣. 《前瞻交互：从语音、手势设计到多模融合》[M]. 电子工业出版社，2022.
- （英）迈克尔・伍尔德里奇. 《人工智能全传》[M]. 许舒译。浙江科学技术出版社，2021.
- （美）凯文・凯利、吴晨. 《2049：未来 10000 天的可能》[M]. 中信出版集团，2025.
- Rich Sutton, The OaK Architecture: A Vision of SuperIntelligence from Experience – RLC 2025
图片来自网络公开资料，若涉及版权请联系修改。

本文由 @HAI Design 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务
18 12 月, 2025
GPT-5.2功能范式！让产品经理的我看到哪些机会点？
GPT-5.2的发布标志着AI从工具到智能体的革命性跨越。40万Token的上下文容量、增强的多模态能力与深度推理功能，正在重塑产品设计的底层逻辑。本文将剖析如何通过容错设计、角色化交互与主动协作机制，让这一代AI在中国本土场景中真正发挥’超级助理’的价值。

GPT-5.2于2025年末发布，是OpenAI对GPT-5系列的重要升级。与之前版本相比，它在多方面有质的提升：
1. 上下文容量更大，旗舰版上下文窗口高达40万Token；多模态能力增强，不仅能读文本，还更擅长识别屏幕截图、图表、UI界面并提取结构化信息；
2. 推理能力升级，引入更深层次的思维链和多级“推理投入”调节（新增xhigh级别）；
3. 工具与智能体调用更加灵活，在API中提供新的参数和上下文压缩功能。
OpenAI指出，GPT-5.2并非简单“更大的聊天模型”，而是由Instant/Thinking/Pro三个变体构成的多模态智能体家族，针对长文档推理、工具调用和视觉理解等任务进行优化。

这些底层升级带来了一场功能范式的变革：产品不再只是给模型“按钮 + 功能”，而是与一个可“扮演角色”的智能体协作。GPT-5.2让AI在复杂工作流中表现更像“超级助理”而不是单点工具。

接下来，我将从容错与场景、功能向角色迁移、主动交互设计以及商业模式等角度，结合中国本土视角，深度拆解GPT-5.2对产品的影响和机遇。

技术升级重新定义“可用性”

GPT-5.2的提升虽多，但仍不可能保证100%正确。这样的场景下，产品经理必须重新思考可用性：如何通过容错设计、场景选择和预期管理，让“非完美”AI依然产生价值？

容错设计：AI本质上是“概率引擎”，回答可能多种多样。产品不应给出绝对结论，而应设计防错机制。例如，在推荐场景中，可加注说明“基于历史行为推荐，仅供参考”；提供多个备选答案让用户选择。对医疗、法律等要求严谨的应用，还要提供解释信息，如“贷款被拒，因为负债率过高”，而不是简单拒绝。在界面设计上，团队应避免对AI结果生搬硬套，鼓励“微调-试错-迭代”的非线性开发方式，不断通过用户反馈优化模型。

场景选择：针对不同风险级别灵活应用。知名PM指南将场景分为“红灯、黄灯、绿灯”三类：在高风险场景如金融审批、医疗诊断等，AI结果必须人机回环——AI给出建议，最终由人审核并解释；而在低风险场景如垃圾邮件过滤、游戏NPC等，则可让AI直接输出，只需标注“AI生成”即可。这样既利用了AI效率，也控制了误伤风险。总之，应优先选择容错度高、受益大于风险的任务来部署GPT-5.2，避免在关键任务上盲目全权交给AI。

用户预期管理：面对准确率，必须主动引导用户认知AI局限。交互层面要透明化AI身份与可信度：界面上明确标注“××由AI生成”，并可展示模型置信度或信息来源。文案上要提醒用户“我可能会错，请您核实重要信息”，切忌宣传“100%正确”。用户应保持决策权：AI生成结果可让用户编辑、删除、撤销；对于如自动发送邮件等高风险操作，需二次确认而非自动执行。此外，及时的反馈闭环也很重要：在每条AI回答后增加“点赞/点踩”按钮和问题分类（如“不相关”“过时”“有害”），将用户纠错反馈纳入训练流程，让系统“越用越准”。

通过上述设计，产品既能利用GPT-5.2的长处，又能让用户在“模糊结果”中找到容错空间和信心，从而真正“可用”。

从功能到“智能体”

GPT-5.2带来的另一个革命是产品交互范式的变化：从传统的“按钮＋功能”界面，向“角色＋动作”的智能体交互迁移。即产品不再把AI当成黑盒工具，而是赋予它具体角色，让用户像指挥助手一样与之对话、协作。

以下结合国内常见场景举例说明：

智能办公助手：以办公软件为例。过去我们在办公套件里要手动选菜单生成报告、图表；如今可以让GPT-5.2以“资深助理”身份介入。钉钉ONE等平台已经推出了AI办公助手，例如自动生成文档和会议纪要、自动构建知识库并智能检索信息。

下图显示了GPT-5.1（左）与GPT-5.2（右）在自动创建“人力规划模型”表格时的对比：GPT-5.2生成的表格布局更专业、细节更完善，错误率更低。

如上图所示，用户仅输入高层需求，GPT-5.2便能生成规范的电子表格报表。Office产品经理可以将此类“AI助手”整合到工具栏或对话框中，让用户像和同事沟通一样，只需输入“帮我写份简报”或“列出PPT大纲”，AI便能快速交付内容，省去繁琐操作。

智能客户关系管理（CRM）：传统CRM更多是记录系统，业务人员要靠自己查询客户信息和商机。GPT-5.2能将CRM升级为“智能经营中枢“。模型可主动分析客户数据并自动完成筛选、评分与推荐：比如它会自动标记最有成交可能的潜在客户、提醒应跟进的客户；在销售过程中，AI助理还能自动撰写跟进邮件、生成沟通话术。

换言之，GPT-5.2不再是后端计算，而是变成一名“销售助理”：它查看客户资料、建议行动计划、甚至发起自动触达。产品设计上，可以给用户一个角色＋动作入口，比如“智能商务助理”对话窗口或自动提醒推送，把原本孤立的查询功能变为AI主动输出。

内容创作平台：在媒体或营销平台中，GPT-5.2可以化身“智能写手”或“创意编辑”。例如国内星光AI助手等已经支持“一键生成营销文本、配图和短视频脚本等多类型内容”。内容平台可以集成GPT-5.2，让用户只需提供主题、风格要求，AI便能完成从标题、正文到配图、脚本的整个创作动作。产品上这意味着“发布按钮”前增加AI步骤：用户点击“生成稿件”，后端AI智能体会生成初稿，用户再对稿件做微调和审核。这样设计下，GPT-5.2不只是一个工具按钮，而是扮演了“内容策划师”、“视频编导”等角色，与用户展开角色扮演式交互。

总的来说，在新范式下，产品由单一功能集合变为“多Agent生态”，用户不再手动串联功能流程，而是对话式地分配任务、审阅结果。这种转变要求产品经理在设计时把AI当成人物角色，规划它的行为方式和边界，从而让GPT-5.2的能力真正融入业务场景。

未来已来——主动性、异步性与“教育”用户

GPT-5.2带来了新的设计理念：AI可以主动发力、异步反馈并引导用户学习使用，这对国内用户行为特点提出了新要求。中国用户习惯即时响应、不喜欢多余操作，因而产品需要巧妙地将“智能体”能力与用户体验结合：

AI主动提示：智能体可在用户尚未察觉前主动提供建议。比如，当用户输入“帮我安排会议”时，AI不仅给出初步日程，还会主动问“您偏好周几开会？”、“需要多长时间？”等引导性问题，形成多轮协作。在界面设计上，可通过悬浮提示、侧边栏建议等形式，让AI时时“盯着”用户需求，及时抛出补充信息与选项，而不是等用户按“执行”后再被动响应。此外，对于如支付、提交等关键操作，AI应主动请求用户确认，以可控的方式教育用户：AI即使可以自动完成，系统也要让用户插入判断，确保用户习惯逐步过渡，透明而有参与感。

异步反馈：对于需要较长时间处理的任务（如大文档分析、复杂调用等），产品可以设计异步模式，改善中国用户的耐心阈值。比如用户提交生成需求后，系统应立即给出视觉反馈（如“我们正在努力生成中…”），而不是让用户空等。生成过程可以分阶段展示：第一阶段先返回部分结果或大纲，用户确认无误后继续深入细节。产品可以引入进度条、子任务清单等形式，让用户感觉到AI在“持续工作”，而非长时间毫无响应。加速首字生成时间和输出流畅度也是关键：研究建议聊天场景首字响应应控制在200ms以内，否则用户会认为系统“卡住了”。GPT-5.2本身性能更强，但在产品设计中仍要利用加载动画等策略及时给用户反馈，满足喜欢“秒回”的使用习惯。

延迟回报式学习：面向不断提升用户对AI的熟悉度，可设计渐进式奖励机制。例如对首次尝试AI功能的用户，给予操作指引或引导教程，一步步展示GPT-5.2的能力和边界；同时通过游戏化元素（如成就徽章、等级体系）鼓励用户多尝试多反馈，形成闭环学习。产品可以记录用户历史输入与AI反馈情况，利用GPT-5.2的记忆能力，在后续会话中自动复用已验证有效的方案。这样用户在与AI互动中逐渐建立信任：因为系统“越用越聪明”，他们看到自己的反馈被采纳。结合“即时反馈+渐进学习”的设计，既满足了用户一开始希望快速见效的需求，也逐步教育用户拥抱AI协作的工作方式。

简言之，新交互下用户像队友一样与AI共事，需要产品在设计上强化协同与教育功能。借鉴微软Magentic-UI等前沿实践：如其“共策划工作流设计器”让人机共同制定每一步方案，用户可随时修改、确认、介入；界面实时显示AI操作，让用户清楚看到AI在做什么。这些设计有助于“教学”用户理解AI行为、建立信任。面对用户“不喜欢多步骤但爱即时响应”的特点，合理平衡主动协作与简洁流程，将GPT-5.2无缝融入产品中，就是关键的一课。

结语：PM的我们，可以做什么？

GPT-5.2带来了新一代的功能范式跃迁：产品经理不再是单纯的“功能配置师”，而要成为AI的“调教师”和协作设计师。在这个过程中，PM需要完成思维转变：

①从“功能交付”到“效果交付”，关注AI提升效率、降低错误率等实际效果；

②从“确定性思维”到“概率思维”，习惯在不完美中寻优，并在成本、速度、质量间权衡；

③从“孤立工具”到“智能体生态”，设计由多个角色协作完成任务的新型应用。正如业内总结：“AI时代PM的核心竞争力，不是用了多牛的模型，而是懂不懂‘数据策展’、会不会‘模型选型’、能不能‘风险控制’”。未来的产品经理更像是一名模型教练：他们要训练和微调GPT-5.2，设置合理的提示和回路，让AI能力持续进化；同时与设计师、数据工程师一同塑造人机协作体验，强化反馈学习，让每一次交互都朝着更智能的方向迭代。

拥抱GPT-5.2，就是拥抱智能涌现的时代。通过合适的设计和场景落地，我们可以让这一代模型既“靠谱”又“接地气”，为用户提供新颖有趣又切实可行的产品体验。在日新月异的AI浪潮中，未来产品的制胜之道，不仅是打磨功能本身，更在于驾驭模型、编织协作，让智能真正成为用户无形中最坚实的助力。

本文由 @兔主任观测员原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议
18 12 月, 2025
一个 RAG 项目，在真实训练中是怎么被“做出来”的？
RAG技术远非简单的数据注入，而是重塑AI理解与决策的核心框架。本文深度拆解RAG项目中的真实困境——从语料筛选、矛盾处理到结果交付，揭示为何90%的工作仍依赖人类判断。当多数团队将其视为过渡方案时，RAG正在成为连接静态模型与动态业务的关键基础设施。

在上一篇里，我花了很多篇幅讲 RAG 为什么重要。但真正走到项目现场，你会很快意识到一件事：RAG 不是一个“加模块”的技术问题，而是一整套数据与判断体系。

很多刚接触的人会以为，RAG 项目无非就是：

给模型多喂点资料，让它照着说。

但真实情况是——真正决定 RAG 效果的，从来不是“有没有资料”，而是“资料怎么被用”。

一、先从一个最真实的工作场景说起

在对话式 AI 助手场景中，RAG 项目面对的，通常不是“标准问答”，而是这样一种结构：
- 一段可能是单轮、也可能是多轮的历史对话
- 用户提出的最新问题
- 系统检索到的 1–3 条参考材料
模型要做的，不是简单复述材料，而是：

理解对话语境 → 判断哪些材料有用 → 整合信息 → 给出一个“对用户有帮助”的回答

从训练视角看，这本质是在做一件事：材料阅读理解 + 问题理解 + 信息整合 + 表达控制

二、RAG 项目里的“三件套”：问题、材料、回答

如果把一个 RAG 项目拆开来看，它其实由三块内容构成，但这三块，没有一块是“天然可靠”的。

1️⃣ 问题，本身就可能有问题

你在项目中会频繁遇到这样的情况：
- 问题语义不清
- 上下文矛盾
- 逻辑跳跃严重
- 甚至包含明显不合理或有害的意图
这意味着：不是每个问题，都值得被认真回答。

2️⃣ 参考材料，也不一定“参考得了”

很多人第一次看到“参考材料”，会下意识觉得它是权威的。但真实项目里，材料常见的问题包括：
- 和问题不相关
- 信息不完整
- 多条材料之间互相冲突
- 甚至存在常识性错误
所以在 RAG 项目中，“材料”并不是答案，而只是候选证据。

3️⃣ 回答，才是最终交付物

最终交付的不是“是否匹配材料”，而是一个用户能直接使用的回答。这意味着回答需要同时满足：
- 理解用户真正想问什么
- 不违背材料事实
- 信息足够完整
- 表达自然，不像“在念资料”
三、为什么 RAG 项目不是“自动化就能搞定”的？

很多人会问一个问题：

既然现在模型已经这么强，为什么还需要大量人工介入？

答案其实很现实：RAG 项目里，90% 的难点都在“判断”，而不是“生成”。

比如：
- 材料不全，要不要补？
- 材料有错，要不要纠正？
- 多条材料冲突，信哪一条？
- 历史对话有问题，要不要直接跳过？
这些问题，本质上都不是模型能自己解决的，而是人类在替模型建立判断边界。

四、RAG 项目真正训练的是什么能力？

从表面看，RAG 项目是在训练模型“用资料回答问题”。但从更底层看，它在训练的是三种能力：
1. 信息取舍能力什么该用，什么不该用，什么只能作为背景。
2. 上下文对齐能力回答不是独立存在的，而是嵌在一段对话里。
3. 结果导向能力不是“材料写了什么”，而是“用户看完能不能用”。
也正因为如此，RAG 项目往往是很多大模型走向“可用”的关键一环。

五、一个容易被忽略的事实

在很多团队里，RAG 项目被当成“过渡方案”，但在真实业务中，它往往是长期存在的基础设施。

原因很简单：
- 业务在变
- 知识在变
- 但模型不可能天天重训
而 RAG，恰恰是连接“稳定模型”和“变化世界”的那座桥。

写在最后

如果说第一篇解决的是：“为什么一定要有 RAG？”

那这一篇，其实是在回答：“RAG 项目里，人到底在做什么？”

下一篇，我会继续往下拆一个更具体、也更“脏活累活”的问题：RAG 数据到底是怎么被标的？哪些情况该过，哪些必须跳？

共勉！棒棒，你最棒！

本文由 @青蓝色的海原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自unsplash，基于CC0协议
18 12 月, 2025
我用谷歌NotebookLM，把黄铮的商业思考，一键转成了PPT！

真正硬核的AI内容工具，一定得能解决「最后一公里」的难题：要么极度懂逻辑，能啃动深奥的长文本；要么有极强的可视化能力，能一键输出高质量成果。

这两天，谷歌NotebookLM在Gemini 3 Pro加持下彻底杀疯了，镜哥深度实测了一下，用它把黄峥早期的几万字深度长文，一键翻译成了逻辑严密的商业PPT。

在AI绘图和对话泛滥的当下，这种能读懂复杂商业逻辑并可视化的能力，简直是降维打击。、不少圈内朋友都感叹：这才是能真正帮打工人省时间的神级工作流。

Follow me，一起来打破这个信息差！

说心里话，镜哥在AI圈也摸爬了这么久，逐步对AI刺激开始有些免疫了，现在能让我有多巴胺快感到“头皮发麻”的AI工具，越来越少了。。

咱们每天看着各种模型跑分刷榜，今天你超越GPT-5，明天他拳打Claude 4.5，但落到实际应用上，往往还是那个老样子：能聊几句天，但真要干活，还是离不开咱们人工上手擦屁股。

实际场景往往是：进度条0-90%一路高歌，最后10%却耗费90%的额外精力，真真是卧了个大槽。

前几天，Gemini 3 Pro，属实算是AI圈儿的一针强心剂，能打才是硬道理嘛~

原本我以为Gemini 3之后，新的刺激怎么也得个把月，但是，这两天我是真被谷歌的NotebookLM给惊到了（内心os：这是谁的部下~）。

实际上，镜哥在之前的文章中分享过NotebookLM：有没有真正好用的知识管理工具？？

不过，咱之前大家聊NotebookLM，都是冲着知识库调用、都是冲着那个“AI播客”功能去的——后者也确实好玩，听着两个AI搁那侃大山，hhhh。

直到昨天，我顺手体验了其在Gemini 3 Pro级别的能力加持下的PPT生成能力，又被刺激到了。

真的，完全超预期！

01 实操案例：操作很方便，一键生成演示文稿

熟悉黄峥的朋友都知道，他的文章思考极深，讲“劣币驱逐良币”，讲“反向保险”，讲“量子力学与商业逻辑”，这里面的逻辑密度极大，普通人读两遍都不一定能理解透。

镜哥没事就会翻出来读一读，很受启发，本文咱们就以这个案例为例。

当然，先讲下大概的使用流程，其实也非常简单：

首先，咱们打开NotebookLM的网站，先上传需要的参考文件——《黄峥公众号原创文章全集.pdf》，上传文件后，NotebookLM会自动解析：

解析完成后，咱们在右侧可以看到「演示文稿」的生成按钮，点击下，然后静待生成。

接下来发生的一幕，确实让我对谷歌这次的更新刮目相看。

也就几分钟，就生成了对应的PPT，哦，准确地说，应该是演示文稿，大家可以看一下，质量是相当的好啊：

当然，咱们可以对生成好的演示文稿进行在线播放，也可以下载为pdf，甚至你还可以用邪修把水印去掉即可。

02 不是在做摘抄：它真的读懂了商业逻辑

首先，从用户场景出发来看一个问题：大家用AI做PPT，最头疼的是什么？

镜哥觉得主要有两个：

一个是AI不懂装懂，它往往只是机械地把文章里的句子摘抄下来，贴在PPT上，虽然字都对，但凑在一起就是不知所云。

另一个是，界面风格不够美观，要么丑的让人脚趾抓地、要么一眼就是html的风格，改起来很难。

但这次不一样。

在Gemini 3 Pro这种新模型的加持下，NotebookLM给我的感觉是：它不是在做摘抄，它是在做翻译，而且不是语言的翻译，而是把「复杂的文本逻辑」翻译成「可视化的商业逻辑」。

大家可以看看这张图，这是它生成的关于“劣币驱逐良币”与“电影院现象”的幻灯片：

注意看，它并非只给你堆砌文字，而是精准地提炼出了关键洞察，甚至根据原文内容给出了「造币厂」、「电影院」准确的定义、本质特征，而且配的图也很符合其对作者商业逻辑的理解。

你敢相信，这是AI直接做出来的？！

再比如，下图是关于质变的临界点的洞察总结：

它抓住了黄峥原文中关于“临界点”的论述——一粒屎坏了一锅汤，劣质比例在2%到5%之间，而且，幻灯片右侧对商业应用、纠正成本的引用和总结，也是非常的到位。

你看，这就是我在小群里常说的：AI的智商，不体现在它能写多少字，而体现在它能“删”多少字。

这就类似于咱们产品经理做设计减法，如果AI能把几千字的废话删掉，只留下这最核心的一句洞察，这说明它是真的读懂了。

03 审美在线：连“流程图”都能自动生成

如果说逻辑理解是内功，那视觉呈现就是外功。

说实话，以前用Gamma或者PPT Copilot这类工具，最让我抓狂的是它们只会列Bullet Points（要点列表）。

不管你喂进去什么内容，它永远给你出三个小圆点，看多了真的会吐。

但NotebookLM这次给了我一个巨大的惊喜。

比如，下面这张图，他甚至知道把团队比喻成小树：

再比如，下面这两张关于“个性化需求归集为计划性需求”的演变示意图，不仅很懂内容，而且个性化需求的散点效果，以及计划性需求的归集模块的效果，都很到位、很细腻：

你看，它竟然自动画出了一个高度契合语境的“示意图”！

从左边的“计划性需求”，到中间的“解耦”、“柔性化”，再到右边的“计划性需求”，路径画得清清楚楚。

镜哥认为，这背后其实是非常恐怖的能力，因为要画对这种图，AI必须得理解“因果关系”和“先后顺序”，它得知道先有解耦，才能有柔性化。

这种级别的图表，以前哪怕是找个刚入行的咨询顾问，都不一定能画得这么清晰，现在，谷歌NotebookLM一键就给你搞定了。

这不仅仅是审美的重塑，更是效率的极大提升。

04 信息差红利：产品经理的神级工作流

看到这，可能有人会问：镜哥，这东西对我这种打工人有啥用？我又不去研究黄峥。

这就得聊聊咱们最容易忽略的信息差了。

我想很多做产品经理或者做行业研究的朋友，平时工作中最大的痛点就是：资料太多，整理太慢，分享太难。

比如：

1️⃣做完一轮客户访谈，手头全是乱七八糟的Word记录。

2️⃣看完几十份竞品报告，脑子里一团浆糊。

3️⃣想给老板做个汇报，光写PPT大纲就得憋一天。

现在，这个游戏规则变了。

我实测了一个新路径，效率高得吓人：

1️⃣把这些杂乱的源文件，直接拖进NotebookLM。

2️⃣利用最新的模型能力进行语义梳理。

3️⃣点击右下角的「演示文稿」。

4️⃣一键导出。

你得到的不是一个草稿，而是一个可以直接转成PDF分享的知识资产。

就像我这次生成的黄峥系列一样，咱们甚至该可以直接生成一个分享链接，设置为「网上知道链接的任何人都可以查看」。

对方点开，看到的就是一份排版精美、逻辑闭环的商业分析报告。

什么叫做专业，这就叫降维打击。

当别人还在吭哧吭哧复制粘贴的时候，你已经用最强的模型把信息洗了一遍，变成了高质量的资产。

总之，这次实测下来，我的个人感觉是：谷歌依托Gemini3模型，通过canvas绘图的新方式，直接与PPT演示错开了竞争路径。

因为，它在另一个更高的维度上。

客观上，NotebookLM结合这个级别的模型能力，确实切中了一个极其痛的场景——「从长难文本到高质量演示」的最后一公里。

如果你手头正好有难啃的资料，或者急需输出一份有深度的报告，听我一句劝，赶紧去试试。

毕竟，极速流变的AI时代，慢一步，往往就意味着失去了一个维度的竞争权。

本文由人人都是产品经理作者【产品大峡谷】，微信公众号：【产品大峡谷】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

18 12 月, 2025
豆包AI手机，给我们踏出来了三条血路
一款号称’能听懂人话’的AI手机引爆市场，却在真实体验中频频’翻车’。这背后折射出的不只是技术问题，更是AI产品设计中关于权限边界、体验链路与生态规则的深层思考。本文从产品经理视角，剖析当前AI交互设计的三大致命误区，并给出兼顾创新与落地的四步解法。

最近科技圈那台“能听懂人话”的AI手机，大伙儿都看到了吧？

从刷屏预售到主播们集体“翻车”，这过山车我都看乐了。

（图片来源网络）

作为一个天天琢磨产品的人，我没上手真机，但几乎蹲完了所有深度评测。

看多了，一个问号越来越大：这么“炸裂”的功能，为什么深耕系统多年的苹果、华为，反而没做？

这事儿绝不只是技术行不行那么简单。它像一面镜子，照出了当前AI产品经理最容易踩进去的几个大坑。

今天，我就结合这些天的观察，聊聊我的看法。

01 我最先注意的，是它那把“万能钥匙”

它想做到的事情，说实话挺诱人：你一句话，手机代你点外卖、打开 App、处理流程，像个真正的数字管家。

（图片来源网络）

但真实世界里，它之所以能做到这些，是因为拿到了安卓系统深层的“注入事件权限”——我更愿意把它理解成“万能钥匙”。

从产品逻辑上讲，这条路径看似合理：既然要代替手指，那就让 AI 能点击屏幕、滑动界面。

但我最直观的感受是：这把钥匙不应该这么交出去。

用户看到弹窗，会以为“助手要帮我操作一下”，但实际上是把微信、银行、聊天、相册、支付的一切底层入口都交给了一个服务。

我做产品时最怕的就是这种“理解与后果不对等”。如果用户连自己授权了什么都无法判断，那这条能力不论多炫，都不应该轻易落地。

安全不是禁止，而是把边界画清楚。权限可以拆、风险可以隔离，但“万能钥匙”式的一次性交付，是我个人永远不会允许上线的。

02 我更清晰地看到：智能如果不改变链路，就是负担

看评测的时候，我印象最深的是那段“点外卖”的演示。
- 官方展示 30 秒搞定。
- 博主实测 6 分钟，期间卡顿、误点、界面识别失败不断。
那一刻我非常清楚：这不是技术不够强，而是路径选错了。

AI 在现阶段通过视觉识别 App，再模拟点击流程，本质上就是把自动化测试的逻辑放到用户日常体验里。

只要页面一点变动，按钮换个位置，多一个广告弹窗，它的整个流程就会像多米诺骨牌一样全部重来。

这不是 AI 的问题，而是设计选择的问题。

在我的实践里，一个真正能让用户觉得“智能”的能力，只有在符合两点时才成立：
- 它真正重构了任务链路，让体验变得比原来短、快、确定。
- 它可以在失败时优雅退化，而不是让用户成为它的“监工”。
可惜，这台手机做的恰好相反：它既没有把原有流程拆解重构，也没有构建清晰的边界和失败处理方式。最终就变成了一个“看起来很厉害，但你需要盯着它的每一步”的半自动工具。

03 技术再先进，触达用户的方式不对，体验就会反噬

真正让我觉得“危险”的，是它和生态的正面冲突。

这件事最值得所有产品人反思的，不是“技术实现”，而是它和整个移动生态之间的冲突。

移动生态这么多年能够稳定运转，靠的是一整套相互制衡的规则：1. 敏感操作必须即时确认。2. 支付需要用户主动触发。3. 安全验证不能被绕过。4. 平台要识别自动化攻击。

而这台手机的 AI 模式，却是一次性授权、全程自动代操作。

你不用想也能猜到结果：微信、支付宝、银行类 App 把它当成异常设备或自动化攻击工具，直接拦截或封禁。

我相信不是平台“封杀创新”，而是这个模式本质上破坏了它们赖以生存的安全模型。甚至某些平台的商业模式——广告曝光、任务链路、停留时长——也被自动化操作彻底抽离。

换成我站在平台那边，我也不可能接受这样的冲击。

做产品这几年我越来越相信一件事：任何挑战生态底层规则的创新，都必然要付出高昂代价。这次事件就是代价的真实样子。

04 如果让我来做，我会怎么落地？

如果把这件事放在我自己的工作场景里，我大概会这么做：

第一，把能力拆开，让权限变得“可感知”。与其一次性撸到系统级权限，不如拆成“读取页面信息”“执行局部操作”“用户确认后代操作”这种可控的小能力，让用户知道每一步的边界。

第二，不卖“全能”，只交付“可控”。我宁可宣传成“帮你加速 80% 的流程”，也不会为了营销把它说成“你一句话我全搞定”。

第三，和关键平台提前做规则对齐。支付、登录、隐私敏感操作必须遵守现有机制，能辅佐就辅佐，不能接管就不要硬上。

第四，为失败设计兜底逻辑。这在真实场景里尤其重要。我希望用户遇到异常时能清楚地知道发生了什么，并能随时接管，而不是在旁边焦急等待看它“下一步会点错哪里”。

在我看来，真正的 AI 产品不是“炫技”，而是“靠谱”。

最后的话

这台手机让我重新审视了一句我以前没太在意的话：不是看 AI 能做什么，而是要看它“应不应该这么做”。

技术当然要往前跑，但安全、体验、生态，这三条线永远不可能绕过去。越是面向大众的产品，越需要克制，需要反复琢磨边界在哪里、风险如何隔离、用户的理解和心智是否足够匹配。

这次的讨论喧嚣很大，但对我来说，它更像一声警钟。

不是对某一家公司，而是对我们所有在做 AI 产品的人。我们都想做突破性的东西，但突破从来不是靠“抢快”和“压风险”，而是靠把底层规则摸清、把用户的信任护住、把生态的张力处理平衡。

希望带给你一些启发，加油！

本文由人人都是产品经理作者【柳星聊产品】，微信公众号：【柳星聊产品】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。
18 12 月, 2025
Netty（18）Netty的内存模型

Netty的内存模型是基于ByteBuf的，它提供了一种灵活而高效的内存管理方式。下面是一个详细的解释，结合代码示例说明Netty的内存模型。 ByteBuf的类型： Netty中的ByteBuf是用

18 12 月, 2025
Netty（17）Netty如何处理大量的并发连接？

Netty是一个高性能的网络通信框架，它通过使用异步、事件驱动的方式处理大量的并发连接。下面是一个详细的解释，结合代码示例说明Netty如何处理大量的并发连接。使用多线程模型： Netty使用了多线

18 12 月, 2025
Tauri (20)——为什么 NSPanel 窗口不能用官方 API 全屏？

在基于 Tauri 开发 macOS 桌面应用时，我们经常会遇到一种特殊的窗口类型：NSPanel。它通常用于 spotlight 搜索栏、悬浮工具条等场景。然而，当我们想给这种“小窗口”加上全屏能力

18 12 月, 2025
C++共享内存小白入门指南

什么是共享内存？想象一下，你和你的室友共用一个冰箱。你们都可以往里面放东西，也可以从里面拿东西，这就是共享内存的基本概念！在C++中，共享内存是一种让不同进程（可以理解为不同的程序）能够访问同一块内

18 12 月, 2025
C++程序崩溃时内存泄漏的真相

想象这样一个场景：你的C++程序在运行过程中突然崩溃了——可能是段错误、除零异常，或是某个未处理的异常。程序申请的大量堆内存还未来得及释放。作为一名负责任的程序员，你不禁要问：这些内存算泄漏了吗？它们

18 12 月, 2025

标签： startup

01 多模态交互的定义

模态：多重感官通道

单模态交互

多模态交互

02 现状与优势

提供自然、直观的体验

提升灵活性与无障碍包容性

提升效率与鲁棒性

增强沉浸感

03 多模态交互的理论基础

多重资源理论

工作记忆模型

04 多模态交互的设计思考

满足用户直觉化、个性化交互

理解人类世界构建的文化基础

具备动态学习能力

平衡隐私与个性化

05 总结

技术升级重新定义“可用性”

从功能到“智能体”

未来已来——主动性、异步性与“教育”用户

结语：PM的我们，可以做什么？

一、先从一个最真实的工作场景说起

二、RAG 项目里的“三件套”：问题、材料、回答

1️⃣ 问题，本身就可能有问题

2️⃣ 参考材料，也不一定“参考得了”

3️⃣ 回答，才是最终交付物

三、为什么 RAG 项目不是“自动化就能搞定”的？

四、RAG 项目真正训练的是什么能力？

五、一个容易被忽略的事实

写在最后

01 实操案例：操作很方便，一键生成演示文稿

02 不是在做摘抄：它真的读懂了商业逻辑

03 审美在线：连“流程图”都能自动生成

04 信息差红利：产品经理的神级工作流

01 我最先注意的，是它那把“万能钥匙”

02 我更清晰地看到：智能如果不改变链路，就是负担

03 技术再先进，触达用户的方式不对，体验就会反噬

04 如果让我来做，我会怎么落地？

最后的话