文章

AI终局：从Gemini多模态到Iceberg架构的底层重构

#468 · 2026-05-23 · 21ZHAO Blog

Reading Path / ARTICLE 先抓主张，再转成行动 #468 · 21ZHAO Blog · 读完进入产品或下一篇

阅读数据加载中… 点赞数据加载中…

生成页数

幻灯片语言

提炼重点 / 自定义指令 (可选)

承上启下：在上一篇《百川All in医疗与Agent工程化：从Prompt到MCP的范式转移》中，我们探讨了百川智能垂直深耕医疗场景与开发者逐步向 MCP 协议迁移的工程趋势。随着垂直应用走入深水区，多模态物理世界感知的自然交互以及企业异构数据的跨引擎流转，构成了下一代 AI 架构的核心支柱。本篇我们将一同解构 Google 发布的 Gemini Omni 视频视频流跨模态对齐架构，以及 BigQuery 对 Apache Iceberg 开源表格式的跨引擎支持，共同探讨“数据存算分离”与 AI 自然交互的终局玩法。

引言：AI应用的“去泡沫化”与底层重构

在2026年的今天，人工智能行业正经历一场深刻的静默革命。表面上看，各大厂商仍在竞相发布新的模型参数或营销概念，但深入观察近期Google的技术动态以及行业圆桌对话，我们可以发现一个清晰的趋势：AI正在从“应用层的套壳游戏”转向“底层基础设施与物理世界交互”的双重重构。

一方面，Google发布了具备“万物到万物”（anything-to-anything）能力的Gemini Omni模型，标志着多模态交互的成熟；另一方面，Google Cloud在BigQuery中引入对Apache Iceberg的跨引擎支持，解决了长期困扰数据工程师的“数据孤岛”与“计算引擎绑定”问题。与此同时，国内科技圈关于“下一个杀手级AI产品”的讨论，也明确指出单纯依赖大模型API的应用注定短命，唯有结合硬件、生态与真实交互闭环的产品才能存活。

本文将综合Google的技术发布、数据架构演进以及行业对AI终局的判断，探讨开发者与产品人应如何应对这一从“聊天框”到“物理世界”的范式转移。

为什么值得关注

这组素材之所以值得深入剖析，是因为它们共同指向了AI发展的两个核心痛点：交互的自然性与数据的流动性。

交互维度的突破：The Verge对Gemini Omni的体验显示，AI已不再局限于文本或简单的图像生成，而是能够处理复杂的视频流与多模态输入。这意味着开发者面临的挑战不再是“如何让AI说话”，而是“如何让AI理解并操作物理世界”。
数据架构的解耦：InfoQ报道的BigQuery Iceberg支持，解决了企业级应用中“数据存算分离”的最后一公里问题。对于构建AI应用而言，数据的质量与获取效率直接决定了模型的上限。Iceberg的跨引擎支持意味着开发者可以在不迁移数据的前提下，灵活选择Spark、Flink或Trino等计算引擎，极大降低了AI数据管道的维护成本。
商业逻辑的回归：36Kr的圆桌对话揭示了一个残酷的现实：C端用户不再为单纯的“聊天机器人”付费，B端客户也不愿为缺乏闭环的“演示Demo”买单。市场正在淘汰那些没有硬件载体、没有真实业务场景的“伪AI应用”。

信息热度

当前社区与开发者圈层对这两类技术动态的反应呈现出明显的两极分化与融合趋势：

多模态模型的“幻觉”与“惊喜”：在The Verge的测试中，Gemini Omni展现了惊人的视频理解与生成能力，甚至能进行复杂的“深度伪造”式创作。社区讨论的焦点已从“模型是否聪明”转向“模型是否可信”以及“如何控制生成内容的边界”。开发者痛点在于，如何将这些强大的多模态能力封装成稳定、低延迟的API，而非仅仅作为炫技的Demo。
数据工程的“解放”呼声：在数据工程社区，Apache Iceberg已成为事实上的开放表格式标准。Google BigQuery的加入被视为对开源生态的重大利好。此前，许多团队被迫在“使用云厂商专有格式以换取性能”与“使用开源格式以换取灵活性”之间做艰难选择。Iceberg的跨引擎支持消除了这一顾虑，使得“一次存储，多处计算”成为可能，显著降低了数据湖仓一体架构的复杂度。
硬件入口的焦虑：在36Kr的圆桌中，嘉宾们普遍对“AI眼镜”、“具身智能”等硬件入口表现出高度关注。社区情绪显示，开发者担心错过下一个硬件红利期，同时也对硬件开发的长周期、高成本感到焦虑。这种焦虑推动了“软件定义硬件”与“硬件赋能软件”的深度融合讨论。

关键信息

1. Gemini Omni：多模态交互的质变

根据The Verge的报道，Google的Gemini Omni模型展示了“anything-to-anything”的能力。这意味着模型可以接受视频、音频、文本、图像等多种输入，并生成相应类型的输出。在测试中，作者尝试让模型理解并重构一段关于毛绒玩具的视频，模型不仅识别了物体，还理解了场景中的动作与情感，甚至能生成符合逻辑的后续视频片段。

技术细节：该模型突破了传统多模态模型中“编码器-解码器”的简单拼接，实现了更深层的跨模态对齐。对于开发者而言，这意味着可以构建更自然的交互界面，例如通过视频通话实时获取AI的建议，或通过语音指令直接生成复杂的可视化图表。
应用场景：教育、娱乐、内容创作等领域将率先受益。例如，在教育场景中，AI可以实时分析学生的表情与肢体语言，调整教学策略；在内容创作中，创作者可以通过简单的草图或语音描述，生成高质量的视频素材。

2. BigQuery Iceberg：数据架构的解耦

InfoQ报道指出，Google Cloud在BigQuery中引入了对Apache Iceberg的跨引擎支持。这一功能允许团队在BigQuery、Spark、Flink和Trino等不同计算引擎中，对同一份Iceberg表进行创建、更新和查询，而无需复制数据。

技术细节：Iceberg是一种开源表格式，提供了ACID事务、时间旅行、模式演化等高级功能。此前，BigQuery主要使用其专有的表格式，虽然性能优异，但缺乏灵活性。通过支持Iceberg，Google打破了数据孤岛，使得企业可以在不同引擎间自由切换，利用各自的优势。例如，使用Spark进行大规模ETL处理，使用Flink进行实时流处理，使用BigQuery进行交互式分析。
成本与性能：这一变化显著降低了数据迁移的成本与风险。开发者无需再担心被锁定在某一云厂商或某一计算引擎中，可以根据业务需求灵活选择最优方案。同时，Iceberg的高效元数据管理也提升了查询性能，特别是在处理大规模数据集时。

3. 杀手级AI产品：从“套壳”到“闭环”

36Kr的圆桌对话中，多位嘉宾达成共识：下一个杀手级AI产品不会是单纯的聊天机器人，而是结合硬件、生态与真实交互闭环的产品。

硬件先行：AI眼镜、具身智能等硬件载体被认为是AI进入物理世界的关键入口。这些硬件不仅提供传感器数据，还具备执行能力，使得AI能够从“观察者”转变为“参与者”。
生态为王：单纯的技术优势难以持久，构建开放的生态体系，吸引开发者与合作伙伴共同创新，才是长期竞争力的来源。例如，乐奇全球开放生态负责人赵维奇强调，To C市场需要规模效应，而To B市场需要付费意愿，两者都需要强大的生态支撑。
真实交互闭环：AI产品必须能够完成真实的业务闭环，例如通过AI助手完成订单处理、通过AI机器人完成物流配送等。只有解决实际问题，才能创造真实价值。

21ZHAO 判断

作为科技观察者，我认为这组素材揭示了一个核心逻辑：AI正在从“信息处理工具”演变为“物理世界代理”。

首先，Gemini Omni的多模态能力表明，AI对世界的理解正在从“离散的数据点”转向“连续的时空流”。视频、音频等模态包含了丰富的上下文信息，使得AI能够更准确地理解人类意图与环境状态。这将推动AI应用从“问答式”向“伴随式”转变，AI将成为用户的实时助手，而非偶尔查询的工具。

其次，BigQuery Iceberg的支持反映了数据架构的“去中心化”趋势。随着AI模型对数据量的需求呈指数级增长，数据的所有权与控制权变得至关重要。Iceberg等开放标准使得企业能够掌握数据主权，避免被云厂商锁定。这不仅降低了成本，还提升了系统的韧性与灵活性。

最后，关于杀手级AI产品的讨论，我认为“硬件+软件+生态”的三位一体模式是必然选择。单纯的软件应用难以建立护城河，而单纯的硬件设备缺乏智能灵魂。只有将AI深度嵌入硬件，并通过开放生态吸引开发者创新，才能构建可持续的商业模式。例如，AI眼镜不仅是一个显示设备，更是AI感知物理世界的窗口；具身智能不仅是一个机器人，更是AI执行物理任务的载体。

对于开发者而言，这意味着需要重新审视技术栈。不仅要关注模型的性能，还要关注数据的流动性与硬件的兼容性。同时，产品思维需要从“功能导向”转向“场景导向”，深入理解用户在真实世界中的痛点，提供闭环解决方案。

可复用建议

基于上述分析，我们提出以下面向开发者与产品人的建议：

拥抱多模态交互：在产品设计中，尽早引入视频、音频等多模态输入输出能力。利用Gemini Omni等先进模型，构建更自然的交互界面。例如，在客服场景中，允许用户上传视频描述问题，AI直接分析视频内容并提供解决方案，而非仅依赖文本描述。
采用开放数据标准：在数据架构设计中，优先选择Apache Iceberg等开放表格式。避免使用云厂商专有格式，以确保数据的可移植性与灵活性。利用BigQuery Iceberg支持，实现跨引擎计算，优化成本与性能。
聚焦真实业务闭环：在开发AI应用时，避免陷入“技术炫技”的陷阱。深入理解目标用户的真实痛点，设计能够完成业务闭环的产品。例如，在电商场景中，AI不仅推荐商品，还能自动完成下单、支付、物流跟踪等全流程操作。
关注硬件入口机会：密切关注AI眼镜、具身智能等硬件领域的发展。探索将AI能力嵌入硬件的可能性，构建“软件定义硬件”的创新产品。例如，开发基于AI眼镜的实时翻译应用，或基于具身智能的自动化仓储解决方案。
构建开放生态：在产品设计中，预留开放接口，吸引第三方开发者参与创新。通过提供SDK、API等工具，降低开发门槛，构建繁荣的生态体系。例如，为AI硬件提供开放的插件市场，允许开发者上传自定义技能。

可延展观察

未来，我们建议持续关注以下几个方向：

多模态模型的伦理与安全：随着Gemini Omni等模型能力的增强，深度伪造、隐私泄露等风险也将加剧。如何建立有效的监管机制与技术防护手段，将是行业面临的重要挑战。
数据架构的进一步演进：Iceberg等开放标准是否会成为行业主流？其他云厂商是否会跟进支持？数据湖仓一体架构的下一步演进方向是什么？
AI硬件的商业化路径：AI眼镜、具身智能等硬件产品如何实现规模化盈利？用户接受度如何？供应链与成本控制是否可行？
AI Agent的自主性边界：随着AI Agent能力的提升，其在决策与执行中的自主性边界在哪里？如何确保AI行为符合人类价值观与法律法规？

参考来源

💡 下一篇预告：BigQuery 跨引擎支持 Apache Iceberg 解决了数据流动性的技术封锁，使得底层异构数据管道的治理成本大幅下降。而对于中小企业和开源生态，如何在这个解耦的数据底座上搭建一套能够实现长期运行、多智能体协作、且具备自我进化能力的自主执行系统，构成了应用落地的最后一步。在下一篇《Hermes Agent：开源AI自动化新范式与工程落地观察》中，我们将为你梳理 Hermes Agent 模块化记忆框架、任务分发路由，以及针对工具调用的避坑策略。