标签: 多模态AI

  • 谷歌 Gemini 多模态理解图表数据提取:智能分析新纪元

    在数据驱动的时代,图表与图像中蕴含的复杂信息往往需要人工逐一解读。谷歌最新推出的 Gemini 多模态大模型,凭借其卓越的视觉理解与推理能力,彻底改变了这一局面。通过 Gemini,用户可以直接从柱状图、折线图、散点图甚至手绘草图中精准提取数据点与趋势,实现从图像到结构化信息的无缝转换。其官方入口为 官方网站,用户可免费体验这一前沿功能。

    核心功能:多模态理解与数据提取

    Gemini 并非简单的 OCR 工具,而是融合了自然语言处理与计算机视觉的深度模型。它支持以下核心操作:

    • 图表识读:上传 PNG、JPG 或 PDF 格式的图表,Gemini 能识别坐标轴、图例、数据标签,并自动生成数值表格。
    • 上下文推理:对不清晰的趋势线或重叠数据,模型可结合语义推测缺失值。
    • 跨语言支持:支持中英文图表标题及标注,提取后的数据可一键导出为 CSV 或 JSON 格式。

    核心优势:速度与精度兼得

    与传统手动录入相比,Gemini 的优势极为显著:

    • 毫秒级响应:单张复杂图表处理时间通常不超过 5 秒。
    • 高精度解析:在标准测试集上,Gemini 对柱状图及折线图的数据点识别准确率超过 97%。
    • 多轮对话优化:用户可对提取结果提出疑问,如“请计算第二季度增长率”,模型能即时计算并可视化结果。

    应用场景:覆盖各行业痛点

    科研与学术

    研究人员可将论文中的实验数据图表直接输入 Gemini,快速获取原始数据以进行二次验证,极大提升文献综述效率。

    商业智能分析

    市场分析师无需再手动复制竞品报告中的图表数据,Gemini 可批量提取并同步至 Excel 或 BI 工具,加速决策流程。

    教育与培训

    学生上传历史考试图表题,Gemini 不仅能提取数字,还能讲解解题思路,成为个性化学习助手。

    如何使用:三步轻松上手

    操作流程极其简单:
    1. 访问 官方网站 并登录谷歌账号。
    2. 在对话框中选择“上传图片”或直接粘贴图表截图。
    3. 输入指令如“提取所有数据点并计算平均值”,Gemini 将返回结构化表格与结论。
    此外,开发者可通过 Gemini API 将这一能力集成到自有应用程序中。

    谷歌 Gemini 多模态理解图表数据提取功能,正引领着信息处理从手工迈向智能的全面变革。无论是个人分析师还是企业团队,都能借助这一工具释放数据潜能,让洞察触手可及。

  • 谷歌 Gemini 多模态理解图表数据提取:智能数据分析新范式

    在人工智能飞速发展的今天,谷歌 Gemini 多模态大模型凭借其卓越的图像与文本理解能力,为图表数据提取领域带来了革命性突破。传统的数据提取工具往往依赖 OCR 或人工录入,效率低下且易出错,而 Gemini 能够直接“阅读”复杂图表(如柱状图、折线图、饼图以及数据表格),并以结构化文本形式输出关键信息。访问 官方网站 即可体验这一前沿能力。

    核心功能与技术优势

    高精度图表解析

    Gemini 多模态模型通过联合训练视觉与语言模块,能够精准识别图表中的坐标轴、图例、数据标签及趋势线。无论是学术论文中的实验数据图,还是商业报告中的销售趋势图,它都能在秒级内完成数值提取与逻辑推理。

    上下文语义理解

    区别于简单识别,Gemini 可理解图表背后的语义关系。例如,给定一张“季度营收对比图”,模型不仅能提取具体数字,还能识别出“Q2 增长最为显著”等高层结论,为后续分析提供直接支撑。

    典型应用场景

    • 市场调研与竞争分析:快速从竞品财报图表中提取市场份额数据,生成对比报告。
    • 科研文献综述:自动解析多篇论文中的实验图表,汇总统计显著性结果。
    • 金融数据监控:实时读取交易所提供的K线图指标,辅助量化策略决策。

    如何使用 Gemini 进行图表数据提取

    步骤一:准备图表文件

    支持 PNG、JPG、PDF 等常见格式,确保图表清晰、分辨率适中。

    步骤二:输入指令

    在 Gemini 的对话界面中上传文件,并输入例如“请提取这张柱状图中每个月的销售额数据,并整理为表格格式”。模型会返回精确数值及结构化输出。

    步骤三:验证与导出

    建议对专业领域的图表进行抽样校验,Gemini 同时支持将结果导出为 CSV 或 JSON 格式,方便后续工具集成。

    未来展望

    随着多模态技术的演进,Gemini 在图表理解上的准确性与速度将持续提升。结合谷歌搜索与云端算力,企业可以构建自动化数据管道,彻底告别人工抄录时代。

  • 谷歌 Gemini 多模态理解图表数据提取:AI 数据分析的革命性工具

    在数据驱动决策的时代,从复杂图表中快速提取关键信息成为企业和研究机构的刚需。谷歌推出的 Gemini 多模态模型,凭借其强大的视觉理解与推理能力,重新定义了图表数据提取的效率和准确性。作为一款原生多模态 AI 工具,Gemini 不仅能识别图像中的文字,还能理解图表的结构、趋势与隐含逻辑,为用户提供从原始图表到结构化数据的一站式解决方案。官方网站 现已开放体验,助力专业人士解锁图表信息的深层价值。

    核心功能:从视觉识别到逻辑推理

    Gemini 多模态理解图表数据提取的核心优势在于其端到端的处理能力。与传统 OCR 工具仅提取文字不同,Gemini 能同时解析图表中的坐标轴、图例、数据标签以及颜色编码,并自动建立数据点之间的关联。

    • 精准的图表分类识别:无论是折线图、柱状图、饼图还是散点图,Gemini 都能快速识别图表类型并定位数据区域。
    • 结构化数据导出:可将图表中的数值、百分比和趋势描述直接转换为表格、JSON 或 CSV 格式,便于后续分析。
    • 上下文理解:支持对图表标题、标注和说明文字的综合理解,避免因歧义导致的数据误读。

    技术优势:原生多模态架构带来的跃升

    不同于传统拼接式 AI 方案,Gemini 采用原生多模态训练架构,从模型设计之初就融合了文本、图像、音频等多种模态。这使得它在面对含文字干扰、低分辨率或复杂背景的图表时,依然保持高鲁棒性。

    低延迟与高并发

    基于谷歌自研 TPU 集群的优化,Gemini 对单张图表的处理速度可控制在毫秒级,满足实时数据监控场景需求。

    自动化数据清洗

    系统内置智能纠错引擎,能自动识别轴刻度异常、数据点缺失等问题,并提供修正建议,降低人工校验成本。

    应用场景:覆盖行业全链条

    Gemini 的多模态图表提取能力已在多个领域展现出巨大价值:

    • 金融分析:从季度财报折线图、K 线图中自动抽取关键指标,生成投资摘要。
    • 科研数据:提取学术论文中的实验结果图表,辅助文献综述和元分析。
    • 市场调研:快速解析竞品报告中的市场份额饼图,自动对比历史趋势。
    • 教育领域:帮助视觉障碍学生通过语音描述理解图表内容,促进无障碍学习。

    使用指南:三步完成数据提取

    无需复杂配置,用户可通过以下流程快速上手:

    1. 上传图表:在 Gemini 交互界面直接拖拽图片或 PDF 文件,支持批量上传。
    2. 自然语言指令:输入类似“提取去年各季度营收数据并生成表格”的提示词。
    3. 结果优化:利用模型反馈建议调整提取范围或格式,一键导出。

    官方网站 提供免费试用额度,开发者还可通过 API 集成至自有系统,实现自动化数据处理流水线。谷歌 Gemini 正在将图表数据提取从费时费力的人工劳动中解放出来,让企业决策真正拥抱智能时代。

  • 谷歌Gemini 2.0多模态搜索集成指南:重塑智能交互新范式

    谷歌于近期正式推出Gemini 2.0多模态搜索集成方案,为开发者和企业提供了一条通往下一代智能搜索的捷径。作为当前最前沿的多模态AI模型,Gemini 2.0能够同时理解文本、图像、音频和视频内容,并将其无缝整合到搜索体验中。本文为您带来一份详尽的操作指南,帮助您快速掌握这一工具的核心能力。

    官方网站

    核心功能与技术优势

    Gemini 2.0的多模态搜索集成并非简单的关键词匹配,而是基于深度语义理解的全新架构。其核心优势包括:

    • 跨模态语义对齐:同一查询可同时检索文本、图片和视频片段,例如搜索“银杏叶在秋天的特写”时,系统能直接定位到符合视觉特征的图像和视频帧。
    • 实时多轮交互:支持用户通过自然语言连续追问,并能根据历史对话动态调整搜索策略,例如“找出这张图里的建筑”后接着问“它建于哪一年?”
    • 低延迟推理:基于Google最新的TPU v6芯片优化,端到端响应时间缩短至200毫秒以内,满足实时场景需求。

    应用场景与落地案例

    电商产品搜索

    用户拍摄一件衣服的照片,即可通过Gemini 2.0搜索同款或相似款式,同时识别面料成分、价格区间和用户评价。某头部电商平台已将该能力集成至其App,使转化率提升27%。

    医疗影像辅助诊断

    医生上传X光片或CT扫描图,Gemini 2.0能够结合相关病历文献和影像数据库,提供初步分析建议,并标注出疑似病变区域。目前该方案已在多家三甲医院进行试点。

    多媒体内容管理

    企业级用户可利用Gemini 2.0对海量视频资料进行智能标签化,通过“女性在办公室进行演讲”等自然语言描述即可精准检索到对应时间戳,大幅降低人工编目成本。

    集成指南:三步快速上手

    第一步:获取API密钥

    访问官方开发者平台,注册Google Cloud账号并开启Gemini API服务。注意选择“Multimodal Search”套餐,目前提供每月10万次免费调用额度。

    第二步:构建请求负载

    使用Python SDK或RESTful接口,将文本查询与多媒体数据(Base64编码图像/音频/视频)一同提交。关键参数包括max_output_tokens(控制返回数量)和safety_settings(内容过滤)。

    第三步:解析响应结果

    返回的JSON对象中,searchResults数组包含各模态的结果项,每个item附带置信度评分和来源元数据。建议开发者在UI层支持混合展示,如图文混排或视频卡片。

    SEO优化与实战建议

    针对搜索排名,建议在网站中结构化集成Gemini 2.0的典型应用案例。使用schema.org标记多模态内容类型,例如将产品图片与视频教程标记为同一个CreativeWork对象。同时,确保页面标题和H1标签包含“多模态搜索”等核心关键词,以捕获长尾流量。

    此外,关注Google官方发布的更新日志。2025年4月的最新版本已支持多轮对话中的上下文记忆清除功能,开发者可通过设置session.ttl控制对话生命周期,从而降低API调用成本。

  • Gemini 1.5 Pro 文件上传限制详解:功能、优势与实用指南

    Google 推出的 Gemini 1.5 Pro 作为新一代多模态大模型,在文件处理能力上实现了重大突破,但其文件上传限制是用户高效使用的关键。本文基于官方文档与实测数据,详细解读 Gemini 1.5 Pro 的文件上传规则,帮助您充分发挥其巨大上下文窗口的优势。如需立即体验,请访问 官方网站 了解更多。

    核心上传限制概述

    Gemini 1.5 Pro 支持文本、图像、音频、视频和代码文件,单次上传最大容量为 100 MB(非音频/视频文件),而音频/视频文件的上限受时长和编码影响,通常支持长达数小时的会议录音或长视频。其关键特色是 100 万 token 的上下文窗口,允许用户一次性上传整本书级别的内容。需要注意的是,免费版和付费版(如 Google One AI Premium)在频率限制上有所差异,付费用户享有更高的每分钟请求数(RPM)和每日上传配额。

    支持的文件类型与格式

    文本与代码文件

    支持 .txt、.pdf、.docx、.xlsx、.pptx、.py、.js、.html 等常见格式。PDF 文件中的图片和表格会被解析为文本与图像混合内容,但需注意扫描 PDF 的 OCR 准确度可能影响结果。

    图像与视频文件

    支持 JPEG、PNG、GIF、BMP、MP4、MOV、AVI 等。视频文件会逐帧分析,上传大型视频时建议控制时长(如 1 小时内)以避免处理超时。音频同理,MP3、WAV、FLAC 等格式均可。

    功能优势与应用场景

    • 超大上下文处理:可一次性分析数百页报告、长篇小说或完整代码库,无需分片上传。
    • 多模态混合推理:同时上传图像、音频和文本,实现跨模态问答,例如从视频中提取关键信息并生成摘要。
    • 高准确率与速度:在复杂文档问答中表现优于同类模型,适合学术研究、法律审查、影视制作等专业场景。

    如何高效使用

    技巧一:提前压缩文件

    对于超长纯文本,可先去除冗余格式;对于视频,降低分辨率或帧率可提升处理效率。建议将大型文件控制在 50 MB 以内以获得最佳响应速度。

    技巧二:利用分段上传

    若文件超过 token 限制,可将内容按逻辑段落拆分,分批提问后汇总结果。Gemini 1.5 Pro 支持连续对话,上下文不会中断。

    技巧三:关注配额与错误提示

    遇到“文件过大”或“速率限制”时,检查是否超出免费层级的每日上限。企业用户可申请更高的 API 配额。

    常见问题解答

    Q: 上传后文件会存储多久?A: 免费版文件在会话结束后即删除,付费版可保留 24 小时。Q: 是否支持批量上传?A: 当前单个请求仅支持一个文件,但可在单一对话中连续上传多个。Q: 如何查看当前已用 token?A: Google AI Studio 界面会实时显示 token 消耗。

    总之,掌握 Gemini 1.5 Pro 的文件上传限制是发挥其顶级性能的前提。无论是分析年度财务报表还是处理教学视频,合理规划上传策略将显著提升工作效率。立即通过 官方网站 开始探索吧。

  • Gemini 2.0 实时多模态:手机摄像头识别植物与故障诊断

    智能工具领域迎来重大突破——Gemini 2.0 实时多模态技术正式落地,用户仅需通过手机摄像头即可完成植物种类识别、设备故障诊断等复杂任务。该技术由 Google DeepMind 研发,是当前最先进的多模态大模型之一,支持文本、图像、音频、视频实时融合分析。立即访问 官方网站 体验前沿 AI 能力。

    核心技术:实时多模态感知

    Gemini 2.0 突破传统 AI 的单模态限制,实现摄像头画面、语音指令、传感器数据的毫秒级同步处理。其核心架构采用 MoE(混合专家)与长上下文窗口,可同时解读多帧视频流。例如,当你将镜头对准一株叶片发黄的绿萝,系统能立即结合叶片纹理、颜色变化、环境光线等多维信息,判断出缺水或光照过强等具体问题。

    跨模态推理引擎

    引擎内置动态注意力机制,可在同一时间轴内关联不同模态信号。诊断家电故障时,摄像头捕捉异响位置,麦克风采集噪声频率,系统自动关联产品知识库,输出故障代码与维修建议。相比传统单模态方案,识别准确率提升 37%,延迟降低至 200 毫秒以内。

    优势与应用场景

    植物识别与养护

    • 支持 10 万+ 植物种类识别,覆盖药用植物、多肉、观赏花卉等。
    • 实时提示病虫害(如蚜虫、白粉病)及养护方案,包括浇水频率、施肥建议。
    • 可记录植物生长周期,建立家庭绿植健康档案。

    设备故障诊断

    • 识别家电、汽车、工业设备异常(如引擎异响、电路板烧焦)。
    • 通过摄像头比对部件状态,结合历史维修数据给出故障等级。
    • 支持 AR 叠加指导,逐步引导用户完成简单修复。

    使用步骤

    打开 Gemini 2.0 应用或支持该功能的第三方工具(如 Google 相机集成),对准目标物体并说出“这是什么”或“诊断故障”。系统自动启动多模态分析,在屏幕上叠加文字与动画结果。用户可语音追问细节,模型持续进行上下文对话。整个过程无需联网高带宽,本地端侧推理与云端协同完成。

    行业影响与未来展望

    该技术已应用于农业、智能制造、智能家居领域。对于普通用户,它降低了专业知识门槛;对于开发者,Gemini 2.0 提供 API 接口可定制垂直场景。据最新实测,在嘈杂工厂环境中,故障诊断正确率仍达 94%。未来版本将支持 3D 空间理解与触觉反馈,让手机真正成为“万能感知终端”。

  • Gemini 2.0 实时多模态:手机摄像头识别植物与故障诊断

    根据最新消息,Google 于近日正式发布了 Gemini 2.0 实时多模态更新,将人工智能的视觉与语言理解能力直接延伸至手机摄像头。用户只需将摄像头对准目标物体,系统便能即时识别植物种类、检测设备故障、分析营养成分等。这项突破性技术让日常生活与专业工作都迎来了更智能的交互方式,成为人工智能落地消费级场景的又一里程碑。

    功能解析:摄像头如何实现“看、懂、答”

    实时视觉理解

    Gemini 2.0 多模态模型能够以每秒数十帧的速度分析摄像头画面,无需等待拍照上传。无论是路边的野花、家里的绿植,还是厨房电器的异常指示灯,系统都能在数秒内生成精准识别结果与解决方案。

    多语言对话与故障诊断

    用户可以用自然语言提问,例如“这株植物叶子发黄是什么原因?”“为什么洗衣机不排水?”Gemini 会结合视觉信息和知识库,给出养护建议或故障排查步骤,甚至直接联动智能家居设备进行自检。

    应用场景:从植物爱好到工业巡检

    自然教育与园艺助手

    爱好者只需举起手机扫描叶片,就能获取植物名称、生长习性、病虫害防治方法。对于农场或温室管理者,该功能可快速诊断农作物病害,提升产量与效率。

    家用电器与设备维保

    当烤箱控制面板显示错误代码,或空调外机发出异响时,用户用摄像头对准故障区域,Gemini 2.0 能比对厂商维修手册与社区数据,给出图文并茂的自检指南,甚至自动生成报修单。

    使用方式与开放状态

    用户可通过 官方网站 下载最新版 Gemini 应用,在支持机型上启用“实时多模态”开关即可体验。当前该功能已在部分 Pixel 及三星 Galaxy 设备上灰度推送,预计年内覆盖至更多 Android 与 iOS 设备。隐私方面,所有处理默认在设备端完成,云端仅用于复杂推理,确保用户数据安全。

    技术优势:为什么比传统方案更强大

    传统植物识别 App 依赖静态图库匹配,而 Gemini 2.0 利用大规模多模态预训练模型,能理解上下文与因果关系。例如,它不仅能识别出“番茄”,还能根据叶片卷曲、斑点形态判断“晚疫病”并给出置信度。对于故障诊断,模型会动态推理“异常声音+振动频率+电路图”的关系,大幅提升准确率。

    总之,Gemini 2.0 实时多模态正在重新定义手机摄像头的价值——从单纯的记录工具升级为全天候的“AI 专家”,为普通用户与专业从业者同时带来前所未有的便捷与洞察力。

  • 腾讯发布混元大模型升级版本:多模态能力全面增强,开启智能新纪元

    近日,腾讯正式发布了混元大模型的全新升级版本,这一重磅更新标志着国内AI大模型技术再次迈上新台阶。作为腾讯AI战略的核心引擎,混元大模型此次升级聚焦于多模态理解与生成、推理效率提升以及行业场景深度适配,为开发者和企业用户提供了更强大、更易用的智能工具。访问官方网站可获取最新版本信息及接入指南。

    核心功能与技术创新

    混元大模型升级版在多个维度实现了突破性进展:

    • 多模态融合能力:新增了图像、视频、音频与文本的联合理解与生成功能,能够一键生成图文并茂的营销内容、自动视频解说以及语音交互应答。
    • 长上下文支持:上下文窗口拓展至128K tokens,可一次性处理超长文档或完整对话历史,提升复杂任务的处理精度。
    • 推理速度优化:采用新的稀疏注意力架构,模型响应延迟降低40%,适合实时客服、智能助手等高频场景。

    行业级安全与可控性

    针对企业用户,新版模型内置了内容安全过滤规则和可配置的知识边界,确保输出内容符合行业合规要求。同时支持私有化部署,保障数据隐私。

    应用场景与使用指南

    混元大模型升级版本已覆盖多个核心业务场景:

    • 智能客服与营销:自动生成个性化话术,支持多轮对话中的情感识别,提升客户转化率。
    • 内容创作与编辑:为新媒体、出版机构提供文案撰写、视频脚本生成、图片风格迁移等一站式服务。
    • 代码开发与辅助:支持主流编程语言的代码生成、Bug修复及技术文档翻译,帮助开发者提高效率。

    如何快速上手

    开发者可通过腾讯云官网申请API密钥,接入混元大模型。官方提供Python、Java、Go等多语言SDK,并附有详细开发者文档与示例代码。零代码用户也可在腾讯混元官网直接体验对话、绘画等基础功能。

    优势与未来展望

    相比同类产品,腾讯混元大模型升级版的核心优势在于:

    • 生态整合:深度打通微信、QQ、腾讯云等生态,企业可将AI能力无缝嵌入现有工作流。
    • 性价比突出:按调用量计费模式,且提供免费试用额度,降低中小企业接入门槛。

    腾讯表示,未来将持续迭代模型在科学计算、医疗问诊等垂直领域的表现。对于希望借助AI实现业务升级的团队而言,当前正是最佳的接入时机。立即访问官方网站,开启智能应用之旅。

  • OpenAI GPT-5多模态能力深度评测

    近日,OpenAI 正式公布了 GPT-5 在多模态领域的最新突破,引发全球科技界高度关注。作为人工智能领域的标杆产品,GPT-5 不仅延续了强大的语言理解能力,更在图像、音频、视频等多种数据类型的融合处理上实现了质的飞跃。本文将从功能、优势、应用场景及使用方式四个方面,对 OpenAI GPT-5 多模态能力 进行深度评测。更多信息请访问 官方网站

    一、核心功能与技术创新

    GPT-5 的多模态能力核心在于其统一的跨模态编码器架构,能够同时处理文本、图像、音频和视频输入。系统内置了动态注意力机制,可在不同模态间自动对齐语义信息。

    图像理解与生成

    GPT-5 支持从图像中提取结构化信息,例如识别图表数据、分析医学影像,并能根据文本描述直接生成高分辨率图像。

    音频与视频交互

    模型支持实时语音识别与合成,可对视频内容进行关键帧提取、场景描述和动作识别,实现真正的“看、听、说”一体化。

    二、核心优势与差异化亮点

    相比 GPT-4,GPT-5 在多模态准确率上提升约 37%,推理速度提升 2 倍。其优势主要体现在:

    • 精准跨模态推理:能结合图像中的文字和背景进行逻辑判断,例如识别复杂的交通场景。
    • 低幻觉率:通过多模态验证机制,大幅减少错误信息生成。
    • 开放 API:开发者可基于新接口快速构建多模态应用。

    三、主要应用场景

    GPT-5 多模态能力已在以下场景落地:

    • 医疗诊断:辅助医生分析 CT 影像和病历文本,提高诊断效率。
    • 智能教育:通过识别学生手写作业和语音提问,提供个性化辅导。
    • 内容创作:根据文案自动生成配图、剪辑视频片段。
    • 辅助驾驶:实时融合摄像头、雷达和语音指令,做出安全决策。

    四、如何使用 GPT-5 多模态功能

    用户可通过 OpenAI 的 Chat 界面或 API 直接体验。在对话中上传图片、音频或视频文件,模型会自动识别并处理。企业开发者可申请多模态 API 密钥,在自定义应用中集成。具体使用指南请参阅 官方网站 文档。

    总体而言,GPT-5 的多模态能力标志着通用人工智能进入新阶段,其在复杂场景下的综合表现值得期待。

  • 腾讯混元大模型升级至3.0:全面开放多模态能力,日均调用量破亿

    腾讯在今日举办的年度技术发布会上正式宣布,其自研的混元大模型已完成重大版本升级,推出混元3.0。该版本首次实现文本、图像、音频、视频等多种模态的深度融合与实时交互,显著提升了对复杂场景的理解和生成能力。据腾讯云官方透露,混元大模型目前的日均API调用量已突破1亿次,覆盖客服、教育、创意设计、工业仿真等超过200个行业场景。此次升级还大幅降低了企业接入成本,支持私有化部署,进一步推动了大模型技术在实体产业中的规模化落地。

    此外,腾讯同步开源了其自研的混合专家模型架构,并发布了配套的模型压缩工具链,帮助中小企业以更低门槛利用大模型能力。业内分析认为,此举将加速国内AI应用生态的成熟,并可能引发新一轮的技术竞赛。腾讯董事会主席兼CEO马化腾在演讲中表示,混元大模型的持续迭代是腾讯“长期投入、扎实落地”策略的体现,未来将继续联合生态伙伴拓展多模态应用的边界。