据中国科学院自动化研究所最新消息,紫东太初3.0跨模态检索系统于2025年4月正式上线。该系统实现了图文互搜与视频片段定位两大核心功能,可在大规模多模态数据中实现秒级精准匹配。作为国内领先的智能检索工具,它正推动人工智能从单模态向多模态融合迈出关键一步。官方网站
核心功能详解
紫东太初3.0具备三项突出能力:文字搜图、图片搜文以及视频片段精确定位。用户输入任意文本描述,系统即可在海量图片库中返回语义最匹配的图片;反之,上传图片也可快速找到与之相关的文字描述。视频片段定位支持输入自然语言查询,系统可在长视频中精准截取符合描述的时间段。
文字搜图
例如搜索“夕阳下的雪山”,系统会从千万级图片库中筛选出包含雪山、夕阳元素的图片,并按照语义相似度排序。
图片搜文
上传一张熊猫吃竹子的照片,系统可自动生成相关文字描述并匹配新闻、百科等文本资源。
视频片段定位
输入“篮球运动员扣篮的瞬间”,系统能在比赛录像中精确标记出该片段起始与结束时间点,响应时间低于2秒。
技术优势
该系统基于跨模态语义对齐技术,克服了传统检索中“词不达意”的痛点。其核心突破包括:
- 多模态大模型统一表征:将文本、图像、视频映射到同一语义空间。
- 细粒度特征融合:支持对复杂场景的深度理解,如“穿红色衣服的人”等属性检索。
- 实时索引更新:新增数据可在数分钟内完成索引,支持亿级规模检索。
应用场景与使用指南
紫东太初3.0可广泛应用于媒体资料管理、安防监控、电商搜索、教育课件检索等领域。例如新闻机构可用其快速查找历史图片素材;监控系统可通过文字描述定位可疑行为片段。用户只需访问官方网站,注册账号后即可调用API接口或使用Web端工具,支持上传图像、输入文本或视频文件进行交互式搜索。系统提供免费试用额度,企业用户可申请定制化部署方案。
使用步骤
- 登录官网,创建项目并获取API密钥。
- 通过POST请求上传待检索数据或直接使用在线演示界面。
- 选择检索类型(图文互搜或视频定位),输入查询内容。
- 系统返回结果列表,包含相似度评分及元数据。
发表回复