视觉 标签,匹配到约7个结果, 耗时0.0669秒
高德宣布 TrafficVLM 模型“重磅升级”:预知超视距路况,AI 带来“天眼”视角

高德宣布 TrafficVLM 模型“重磅升级”:预知超视距路况,AI 带来“天眼”视角

高德宣布 TrafficVLM 模型“重磅升级”:预知超视距路况,AI 带来“天眼”视角
其能够赋予每位驾驶者“全知视角”的能力,在面对路口或高速时,不再受限于局部视野,从而更直观预知前方路况,从容应对潜在风险。...
2025-09-19 · 浏览152次
苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。...
2025-05-13 · 浏览265次
华中科大盛建中团队研发 AI 图像生成系统,协助警方令 19 名失踪儿童回家团圆

华中科大盛建中团队研发 AI 图像生成系统,协助警方令 19 名失踪儿童回家团圆

华中科大盛建中团队研发 AI 图像生成系统,协助警方令 19 名失踪儿童回家团圆
5月10日央视财经报道,华中科技大学盛建中团队研发视觉新生智能图像生成系统,利用AI预测失踪儿童面貌。该系统已协助警方寻回19名失踪儿童,还修复千张照片。##AI寻亲##...
2025-05-10 · 浏览202次
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作

Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作

Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。...
2024-08-25 · 浏览638次
谷歌 AI 视频再出王炸:全能通用视觉编码器 VideoPrism,性能刷新 30 项 SOTA

谷歌 AI 视频再出王炸:全能通用视觉编码器 VideoPrism,性能刷新 30 项 SOTA

谷歌 AI 视频再出王炸:全能通用视觉编码器 VideoPrism,性能刷新 30 项 SOTA
最近,来自谷歌团队的研究人员提出了一种通用视频编码器 ——VideoPrism。它能够通过单一冻结模型,处理各种视频理解任务。...
2024-02-26 · 浏览319次
OpenCV轻量高效的图像视觉库

OpenCV轻量高效的图像视觉库

OpenCV轻量高效的图像视觉库
OpenCV是一个强大的计算机视觉库,它包含了大量的算法和函数,可以用于图像处理、计算机视觉、模式识别、机器学习等领域。...
2024-01-08 · 浏览351次
更深层的理解视觉 Transformer, 对视觉 Transformer 的剖析

更深层的理解视觉 Transformer, 对视觉 Transformer 的剖析

更深层的理解视觉 Transformer, 对视觉 Transformer 的剖析
目前基于Transformer结构的算法模型已经在计算机视觉(CV)领域展现出了巨大的影响力。他们在很多基础的计算机视觉任务上都超过了之前的卷积神经网络(CNN)算法模型。...
2023-12-06 · 浏览650次
上一页 · 下一页 · 当前第1页