Untouch推移动端3D手势交互 称视觉AI是下一个风口

简介:

雷锋网按:2017年7月5日,专注于智能视觉交互技术提供商未动科技(Untouch)正式发布4款3D视觉交互产品:3D手势识别产品——黎曼平台,3D人脸识别产品——欧拉平台,SLAM产品——笛卡尔平台,及场景重建产品——高斯平台。

Untouch推移动端3D手势交互 称视觉AI是下一个风口

在发布会开始,Untouch CEO孙铮调侃道,“今天是7月5号,都快被命名为是中国或者世界AI日了,今天一天好几个发布会了,上午是百度(2017百度AI开发者大会),下午是阿里(智能音响天猫精灵X1的发布会),晚上又是我们。”作为低头研发刚刚露面的科技公司,赶在同一天与大佬们一起发布产品,可以说是赶上了AI浪潮,他们却也担心自己的产品能不能分得聚焦于大佬产品的目光。

今天的发布会是Untouch在媒体上的首次亮相,而其实公司成立已经有3年。未动科技有限公司成立于2014年,2015年完成数百万人民币天使轮融资,由英诺资本及大河资本领投,2016年底完成数百万美元Pre-A轮融资,汉能创投独家投资。在这3年时间里他们一直致力于技术的研发,少有在媒体露面。未动科技专注于计算机3D视觉智能交互软硬件方案,基于自主研发的智能3D视觉交互算法,例如3D手势识别、3D人脸识别、运动追踪(SLAM)、场景重构等,赋予新型消费级智能设备与人、与场景的视觉交互能力。

黎曼平台——手机手势交互产品

Untouch推移动端3D手势交互 称视觉AI是下一个风口

黎曼平台基于深度图,实现3D手势交互功能,可以为智能手机、机器人/无人机、AR/VR等提供手部26自由度追踪与识别。据介绍,传统的手势识别对每一帧的手势图像进行独立分析,而Untouch采用曾成功应用于机器翻译的深度学习算法LSTM(Long Short-Term Memory),把手势动作当做一个时间序列来处理,提高了识别精度与运算效率。

另外,黎曼平台考虑到移动端的功耗与运算性能等限制性因素,经过深度算法裁剪与大量工程优化,使得3D手势识别可以流畅精准地运行在手机等移动设备上。传统手势识别产品基于PC,黎曼平台是一款基于深度摄像头并可运行在手机等移动设备上的手势识别产品。

小型化、嵌入式的3D手势识别产品使手势交互植入移动设备,这是目前显而易见的一个大的趋势。雷锋网(公众号:雷锋网)了解到,苹果正在测试iPhone8的手势识别功能和3D人脸识别功能,这将引爆移动端的交互方式。

语音之后,视觉AI是下一个风口?

Untouch推移动端3D手势交互 称视觉AI是下一个风口

未动科技的3D视觉智能交互软硬件方案不仅使得手势交互从PC端转移到了移动端,带来移动设备交互的更多可能,视觉智能还有更多可以发展和应用的方面。发布会还推出了另外三个3D视觉平台,能实现3D人脸识别的欧拉平台,其基于深度图,实现人脸的实时建模与3D特征识别,实现人脸3D表情的实时追踪、识别与分析。除了身份识别验证与表情分析,笛卡尔平台还可以让用户建立自己的头像,体验更有趣、好玩的社交体验。运动跟踪(SLAM)的笛卡尔平台实现空间计算与位置追踪功能,可以为智能手机、机器人/无人机、AR/VR等提供6 DoF inside-out位置追踪、路径规划软硬件解决方案,厘米级别精度、低延迟、低功耗,为智能设备创造更多应用场景。场景重构的高斯平台基于深度摄像头与RGB摄像头,实现实时的空间计算,重建与渲染出真实的物理场景结构,从而实现障碍物躲避、AR追踪、三维重建等功能,为计算设备的判断与决策提供三维场景信息。

这些都是依靠视觉AI来实现的。亚马逊的Echo和阿里的天猫精灵X1智能音响做的都是语音AI,而未动科技的出发点是视觉交互。孙铮介绍道,“我们做这些3D视觉软硬件产品都是想为设备提供视觉感知,现在的智能产品越来越像人,人的特点就是感知。AI一定要有感知,要跟Sensor结合。AI要么是基于听觉的,要么是基于视觉的,是因为人有这些感知。这是为什么我们这次和PMD合作,他是一个Sensor的芯片厂商。只有抓住了sensor,才能去生产大脑。”

联合专注3D传感器厂商PMD

PMD是一家无晶圆厂IC公司,公司位于德国西格根与美国圣何塞,是全球领先的基于CMOS的3D飞行时间数字图像技术供应商。创立与2002年,公司拥有涉及ToF的应用程序、测量原理与实现方法的全球150个专利,PMD的3D传感器的应用主要包括工业自动化、自动驾驶、以及广阔的消费电子领域例如AR/VR。全球第一款Tango手机联想Phab2上的深度传感模块就是PMD所提供。华硕最近推出的Tango&Daydream手机ZenFone的深度传感技术也来自于PMD。

专注ToF深度传感器厂商PMD宣布,选择Untouch的黎曼平台作为中间件为客户提供非接触式的交互方案,双方深度合作,推出了完整的手势识别软硬件一体方案。PMD总裁 Bernd Buxbaum表示:“我们非常激动能够与Untouch紧密合作,有了Untouch提供的先进3D手势识别技术,我们可以为移动终端设备提供直观的、非接触式的交互体验。我们坚信,通过两个公司的紧密合作,能够加速手势交互的大规模普及。”

新的交互方式带来新的交互体验。在《数字化生存》一书中,尼葛洛庞帝指了我们的数字化生活的发展趋势,并不是更丰富的数据,更清晰的图像,而是更自然的人机交互。例如,他认为,电视所要追求的并不是更高的清晰度,数字化电视引起的电视生产和消费的模式的变化才是更值得追求的。在“虚拟现实”这一章,他认为图像的更新速度比图像的分辨率更为重要,我们对于图像的感知不仅仅是视觉的,还与其他感官紧密相连,我们的运动神经会影响图像的感知。目前,“计算机对人的存在的感觉真是迟钝……很可能在不久的将来,计算机就能看到你“。他认为,未来的个性化界面能识别人的声音,表情,手势,还能追踪人的眼球。对于各类消费电子来说,智能视觉交互技术会带来更加自然友好的体验。

数学家团队

雷锋网注意到,Untouch的核心团队里不少数学家。他们发布的几个3D视觉平台的名字:欧拉、笛卡尔、高斯这些都是著名数学家的名字。CEO孙铮有跨国高科技企业17年工作经验,历任微软中国移动事业部总经理,中兴芬兰分公司总经理,中兴西欧区副总经理,爱立信瑞典高级系统工程师,瑞典计算机研究所研究员,曾带领中兴西欧销售团队在4年间实现从0到10亿欧元销售额的突破。他也是全国数学奥林匹克竞赛获奖者,发现的数学定理被国际数学权威著作命名为“孙氏定理”。团队其他成员由世界顶尖的计算机视觉、深度学习、嵌入式系统领域的专家组成,来自于微软、中科院、清华、北大等公司或研究机构。


本文作者:李诗

本文转自雷锋网禁止二次转载,原文链接


相关文章
|
1天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
26 10
|
5天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
16 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
25天前
|
人工智能 文字识别 安全
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。
21 2
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
|
1月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
40 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
1月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
66 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
53 1
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
1月前
|
人工智能 自然语言处理 开发者
Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
【2月更文挑战第15天】Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
48 1
Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
|
3月前
|
编解码 人工智能 前端开发
【利用AI让知识体系化】常见的移动端适配知识
【利用AI让知识体系化】常见的移动端适配知识
|
3月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢

热门文章

最新文章