论文榜首作者为清华大学博士、南洋理工大学博士后李寿杰,清华大学博士生吴同和人工智能硕士生徐建乐。论文通讯作者包含清华大学深圳世界研讨生院副教授丁文伯,大连理工大学教授解兆谦,新加坡国立大学助理教授吴兴盛和香港城市大学教授于欣格。
跟着机器人技能从「预设程序履行」向「具身智能交互」跨过,触觉感知作为了解物体特点、完成精密操作的中心感测方法,其重要性日益凸显,但当时体系在感知维度、分辨率及信号解读才能上仍远逊于人类,导致机器人往往处于「有感无知」的状况。
在此布景下,清华大学深圳世界研讨生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,从鸽子杰出的多光谱视觉和非成像感知机制中取得创意,研制出了一种仿生多模态触觉传感器SuperTac。
该体系将多光谱成像、冲突电感测与惯性丈量融为一体,并经过构建8.5B参数的触觉言语模型DOVE,完成了触觉信号从底层感知到高层语义推理的打破。
相关效果作为封面文章宣布于《Nature Sensors》榜首期,也是国内以榜首单位在该期刊宣布的首篇,标志着机器人触觉感知向「人类水平」迈出了要害一步。
鸽子具有天然界最杂乱的感知体系之一,SuperTac 的硬件规划对应了其生物学特征。
鸽子的视网膜包含多种视锥细胞,不只能感知可见光,还具有人类不具有的紫外线(UV)感知才能。
SuperTac 集成了小型化的多光谱成像模块,覆盖了从紫外(390 nm)、可见光(400–700 nm)到近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段。
经过引进超宽频段成像,机器人能够在单一交互中一起解析热辐射、荧光位移等深层物理信息,完成了对物体形状、纹路、色彩和温度的全面表征。
鸽子能经过视网膜中的隐花色素等分子感知地磁场,这是一种不依赖图画的物理感知。SuperTac 在 1 mm 厚的皮肤内嵌入了冲突纳米发电机(TENG)和惯性丈量单元(IMU)。
TENG 使用触摸起电原理,根据不同物体的电负性差异辨认原料(精确率 95%),并完成 15 cm 内的挨近觉感知。IMU 模仿生物的本体感触,捕捉 0–60 Hz 的振荡及磕碰信号。经过将冲突电与惯性信号与光场调制耦合,传感器无需密布电极阵列即可扩展出对原料极性、轰动及空间姿势的感知才能。
SuperTac 的中心竞争力在于其厚度仅为 1 mm 的光场调制多层感知皮肤。皮肤最外层的导电层选用通明的 PEDOT:PSS,经过丝网印刷技能在具有优异才能拉伸功用的 TPU 薄膜上构成涡旋线电极规划。这种涡旋规划能供给均匀的电学信号,结合冲突起电机制,使皮肤在触摸不同电负性物体时发生天壤之别的电学反应,以此来完成高精度的原料分类与 15 cm 范围内的挨近觉勘探。
在导电层之下,单向透视反射层充当了光学开关,其通明度受两边光强差调理。当内部 LED 敞开构成「触觉形式」时,内侧光强占有主导,反射层变为不通明状况,CMOS 单元聚集捕捉皮肤外表的微观纹路与形变;当内部光源封闭,反射层随之变为通明,答应外部可见光透射,使传感器能够直接获取物体的 RGB 色彩信息。
紧邻其下的紫外荧光符号层则使用在近红外波段不行见但在紫外光下激起的荧光符号,完成了形变监测与物体纹路检测的解耦,保证在杂乱抓取过程中能够同步捕捉切向滑动与外表细节。
为了构建跨模态物理信号与天然言语空间的一致表征对齐,DOVE 选用了分层架构规划,其底层主干由预练习的大言语模型 Vicuna 构成,为体系供给了强壮的言语了解与逻辑推理根底。
为了处理极端杂乱的触觉输入,体系并行集成了四组预练习的 CLIP(比照言语—图画预练习)模型作为模态编码器,将图画化的触觉特征(包含色彩、纹路、温度和原料信号)提取为深层特征向量。
DOVE 的练习经过三阶段战略完成从底层感知到高层认知的递进:首要使用 CLIP 将异构传感器信号转化为通用的图画表征;随后经过投影层将触觉特征精准对齐至言语模型空间;最终针对 Vicuna 主干网络进行微调,使其能够结合知识对触觉指令进行杂乱推理。
SuperTac 供给的多模态底层数据经过 DOVE 模型的深度解析,成功完成了从单纯的「物理感知」向高层「语义认知」的跨过,赋予了机器人类人的具身交互才能。
在根底的辨认维度,DOVE 能够实时交融传感器收集的异构多模态数据,为操作方针建立起全方位的「物理画像」。例如,在抓取试验中,面临一个不知道杯子,DOVE 能精确地将其感官形象转化为人类可了解的言语:「黄色,室温,外表具有规则排布的凸起纹路,判定为金属原料」。
最高层级的使用体现在知识指引下的功用决议计划与推理。DOVE 不只解析当时的物理数据,还能将实时的触觉反应与预练习的大模型知识相结合,然后揣度物体的潜在功用并做出逻辑决议计划。
在极具挑战性的废物分拣使命中,这一才能得到了充沛验证:当机器人触摸到乱序堆积的杂物时,DOVE 能够根据触觉反应进行逻辑建模。例如,它会推论道:「该物体具有典型的 PET 物理特征,结合其轻浮的结构,判定为抛弃的塑料饮料瓶;根据环保知识,主张将其放入可回收废物桶」。
本研讨为机器人触觉供给了多个赋有远景的发展趋势:硬件方面经过传感器微型化、低功耗芯片及高集成封装,提高机器人手内操作的灵活性并处理高负载下的散热稳定性难题;认知层面则依托 DOVE 模型的模态无关结构,经过优化传感器装备与专用数据集来继续增强体系的泛化才能,然后为完成天然、高效的人机交互奠定坚实根底。

