九游娱乐(中国)官方网站-登录入口-ag九游会官方使LLM具有“看”的智商-九游娱乐(中国)官方网站-登录入口

ag九游会官方使LLM具有“看”的智商-九游娱乐(中国)官方网站-登录入口

发布日期:2026-01-17 09:14  点击次数:57

ag九游会官方使LLM具有“看”的智商-九游娱乐(中国)官方网站-登录入口

  转自:财联社ag九游会官方

  《科创板日报》12月11日讯(裁剪 宋子乔)日前,加州大学参议东说念主员和英伟达共同发布了新的视觉言语模子“NaVILA”。亮点在于,NaVILA模子为机器东说念主导航提供了一种新决议。

  NaVILA模子的相干论文

  视觉言语模子(VLM)是一种多模态生成式AI模子,八成对文本、图像和视频辅导进行推理。它通过将大言语模子(LLM)与视觉编码器相联结,使LLM具有“看”的智商。

  传统的机器东说念主活动接续依赖于事前绘画的舆图和复杂的传感器系统。而NaVILA模子不需要事前的舆图,机器东说念主只需“听懂”东说念主类的当然言语指示,联雄厚时的视觉图像和激光雷达信息,及时感知环境中的旅途、阻遏物和动态认识,就不错自主导航到指定位置。

  不仅解脱了对舆图的依赖,NaVILA还进一步将导航工夫从轮式蔓延到了足式机器东说念主,但愿让机器东说念主移交更多复杂场景,使其具备跳跃阻遏和自相宜旅途有野心的智商。

  在论文中,加州大学参议东说念主员使用宇树Go2机器狗和G1东说念主形机器东说念主进行了实测。把柄团队统计的实测论断,在家庭、户外和责任区等真确环境中,NaVILA的导航到手率高达88%,在复杂任务中的到手率也达到了75%。

Go2机器狗接受活动指示:向左转少许,朝着肖像海报走,你会看到一扇打开的门Go2机器狗接受活动指示:向左转少许,朝着肖像海报走,你会看到一扇打开的门

  G1东说念主形机器东说念主接受活动指示:立即左转并直行,踩上垫子连续前进,直到接近垃圾桶时停驻来

  据先容,NaVILA模子的特质在于:

  优化准确性与效用:NVILA模子在检会老本上缩短了4.5倍,微调所需内存减少了3.4倍。在预填充息争码的延长上着实缩短了2倍(这些数据是与另一个大型视觉模子LLaVa OneVision进行比拟得出的)。

  高分离率输入:NVILA模子并欠亨过缩短相片和视频的大小来优化输入,而是使用高分离率图像和视频中的多个帧,以确保不丢失任何细节。

  压缩工夫:英伟达指出,检会视觉言语模子的老本绝顶高,同期,微调这么的模子也绝顶消耗内存,7B参数的模子需要卓越64GB的GPU内存。因此英伟达袭取了一种名为“先蔓延后压缩”的工夫,通过将视觉信息压缩为更少的token,来减少输入数据的大小,并将像素进行分组,以保留垂危信息,均衡模子的准确性与效用。

  多模态推明智商:NVILA模子八成把柄一张图片或一段视频复兴多个查询,具有雄伟的多模态推明智商。

  在视频基准测试中,NVILA的发扬卓越了GPT-4o Mini,而况在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比拟中也发扬出色。NVILA还在与Llama 3.2的对比中获得了眇小到手。

  英伟达暗示,现在尚未将该模子发布到Hugging Face平台上,其快乐会很快发布代码和模子,以促进模子的可复现性。

  (科创板日报 宋子乔)

海量资讯、精确解读,尽在新浪财经APP

包袱裁剪:陈钰嘉 ag九游会官方



相关资讯
热点资讯
  • 友情链接:

Powered by 九游娱乐(中国)官方网站-登录入口 @2013-2022 RSS地图 HTML地图