大鱼棋牌

: 首页 > 大鱼棋牌

马斯克直播试驾特斯拉FSD V12!世界首个端到端AI无人驾驶1万块H100训练

                                                                                                   时间: 2023-09-21 23:06:57   作者: 大鱼棋牌

详细信息

马斯克直播试驾特斯拉FSD V12!世界首个端到端AI无人驾驶1万块H100训练

  特斯拉FSD将迎来重磅级更新!马斯克现场直播演示第一个端到端AI无人驾驶系统FSD V12测试版,引百万网友围观。

  当地时间8月26日,马斯克亲自上线开启了一场FSD Beta V12试驾直播,引百万人现场围观。

  据称,FSD Beta V12是有史以来第一个端到端AI无人驾驶系统(Full AI End-to-End),是特斯拉最重要的一次升级。

  直播45分钟,FSD Beta V12系统在行驶全程进展非常顺利,能够轻松绕过障碍物,识别道路各种标志。

  V12系统从头到尾都是通过AI实现。我们没编程,没有程序员写一行代码来识别道路、行人等,全部交给了神经网络。

  独特的地方在于,特斯拉99%的决策都交给神经网络给出,视觉输入,控制输出,就像人类大脑一样。

  另外,它所拥有的超强能力,是经过巨量的「视频数据」、1万个H100加持下完成的。

  不过,直播中,V12出现仅有一次的小失误,试图闯过红灯,让人类去主动干预。马斯克现场来了个紧急刹车。

  马斯克表示,FSD Beta V12仍在调试中,因此还没有确定正式对外发布的时间。

  马斯克单手开启特斯拉Model S后,全程45分钟,自己举着手机录下V12的行驶全程。

  马斯克在地图上随机选择了一个目的地——斯坦福。看看V12是如何带他去往第一个目的地。

  行驶中,马斯克称,特斯拉遇到的这些建筑、道路标志,是从未见过的。虽然离总部很近,但是对其来说还是新事物。

  马斯克表示,这完全是通过AI和摄像头实现的,就如同我们大脑运作方式一样,对应之为神经网络和眼睛。

  马斯克激动地称,没有一行代码让特斯拉,在停车标志处停车,或等待另一辆车,没有「等待x秒」之类代码。这都是神经网络,除了神经网络什么也没有。

  说着说着,第一个目的地斯坦福到了。马斯克还是惦记着和小扎来场笼斗,因此第二个目的——小扎的家。

  这里,马斯克再次重申道,团队从未对环形交叉路口的概念进行编程。我们刚刚向它展示了一堆关于环形交叉路口的视频。

  FSD AI现在只输入大量视频,以便识别在不一样的情况下需要做什么,而不是对每个道路元素或情况做单独编码。

  这使得特斯拉能够省去FSD V12中的数十万行代码,使其更加轻便、更灵活,同时它仍旧能在不熟悉的地形上无需数据连接的情况下工作。

  马斯克介绍,所有这些都是在Tesla HW3上完成的,推理计算功率约为100瓦。所有推理无需网络连接,在本地进行。显然这是必要的,假如没有互联网连接,你就无法安全驾驶。

  我们正在以全帧率运行。8个摄像头以每秒36帧的速度进行拍摄。纯AI版本比「普通软件和人工智能混合」的版本运行得更好更快。 事实上,它的拍摄速度将超过每秒36帧,只是摄像头只能达到36 fps。据我们推算,它可能以每秒50帧的速度拍摄,实际路况基本上只需要每秒24帧,FSD V12就能够顺利工作。

  小扎的家到了,马斯克没有下车,反而转身决定去下一个目的地Palo Alto。

  在今年6月底,马斯克就宣称,Tesla的无人驾驶FSD V12版本将不会再是测试版。

  直播演示中,马斯克也提到了对于通过AI训练视频数据来实现无人驾驶这个方向可能面对的挑战。

  「仅仅因为没有代码行并不代表它不可控。现在只需拥有数据,你仍旧能实现控制。」

  首先是,训练视频的质量很重要,所以只能用优秀司机的驾驶视频来训练,而不能用技术不好的司机的数据。

  因此,V12系统使用了Python的普通软件来决定从队列中选择哪些数据,然后确定什么是高质量数据,什么是相当好的数据。

  一旦有了AI模型,还可以将这些模型以「影子模式」(shadow mode)传送到系统上,然后每次它与用户所做的事情不一致时,特斯拉都会得到数据,这比仅仅收集随机数据更有价值。

  用V12的FSD可以识别人像,只要传一张照片,然后告诉汽车你在星巴克门口。车到了之后会找到你,接你上车。因为它可以自动找到星巴克,然后根据照片找到乘客。

  当人类对汽车进行干预时,干预行为就会自动上传,训练与训练相结合,然后实际上只是更新权重。

  在V12的编程中,特斯拉团队并没有加入交通信号灯概念,而存在于V11的普通堆栈中。

  「我们已经从V11的显式控制堆栈中的超过300,000行C++进行了转换,而在V12中基本上没有这一些内容」。

  还有一个有趣的困难是,对于停车问题,因为人类在遇到停车标识时不会真的停下来,只会降到很低的速度,大概只有不到1%的驾驶员会完全让车停下来。

  但是监督管理的机构要求必须完全停下来,这样就必须专门训练FSD在这一些状况下完全停车。

  直播中唯一一次干预,是由于搭载了V12系统的Modle S在遇到红灯时并没有停下来。

  对此,马斯克现场表示,我们只需要再多喂一些包含大量交通信号灯的视频,问题就能解决了。

  未来两周,特斯拉将会发布在后台运行的Shadow Moon,能够对行驶状况做检查。

  因为特斯拉所在总部加州从不下雨,所以要世界各地各种天气条件的驾驶视频进行训练。

  目前,FSD V12在全球有12名试驾人员,遍布新西兰、泰国、挪威和日本等地。

  他还在试驾直播之前串进了WholeMars的Space,和里面的开会的网友聊了10多分钟,为自己的直播预热。

  网友看到他进来了,就不自觉地开始采访他,他也顺势打开了话匣子,和网友聊了聊自己马上要进行的直播和相关的问题。

  首先他说特斯拉已经马上要上线组成的GPU集群,来训练新版本的FSD系统。

  现在训练过程大多数都要全完依赖英伟达的GPU,只有很少一部分会使用自己的超算Dojo。

  而目前他们遇到的最大技术困难是需要像Infiniband那样的高速网络连接来并行更大的算力。

  GPU虽然短缺,但是至少有改善的希望,但是现在支持Infiniband设备短缺比GPU的短缺还严重。

  而长远来看,未来人类会成为强计算依赖的文明,有80%-90%的能源消耗在计算之上。

  Transformer的能效比不太好,效率也不高,用户使用的延迟过长,要进一步的优化。

  GPU的能耗比也不太好,而且现在像H100这样的GPU已经不会输出图像了,所以叫GPU已经不太合适了。

  马斯克还在推上表示,使用自回归Transfomer的LLM能效极差,不仅在训练中如此,在推理中也是如此。我认为它偏离了几个数量级。

  接下来,马斯克就开始为他即将进行的直播造势,聊起了自己将演示FSD V 12的上路直播。

  他反复强调Tesla在新版FSD的加持之下,将会带来很顺滑的乘坐体验。

  能够模拟优秀的司机来驾驶汽车,不会像之前的系统一样偶尔显得像一个新手开车一样。

  聊到这里,他拂袖而去,最后只留下一句话,让大家赶紧去看他马上开始的无人驾驶的直播。

  但也有网上的朋友表示,V12的新任务是接受亚洲交通的考验,并上了一段中国某路口的视频......

  所有的训练都是基于英伟达的GPU和Dojo,而且AI驾驶连地图都不需要,只需要GPS数据就行。