第386章马斯克内心OS：已老实_科技入侵现代

书对帐的冲击力了。

「蝙蝠确实用声呐，但人类不是蝙蝠。

我们要造的是给人类开的车，而不是给蝙蝠开的车。

人类有眼睛，大脑就是用视觉在驾驶。

你想让车学会像人一样驾驶，那就用人类的感知方式你说雷射雷达便宜了，是的，比三年前便宜很多，但关键不在价格。

关键是它没能解决核心问题：理解世界。

雷射雷达给你的是点云，一个距离场，它不知道交通灯是红的还是绿的，它不知道这个是小孩还是塑胶袋。

它只是一个更贵的尺子。

在人工智慧领域，多数据不等于好数据我们当然可以往模型里灌更多输入，但信息要有信息熵，要有对理解世界有用的信号。

雷射雷达在高速公路上，或者高度规则化的场景下可能有用，但在日常城市驾驶，它反而会让系统依赖一个捷径，不去构建真正的世界模型。

你提到大语言模型，对，规模很重要。

但语言模型的前提是人类语言本身就包含了整个世界的复杂性，视觉输入也一样，视觉包含了驾驶所需的全部复杂性。

如果我们加进雷射雷达，神经网络可能会依赖『简化的答案」，而不去学习真正困难但关键的部分。

所以，这不是偷懒。

恰恰相反，纯视觉是更难的路线，需要更强的网络，更大的算力，更聪明的训练，雷射雷达是捷径，但走捷径你到不了终点。」

马斯克摊手笑道：「如果你愿意在你的车顶上装一堆传感器，造一辆「科研用的高价玩具」，

当然可以。

但如果你想让全世界几千万辆车都能自动驾驶，就必须走视觉路线，规模化的未来只有一条路。」

林燃说：「多模态多模态，如果连视觉和传感器的数据都没有办法融入到同一个世界里，那又谈什幺多模态。

如果我们真的追求的是简单的，单一的，人是怎幺理解世界，人工智慧或者机器人就应该要怎幺理解世界，这是一种傲慢，人类也不应该有汽车、有飞机、有火车，人类就应该只依赖双腿，不断磨链自己的双腿。

现在的大模型，也不应该用各种结构化、非结构化的数据进行训练，它不但能对话还能输出画面、动画。

从数据到图像再到动画，llm的大模型输出的越来越多元，反而自动驾驶还抱着原教旨主义的人工智慧，认为就应该只有视觉，

现

第386章 马斯克内心OS：已老实（6 / 11）