WeRide依赖于Alluxio的跨区域混合云存储网关,用于机器学习和人工智能。

圣马特奥,加州Alluxio该公司是面向大规模分析和AI/ML工作负载的开源数据编制软件的开发商,今天宣布WeRide中国领先的L4自动驾驶公司正在使用Alluxio的Data Orchestration软件作为混合云存储网关,供本地应用访问AWS S3等公共云存储。新的数据体系结构为每个位置提供本地化缓存,以消除对S3的冗余请求。除了消除手工数据同步的复杂性,Alluxio还直接为在同一办公室处理相同数据的工程师提供数据,从而避免了与S3相关的传输成本,并将最终用户的工作效率提高了几倍。

到目前为止,WeRide已经积累了超过400万公里的自动驾驶里程,随着更多测试车辆投入使用,数据收集速度只会增加。除了从测试驱动器中收集的数据外,诸如模拟、SIL(循环软件)测试和模型基准测试等应用程序每天也会产生tb级的数据。WeRide是一家全球分布式公司,数据由跨办公室的不同团队并行生成和使用,AWS S3作为数据湖。

WeRide的数据挑战

WeRide的Infra & Simulation执行董事Derek Tan表示:“在为我们的自动驾驶汽车设计新算法或修复现有算法的漏洞时,我们的工程师需要根据现有数据测试算法。考虑到我们的数据架构,这导致了诸如开发迭代缓慢、高且不必要的出口成本和容易出错的数据同步等瓶颈。”

例如,在开发或调试之前,开发人员需要从云中下载最新的数据到他们的本地环境中。这通常受到下载速度和网络带宽的限制。每次从S3下载数据时,出口数据传输都要收费。通常调试一个问题,数据传输成本加起来是5美元。如果多人协作,即使下载的是相同的数据,成本也会进一步增加。在WeRide,他们建立了一个自定义的数据上传过程,将数据复制到云,并保留本地副本存储在NAS或HDFS中。为了让工程师更快地访问数据,本地副本是必要的,但这会导致数据同步问题。目前,WeRide通过运行cron作业定期清理本地数据来维护本地副本。

使用Alluxio的新架构

WeRide决定探索现有的技术解决方案,以满足他们的需求是低或者免费的成熟技术,对大规模数据访问进行战斗,即食方便集成和不引入新的ETL作业,并允许他们利用更好的硬件规模预算允许。

“考虑到上述标准,Alluxio成为了加速我们数据访问的首选,”谭说。除了与S3兼容外,它还通过POSIX和HTTP端点提供了一个简单的访问接口。作为一种开源技术,我们可以将其整合到我们的系统中,而不会增加额外的业务成本。”

Alluxio部署

在每个办公室,WeRide将Alluxio部署为一个小型的内部集群,使用S3作为真相的来源。路测数据直接上传到本地的Alluxio集群,可以立即供同办公室的工程师使用。同时,Alluxio在后台自动上传路测数据到S3。当其他办公室的工程师想要使用道路测试数据时,他们可以通过当地的Alluxio集群提出请求。如果数据被Alluxio缓存,将立即返回;如果不是,则从S3获取。为了进一步减少从S3获取新数据的时间,WeRide与Alluxio团队合作,实现了一个分布式加载命令,该命令可以打开多个并发连接来下载数据。使用Alluxio,从云获取的应用程序数据也可以缓存到本地,如果数据不是从同一个办公室上传的,以前是不可能的。

Alluxio的新改进

根据Tan的说法,“我们使用Alluxio经历了许多改进,包括通过一个单一的接口访问数据,降低了数据同步的复杂性,消除了维护自定义本地副本的需要,为云数据的办公室缓存提供了开箱即用的解决方案,对数据的快速访问提高了工程生产率,我们还降低了下载冗余数据的S3数据输出成本。”

谭总结道:“WeRide的目标是为未来提供L4自动驾驶技术。数据访问是发展智能移动的关键部分。采用Alluxio作为本地化缓存层消除了对S3的冗余请求,同时消除了数据同步的复杂性,在数据传输中每个工程师的每个问题减少了5美元。我们期待与Alluxio进一步合作,以经济地实现我们的数据访问目标。”

Alluxio创始人兼首席执行官李皓远表示:“通过Alluxio为WeRide进行数据协调,现在是将办公室机器学习应用与云数据连接起来的关键组成部分。”“我们很高兴能与WeRide进一步合作,增加更多与数据管理政策相关的功能,为他们的工程师带来更多价值。”

推特:@Alluxio启用了@WeRide_ai跨区域混合云存储网关,用于机器学习和#AI #开源#分析#BigData #云https://bit.ly/3oDIYe4

关于Alluxio
已在全球网络规模的现代数据服务生产中得到证明,Alluxio是面向云的开源数据编排软件的开发者。Alluxio让数据更接近大数据和机器学习计算框架,在任何云上跨越集群、地区、云和国家,提供内存速度的文件和对象数据访问。智能数据分层和数据管理为金融服务、高科技、零售和电信领域的客户提供一致的高性能。Alluxio目前在生产中使用十大互联网公司中的八个.Alluxio由Andreessen Horowitz和Seven Seas Partners投资,由Tachyon开源项目的创始人在加州大学伯克利分校的AMPLab成立。欲了解更多信息,请联系info@alluxio.com或关注我们LinkedIn,或推特

媒体联络:
贝丝Winkowski
温考斯基公共关系有限责任公司的Alluxio
978-649-7189
beth@alluxio.com