Parallel Domain,一家位于旧金山的初创公司,正在将生成合成数据集的能力交给其客户。该公司推出了一款名为Data Lab的新API,它依托于生成性AI的巨人,让机器学习工程师可以控制动态虚拟世界,模拟任何想象得到的场景。Parallel Domain的创始人兼CEO Kevin McNamara对TechCrunch表示:“你所要做的就是去GitHub,安装API,然后你就可以开始编写生成数据集的Python代码。”
Data Lab让工程师能够生成之前在初创公司的资产库中不存在的对象。该API使用3D模拟为工程师提供基础,工程师可以通过一系列简单的提示,在这个基础上叠加真实世界的所有随机性。你想训练你的模型在一辆出租车横跨两条车道翻车的高速公路上驾驶?没问题。你认为你的机器人出租车应该知道如何识别一个穿着充气恐龙装的人?搞定。
目标是给自主性、无人机和机器人公司在构建大型数据集方面提供更多的控制和效率,这样他们就可以更快、更深入地训练他们的模型。“现在的迭代时间基本上取决于你作为一个ML工程师,能多快地想出你想要的东西,并将其转化为一个API调用,一套代码?”McNamara说。“客户可以输入几乎无限的、无边界的提示,系统就能正常工作。”
Parallel Domain的客户包括制造先进驾驶辅助系统(ADAS)的主要OEM和自动驾驶公司。在过去,根据客户的特定参数,初创公司可能需要花费几周或几个月的时间来创建数据集。而有了自助API,客户可以在“近乎实时”内形成新的数据集,McNamara说。
在更大的规模上,Data Lab可能有助于更快地扩展自动驾驶系统。McNamara说,初创公司在合成婴儿车数据集和真实世界婴儿车数据集上测试了某些AV模型,并发现模型在接受合成数据训练时表现更好。
虽然Parallel Domain并未使用近几个月来越来越受欢迎的OpenAI API,如ChatGPT,但该初创公司正在在过去几年开源的大型基础模型之上构建其技术的组成部分。“像Stable Diffusion这样的东西使我们能够微调我们自己的基础模型版本,然后使用文本输入来驱动图像和内容生成,”McNamara说,他指出他的团队开发了自定义技术栈来标记他们生成的对象。
Parallel Domain最初在5月份推出了其合成数据生成引擎Reactor,供内部使用和与值得信赖的客户进行测试。现在,Reactor通过Data Lab API提供给客户,Parallel Domain的商业模式可能会随着客户更喜欢轻松访问生成AI而发生变化。
该初创公司目前的商业策略涉及客户购买数据配额,然后在一年中使用这些配额。McNamara表示,Data Lab可以帮助Parallel Domain转向软件即服务(SaaS)模型,客户可以订阅访问平台,并根据他们使用的多少来支付费用。
API还有可能帮助Parallel Domain扩展到任何计算机视觉技术正在使行业更高效的领域,如农业、零售或制造业。“人们认为AI对农业的启用是提高效率的最大因素之一,我们想去追求这些用例,最终有一个平台,无论你在哪个领域运营,如果你需要训练一个AI用某种传感器看世界,你会从Parallel Domain开始,”McNamara说。