科技初创公司Kolena,致力于构建用于测试、基准测试和验证AI模型性能的工具,今天宣布已完成一轮1500万美元的融资,由Lobby Capital领投,SignalFire和Bloomberg Beta也参与了此轮融资。

这笔新资金将使Kolena的总融资额达到2100万美元,并将用于扩大公司的研究团队、与监管机构合作以及扩展Kolena的销售和营销工作,公司联合创始人兼CEO Mohamed Elgendy在接受TechCrunch的电子邮件采访中表示。

Elgendy表示:“AI的用例是巨大的,但AI在构建者和公众中缺乏信任。”他还说:“这项技术必须以一种使数字体验变得更好而不是更糟的方式推广。魔灯不会回到瓶子里,但作为一个行业,我们可以确保我们提出正确的愿望。”

Elgendy于2021年与Andrew Shi和Gordon Hart一起创办了Kolena,在此之前,他们在Amazon、Palantir、Rakuten和Synapse等公司的AI部门工作了大约六年。通过Kolena,这三人试图构建一个可定制且企业友好的“模型质量框架”,提供单元测试和端到端测试。

Elgendy说:“首先,我们想提供一个新的模型质量框架,而不仅仅是简化当前方法的工具。”“Kolena使连续运行场景级或单元测试成为可能。它还提供了对整个AI和机器学习产品的端到端测试,而不仅仅是子组件。”

因此,Kolena可以提供见解,以识别AI模型测试数据覆盖范围中的差距。该平台还包含风险管理功能,有助于跟踪与特定AI系统(或系统)部署相关的风险。使用Kolena的用户可以创建测试用例来评估模型的性能,并查看模型性能较差的潜在原因,同时将其性能与各种其他模型进行比较。

Elgendy补充说:“借助Kolena,团队可以管理和运行特定情景的测试,这些情景是AI产品必须处理的情景,而不是应用像准确性得分这样的“综合”指标,这可能会掩盖模型性能的细节。例如,在检测车辆方面,准确性达到95%的模型未必比准确性达到89%的模型更好。每个模型都有其优点和缺点,例如在不同的天气条件或遮挡水平下检测车辆、识别车辆的方向等。”

根据一项调查,AI工程师报告称,他们仅将20%的时间用于分析和开发模型,其余时间用于获取和清理用于训练模型的数据。另一份报告发现,由于开发准确性能模型的挑战,最终只有约54%的模型从试点阶段进入生产阶段。

但还有其他公司正在构建用于测试、监控和验证模型的工具。除了亚马逊、谷歌和微软等老牌公司之外,还有大量初创公司正在试验在模型进入生产之前和之后测量模型准确性的新方法。

Prolific最近为其平台筹集了3200万美元,该平台使用众包测试员网络来训练和对AI模型进行压力测试。与此同时,Robust Intelligence和Deepchecks正在为企业创建自己的工具集,以防止AI模型失败,并持续验证它们。而Bobidi则为测试公司的AI模型的开发人员提供奖励。

但Elgendy认为,Kolena的平台是少数几个允许客户完全控制构成AI模型测试的数据类型、评估逻辑和其他组件的平台之一。他还强调了Kolena在隐私方面的做法,该做法消除了客户需要将其数据或模型上传到平台的必要性;Kolena仅存储模型测试结果以进行未来基准测试,可以根据客户的要求删除。

Elgendy说:“在部署AI和机器学习系统之前,需要进行严格的测试来最小化风险,然而企业在模型验证方面没有强大的工具或流程。”“目前,临时模型测试是常态,不幸的是,机器学习概念验证失败也很常见。Kolena专注于全面和彻底的模型评估。我们为机器学习经理、产品经理和高管提供了对模型测试覆盖范围和产品特定功能要求的独特可见性,使他们能够从一开始就有效地影响产品质量。”

总部位于旧金山的Kolena目前拥有28名全职员工,但并未透露目前正在合作的客户数量。但Elgendy表示,公司目前采取了“选择性的方法”与“关键使命”的公司合作,计划在2024年第二季度推出面向中小型组织和早期人工智能初创公司的团队捆绑服务。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注