哪家公司提供2023人工智能前沿技术机器学习可观察性平台?KellyOnTech AI 系列

Posted by : KellyOnTech Date : 2023-01-14
文章配图

在人工智能领域,2022年北美的早期风险投资机构比较偏向做云基础设施,生成式人工智能、网络安全和机器学习等领域的项目。
这期介绍2023年人工智能前沿技术:机器学习可观察性。

哪家公司提供2023人工智能前沿技术机器学习可观察性平台?KellyOnTech AI 系列

2023人工智能前沿技术: 机器学习可观察性 KellyOnTech AI系列

先插播一下,2022年全球独角兽创业大赛已经完美收官啦,2023年直通车开启报名通道,符合六大类的优秀创业项目我直接推荐, 向来自全球50多个国家和地区的200多家风险投资机构展示自己的项目。

  1. AI and robotics 人工智能和机器人
  2. Health Tech 大健康科技
  3. Software and Services 软件和服务
  4. Environment protection and New Energy 环保和新能源
  5. Industry Agnostic 工业综合
  6. Crypto and NFT 数字项目

哪家公司提供2023人工智能前沿技术机器学习可观察性平台?KellyOnTech AI 系列图片来源:Unicorn Battle. 2022全球独角兽创业大赛总决赛官方评委

根据最近的调研,实时机器学习的应用在未来三年内会显著增加。这种趋势其实给机器学习带来了一个很大的挑战。比如,我们都和聊天机器人打过交道,聊着聊着就感觉有点不对劲,这其中的原因之一涉及到机器学习的问题之一:模型漂移 (Model Drift)。

什么是模型漂移 (Model Drift) ?

模型漂移简单的说就是由于现实世界环境的变化而导致的模型预测能力的衰减。它是由多种原因造成的,包括数字环境的变化和随之而来的变量之间的关系变化。主要有两种类型的模型漂移:
  1. 概念漂移:因变量的属性发生变化而产生的漂移。概念漂移出现在对特征和因变量之间的关系进行建模的函数不再适合于当下环境。例如, 我们生活中的娱乐工具的定义随着时间的推移而发生变化。10年前可能是电视,现在是智能手机。
  2. 数据漂移:特征的基本分布随着时间的推移而改变。这可能由于许多原因而发生,比如,新冠肺炎疫情导致的病理特征值变化就是数据漂移的一个例子。

为什么模型会出现漂移?

我们用一个现实世界的场景来理解这个问题。NLP自然语言处理算法被经常用于垃圾邮件的过滤。根据邮件当中的关键词提取,把电子邮件分类为垃圾邮件和非垃圾邮件,以保护用户免受垃圾邮件的攻击。
比如我们都收到过的彩票中奖垃圾邮件。模型学习诸如 "非常高的中奖数额"、"抽奖 "等特征词来识别这种垃圾邮件。但是道高一尺魔高一丈,垃圾邮件也经过了不断的迭代,引入了很多新的内容,比如说那种通知您会员资格还未到期就被提前终止了,点击按钮申诉的垃圾邮件。这些垃圾邮件是模型以前没有见过的,从而导致了模型性能的下降。

机器学习模型通常会出现什么问题?

在部署机器学习模型时,您可能会发现模型很可能没有离线验证时那样好,通常这类问题被称为培训/服务偏差。
原因之一就是上面介绍过的模型漂移。机器学习模型所暴露的数据分布可能会随着时间的推移而发生变化,通常称为数据漂移或特征漂移。 这种漂移可能是渐进的,也可能在一夜之间发生,并导致模型性能下降。

另外一个原因是数据杂乱,特别是数据源的保真度。在现实世界中,人们很难保证数据的质量或新鲜度。因为随着时间的推移,数据会出现各种变化。特别是如果引入外部数据源,其可靠性更是要打问号了。在研究实验室中,通常需要花费数千小时来创建噪声最小且标签准确的高质量数据集。

什么是机器学习可观察性 (Machine Learning Observability)?

机器学习可观察性是一种在模型开发周期的所有阶段深入了解模型性能的实践。它使得机器学习从业者在模型构建过程中、部署后以及长期的生产生命周期中,能够找到模型以某种方式运行的根本原因,从而能够优化模型。

哪家公司提供2023人工智能前沿技术机器学习可观察性平台?KellyOnTech AI 系列

图片来源:Arize. 机器学习工程生命周期

机器学习可观察性的关键指标包括发现问题和解决问题的时效性:


  1. 检测时间:机器学习可观察性的第一个关键目标是及时展示模型可能出现的问题。一个好的机器学习可观察性解决方案有助于减少检测模型问题所需的时间。正如黄帝内经里提到的上医治未病。机器学习从业者借助机器学习可观察性方案在企业客户知道问题之前就提前解决问题。

  2. 解决时间:一旦检测到问题,一个机器学习可观察性工具能够帮助机器学习团队以多快的速度找到要解决的问题的根本原因。一个好的机器学习可观察性解决方案需要引导模型所有者了解发生变化的输入数据分布、特征转换或模型预测期望,并提供解决方案。

机器学习案例分析 - Unity Software

讲个今年2022年的例子,有一家公司就是因为人工智能机器学习系统出错,而造成约1.1亿美元的损失。
这家在纽交所上市的公司叫做Unity Software Inc.,是一家位于旧金山的视频游戏软件开发公司。这是一个用于创建和操作交互式实时 3D (RT3D)内容的平台。它于2004年在丹麦成立,当时名为Over the Edge Entertainment,并于2007年改名。

正是因为她们使用的机器学习模型出了故障,导致他们的 Audience Pinpointer 工具的准确性降低,造成惨重的损失。Audience Pinpointer 是一种基于机器学习的广告定位工具,它利用 Unity 积累的数据资源帮助营销人员更好地触达特定受众。

机器学习模型问题有普遍性吗?

机器学习模型故障已经发生在数百家公司身上了。机器学习模型问题可能潜伏在每个行业中都未被发现,等待被发现。根据最近的一篇论文,47 家财富500强公司,在最近的年度财务报告中将人工智能和机器学习列为风险因素,同比增长 20.5%。

哪家公司提供机器学习可观察性平台?

今天介绍一家比较新的初创公司Arize AI,2020年成立,总部位于加利福尼亚州的伯克利。
这家公司提供了一个机器学习可观察性的平台,该平台可监控机器学习模型,并提供分析及故障排除。

Arize AI 的两位创始人杰森·洛帕特基(Jason Lopatecki ) 和阿帕娜·迪纳卡兰 (Aparna Dhinakaran) 有一些共同的经历。首先,他们的本科都拿到了加州大学伯克利分校电气工程和计算机科学学士。

哪家公司提供2023人工智能前沿技术机器学习可观察性平台?KellyOnTech AI 系列图片来源:Arize. Arize AI 创始人杰森·洛帕特基(Jason Lopatecki ) 和阿帕娜·迪纳卡兰 (Aparna Dhinakaran)

另外,他们还是老同事,曾经一起在TubeMogul 共事过。TubeMogul 是一家做品牌广告的企业软件公司,旨在弥合传统电视和数字格式之间差距的端到端广告平台。2016年底被Adobe 以 5.4 亿美元收购了。Jason帮助该公司建立了机器学习团队,Aparna是一名数据科学家, 她还拿到了康奈尔大学计算机科学博士。后来,她加入了Uber,成为其著名的米开朗基罗团队的成员之一。

两位创始人都有深厚的实践经验,并且亲身经历了费时费力的机器学习模型建立和训练的过程,部署到交付,以及对部署后的实际表现,整个生命周期中出现的各种问题。他们认为MLOps工具链中缺少一些根本性的东西。所以一拍即合,一起专注于通过Arize的专用机器学习可观察性平台为机器学习模型带来透明度和有效地性能提升。

更多关于全球前沿科技, 中国科技战略和创业项目的信息,欢迎购买最近出版的英文新书《Strategic Development of Technology in China 》。新书介绍 购买链接

哪家公司提供2023人工智能前沿技术机器学习可观察性平台?KellyOnTech AI 系列

英文新书《Strategic Development of Technology in China》

English version