罗政信息门户网 罗政信息门户网

首页 > 国际 > 新宝彩票官网开户|AutoML很火,过度吹捧的结果? > 正文

新宝彩票官网开户|AutoML很火,过度吹捧的结果?

2020-01-10 13:40:59

广受关注的automl究竟是否被过渡夸赞了呢?深入automl前,我们要先从一个数据科学项目的工作流讲起。automlautoml输入的是数据和任务,输出是可用于应用的模型,该模型能够预测未知数据。automl的基本想法就是在相对短的时间里找到这样优质的超参数。automl可能会填补这一空缺。大多数automl解决方案提供商也提供咨询业务这一现象,并不是一个巧合。automl可以帮助公司或数据科学

新宝彩票官网开户|AutoML很火,过度吹捧的结果?

新宝彩票官网开户,作者 | denis vorotyntsev

译者 | shawnice

编辑 | jane

出品 | ai科技大本营(id:rgznai100)

【导语】现在,很多企业都很关注automl领域,很多开发者也开始接触和从事automl相关的研究与应用工作,作者也是,在工作、比赛、调和主模型时都使用过automl。作者表示:“automl是一个出色的自动化建模工具,但我认为它的作用和价值现在被夸大了。在一些关键概念中,比如特征工程或用于超参数优化的元学习,automl的表现确实很有潜力,但目前购买集成automl只是浪费金钱”。广受关注的automl究竟是否被过渡夸赞了呢?下面这篇文章和大家一起探讨。

深入automl前,我们要先从一个数据科学项目的工作流讲起。

任何数据科学项目都包含下面这4个基本步骤:

1. 根据业务进行问题分析(立项和项目成功的度量标准),

2. 收集数据(收集、清洗、分析探索),

3. 构建模型并评估其性能,

4. 在实际工程中部署模型并观察模型的表现

跨行业的数据挖掘标准流程

这个过程中的每一个步骤都项目是否成功起着至关重要的作用。然而,内行人会认为建模是最关键的部分,一个完善的ml模型能给企业带来很多价值。

数据科学家在建模阶段要进行优化任务:在给定的数据集和规定的指标下,最优化目标,然而实际上这个过程是非常复杂的,需要具备多项技能。作者分享了三个重要的观点:(1)特征工程不仅是一门科学,更是一门艺术;(2)超参数优化需要对算法和机器学习的核心概念有深刻的理解;(3)同时也需要软件工程师的技能让代码通俗易懂、易于部署。

而automl就是希望在这些方面能给开发者和数据科学家们提供帮助。

automl

automl输入的是数据和任务(分类,回归,推荐等),输出是可用于应用的模型,该模型能够预测未知数据。数据驱动流程中的每个决定都是一个超参数。automl的基本想法就是在相对短的时间里找到这样优质的超参数。

(1)automl选择了一种预处理数据的策略:如何处理不平衡的数据、如何填充缺失值、删除,替换或保留异常值、如何对类别和多类别列进行编码、如何避免目标泄漏、如何防止内存错误…等

(2)automl会生成新特征并选择其中有意义的

(3)automl可以选择模型(线性模型、k近邻法、梯度增强、神经网络…等)

(4)automl调整所选模型的超参数(例如,基于树的模型或体系结构的树数和子采样、神经网络的学习率和时期数)

(5)automl可以对模型进行稳定的集成以增加得分

automl将填补数据科学市场中“供应”与“需求”之间的空缺

如今,越来越多的公司开始收集数据或者至少意识到收集数据的重要性:他们都希望从中分一杯羹。另一方面,市场上缺乏拥有适当背景知识的数据科学家来满足需求,因此出现了人才缺口。automl可能会填补这一空缺。

但这个解决方案能给公司带来什么价值吗?在我看来答案是否定的。

很多公司需要的是一个“过程”,而automl提供的只是一个“工具”。先进的工具无法弥补战略上的不足。在使用automl前,或许可以考虑与咨询公司进行项目合作,这可以帮助公司首先完善数据科学战略。大多数automl解决方案提供商也提供咨询业务这一现象,并不是一个巧合。

根据2018年kaggle机器学习和数据科学调查,典型的数据科学项目中,大家有15-26%的时间都用于构建模型或模型选择。无论是工时本身还是时间成本,这都是一项艰巨的任务。如果目标或数据改变(如加入新特征),这个过程又要重复一遍。automl可以帮助公司或数据科学家节省很多时间,将更多的时间花在更有意义的事情上。

但是,如果建模环节不是数据科学团队最关键的任务,说明公司流程中存在非常明显的问题。通常,即使模型性能只提升了小小一点,公司也有可能为此赚取大量利益,在这种情况下耗费大量时间建造模型是没有意义的。

简单来说:

如果(从模型中的收益 > 数据科学小组花费的时间)= 不需要节省时间

足球外围网站排行