当前位置:主页 > 历史 > SparkMLlibGBDT算法工业大数据实战案例
SparkMLlibGBDT算法工业大数据实战案例
时间:2021-02-12 23:41 点击次数:
本文摘要:之前葛武辉发布的《工业大数据挖掘的利器——SparkMLlib》中提到,Spark的MLlib组件需要高效地挖掘出工业现场的海量数据,并缓慢地将结果呈现给业务分析师。接下来,我们将在SparkMLlib中解释GBDT算法,并将其应用到工业数据的代码空战中。1算法概念GB(GradientBoosting)梯度Boosting算法,GB总共必须发起m次递归。通过使用梯度提升方法,每次递归都向损失函数的负梯度方向移动,从而使损失函数更小,模型更精确。

创世彩票

之前葛武辉发布的《工业大数据挖掘的利器——SparkMLlib》中提到,Spark的MLlib组件需要高效地挖掘出工业现场的海量数据,并缓慢地将结果呈现给业务分析师。接下来,我们将在SparkMLlib中解释GBDT算法,并将其应用到工业数据的代码空战中。1算法概念GB(GradientBoosting)梯度Boosting算法,GB总共必须发起m次递归。通过使用梯度提升方法,每次递归都向损失函数的负梯度方向移动,从而使损失函数更小,模型更精确。

算法伪码如下:GB算法与完全Boosting算法相比,仍有显著差异。Boosting算法开始时,每个样本不会附加权重,每次递归都不会减少错误样本的权重,也不会增加正确样本的权重。

n次递归后,不会得到n个分类器,然后我们将它们组合在一起,得到最终的模型。GB算法和Boosting的区别在于,每次递归的目标都是增加前一次的残差,所以在残差增加的方向上创建新的模型。在GB算法框架中加入决策树是GBDT(GradientBoostDecisionTree)算法。

GBDT的主要优点如下:1)可以灵活处理各种类型的数据,包括倒数和线性值。2)在推荐时间相对较短的情况下,预测的意向父比例可以相对较低。

这与SVM相比。3)用于一些强损失函数,对异常值有很强的鲁棒性。

如Huber损失函数、分位数损失函数等。4)利用弱分类器扩展级联。5)充分考虑的各个分类器的权重。

6)可以得到变量之间的重要程度顺序。GBDT的主要缺点如下:1)由于弱自学者之间不存在依赖关系,不可能对训练数据进行分段,但自抽样SGBT可以超过某些分段。在工业生产中,产品在制造过程中具有许多特征值。如果能够及时预测出产品的特征值,并且能够得到特征值的确定值,那么前两组业务人员就不会了解产品的质量,建立一个完整的产品检验体系,避免不正常的产品回流,造成不必要的浪费。

本空战代码中使用的数据是半导体制造过程中某一过程中机器的工艺参数值。利用SparkMLlib中的GBDT算法,对工业现场机器的工艺参数进行建模,并对机器生产的产品的膜厚进行预测。


本文关键词:SparkMLlibGBDT,算法,工,业大,数据,实战,案例,登录

本文来源:创世彩票-www.yaboyule383.icu

Copyright © 2009-2020 www.yaboyule383.icu. 登录科技 版权所有  网站地图   xml地图  备案号:ICP备73213812号-2

在线客服 联系方式 二维码

服务热线

048-20708998

扫一扫,关注我们