数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。

所以总体可以认为深度学习跟机器学习都属于数据挖掘的方法。

(1)分类

分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类。

比如我们在电商商平台上的各类产品,肯定要按照产品属性进行分类,对应的数据挖掘的分类,就是利用属性去寻找有共同特点的数据对象,归到一个大集合。

(2)回归分析

回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。

比如,我们有了过去三年的销售数据,我们就可以抽象出影响销售的因素,对未来的销售数据做出预测。

(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。

(4)关联规则

关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。

我们最喜欢举得例子,就是爸爸去超市购物的例子,爸爸去超市买奶粉,如果在旁边放上爸爸喜欢的啤酒起子、酒精饮料,肯定能引导消费。

(5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、

分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不 严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。

目前的大数据处理,已经不是结构数据为天下,而是有大量文本、音频、视频、图像等非线性数据,所以基于神经网络的深度学习算法,目前已经蓬勃发展,不可阻挡的改变着一切。

(6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

这个我个人的理解,更像是用户行为画像,目前基于HTML5的前端页面,已经有了充足的信息获取能力,比起之前的HTML静态页面,实在太强了。以前困惑我们的用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等已经慢慢得到了解决。

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

在这里简单做一个总结,具体内容可以到作者主页查看。

回归分析方法

包括简单线性回归;简单多项式回归;多元线性回归;多元多项式回归;多变量回归;Logistic逻辑回归;Poison泊松回归;Cox比例风险回归等。

无监督聚类算法

包括K-means聚类,K-中心点聚类,SOM神经网络聚类等。

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

目前公开可以使用的,在机器学习和数据挖掘领域的算法包有很多。根据不同的场景、使用者的不同知识背景(主要是编程语言),都有对应的,可以快速使用的算法库。下面介绍比较流行的python机器学习库scikit-learn。

scikit-learn

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

对于ML领域的Pythoner来说,scikit-learn这个包肯定是必不可少会用到的。Scikit-learn项目最早由 David Cournapeau发起的,专门针对机器学习应用而发展起来的一款开源框架。

Scikit-learn主要包括四大领域的算法集,每一个类型都有若干种不同的算法。

  • 分类算法

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

包括常用的逻辑回归、支持向量机、各种决策树算法(C4.5,ID3,CART)、多种分布的朴素贝叶斯算法(高斯分布、伯努利分布),神经网络(主要是多层感知机,不过scikit-learn并不是一个深度学习库,所以这里的神经网络并不好用) 等等。

  • 回归算法

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么? 主要支持向量回归(SVR),岭回归,Lasso回归,弹性网络(Elastic Net)和一些线性回归模型等。

  • 聚类

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

scikit-learn基本上包含了各种类型的聚类算法,具体包括:K-均值聚类,谱聚类,层次聚类,DBSCAN等。

  • 流形学习

数据挖掘,机器学习与深度学习中聚类、关联、决策跟分类是什么?

流形学习最常见的用法就是对高维数据可视化的时候用于降维,scikit-learn中集成了著名的t-sne,isomap等算法。

除了以上单一的各类算法之外,scikit-learn集成了在数据竞赛中常用的一种“套路",并且抽象成了一个统一的方法-ensemble method。提供了bagging方法、boost方法的基础API,可以简单的通过多个分类器构建一个ensemble 模型。

其次,作为一个拥有庞大开源社区的机器学习库,scikit-learn覆盖了模型构建的方方面面,除了算法,也提供了数据预处理的相关操作、模型的各类评估方法、模型或特征的选择算法等,能够在实际工作中极大的提升工作效率,缩短模型训练、调参、特征工程的时间消耗。

综上,scikit-learn是一个居家旅行竞赛工作都非常给力的机器学习框架。

* 如果觉得有用,麻烦关注啦!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xxx@163.com 举报,一经查实,本站将立刻删除。

发表评论

登录后才能评论