(1)初识机器学习:
一.概念:将 规律 用于对未来 不确定 场景的决策。
规律:从历史数据中总结
通常 来自数据分析师 ———让机器代替
从数据中寻找规律
规律—自动生成————>决策
历史几十年,,,,有大数据引出,,概率论与数理统计(基石)统计学(受限于计算能力限制,低端计算机)
统计学:抽样调查,(有缺陷)————>验证
抽样—>描述统计—>假设检验(统计推断)
发展到,对全部数据进行处理
分析气温:收集历史数据,通过可视化展示,局部上下波动,总体上升
图形——得到——>函数(寻找模型)使用与一维
多维,上百维,构建不出图形,不能发现规律,,纯靠数学运算
二.机器学习发展的动力
1.用数据代替专家(主观经验),定义规则——>if/else 业务逻辑,
2.经济。数据变现
3.业务系统发展的历史
基于专家经验(1)
基于统计———分纬度统计(2)
机器学习————在线学习(3)
运营,产品,专家 交流经验———>程序员——>if/else(1)
数据分析==技术报表(olvp)——>业务规则(2)
离线机器学习(多),跑定时任务,生成模型 —— 发展方向 ———>实时推荐(在线学习)(3)
四。机器学习的典型应用
1.购物篮分析(数据变成钱)
啤酒+尿片(沃尔玛数据分析人员发现)算法:关联规则(典型数据挖掘算法,非机器学习算法)
2.分用户精准营销
中国移动:全球通(商务),动感地带(学生),神州行(务工人员)
机器学习:
算法:聚类(典型机器学习算法)
3.垃圾邮件识别
算法:朴素贝叶斯(机器学习算法)
4.信用卡欺诈
风险识别:还款能力,消费能力
算法:决策树(机器学习算法)
5.互联网广告,搜索引擎
算法:ctr预估(用户点击率预估:线性逻辑回归)
6.推荐系统(猜你喜欢)
算法:协同过滤(与第一条类似)算法不同,解决同类型问题,提升销量
7.领域:自然语言处理
前景广泛(门槛较机器学习更高)
情感分析(积极,消极),实体识别(文章中:人名地名时间)
更多其他领域
8.深度学习:图像识别
(很火)吴文达教授主要从事这方面
更多:语音识别,个性化医疗,情感分析,人脸识别,自动驾驶,智慧机器人,私人虚拟助理,手势控制,视频内容自动识别,实时翻译。。。。
工业届热点
(2)机器学习与传统数据分析的区别
1.数据特点: 交易数据(与¥有关)——VS—— 行为数据(行为历史)
数据特点
交易数据 | 行为数据 |
---|---|
与¥有关 | 行为历史 |
少量数据 | 海量数据 |
一致性高 | 不关注精准一致性 |
sql | no sql |
*no sql 数据库:只能处理行为性数据,保证吞吐量,一致性打折扣
2.解决的业务问题不一样
数据分析 | 机器学习 |
---|---|
历史,报告过去的事情 | 未来,预测未来的实行 |
3.技术手段不同
数据分析:人的经验,用户驱动(olap)交互式分析,受限于人,维度,属性数目有限,技术成熟,落伍
机器学习:算法,数据驱动,大量维度,属性(上亿规模) 发展阶段,部分成熟,流行(推荐,点击预估)
3.参与者不同,服务对象不同
数据分析:数据分析师,目标用户:公司高层
机器学习:数据+算法 做分类,算法差别不大,关键是数据质量 目标用户:个体用户
(3)机器学习常见算法分类
算法分类(1):
有监督学习:(有y)分类算法(是否为垃圾邮件,打标签),回归算法
无监督学习:(没y)聚类算法:分成几累,之前并不知道
半监督学习:(强化学习)小孩学走路
算法分类(2): 分类与回归:
聚类:
标注:像分类,一句话,给每个元素打标签,主谓宾
算法分类(3):(important)
生成模型:(陪审团)属于各个类的概率(%20A类, %40B类, 20%C类。。。)模棱两可
判别模型:(法官)直接给函数,返回结果,属于哪一类,!武断
主要区别:训练数据模型的方法
SVM算法面试必考
分类:C4.5
关联分析 fp-growth:关联算法(韩嘉伟)两边扫描,平凡相机挖掘
统计学习 EM(算法框架)
PageRank 谷歌
AdaBoost 人脸识别,决策树改进版
NAVIE BAYES 朴素贝叶斯
常用成熟算法:
FP-Growth
逻辑回归
RF.GBDT
推荐算法
LDA(文本,自然语言)
Word2Vector(谷歌,文本挖掘)
HMM,CRF(条件随机场,自然语言,文本挖掘)
深度学习(各种识别)
(4)机器学习解决问题的框架
(人工智能解决的问题相对单纯)
确定目标:
业务需求
数据
特征工程(数据预处理,清晰,整合,提取特征),繁琐,复杂
训练模型:
定义模型
定义损失函数**:通常情况下没有精确解(重要),相似,差异度
优化算法:求函数极小值的优化算法,(随机梯度下降,种种)
模型评估:
交叉验证(主流):评估指标,准确率,方差,曲线
效果评估