(写于December 4th, 2012)
初涉数据挖掘,算是对于数据数据挖掘的一些基础性理解。
什么是数据挖掘?
数据挖掘是数据库中知识发现(knowledgeDiscovery inDatabase,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。PS:我认为就是从海量的数据中分析处对我们有用的数据,然后这个分析的过程就是所谓的数据挖掘。
数据挖掘需要解决的问题:
在面临新数据集带来的问题时,传统的数据分心级数常常遇到实际困难,具体问题有:可伸缩,高纬性,异种数据和复杂数据,数据的有权与分布,传统的分析。(数据挖掘和传统数据分析方法的区别:1.数据挖掘所面对的数据和以前面对的数据有着显著的区别。首先,现在的数据源更加海量了,其次,现在的数据可能不是结构化数据,什么是结构化数据?即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,而非结构化数据是指,数据库二维逻辑表来表现的数据即称为非结构化数据,比如xml,html,图像,视频,文本等。2.分析方法不同,传统的数据分析方法是先给定一个假设,然后我们通过分析数据去验证这个假设,而数据挖掘并没有假设,相反,它是发现假设的。 )
数据挖掘任务:
两大类:
预测任务:根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量或因变量,而用来作预测的属性称为说明变量或自变量。
描述任务:导出概括数据中潜在联系的模式。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证。
四种主要数据挖掘任务:
预测建模:以说吗变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量,分析一个已知的类别来建立一个模型,通过这个模型我们可以判断出类别未知的类的类别;回归,用于预测连续的目标变量。
关联分析:用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。
聚类分析:把一组数据分成不同的簇,每簇中数据相似而不同簇间的数据则距离较远。(与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。)
异常检测:识别其特征显著不同于其他数据的观测值(异常点或离群点)。