【炼数成金 RapidMiner 一 】数据挖掘概念与技术原书第三版(第一章)1.9节的习题解
1.数据挖掘是指从大量的数据中提取有用的知识信息的一种模式。
(1)因为现在的生活工作中随时随刻都在产生大量的数据和都需要将这些数据转变为有用的信息和知识,是因为需求的不断增加才会突显出数据挖掘技术的重要性,所以数据挖掘应该是信息技术发展带来的结果。
(2)数据挖掘应该是这些技术融合而不是简单的变革。
(3)数据库技术带动了数据收集技术的发展和数据库建立的机制,有了有效的数据管理,包括数据存储、检索、查询和事务处理机制。大量的数据库系统提供的查询和事务处理,自然地产生了对数据分析和理解的必要性,是数据挖掘产生的驱动力量。
(4)数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表达
2.数据库与数据仓库的相同与不同点
不同: (1)数据库是面向事务的设计,数据仓库是面向主题设计的。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
(3)数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
相同: 数据仓库和数据库都是数据或信息的存储系统,都存储了大量的持久性数据。
3.数据特征化:目标类数据的一般特性或特征的汇总。
数据区分:将目标类数据对象的一般特性与一个或者多个比类对象的一般特性进行比较。例子:通过一个用户的每个季度的消费金额给出用户的一个消费指数。
关联和相关性分析:如果两个或者多个事物之间存在一定的关系,那么其中一个事物就可以通过另一个事物预测,目的是为了挖掘数据之间的相关性。例子:挖掘消费网站中不同年龄用户对不同商品的需求。
分类:利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。例子:将数据库中信用卡用户分为高中低三类等。
回归:研究数据中因变量和自变量的函数关系。比如随着季节的交替,某一件商品的成交量与时间成函数关系。
聚类:聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。例子:对不同消费习惯的用户进行聚类,分别推送不同的服务。
离群点分析:利用统计分布、密度(局部离群点,适用于非均匀分布数据)、距离(参数设置)、偏差等从数据中发现与一般行为不一致的事物。例子:从客户中挖掘一些消费能力特别强的用户。
1.4 利用一般的电商需要通过用户的消费记录推送广告就需要进行数据挖掘。
不能简单的从数据库通过查询、统计得出,例如一个用户可能是替其亲人朋友购买的商品,对性别的判断和年龄的判断在数据挖掘的过程中可以更为细致的分为:自然年龄和购买年龄,自然性别和购买性别等,只有更为细致的分析才能为用户推送更为精准的信息,才能吸引客户。
1.5 (1)区分和分类的差别在于前者侧重于对比类数据和目标类数据的一般特征的比较,而后者则是通过先找到一系列描述或者区分数据类别或概念的模型,然后将模型用于预测、估计未知数据类的类别与标签。二者的相同之处在于它们都是处理、分析类别数据。
(2)特征化和聚类的差别在于前者是为了找到目标分类数据的一般性质或特征,而后者则侧重于对未分类数据对象的分析。二者的相似之处在于它们都是对高相关数据对象或聚集对象的分析与处理。
(3)分类和预测的差别在于前者是为了找到一系列描述或者区分数据类别或概念的模型,而后者预测丢失的或难以获得的,通常是数值类型的数据值。二者的相似之处在于它们都是预测工具:分类用于预测数据对象的类别标签,预测主要用于丢失的数值类型数据的预测。
1.6例如在社交网络中,经常排名一些近期的社交网络热点名词和事情。这些就需要通过从大量的用户提交的博客和博文、留言、微博中进行分析,通过有监督和无监督混合的方式聚类出TOP前10的热门词汇。
1.7(1)统计方法。统计学方法是基于模型的方法,即为数据创建一个模型,并且根据对象拟合模型的情况来评估它们。大部分用于离群点检测的统计学方法都是构建一个概率分布模型,并考虑对象有多大可能符合该模型。离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。这种情况的前提是必须知道数据集服从什么分布,如果估计错误就造成了重尾分布。异常检测的混合模型方法:对于异常检测,数据用两个分布的混合模型建模,一个分布为普通数据,而另一个为离群点。
(2)基于邻近度的离群点检测。一个对象是异常的,如果它远离大部分点。这种方法比统计学方法更一般、更容易使用,因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小(例如1),则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
(3)基于密度的离群点检测。从基于密度的观点来说,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。
1.8(1)不同用户的数据挖掘需要是不一样的。和不同的用户可能会在感兴趣的不同种类的知识。因此,有必要进行数据挖掘涵盖范围广泛的知识发现任务。
(2)知识的多层次的抽象交互挖掘 - 数据挖掘过程需要有互动的,因为它可以让用户专注于搜索模式,提供基于返回的结果提炼数据挖掘请求。
(2)模式评估 - 它指的是该问题的兴趣性。因为无论他们代表的常识或缺乏新颖性发现的模式应该是有趣的。
1.9 海量数据不仅量大,而且存在多源性、异构性、多模态和复杂内联。这些特性对数据挖掘服务提出了巨大挑战:(1)挖掘效率:面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。(2)多源数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,如何梳理有效数据是一个挑战。(3)正对不同数据挖掘任务,各种应用数据要进行整合挖掘,提炼出适合高效使用商业信息的基础架构也是一种挑战。
1.10在时空数据挖掘方面,很多有价值的工作按照挖掘的任务,主要有时空模式发现、时空聚类、时空异常检测、时空预测和分类等,如何将时空推理与数据挖掘结合是个很大的挑战,将地理信息系统与数据挖掘有效集成,主要挑战例如:如何利用数据挖掘技术提取潜藏在空间数据库中空间数据所蕴含的知识和规则,数据挖掘算法如何获取空间数据库中的数据,如何通过空间数据库中自动或半自动地挖掘事先未知却潜在有用的空间模式的方法等。
【炼数成金 RapidMiner 一 】数据挖掘概念与技术原书第三版(第一章)1.9节的习题解,布布扣,bubuko.com