Info
Content

数据分析简介

数据案例

1. 啤酒与尿布

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

2. 数据新闻让英国撤军

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

3. Google成功预测冬季流感

2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

《长安十二时辰》——大案牍术

思考:上述案例说明了什么?

中国的数据中心分布图

讨论:数据如何成为发展动能?

什么是数据分析

什么是数据

百度百科关于数据的定义:

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。 在计算机系统中,数据以二进制信息单元0,1的形式表示。

因此,数据不同于信息,没有固定的格式去规定其呈现形式。

数据分析的目的

数据分析的目的在于:将隐没在一大批看起来杂乱无章的数据中的信息集中和提炼出来,以找出所研究对象的内在规律。从而帮助人们做出判断,进行决策。

数据分析概念的界定

数据分析的作用

最初,数据分析用来进行数据保护,现在已发展成数据建模的方法论,成为了一门真正学科。模型实际上是将所研究的系统转化为数学形式。一旦建立数学或逻辑模型,对系统的响应能做出不同精度的预测,我们就可以预测在给定输入的情况下,系统会给出怎样的输出。

数据分析的范畴

学科范畴

通过以上的示意图不难发现,做好数据分析依赖于数学知识、统计学知识和计算机应用知识。可以说,数学是根基、统计学是方法、计算机是工具。

案例: 某互联网公司希望激活数量可观的沉默用户,设计了3个方案,将所有沉默用户随机分布在规模相同的三个群中,将3套方案实施在这3个群体中,观察3个群体中每天成功唤醒的用户数量,下图是3个方案实施8天后的数据:

这些都是数据采集的结果,接下来就是应该是分析师根据统计学的知识,借助于计算机的手段来分析确定哪一种方案更适合最初的目的了。

数据分析的流程

对于一个需要依靠数据来进行认证的问题,我们一般可以将其划分为以下几个步骤,从而实现数据的分析。

需求分析

需求分析是指,从用户的需要出发,挖掘用户的真实意图,并转化为产品需求的过程。数据分析中的需求分析,决定了数据分析的方向和方法。

数据获取

数据是数据分析工作的基础,数据获取是指根据需求分析的结果提取、收集数据。

大数据时代之前,一些传统的数据获取方式有档案采集、抽样问卷等等。进入大数据时代之后,网络成为了最大的数据生产市场,通过一些网络方式就可以获取到相关的信息,这时网络爬虫就起到了重要的作用。爬虫的对象是网络数据,而网络数据包含了:视频、音频、图像、文字等等。

实例:从古诗文网上获取指定作者的诗歌

(见附件)

数据预处理

数据的来源往往不尽相同。对于不同规模、不同格式的数据,在使用前要进行相应的预处理,以使其达到可用状态。

数据预处理是对获取到的数据进行清洗和标准化的处理,以及把数据变换为优化过的形式。例如去年重复、缺失、异常、不一致的数据。

数据分析与建模

数据分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中的有价值信息,并得出结论的过程。

数据分析与建模的用途:

一是预测系统所产生的数据的值,使用回归模型;

二是为新数据分类,使用分类模型或聚类模型。

模型评估

模型评估是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。

最终部署

数据分析的最后一步是部署,旨在展示结果,就是给出数据分析的结论。

Python和数据分析

为什么是Python
  R Python MatLab
语言难易 入门难度低 入门难度一般 入门难度一般
使用场景 数据分析,数据挖掘,机器学习,数据可视化等 数据分析,机器学习,矩阵运算,科学数据可视化,数字图像处理,应用服务,网络爬虫,系统运维等 矩阵计算,数值分析,科学数据可视化,机器学习,符号计算,数字图像处理,数字信号处理,仿真模拟等
第三方支持 拥有大量的算法库,且通常经过学术认证 拥有大量的第三方算法库,应用范围广 拥有大量专业的算法工具箱
流行领域 工业界≈学术界 工业界>学术界 工业界≤学术界
软件成本 开源免费 开源免费 商业收费
  • 语法简单精练:对于初学者来说,比起传统计算机编程语言(C/C++、Java 等),Python 更容易上手
  • 有很强大的库:可以只使用 Python 这一种语言去构建以数据为中心的应用程序
  • 功能强大:Python 是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。Python 不仅具备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具
  • 不仅适用于研究和原型构建,同时也适用于构建生产系统:研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本
  • Python 是一门胶水语言:Python 程序能够以多种方式轻易地与其他语言的组件“粘接”在一起
Python数据分析常用的类库
  • IPython:一个增强的 Python Shell,目的是提高编写、测试、调试Python 代码的速度
  • NumPy:Python 科学计算的基础包
  • SciPy: 专门解决科学计算中各种标准问题域的模块的集合
  • pandas: 数据分析核心库
  • Matplotlib:绘制数据图表的 Python 库
  • Seaborn:在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易
  • Scikit-learn:数据挖掘和数据分析工具
  • Spyder:提供高级的代码编辑、交互测试和调试等特性

First Code

安装Python运行环境,下载附件中的wordcount文件包,解压缩并尝试运行。

根据需要使用pip安装相应的库

使用./wordcount filename.txt进行词频统计并生成词云。下图为运行效果。

No Comments
Back to top