数据分析准备

时间:2021-01-28 12:07:08   收藏:0   阅读:0

新阶段:数据分析

今日内容概要

今日内容详细

python发展方向

1.人工智能与机器学习
2.数据分析(合理运用各种模块)
3.量化交易
4.web开发
5.爬虫
6.自动化运维与测试
...
# python是目前唯一一门诸多领域都有用的的软件

数据分析

数据分析的本质就是在收集到的一堆数据中提取出有价值的部分

1.根据记录对用户的商品倾向推荐
2.短视频,电影推荐(b站,抖音)
3.炒股票
4.公司决策依据
5.市场分析,用户行为分析

python在数据分析的应用

1.语法简单,学习起来偏简单
2.python有很多数据分析相关的模块
3.python可以很容易的整合c,c++等语言的代码
...

数据分析的流程

1.提出具体的数据分析需求(目的)
2.收集需求相关的数据
	公司内部的数据
    花钱购买的数据
    # 编写网络爬虫获取数据
3.整理数据
4.数据分析
5.数据可视化
6.撰写数据分析报告

ipython模块

传统的cmd窗口下进入python解释器编写代码的缺点
	1.代码不会缩进
    2.代码不会提示
    3.颜色过于单调并且也没有行数提示

ipython模块
	下载
    	pip3 install ipython
	使用
    	调出cmd窗口之后不再通过输入python3进入解释器环境
        而是直接输入ipython进入
	好处
    	以上缺点(狗头)

jupyter 模块

下载
	pip3 install jupyter
# 使用
	调出cmd窗口后直接直接输入jupyter notbook
    会自动使用当前计算机默认的浏览器打开一个jupyter界面
    保持cmd窗口不要关闭(它是一个服务器) 退出服务按ctrl+C 回车
    
‘‘‘
计算机名称不能有中文
‘‘‘

弹出的界面其实就是使用python做数据分析较为常用的功能界面

# 我们在做数据分析的时候不会单单使用这个模块,因为该模块在做数据分析的时候需要我们自己额外的下载很多数据分析相关的模块(270个左右)

Anaconda软件

拥有数据分析专用的功能非常强大的软件
	里面集成了很多数据分析相关的软件和模块
    并且还配套有很多的学习资料(纯英文的)
网址:
	https://www.anaconda.com/
版本:
	点击products下载第一个个人版本即可
下载与安装:
	一步步根据提示选择即可
    
# 注意事项
	安装后不会出现在桌面,打开窗口搜索Anaconda navigator即可

Anaconda主要功能

首页
	继承了很多数据分析甚至是编程相关的应用软件
    	launch直接点击使用
        install需要先下载再使用
环境
	自动下载好了270个与数据分析相关的模块
学习
	内部提供了很多官方的教程文档和视频
社区
	问题、思想、学术交流等

notebook详细功能

notebook文件的后缀名是ipynb,遇到该文件就需要使用jupyter环境打开

# 记忆英语单词
	cell  单元格
	cut	   剪切
	copy   拷贝
	paste  粘贴
	above	在...上面
	below	在...下面
    undo	撤销
	merge	合并
	up		向上
	down	向下
    
单元格行数展示
	view
    	line number

快捷键

针对单元格的颜色
	蓝色
    	命令行模式
    绿色
    	编辑模式
两种模式的切换
	编辑模式切换到命令行模式 >>> esc键
    命令行模式切换到编辑模式 >>> 鼠标左键或者直接按enter键
    
1.标题的书写
	方式1:
        1.esc进入命令行模式
        2.按m键
        3.写内容
        4.运行单元格即可
    方式2:
        1.编辑模式下直接写文本内容
        2.按esc键进入命令行模式
        3.再按数字键选择几级标题
        4.运行单元格即可
2.运行当前单元格
	任何模式下都一样	ctrl + enter
3.运行当前单元格并在下面新建一个新的单元格
	任何模式下都一样	shift + enter
4.在单元格的上方创建一个单元格
	命令行模式下按a键
5.在单元格的下方创建一个单元格
	命令行模式下按b键
6.删除单元格
	命令行模式下连续按两下d键
7.撤销删除操作
	命令行模式下按z键

数据分析三剑客

1.numpy
	数学运算模块,非常擅长数学运算
2.pandas
	主要是用来代码操作表格数据
3.matplotlib
	数据可视化(代码画图)

numpy模块

1.Numpy是高性能科学计算和数据分析的基础包
2.也是pandas等其他数据分析的工具的基础
3.NumPy具有多维数组功能,运算更加高效快速

下载

pip3 install unmpy
Anaconda无需下载即可使用

导入

import numpy as np

前戏

# 身高
height = [170,173,178,180,183]
# 体重
weight = [76,65,70,77,75]
‘‘‘求BMI指数:身体质量指数=体重(KG)/身高(m)的平方‘‘‘
BMI = weight/(height/100)**2  
# 理想完美 现实报错

‘‘‘python解决方案‘‘‘
import numpy as np
import random
# 伪造数据
h = []
w = []
for i in range(10000000):
    h.append(random.randint(153,180))
    w.append(random.uniform(51,88))
# for循环计算
%%time  
# 统计当前cell执行时间
bmi = []
for i in range(10000000):
    bmi.append(w[i]/(h[i]/100) ** 2)
    
 
‘‘‘numpy解决方案‘‘‘
H = np.array(h)
W = np.array(w)
# 数组运算
%%time  
# 统计当前cell执行时间
BMI = W/(H/100)**2

"""
当数据量过于巨大,在运算中,numpy计算比python快很多陪
"""

技术图片

评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!