数据和大数据的含义:
数据是由生产资料和资本构成的,大数据是由海量数据和针对海量数据处理的解决方案构成。
大数据的四大特征
- 体量大(V):人类累计生成的数据总量
- 种类多(V):数据来源广
- 速度快:数据生成、存储、分析、处理的速度快
- 价值高:大数据具有巨大的潜在价值
大数据的技术支撑
- 存储:存储成本下降、
- 计算:运算速度逐渐变快
- 智能:机器拥有理解数据能力
大数据的来源
- 新摩尔定律的含义:每18个月全球新增信息量是计算机有史以来全部信息量的总和
大数据的处理方法
- 1、大数据的采集:采用多个数据库来接收终端数据
- 2、大数据预处理的方法
- 清理:达到数据格式化标准、重复的数据清除
- 集成:多个数据库结合并统一存储
- 交换:规范化等方式将数据转换用于数据挖掘的形式
- 归约:寻找数据特征,以减少数据规模
- 3、统计于分析:主要是利用分布式数据库
- 4、大数据挖掘:创造数据挖掘模型的一组试探法和计算方法。
Source是负责接收数据到Flume Agent的组件
数据挖掘的概念
- 数据挖掘是整个知识发现流程中的一个具体过程。
贝叶斯分类(事件一定要假定独立)
R语言
注意输出结果时写行标。并且多看看程序。
1 | #基础符号 |
深度学习
- 神经网络
- 图建模
- 人工智能
- 模式识别
- 最优化理论和信号处理
网络爬虫
一种“机器人程序”其作用是自动采集所有它们可以到达的网页,并记录下这些网页的内容,以便其他程序进行后续的处理
通用爬虫
追求大的覆盖范围,对于网页中提取到的超链接会全收
聚焦爬虫
对提取到的超链接进行过滤,只对特定网站或者特定领域的网站进行爬取
机械分词
将待处理的中文字符串与一个“尽可能全面”的字典中词条按照一定的规则匹配
用户画像构建流程
- 1、数据收集与分析
- 2、行为建模
- 3、构建用户画像
- 4、数据可视化分析