数据科学导论复习个人整理

综合了各方的材料整理综合了这一份
但是考试被EDA打脸（doge）

把图片删了，老师课件外传不好
所以涉及老师课件的图都删了，只写知识点名称

大数据概述

1.大数据时代技术支撑：存储设备容量不断增加、CPU处理能力大幅提升、网络带宽不断增加
2.大数据概念：大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性
4.云计算概念：云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。
5.云计算关键技术：虚拟化、分布式存储、分布式计算、多租户等。

分布式文件系统HDFS

1.HDFS（Hadoop Distributed File System）分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销。

2.分布式文件系统结构：分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode)。

3.分布式文件系统的设计需求包括：透明性、并发控制、文件复制、硬件和操作系统的异构性、容错、可伸缩性、安全。

4.HDFS要实现以下目标：兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性。

5.HDFS局限性：不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。

6.HDFS采用抽象的块的概念的好处：支持大规模文件存储、简化系统设计、适合数据备份。

【图】分布式文件系统的多副本冗余数据保存的优点

MapReduce

1.MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce。
在MapReduce中，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的小数据块，这些小数据块可以被多个Map任务并行处理。MapReduce框架会为每个Map任务输入一个数据子集，Map任务生成的结果会继续作为Reduce任务的输入，最终由Reduce任务输出最后结果，并写入到分布式文件系统中。

Wordcount：
1.map阶段完成由输入数据到单词切分的工作
2.shuffle阶段完成相同单词的聚集和分发工作
3.相同单词交给一台机器处理计算频数，reduce阶段完成接收所有单词并计算其频数的工作

数据科学简介

1.数据科学，是对数据进行分析，抽取信息和知识的过程，提供指导和支持的基本原则和方法。
2.ETL：是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

自然语言处理

1、N-Grams

2、语法树

PageRank

这部分因为前几年是教众智科学的鹿老师参与数据科学的一部分授课，历史遗留问题，2020-2021学期，鹿老师没有授课，考试也没涉及众智的知识（不知道随机游走算不算）

计算auth hub值
计算pagerank

机器学习算法

KNN算法的内容以及优缺点
k-means算法的内容以及优缺点

文本识别

1.文本分析的主要任务：文本索引与检索、文本分类、文本聚类、文档摘要、主题抽取、命名实体识别/概念抽取和关系建模、情感分析
在这里插入图片描述

2.相似度距离举例
在这里插入图片描述

切比雪夫距离：两个点之间的距离是其各坐标数值差绝对值的最大值。

杰卡德距离越小差异性越小，相似度越高
汉明距离
在一个码组集合中，任意两个码字之间对应位上码元取值不同的位的数目定义为这两个码字之间的汉明距离。即
d(x,y)=∑xi⊕yi∑xi⊕yi
这里i=0,1,…n-1，x,y都是n位的编码，⊕表示异或，不一样的位数越小，越相似
例如：(00)与(01)的距离是1，(110)和(101)的距离是2。在一个码组集合中，任意两个编码之间汉明距离的最小值称为这个码组的最小汉明距离。最小汉明距离越大，码组越具有抗干扰能力。

PersonalRank算法

假设要给用户u进行个性化推荐，可以从用户u对应的节点Vu开始在用户物品二分图上进行随机游走。游走到任何一个节点时，首先按照概率α决定是继续游走，还是停止这次游走并从Vu节点开始重新游走。如果决定继续游走，那么就从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。这样，经过很多次随机游走后，每个物品节点被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

背诵集合

数据科学概念：是对数据进行分析，抽取信息和知识的过程，提供指导和支持的基本原则和方法。它研究数据的各种类型、状态、属性及其变化规律，它研究各种方法，对数据进行分析，从而揭示自然界和人类行为等现象背后的规律。

ETL 概念：（蛮重要的）
用来描述将数据从来源经过抽取，转换，加载至目的端的过程
Extract：从源中提取数据
Transform：在源、汇或暂存区转换数据
Load：将数据加载到汇中

What’s wrong with table? 关系型数据库不适用的原因
(1) 关系型数据库表存储的主要是索引，无法承担大型数据存储的开销
(2) 事务：安全的状态更改需要日志，而且速度很慢
(3) 关系：检查关系增加了更新的开销
(4) 表在存储稀疏数据时表空间浪费非常大
(5) 表在数据存储之前需要先确定模式，但是在很多应用中，是先有数据，然后才根据数据去建立模式
(6) 现代表在多表连接时处理的很慢，尤其是数据庞大时，对于寻找朋友的朋友的朋友这类社交网络关系显得力不从心

脏数据在数据挖掘工作中，脏数据是指不完整、含噪声、不一致的数据

脏数据表现

将文本解析为字段(分隔符问题)
命名惯例
缺少必要的字段(如关键字段)
不同的表述
字段太长(被截断)
主键冲突(从非结构化转成结构化的过程中或在集成期间)
冗余记录(精确匹配或其他)
格式问题——尤其是日期

脏数据产生原因：

源数据本身是脏的；
通过转换破坏了数据（软件管道的复杂性）；
数据集是干净的，但是集成（合并）会把数据变脏；
”罕见”的错误可能在转换或集成之后变得频繁；
随着时间的推移，旧数据失去了它的价值或准确性。

数据清洗的过程:

数据审计：把数据异常的类型标识出来，一般通过对数据进行解析以及采用各种统计方法来检测数据的异常，函数依赖问题或者数据中体现的关联性
定义工作流：为了把数据中的各种异常情况剔除掉，需要对数据进行一系列的操作，这些操作构成来一个清洗工作流，一般，在工作流里首先设法剔除语法类异常，因为语法类异常往往影响其他类异常的检测和剔除
执行工作流:定义好的数据清洗工作流，并且其正确性经过检验和验证之后，可以在整个数据集上执行
后续处理和控制：工作流执行结束之后，需要对结果进行检查，以确认各个操作是否正确执行，数据修正的结果是否正确，控制是值对于未能在工作流自动化处理解读啊完成纠错而记录下来的元组，由领域专家进行人工干预，手工完成修正。

数据清洗的具体方法：

数据解析（目的是检测语法错误，值域错误等）；
数据转换（把数据从一种格式映射到另外一种格式，以适应具体应用的需要）；
实施完整性约束条件
重复数据消除

Hadoop 是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：
• 高可靠性、高容错性
• 高效性
• 高可扩展性
• 成本低
• 运行在 Linux 平台上
支持多种编程语言

解释什么叫大数据：
大量化；其规模大，增长速度快
多样化；大数据是由结构化和非结构化数据组成的
快速化：从数据的生成到消耗，时间窗口非常小，可用于生成决策时间少
价值化：价值密度低，商业价值高

数据处理流程：时间维度的纵向视角
数据采集，数据表示和存储；数据清洗；数据集成；数据分析；数据可视化；基于数据的决策。

分布式数据库优点：

可以处理分布式事务，各场地可以进行自治管理和集中式数据查询和操作
高并发读写实现
更高的数据访问速度，为了保证数据的高可用性，一般采用多副本存储的容错策略，
更高的系统扩展能力：分布式数据库可以通过增加节点来实现系统的扩展，相对于集中式数据库具有更高的扩展能力。

缺点：其追求系统可用性和网络分区容忍性，但是牺牲了一致性

数据集成：把数据从多个数据源整合在一起，提供一个观察这些数据的统一视图的过程。

实体解析：
来自不同数据源的数据，即使他们表达的是同样的对象，但是具体的对象是不一样的

原因：

拼写错误；
采用了不能给的数据值域：
对于婚否，yes/no 1/0；采用同义词；
不同地方的书写习惯不一样

实体解析低找出表示同样实体的记录，并且把这些记录连接在一起的过程。
方法

编辑距离：通过使用编辑距离函数，计算不同字符串之间的编辑距离可以计算字符串字段之间的相似度
对数据仅规范化处理和使用领域本体（转换成标准）
对数据进行聚类和划分：聚类分析：相似的记录归入同一类簇，对于隶属同一类簇的元组，可以进一步检验他们是否互相匹配，表是同一个实体。

协同过滤推荐算法：
1、基于内容的推荐：根据物品或者内容的描述信息，发现他们之间的相似性，然后基于用户以往的偏好历史记录，推荐相似的物品或内容
2、基于人口统计学的推荐：易于实现，根据用户的基本信息发现用户的相似性，然后将相似用户喜爱的其他物品推荐给当前用户（不会有冷启动问题）
3、基于协同的过滤：根据用户对物品或者内容的偏好，发现用户之间的相似性，同时发现这些物品和内容直接的相似性，然后基于这些相似性进行推荐

基于用户的推荐
根据用户对物品或内容的偏爱，发现与某个用户偏好相似的k个近邻用户（knn算法寻找）,基于这k个近邻的历史偏好信息，为该用户进行推荐

基于物品的推荐
使用所有用户对物品或内容的偏好信息，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户

基于内容推荐：
仅仅是基于物品本身的属性信息进行相似度计算，基于项目：从用户的历史偏好进行相似度计算

信息检索系统有两个重要指标：
准确率召回率
准确率是指返回的结果中有多少文档是相关的，
召回率评价文档集中相关的文档检索系统返回了多少
信息检索的整体性能
F=(准确率 *召回率乘 2)/ （准确率+召回率）

Bag of Words
不考虑词的相对位置关系的文档表示法称为词袋，使用词袋表示法，每个文档表示为一个高维空间的稀疏向量，向量的维度是字典表的大小，潜在的语义分析，则把文档表示为一个k维线性子空间上的投影。

小世界网络模型：你和任何一个陌生人之间，所间隔的人不会超过6个
强连通分支：每个顶点和任意其他顶点通过一系列有向连接到达，任意两个顶点之间互相可达
弱连通分支：每个顶点和任意其他顶点可以从某个方向可达

C = deg(V)/(n-1) 称为度中心性，度数高的点一般称为hub点

解释如何用词袋处理自然语言语文，其存储结构是什么，优缺点是什么？
词袋：不考虑词的相对位置关系的文档表示法，
存储结构：每个文档表示为一个高维空间的稀疏向量，向量的维度是字典表的大小，潜在的语义分析，则把文档表示为一个k维线性子空间上的投影。
优点：实现简单
缺点：
（1）存在着一词多义或者同义词，
（2）或者是顺序导致的文档相关联的问题

解决顺序问题：使用N-gram 进行两个或三个单词的连接，比较相似度
解释N-gram处理词的基本原理：
为了弥补词袋产生的忽略词顺序导致相似的一种解决办法。
将2个或三个词进行连接显示
单个词具有较高的计数和能够检测的影响，多个词可以较高的检测的具体影响
N-grams可以用来构造文本分析的模型，称为n-gram句子模型，构建好之后就可以将连接在一起的单词当做一个词认为，之后来比较句子的相似度