统计学总结1

发表于 2019-08-04 | 分类于统计学 |

记号

$\mu$通常表示总体的均值，$\bar{x}$通常表示样本的均值。$\sigma^2$表示总体的方差，方差的平方根$\sigma$表示总体的标准差。

方差

离散随机变量的方差公式如下：
$$
\operatorname{Var}(X)=\sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}
$$
但是如果总体数据太多，我们需要使用样本方差来估计总体方差，样本方差的公式如下：
$$
s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}
$$
这里需要注意的是，因为样本集中的样本偏差很可能变小了，样本方差总是偏向于低估总体方差，所以这里我们要除以$n+1$来略微的修正样本方差来估计总体方差。

阅读全文 »

50道经典SQL练习题及答案

发表于 2019-07-19 | 分类于数据分析 |

50道经典SQL练习题

数据表介绍

学生表
Student(SId,Sname,Sage,Ssex)
–SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别

create table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10));
insert into Student values('01' , '赵雷' , '1990-01-01' , '男');
insert into Student values('02' , '钱电' , '1990-12-21' , '男');
insert into Student values('03' , '孙风' , '1990-12-20' , '男');
insert into Student values('04' , '李云' , '1990-12-06' , '男');
insert into Student values('05' , '周梅' , '1991-12-01' , '女');
insert into Student values('06' , '吴兰' , '1992-01-01' , '女');
insert into Student values('07' , '郑竹' , '1989-01-01' , '女');
insert into Student values('09' , '张三' , '2017-12-20' , '女');
insert into Student values('10' , '李四' , '2017-12-25' , '女');
insert into Student values('11' , '李四' , '2012-06-06' , '女');
insert into Student values('12' , '赵六' , '2013-06-13' , '女');
insert into Student values('13' , '孙七' , '2014-06-01' , '女');

阅读全文 »

爬虫异常处理与浏览器伪装初步

发表于 2019-07-17 | 分类于数据分析 |

爬虫的异常处理

如果一个爬虫没有进行异常处理，那么在爬虫遇到异常时就会直接崩溃停止运行。下次再运行时就会从头开始。因此，想要开发一个具有顽强生命力的爬虫，必须要进行异常处理。

常见状态码及含义

301 Moved permanently:重定向到新的URL,永久性
302 Found:重定向到临时的URL,非永久性
304 Not modified:请求的资源未更新
400 Bad Request:非法请求
401 Unauthorized:请求未经授权
403 Forbidden:禁止访问
404 Not found:没有找到对应页面
500 Internal server error:服务器内部出现错误
501 Not Implemented:服务器不支持实现请求所需要的功能

阅读全文 »

urllib初步

发表于 2019-07-17 | 分类于数据分析 |

urllib初步

urllib基础

urllib.request.urlretrieve(url, filename=)：将网页整体爬下来保存到文件里
urllib.request.urlcleanup()：清除使用urlretrieve时产生的缓存。
file.info()：输出使用urlopen获取的网页的信息
file.getcode()：输出使用urlopen获取的网页的状态码，如果状态码为200则表示获取网页正常，403表示禁止访问
file.geturl()：输出使用urlopen获取网页的网址

阅读全文 »

正则表达式初步

发表于 2019-07-16 | 分类于数据分析 |

正则表达式

原子

正则表达式最基础的组成单位，每个正则表达式至少包含一个原子。常见的原子类型有：

普通字符
非打印字符（换行符\n， tab\t）
通用字符（\w用来匹配任意的一个字母数组下划线，\d用来匹配任意一个十进制数，\s用来匹配任意一个空白字符，\W用来匹配与\w互补的字符，\D与 \S也同样是\d与\s取非）
原子表（定义一组平等的原子，例如[jst]，在应用的时候可以像pattern = 'pyth[jst]n'一样使用）

re.search(规则，对象)是从内容中按照规定的规则搜索内容的函数。

阅读全文 »

广度优先搜索

发表于 2019-04-06 | 分类于算法 |

广度优先搜索

本文是《算法图解》的简单理解与记录，没什么深度，大佬请略过。

首先，上图这种类型的结构就叫做图。我们经过简单的思考可以发现，从双子峰到金门大桥有三条路线，最短路径需要三步。这种寻找最短的路径的问题被称为最短路径问题（shorterst-path problem）。解决最短路径问题的算法被称为广度优先搜索。

广度优先搜索是一种用于图的查找算法，可帮助回答两类问题。

第一类问题：从节点A出发，有前往节点B的路径吗？
第二类问题：从节点A出发，前往节点B的哪条路径最短？

阅读全文 »

PyTorch自动求导Autograd中的backward

发表于 2019-03-28 | 分类于 Deep Learning |

PyTorch自动求导Autograd中的backward

首先简明要点。

PyTorch 中所有神经网络的核心是autograd包。
autograd包为张量上所有的操作提供了自动求导。
torch.Tensor是这个包的核心类。如果设置.requires_grad = True，那么将会追踪对于该张量的操作。当完成计算后，通过调用.backward()，自动计算所有梯度，而这个张量的所有梯度将会自动积累到.grad属性。

阅读全文 »

神经网络的种类

发表于 2019-03-20 | 分类于 Deep Learning |

神经网络的种类

全链接人工神经网络

单个感知器的表达能力有限,它只能表达线性决策面（超平面）。如果我们把众多的感知器互联起来，就像人的大脑做所的那样，再将激活函数更换为非线性函数，我们就可以表达种类繁多的非线性曲面。

阅读全文 »

常用激活函数

发表于 2019-03-20 | 分类于 Deep Learning |

激活函数

Sigmoid函数

$$
f(x)=\frac{1}{1+e^{-x}}
$$

Sigmoid激活函数与机器学习当中的逻辑回归函数的计算公式完全一样。它的取值的分布在0到1之间，并且非常平滑。其主要用在一些简单的二分类或者是隐藏层数比较少的网络结构当中。

优势：取值在0到1之间，在做相应分类结果的时候非常容易的根据输出来进行判断。

劣势：Sigmoid激活函数如果放在深层的网络结构当中的时候，进行相应的梯度或者权重值修改的时候，容易引发梯度消散的问题。具体原因是因为Sigmoid激活函数的到函数在$x=0$时达到最大值$\frac{1}{4}$。如果我们使用标准方法来初始化网络中的权重，那么会使用一个均值为0标准差为1的高斯分布，我们会发现，$w_{j} \sigma^{\prime}\left(z_{j}\right)<\frac{1}{4}$，所以在进行所有这些项的乘积时，最终结果肯定会指数及下降，项越多，乘积下降的也就越快。

阅读全文 »

感知器及其训练法则

发表于 2019-03-20 | 分类于 Deep Learning |

感知器及训练法则

感知器

感知器是人工智能和深度学习最底层的基础。感知器的结构包括以下三部分：

输入向量：$X=\left[x_{0}, x_{1}, \ldots, x_{n}\right]^{T}$
权重：$W=\left[\omega_{0}, \omega_{1}, \dots, \omega_{n}\right]^{T}$，其中$\omega_0$称为偏置
激活函数：$O=\operatorname{sign}(n e t)$（激活函数还有很多种类）

阅读全文 »