数学基础 on 知予AI

线性代数

Sun, 01 Jan 2017 00:00:00 +0000

向量和向量空间

向量

标量(scalar)是一个实数，一般用斜体小写字母$a,b,c$来表示。向量(vector)是由一组实数组成的有序数组，一个n维向量$\boldsymbol a$由n个有序实数组成，表示为$\boldsymbol{a}=\left[a_{1}, a_{2}, \cdots, a_{n}\right]$，其中$a_{i}$称为向量$\boldsymbol{a}$的第$i$个分量(第$i$维)。

# numpy库常用于实现线性代数中向量和矩阵的基本操作
import numpy as np
# numpy中向量的定义
v_1 = np.array([1, 2, 3, 4, 5])
v_2 = np.array([5.6, 4.6, 3.6, 2.6, 1.6])

向量空间

向量空间(vector space)也称线性空间(linear space)，是指由向量组成的集合，并满足以下两个条件：

(1) 向量加法封闭性：向量空间$\mathcal V$中的任意两个向量$\boldsymbol a$和$\boldsymbol b$，它们的和$\boldsymbol a+\boldsymbol b$也属于向量空间$\mathcal V$；

# numpy实现向量加法
v_a = np.add(v_1, v_2)
print(v_a, v_a.shape)  # 结果为向量

(2) 标量乘法封闭性：向量空间$\mathcal V$中的任一向量$\boldsymbol a$和任一标量$c$，它们的乘积$c\boldsymbol a$也属于向量空间$\mathcal V$。

# numpy实现向量与标量相乘
k = 2.0
v_k2 = k * v_1
print(v_k2, v_k2.shape)  # 结果为向量

$$ \begin{aligned} \left[a_{1}, a_{2}, \cdots, a_{n}\right]+\left[b_{1}, b_{2}, \cdots, b_{n}\right] &=\left[a_{1}+b_{1}, a_{2}+b_{2}, \cdots, a_{n}+b_{n}\right] \\ c \cdot\left[a_{1}, a_{2}, \cdots, a_{n}\right] &=\left[c a_{1}, c a_{2}, \cdots, c a_{n}\right] \end{aligned} $$

线性子空间：向量空间$\mathcal V$的线性子空间$\mathcal U$是$\mathcal V$的一个子集，并且满足向量空间的条件。

微积分

Sun, 01 Jan 2017 00:00:00 +0000

微积分(calculus)是研究函数的微分(differentiation)、积分(integration)及其相关应用的数学分支。

微分

导数

$$ f^{\prime}(x_{0})=\lim _{\Delta x \rightarrow 0} \frac{f(x_{0}+\Delta x)-f(x_{0})}{\Delta x} $$

存在，则称函数$f(x)$在点$x_0$处可导，$f^{\prime}(x_0)$称为其导数(derivative)，或导函数，也可以记为${\text d f(x_0)}/{\text d x}$。在几何上，导数可以看做函数曲线上的切线斜率。下图给出了一个函数导数的可视化示例，其中函数$g(x)$的斜率为函数$f(x)$在点$x$的导数，$\Delta y=f(x+\Delta x)-f(x)$。

下表中给出了几个机器学习领域常见函数的导数：

高阶导数：对一个函数的导数继续求导，可以得到高阶导数。函数$f(x)$的导数$f^\prime(x)$称为一阶导数，$f^\prime(x)$的导数称为二阶导数，记为$f^{\prime\prime}(x)$、$f^{(2)}(x)$或$\text d^2f(x)/\text d x^2$。

偏导数(partial derrivative)：对于一个多元变量函数$f:\mathbb R^d \rightarrow \mathbb R$，其偏导数是关于其中一个变量$x_i$的导数，而保持其他变量固定，可以记为$f_{x_{i}}^{\prime}(\boldsymbol{x})$，$\nabla_{x_{i}} f(\boldsymbol{x})$或$\partial f(\boldsymbol x)/\partial x_i$。

微分

给定一个连续函数，计算其导数的过程称为微分(differentiation)。若函数$f(x)$在其定义域包含的某区间内每一个点都可导，那么也可以说函数$f(x)$在这个区间内可导。如果一个函数$f(x)$在定义域中的所有点都存在导数，则$f(x)$为可微函数(differentiable function)。可微函数一定连续，但连续函数不一定可微。例如函数$|x|$为连续函数，但在点$x=0$处不可导。

泰勒公式

$$ \begin{aligned} f(x)=f(a)+& \frac{1}{1 !} f^{\prime}(a)(x-a)+\frac{1}{2 !} f^{(2)}(a)(x-a)^{2}+\cdots \\ &+\frac{1}{n !} f^{(n)}(a)(x-a)^{n}+R_{n}(x) \end{aligned} $$

其中$f^{(n)}(a)$表示函数$f(x)$在点$a$的$n$阶导数。上式中的多项式部分称为函数$f(x)$在$a$出的$n$阶泰勒展开式，剩余的$R_n(x)$是泰勒公式的余项，是$(x-a)^n$的高阶无穷小。

# sympy实现自动微分
import sympy

# 使用diff()函数来计算导数
x = sympy.Symbol('x')
f1 = 2 * x ** 4 + 3 * x + 6
f1_ = sympy.diff(f1, x)
print(f1_)

f2 = sympy.sin(x)
f2_ = sympy.diff(f2, x)
print(f2_)

# 计算偏导数
y = sympy.Symbol('y')
f3 = 2 * x ** 2 + 3 * y ** 4 + 2 * y
# 分别计算函数f3对于变量x和y的偏导数
f3_x = sympy.diff(f3, x)
f3_y = sympy.diff(f3, y)
print('partial derivative of x: ', f3_x)
print('partial derivative of y: ', f3_y)

# 链式法则
x = sympy.Symbol('x')
u = sympy.sin(x)
v = u ** 2
print(sympy.diff(v, x))

积分

积分(integration)是微分的逆过程，即如何从导数推算出原函数。积分通常可以分为定积分(definite integral)和不定积分(indefinite integral)。

数学优化

Sun, 01 Jan 2017 00:00:00 +0000

$$f(\boldsymbol{x}^{*}) \leqslant f(\boldsymbol{x})$$

(最小化)；或者$f(\boldsymbol{x}^{*}) \geqslant f(\boldsymbol{x})$(最大化)，其中$\mathcal D$为变量$\boldsymbol x$的约束集，也叫可行域；$\mathcal D$中的变量被称为可行解。

数学优化的类型

离散优化和连续优化

离散优化(discrete optimization)问题是目标函数的输入变量为离散变量，比如为整数或有限集合中的元素。离散优化问题主要有两个分支：

(1) 组合优化(combinatorial optimization)：其目标是从一个有限集合中找出使得目标函数最优的元素。在一般的组合优化问题中，集合中的元素之间存在一定的关联，可以表示为图结构。典型的组合优化问题有旅行商问题、最小生成树问题、图着色问题等。很多机器学习问题都是组合优化问题，比如特征选择、聚类问题、超参数优化问题以及结构化学习(structured learning)中标签预测问题等。

(2) 整数规划(integer programming)：输入变量$\boldsymbol x \in \mathbb Z^d$是一个整数向量。常见的整数规划问题通常为整数线性规划。整数线性规划的一种最直接的求解方法是：1. 去掉输入必须为整数的限制，将原问题转换为一般的线性规划问题，这个线性规划问题为原问题的松弛问题；2. 求得相应松弛问题的解；3. 把松弛问题的解四舍五入到最接近的整数。但是这种方法得到的解一般都不是最优的，因为原问题的最优解不一定在松弛问题最优解的附近。另外，这种方法得到的解也不一定满足约束条件。

离散优化问题的求解一般都比较困难，优化算法的复杂度都比较高。

连续优化(continuous optimization)目标函数的输入变量为连续变量$\boldsymbol x \in \mathbb R^d$，即目标函数为实函数。机器学习中的优化问题主要是连续优化问题。

无约束优化和约束优化

在连续优化问题中，根据是否有变量的约束条件，可以将优化问题分为无约束优化问题和约束优化问题。

$$ \min _{\boldsymbol{x}} \ \ f(\boldsymbol{x}) $$

其中$\boldsymbol x \in \mathbb R^d$为输入变量，$f:\mathbb R \rightarrow \mathbb R $为目标函数。

约束优化(constrained optimization) 问题中变量$ \boldsymbol x $需要满足一些等式或不等式的约束。约束优化问题通常使用拉格朗日乘数法来进行求解。

线性优化和非线性优化

若目标函数和所有的约束函数都为线性函数，则该问题称为线性规划(linear programming)问题。相反，如果木变函数或任何一个约束函数为非线性函数，则该问题为 非线性规划(nonlinear programming)问题。

$$ f(\alpha \boldsymbol{x}+(1-\alpha) \boldsymbol{y}) \leq \alpha f(\boldsymbol{x})+(1-\alpha) f(\boldsymbol{y}), \ \ \forall \alpha \in[0,1] $$

凸优化问题是一种特殊的约束优化问题，需满足目标函数为凸函数，并且等式约束函数为线性函数，不等式约束函数为凸函数。

概率统计

Sun, 01 Jan 2017 00:00:00 +0000

概率统计的基本概念

样本空间与随机事件

样本空间(sample space)是一个随机试验所有可能结果的集合。例如，如果抛一枚硬币，那么样本空间的集合就是{正面, 反面}；如果抛一个骰子，那么样本空间就是{1, 2, 3, 4, 5, 6}。随机试验中的每个可能结果称为样本点。

一般称试验$E$的样本空间$S$的子集为$E$的随机事件，简称事件。在每次试验中，当且仅当这一子集中的一个样本点出现时，称这一事件发生。

有些试验有两个或多个可能的样本空间。例如，从52张扑克牌中随机抽出一张，样本空间可以是数字(A到K)，也可以是花色(黑桃, 红桃, 梅花, 方块)。如果要完整地描述一张牌，就需要同时给出数字和花色，这时样本空间可以通过构建上述两个样本空间的笛卡儿乘积来得到。具体选用什么样的样本空间，由任务需求来决定。

计数原理

计数(counting)是样本空间的基本概念。计数的基本原理是加法原理(sum rule)和乘法原理(product rule)。加法原理指的是：做一件事情，完成它有$n$类方式，第一类方式有$m_1$种方法，第二类方式有$m_2$种方法，以此类推，第$n$类方式有$m_n$种方法，那么完成这件事情共有$m_1+m_2+\cdots+m_n$种方法。乘法原理指的是：做一件事，完成它需要分成$n$个步骤，做第一步有$m_1$种不同的方法，做第二步有$m_2$种不同的方法，以此类推，做第$n$步有$m_n$种不同的方法。那么完成这件事共有$N=m_1 \times m_2 \times \cdots \times m_n$种不同的方法。

排列与组合

下图为排列(permutation)数、组合(combination)数以及将物体放入桶中问题的计算方法：

# scipy实现阶乘和组合数的计算
import math
from scipy import special
from scipy import stats

# 计算阶乘
print(math.factorial(20))
# 计算组合数
print(special.binom(5, 3))

概率的公理

将事件$E$发生的概率定义为$P(E)$，全集为$S$，则概率$P(E)$满足如下三条公理：

(1) $0 \leqslant P(E) \leqslant 1$；

(2) $P(S)=1$；

(3) 若事件$E$和事件$F$无交集，即$(E \cap F=\varnothing)$，则$P(E \cup F)=P(E)+P(F)$。

概率的推论

设事件$E$的对立事件为$\bar E$，概率存在以下三个基本的推论：

(1) $P(\bar E)=1-P(E)$；

(2) 若$E \subseteq F$，则$P(E) \leqslant P(F)$；

(3) $P(E \cap F)=P(E)+P(F)-P(E \cup F)$。

信息论

Sun, 01 Jan 2017 00:00:00 +0000

信息论(information theory) 是数学、物理、计算机科学等多个学科的交叉领域。信息论是由Claude Shannon最早提出的，主要研究信息的量化、存储和通信等方法。这里，“信息”是指一组消息的集合。假设在一个噪声通道上发送消息，我们需要考虑如何对每一个信息进行编码、传输以及解码，使得接收者可以尽可能准确地重构出消息。在机器学习相关领域，信息论也有着大量的应用。比如特征抽取、统计推断、自然语言处理等。

熵

熵(entropy) 最早是物理学的概念，用于表示一个热力学系统的无序程度。在信息论中，熵用来衡量一个随机事件的不确定性。

自信息和熵

自信息(self information) 表示一个随机事件所包含的信息量。一个随机事件发生的概率越高，其自信息越低。如果一个事件必然发生，则其自信息为0。对于一个随机变量$X$(取值集合为$\mathcal X$，概率分布为$p(x)$)，当$X=x$时的自信息$I(x)$定义为：$I(x)=-\log p(x)$。在自信息的定义中，对数的底可以使用2、自然常数$e$或是10。当以2为底时，自信息的单位为bit；当以$e$为底时，自信息的单位为nat。

$$ \begin{aligned} H(X) &=\mathbb{E}_{X}[\mathrm{I}(x)] \\ &=\mathbb{E}_{X}[-\log p(x)] \\ &=-\sum_{x \in \mathcal{X}} p(x) \log p(x) \end{aligned} $$

熵越高，则随机变量的信息越多；熵越低，则随机变量的信息越少。如果随机变量$X$当且仅当在$x$时$p(x)=1$，则其熵为0。也就是说，对于一个确定的信息，其熵为0，信息量也为0.如果其概率分布为一个均匀分布，则熵最大。

import math

# 计算不同概率分布的熵
p1 = [0.1, 0.3, 0.6]
p2 = [0.33, 0.33, 0.34]
p3 = [0.0, 0.0, 1]


def entropy(p):
    ent = 0.0
    for i in range(len(p)):
        if p[i] != 0:
            ent += p[i] * math.log2(p[i])
    if ent != 0.0:
        return -ent
    else:
        return 0.0


print(entropy(p1))
print(entropy(p2))
print(entropy(p3))

假设一个随机变量$X$有三种可能取值$x_1,x_2,x_3$，不同概率分布对应的熵如下：

熵编码

信息论的研究目标之一是如何用最少的编码表示传递信息。假设我们要传递一段文本信息，这段文本中包含的符号都来自于一个字母表$\mathcal A$，我们就需要对字母表$\mathcal A$中的每个符号进行编码。以二进制编码为例，我们常用的ASCII码就是用固定的8bits来编码每个字母。但这种固定长度的编码方案不是最优的。一种高效的编码原则是，字母的出现概率越高，其编码长度越短。比如对字母$a, b, c$分别编码为0*,* 10*,* 110。给定一串要传输的文本信息，其中字母$x$的出现概率为$p(x)$，其最佳编码长度为$-\log_2p(x)$，整段文本的平均编码长度为$-\sum_{x} p(x) \log _{2} p(x)$，即底为2的熵。

在对分布$p(x)$的符号进行编码时，熵$H(p)$也是理论上最优平均编码长度，这种编码方式称为熵编码(entropy encoding)。由于每个符号的自信息通常都不是整数，因此在实际编码中很难达到理论上的最优值。**霍夫曼编码(Huffman coding)和算术编码(arithmetic coding)**是两种最常见的熵编码技术。