线性可分支持向量机
分离超平面
$$
\mathbf w \cdot \mathbf x +b = 0 \tag {1}
$$
其中,w为分离超平面的法向量,b为截距
分类决策函数
$$
f(x) = sign(\mathbf w \cdot \mathbf x +b)
$$
其中,sign()称为符号函数,
$$
sign(x) =
\begin{cases}
-1, & x < 0 \\
0, & x = 0 \\
1, & x > 0
\end{cases}
$$
对于二分类任务,其输出标记为y ∈ {0,1},因此我们需要一个将自变量z转换为0/1值,最理想的是
“单位阶跃函数”(unit-step function),亦称Heaviside函数。
$$
y=
\begin{cases}
0, & \text{z < 0} \\
0.5, & \text{z = 0} \\
1, & \text{z > 0}
\end{cases}
$$
然而,单位阶跃函数的问题在于:该函数是一个不连续的分段函数,它在x=0处从0瞬间跳跃到了1。
我们希望找到一个近似单位阶跃函数的“替代函数”(surrogate function),并希望它单调可微。对数几率函数正是这样一个替代函数。
对数几率函数:
$$
y=\frac{1}{1+e^{-z}}
$$
对数几率函数是一种Sigmoid函数(形似S的函数),它将z值转化为一个接近0或1的y值。从上面[-5,5]以及[-60,60]两张局部图可以看出,其在[-5,5]这个区间范围内变化很陡,函数值从0快速跳跃到了1。
在讲朴素贝叶斯之前,我们先来回顾一下大学二年级概率论中的相关知识.
条件概率公式:
$$P(A|B) = \frac{P(AB)}{P(B)}$$
$$=> P(AB) = P(A|B)P(B)$$
全概率公式:
$$P(A)=\sum_{i=1}^{\infty}{P(B_i)P(A|B_i)}$$
贝叶斯公式:
$$P(B_i|A)=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^{\infty}{P(B_i)P(A|B_i)}}$$
k-近邻算法(k-Nearest Neighbor,简称kNN),工作原理:
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.
输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据(最近邻)的分类标签.一般来说,只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数.
最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类.
平时做题也好,写程序或算法也罢,我们经常会见到诸如0Xfff、0b1000等数据,那么它们到底是什么意思呢?
其实0x、0b等是不同进制的前缀,旨在告诉编译器后面的数字是几进制的数据,而非默认的十进制数据。
问题描述
URL 映射是诸如 Django、Ruby on Rails 等网页框架 (web frameworks) 的一个重要组件。对于从浏览器发来的 HTTP 请求,URL 映射模块会解析请求中的 URL 地址,并将其分派给相应的处理代码。现在,请你来实现一个简单的 URL 映射功能。
本题中 URL 映射功能的配置由若干条 URL 映射规则组成。当一个请求到达时,URL 映射功能会将请求中的 URL 地址按照配置的先后顺序逐一与这些规则进行匹配。当遇到第一条完全匹配的规则时,匹配成功,得到匹配的规则以及匹配的参数。若不能匹配任何一条规则,则匹配失败。
本题输入的 URL 地址是以斜杠 / 作为分隔符的路径,保证以斜杠开头。其他合法字符还包括大小写英文字母、阿拉伯数字、减号 -、下划线 _ 和小数点 .。例如,/person/123/ 是一个合法的 URL 地址,而 /person/123? 则不合法(存在不合法的字符问号 ?)。另外,英文字母区分大小写,因此 /case/ 和 /CAse/ 是不同的 URL 地址。
对于 URL 映射规则,同样是以斜杠开始。除了可以是正常的 URL 地址外,还可以包含参数,有以下 3 种:
字符串 <str>:用于匹配一段字符串,注意字符串里不能包含斜杠。例如,abcde0123。
整数 <int>:用于匹配一个不带符号的整数,全部由阿拉伯数字组成。例如,01234。
路径 <path>:用于匹配一段字符串,字符串可以包含斜杠。例如,abcd/0123/。
以上 3 种参数都必须匹配非空的字符串。简便起见,题目规定规则中 <str> 和 <int> 前面一定是斜杠,后面要么是斜杠,要么是规则的结束(也就是该参数是规则的最后一部分)。而 <path> 的前面一定是斜杠,后面一定是规则的结束。无论是 URL 地址还是规则,都不会出现连续的斜杠。