Skip to content

learning

对数分布

变化以当前乘以一个系数体现的数据通常服从对数分布。例如,\(x_1 = x_0 \times k\)\(x_2 = x_1 \times k\),如股价等。

大数定理

样本均值的“随机波动项”随 n 增大被 1/n 缩小,最终消失,只剩下期望值。

中心极限原理

均值的偏差虽然在缩小,但在 sqrt n 这个尺度下,它有一个稳定的极限分布。

normal分布

每一次都是独立随机抽取,不断累积的和


特征向量

张成空间,维数,线性映射,零空间,多项式,特征值,特征向量,内积,


VC维

没有免费午餐定理

经典例子 1:算法 / AI(最原始含义)

假设你在找函数的最小值,有两种算法: - 算法 A:随机搜索 - 算法 B:梯度下降

在“所有可能函数平均”意义下: - A 和 B 的平均表现是一样的 - B 在“光滑、连续、可微”的函数上很强

但在“到处是坑、不可微、离散”的函数上,B 反而更差

👉 B 的优势来自于“假设函数是光滑的” 👉 一旦这个假设不成立,优势就消失

结论: 没有一个算法能在“所有函数”上都赢 —— 这就是 NFL

pac

当你用一批数据从多个候选模型中选一个时, 你被这批数据“骗到”的概率有多大?

PAC 里的坏模型指的是: - 在真实数据分布上表现差, 但在你当前样本上碰巧表现好, 并因此被你选中的模型。

boosting

训练几个弱模型,把第一个弱模型表现差的样本,放大去第二个弱模型训练,把还是差的样本放大去第三个弱模型训练。按算法算出每个模型的输出权重,最终输出结果是加权的结果。

正则化

过拟合的模型,模型参数比较大,尽量让权重w保持小。L2 平方和小,把每个参数都约束变小。L1绝对值和小,不重要的参数直接变成0.

在线学习,生成模型,隐变量,EM算法,贝叶斯推理,

线性回归

线性回归的目标是找到一条最能表达样本数据的直线,通常形式为 \(y = wx\)。我们定义损失函数为:

\[ \text{loss} = \sum (y_i - y)^2 \]

通过最小化损失函数(即 \(\min(\text{loss})\)),可以求得最优参数 \(w\)


极大似然估计

假设每个数据点都是从一个高斯分布中抽取出来的。所有点的概率连乘积越大,说明这组参数越能代表数据。对于线性回归,假设每个样本的 \(y\) 都依赖于 \(wx\),即 \(y\) 的概率分布为 \(N(y|wx, \sigma^2)\)。将其代入极大似然估计后,可以化简为与残差平方和相同的形式。


采样与估计

  • 采样(Sampling):从概率分布中抽取样本,即已知概率分布,生成数据。
  • 估计(Estimation):根据已有样本数据,反推出概率分布参数,即通过数据推断分布。

采样和估计是相反的过程。概率(Probability)用于已知分布求样本的可能性,似然(Likelihood)用于已知样本估计分布参数,两者也是逆向关系。

SVM

PCA

线性变换找到方差最大的轴设为pc1,pc2和pc1形成直角。


KL divergent

clique团, 贝叶斯网络,马尔可夫链, 推断interfence, 精确推断:变量消除,团树算法,信念传播 近似推断:蒙特卡洛,mcmc,变分推断,置信传播 学习learning 参数学习:极大似然,贝叶斯参数,em算法 结构学习 条件独立性检验 拓展模型:隐马尔可夫链,条件随机场,因子图,GAN

回归检验

第一梯队:解读结果表的“四大天王”

系数估计值 - 核心结果,表示X变化一单位,Y平均变化多少。

标准误 - 衡量系数估计值的精确度。SE越小,估计越精确。

t值 - (系数估计值 / 标准误)计算得到,用于检验该系数是否显著不等于0。

p值 - 与t值配套。判断显著性的直接依据(通常与0.05, 0.01等阈值比较)。

第二梯队:评价模型整体的“两把尺子”

R² - 衡量模型整体拟合优度,即解释变量能解释因变量变动的百分比。

F检验(及其p值) - 检验模型整体是否显著,即所有解释变量的系数是否不全为0。

IC

特征/因子筛选:

  • 场景:你有30个可能的因子(变量)用来预测收益率,但全放进去会过拟合。
  • 操作:你会尝试不同的因子组合,生成多个候选模型(比如模型A用5个因子,模型B用7个因子)。
  • 使用IC:计算每个候选模型的AIC或BIC。IC值较小的模型被认为在“拟合优度”和“模型复杂度”之间取得了更好的平衡,被优先选择。这比单纯看R²更可靠(因为R²总是可以通过增加变量来提高,导致过拟合)。

超参数调优: - 场景:对于ARIMA时间序列模型、GARCH波动率模型等,需要确定模型的阶数(如ARIMA(p,d,q)中的p和q)。 - 操作:遍历多组(p, q)组合,拟合多个模型。 - 使用IC:选择AIC或BIC最小的那一组(p, q) 作为最优模型阶数。这是决定模型结构的标准做法。

随机行走, 二叉树, 伊藤积分,鞅,伊藤引理,随机微分,高斯过程,马尔可夫性, 布莱克-舒尔斯方程

时间序列分析 (Time Series Analysis)

平稳性检验: ADF 检验、单位根、协整 (Cointegration)。

基础模型: AR, MA, ARMA, ARIMA 过程。

波动率建模: ARCH 与 GARCH 模型及其变体。

自相关性: ACF(自相关函数)与 PACF(偏自相关函数)。

线性代数进阶 (Advanced Linear Algebra)

矩阵分解: SVD (奇异值分解)、Cholesky 分解、QR 分解、Eigen Decomposition (特征分解)。

矩阵性质: 正定性 (Positive Definiteness)、条件数 (Condition Number) 与矩阵稳定性。

投影与正交化: Gram-Schmidt 过程、最小二乘法的几何解释。

最优化理论 (Optimization Theory)

凸优化: 凸集、凸函数、KKT 条件。

约束优化: 拉格朗日乘子法 (Lagrange Multipliers)、对偶性 (Duality)。

投资组合优化: Markowitz 均值-方差模型、Black-Litterman 模型。

常用算法: 梯度下降及其变体(Adam, SGD)、牛顿法、拟牛顿法 (BFGS)。

概率论进阶与随机分析 (Advanced Probability)

大样本地图: 各种收敛形式(依概率收敛、几乎处处收敛、分布收敛)的关系。

测度论基础: 测度空间、Lebesgue 积分、Radon-Nikodym 导数(用于风险中性测度变换)。

更复杂的分布: 偏度 (Skewness)、峰度 (Kurtosis)、Fat-tails (肥尾分布)。

因子投资与风险模型 (Factor Investing & Risk Models)

多因子模型: APT (套利定价理论)、Fama-French 三因子/五因子模型。

风险度量: VaR (Value at Risk)、CVaR / Expected Shortfall (预期损失)。

截面回归: Fama-MacBeth 回归步骤。

数值计算方法 (Numerical Methods)

偏微分方程 (PDE) 求解: 有限差分法 (Finite Difference Method, FDM)。

积分技巧: 辛普森法则 (Simpson's Rule)、高斯求积 (Gaussian Quadrature)。

插值与拟合: 三次样条插值 (Cubic Spline)、多项式插值。

信号处理基础 (Signal Processing)

频域分析: 离散傅里叶变换 (DFT)、快速傅里叶变换 (FFT)。

滤波器: 卡尔曼滤波 (Kalman Filter) —— 量化面试超高频点。

噪声处理: 白噪声检测、信号信噪比 (SNR) 优化。

衍生品定价高级专题 (Advanced Derivatives Pricing)

风险中性定价: 测度变换 (Girsanov Theorem)。

数值定价: 蒙特卡洛模拟的方差缩减技术 (Antithetic Variates, Control Variates)。

期限结构: 利率模型 (Vasicek, CIR, HJM)。

现代统计推理 (Modern Statistical Inference)

非参数统计: Bootstrap 方法、Jackknife 抽样。

贝叶斯层次模型: 马尔可夫链蒙特卡洛 (MCMC) 的具体应用。

多重假设检验: FDR (错误发现率) 控制、Bonferroni 校正。

信息论 (Information Theory)

熵 (Entropy): 自信息、互信息 (Mutual Information)。

最大熵原理: 在分布估计中的应用。

交叉熵: 作为损失函数的统计学意义。