N

June 03, 2023

本文旨在按字母顺序对团队研究过程中涉及的术语进行分类解释，为对该领域感兴趣的读者提供一份全面的术语表。

NAS

++Need to Fill++

Negative Log Likelihood(NLL)

最大似然估计（MLE）的负形式是如何形成的。换句话说，从负对数似然（NLL）的形式中，我们寻找的是最小化参数，而不是最大化参数。通常，优化算法被设计为最小化目标函数，因此在将MLE问题转化为NLL形式时，经常需要进行优化。

N L L(\theta)=-\sum_{i=1}^N \log p\left(y_i \mid x_i, \theta\right)

Nesterov Accelerated Gradient (NAG)

Nesterov Accelerated Gradient (NAG)与动量更新（Momentum Update）基本上是相似的，但其计算梯度的方式略有不同。动量更新在计算实际步长时，基于当前位置将梯度步长和动量步长相加来确定移动方向，因此在达到最优值时可能无法停止并因惯性而继续远离最优值。相反，NAG方法首先在动量步长移动的位置上进行梯度步长的推进（“lookahead”），然后确定移动方向，因此相对于动量方法，它能更有效地进行移动。因此，NAG在保持动量更新快速移动的优势的同时，在需要停止的时候更容易施加制动。

N-gram

N-gram指的是由n个标记（单词或字符）连续组成的序列。例如，给定句子“fine thank you”，N-gram可以按以下方式组成：

1-gram（unigram）

词级别：[fine, thank, you]
字符级别：[f, i, n, e, , t, h, a, n, k, , y, o, u]

2-gram（bigram）

词级别：[fine thank, thank you]
字符级别：[fi, in, ne, e , t, th, ha, an, nk, k , y, yo, ou]

3-gram（trigram）

词级别：[fine thank you]
字符级别：[fin, ine, ne , e t, th, tha, han, ank, nk , k y, yo, you]

这样做可以在一定程度上克服词袋模型忽略单词顺序的缺点，并可应用于预测下一个单词、发现拼写错误等多种任务。例如，对于句子“machine learning is fun and is not boring”，在词袋模型中，[machine, learning, is, fun, and, not, boring] = [1, 1, 2, 1, 1, 1, 1]。一旦将单词放入词袋中，就无法知道“not”是与fun相关还是与boring相关。换句话说，它将不同含义的表达归为同一表示。相反，观察词袋的bigram，[machine learning, learning is, is fun, fun and, and is, is not, not boring] = [1, 1, 1, 1, 1, 1, 1]，可以用数字表示上下文。另外，将“quality, quarter, quit”这三个单词转化为bigram词袋时，[qu, ua, al, li, it, ty, ar, rt, te, er, ui] = [3, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1]。这样，当输入单词“qwal”时，可以将“qw”识别为拼写错误并进行修正为“qual”。

Normalization

标准化（Normalization）是将一组值转换为标准化状态，以使变量的范围保持一致或可比较。例如，可以使用以下公式将原始数据X的分布标准化为具有平均值为0和标准差为1的状态：

\frac{X-\mu}{\sigma}