N

June 03, 2023

本文旨在按字母顺序对团队研究过程中涉及的术语进行分类解释,为对该领域感兴趣的读者提供一份全面的术语表。

NAS

++Need to Fill++

Negative Log Likelihood(NLL)

最大似然估计(MLE)的负形式是如何形成的。换句话说,从负对数似然(NLL)的形式中,我们寻找的是最小化参数,而不是最大化参数。通常,优化算法被设计为最小化目标函数,因此在将MLE问题转化为NLL形式时,经常需要进行优化。

NLL(θ)=i=1Nlogp(yixi,θ)N L L(\theta)=-\sum_{i=1}^N \log p\left(y_i \mid x_i, \theta\right)

Nesterov Accelerated Gradient (NAG)

Nesterov Accelerated Gradient (NAG)与动量更新(Momentum Update)基本上是相似的,但其计算梯度的方式略有不同。动量更新在计算实际步长时,基于当前位置将梯度步长和动量步长相加来确定移动方向,因此在达到最优值时可能无法停止并因惯性而继续远离最优值。 相反,NAG方法首先在动量步长移动的位置上进行梯度步长的推进(“lookahead”),然后确定移动方向,因此相对于动量方法,它能更有效地进行移动。 因此,NAG在保持动量更新快速移动的优势的同时,在需要停止的时候更容易施加制动。

nesterov_accelerated_gradient

N-gram

N-gram指的是由n个标记(单词或字符)连续组成的序列。例如,给定句子“fine thank you”,N-gram可以按以下方式组成:

1-gram(unigram)

  • 词级别:[fine, thank, you]
  • 字符级别:[f, i, n, e, , t, h, a, n, k, , y, o, u]

2-gram(bigram)

  • 词级别:[fine thank, thank you]
  • 字符级别:[fi, in, ne, e , t, th, ha, an, nk, k , y, yo, ou]

3-gram(trigram)

  • 词级别:[fine thank you]
  • 字符级别:[fin, ine, ne , e t, th, tha, han, ank, nk , k y, yo, you]

这样做可以在一定程度上克服词袋模型忽略单词顺序的缺点,并可应用于预测下一个单词、发现拼写错误等多种任务。例如,对于句子“machine learning is fun and is not boring”,在词袋模型中,[machine, learning, is, fun, and, not, boring] = [1, 1, 2, 1, 1, 1, 1]。一旦将单词放入词袋中,就无法知道“not”是与fun相关还是与boring相关。换句话说,它将不同含义的表达归为同一表示。相反,观察词袋的bigram,[machine learning, learning is, is fun, fun and, and is, is not, not boring] = [1, 1, 1, 1, 1, 1, 1],可以用数字表示上下文。另外,将“quality, quarter, quit”这三个单词转化为bigram词袋时,[qu, ua, al, li, it, ty, ar, rt, te, er, ui] = [3, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1]。这样,当输入单词“qwal”时,可以将“qw”识别为拼写错误并进行修正为“qual”。

Normalization

标准化(Normalization)是将一组值转换为标准化状态,以使变量的范围保持一致或可比较。例如,可以使用以下公式将原始数据X的分布标准化为具有平均值为0和标准差为1的状态:

Xμσ\frac{X-\mu}{\sigma}

Try not to become a man of success but rather try to become a man of value.

Created by Gatsby & React & Tailwind CSS & Emotion

Co-development with my bro Russellwzr .