这是我参与2022首次更文挑战的第16天,活动详情查看:2022首次更文挑战
这篇文章是我的笔记分享,内容主要来自吴恩达老师的深度学习课程1。
1 Featurized representation: wordapple watch embedding
1.1 从one-hot说起
之前简单的文本预处理都是使用one-hot向量来表示词汇表,简测试抑郁症的20道题单来说就是将文本制作成一apple id个词汇表。我们之前说的是假设那个词汇表的长度为1万,也就是说我们将会有1万个one-h测试你适合学心理学吗ot向量。每一个向量的长度是1万。将每个单词所在的位置标注为1,其余都为0。
比如以man为例。它在单词表中的位置是apple id5391。那么第5391个one-hot向量链表数据结构O5391O_{5391}就表示man,并且这个向量的长度为1万,它的第5391位数字是1,其余的数字都是0。
但是使用one可视化分析是什么意思-hot测试你的自卑程度向量存在一个问题就是说它的模测试智商型泛化能力会很差。举个例链表逆置子:
I want a glass of orange ______ .
I w可视化数据ant a glass of app可视化大屏le______ .
常人眼里如果你第一个空里边填上“juice”,那很便宜的,你第二个空也可以填“juice”。
但是如果你使用one-hot向量,模型不知道orange和apple是类似的东西链表不具有的特点是。所以它并不能轻易的把apple后边也填上juice。
这就用可视化编程到了word embedding,对特征进行测试抑郁程度的问卷表征。
1.2 词汇表征可视化大屏
简单来说可视化编程就是提取词汇的一些特征对其进行打分。然后使用这些特征来表示某个词汇。比如我们上边测试抑郁症用外号的项链表示的Man、Woman、King、Queen、Apple、Orange测试智商就可以转化为下边这个样子:
在这里呢我们对每一个词汇进行wo可视化数据rd embedding,假设我们提取了300个特征,但是在测试用例上面的表格里我们只展示前4个。
还是以m链表逆置an为例。这里我们可以看到它和woma测试工程师n对比。他们俩的性别属性分别是-1和1。至于权力这一链表逆置栏的打分只有0.01。对比king和quee链表的创建n来说更接近于0。毕竟man和woman两个单词来看是看测试你的自卑程度不出来他们的权利的。自然这两个单词也看不出来年龄和食物等特征。所以打分都很接近于0。
经过word embedding处理之后,我们可以将其转化为word embedding的向量。man就从O5391O_{5391}变为e5391e_{5391}。
使用测试用例了word embedding之后,我们可以正更直观的感受到词汇之间可视化分析是什么意思的相似度。
1.3 可视化
下面这apple tv张图呢就是word embedding的可视化。
挑选了几个单词,因为我们是提取了300个特征链表c语言,所以我们将一个三维的空间映射到二维空间上,进行一个非线性的映射。最后将它们显示到这可视化分析是什么意思个图片上。我们可以清楚的看到意思相近的词它们分布的位置更接近。
2 如何链表反转使深度学习用word embedding
2.1 举个栗子
假设你现在使用apple官网“Sally Johnson i可视化图表s an orange farmer”这个句可视化编程子进行命名实体链表和数组的区别识别(Named Entity recognition),对其中的人名进行识别。
可以看到正确的输出链表是否能随机访问元素结果应该是在Sally Jo可视化数据hnson那个位置输出的都是1,其余的部分输出都是0。因为可以识别出能橘子果农主语是人名。
轻易地,如果你换一个句子:“Rob测试纸怀孕图片ert Lin is an apple farmer”。
你的模型因为知道“orange”和“apple”之间是类似的词,所以可以很轻易的推测出“Robert Lin”也是人名。
假设你现在在测试集里遇到测试抑郁症了一个不太常见的词“durian cultivator” 榴莲培育者。
“Robert Lin is an durian测试抑郁程度的问卷 cultivator.”
甚至可能你的训练集里都没有出现这两个词。
如果你已经有apple id一个学好的word embedding,那它就可测试抑郁症的20道题以告诉你的模型,这个榴莲和苹果是差不多的东西,这个培育者apple pay和农民是差不多的东西。那你的模型依旧可以轻松地识别出Robert Lin可能是人名。
通过大量的无标签文本学习出来的word embedding,可以让你使用迁移学习来应用到你的只有少量标签测试抑郁症的20道题的数据集中。
2.2 Transfer learning and word embeddings
- Learn word emb可视化分析eddings from large text corpapple tvus. (1-100B words) (Or download pre-trained embedding online.)
- Transferapple id embed链表反转ding to new task with sma链表是否能随机访问元素ller training set. (say, 100k words)
- Optional: Continue to finetune the word embeddings with new data.
实际应用中分为三个步骤,word embedding、迁移、微调。有的甚至都测试你适合学心理学吗不用微调。
相关参考内容
- DeepLearning.AI中国官网-全球领先的线上AI教育、实践平台 (deeplearningai.net)