三级真人牲交-亚洲做性视频在线观看-激情AV-伊人成人在线视频
首页 科技 正文

结合啦,NLP数据增强技术性!丰富資源归纳

白交 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

数据增强技术性早已是CV行业的标准配置,例如对图象的转动、镜像系统、高斯白噪声这些。

但在NLP行业,对于文本的数据增强,确是不那么多见。

因此,就会有一位深度学习T型技术工程师,在目前的参考文献中,归纳一些NLP数据增强技术性。

稳稳干货知识,在这里大放送。

文本取代

文本取代主要是对于不在更改句子含意的状况下,替换文本中的单词,例如,近义词替换、词嵌入替换这些。

然后,大家就来好好地介绍一下。

近义词替换

说白了,便是在文本中随机抽取一个单词,随后再同义词库里将其替换为近义词。

例如,应用WordNet数据库查询,将「awesome」替换为「amazing」。

这一技术性较为普遍,在过去的论文中有很多都应用了这一技术性,例如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

论文连接:https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

论文连接:https://arxiv.org/abs/1901.11196

要完成此项技术性,可根据NLTK对WordNet开展浏览,还能够应用TextBlob API。

除此之外,还有一个PPDB数据库查询,包括着上百万个单词的词典。

词嵌入替换

这类方式是,采用早已预训炼好的单词置入,如Word2Vec、GloVe、FastText、Sent2Vec等,并将置入室内空间中近期的临接词做为句子中一些单词的替换。

例如:

那样,就可以将单词替换成邻近的3个单词,得到文本的3种组合方式。

掩码语言模型(MLM)

类似BERT、ROBERTA、ALBERT,Transformer实体模型早已在很多的文本训炼过,应用掩码语言模型的外置每日任务。

在这个每日任务中,实体模型务必按照前后文来预测分析掩码的单词。除此之外,还能够运用这一点,对文本开展扩充。

跟以前的方式对比,转化成的文本在英语的语法上面更为连贯性。

可是,必须留意的是,决策遮盖哪一个单词并非易事,它决策了实际效果的最后展现。

根据TF-IDF的单词替换

这一方式最开始是出現在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

论文连接:https://arxiv.org/abs/1904.12848

理论依据取决于TF-IDF评分低的单词是沒有数据量的的词,因而能够 替换,而不危害句子的本来含意。

根据测算全部文本文档中单词的 TF - IDF评分并取最少评分来挑选替换初始单词的单词。

反方向汉语翻译

反方向汉语翻译,便是先将句子译成另一种語言,例如,英文翻译成德语。

随后再汉语翻译回原先的語言,也就是将法文翻译回英文。

查验2个句子中间的不同点,从而将新的句子做为提高文本。

还能够一次应用多语种开展反方向汉语翻译,造成大量的组合。

例如,除开德语之外,再将其汉语翻译为中文和意大利文。

要完成反方向汉语翻译,能够 应用TextBlob。此外,还能够应用Google Sheets,使用说明已附文末。

文本方式变换

这一方式主要是运用正则表达式运用的的简易匹配算法变换,在Claude Coulombe的论文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中有详解。

论文连接:https://arxiv.org/abs/1812.04718

举个简易的事例,将本来方式变换为简称,相反也是。

可是也会出現一些模棱两可,例如:

在这里,挑选容许模棱两可的收拢,但不允许拓展。

Python的收拢库已附文末。

随机噪声引入

说白了,也就是在文本中引入噪音,来训炼实体模型对振荡的可扩展性。

例如,语法错误。

句子改制。

空白页噪音。

任意插进。

任意互换。

任意删掉。

语法树

这一方式也出現在了Claude Coulombe的论文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中。

论文连接:https://arxiv.org/abs/1812.04718

其构思是分析并转化成原话的依附树,运用标准开展变换,转化成新句子。

例如,将句子的积极语调变换为处于被动语调,相反也是。

文本混和

此项技术性的念头来源于一项名叫“Mixup”的图像增强技术性。

Guo et al.在这个基础上开展了改动,将其运用到NLP。

「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」

论文连接:https://arxiv.org/abs/1905.08941

关键有二种方式。

wordMixup

这一方式取决于,提取2个任意的句子,将他们开展零添充,使其长短同样。随后,按一定占比组成在一起。

所获得的单词置入根据CNN/LSTM伺服电机传送到句子置入中,接着测算交叉熵损失。

好啦,NLP的数据增强技术性就详细介绍到这儿,期待可以对你有一定的协助。

传送器

博客地址:https://amitness.com/2020/05/data-augmentation-for-nlp/

WordNet数据:https://www.nltk.org/howto/wordnet.html

TextBlob API:https://textblob.readthedocs.io/en/dev/quickstart.html#wordnet-integration

PPDB数据:http://paraphrase.org/#/download

YF-IDF编码:https://github.com/google-research/uda/blob/master/text/augmentation/word_level_augment.py

应用Google Sheets完成反方向汉语翻译:https://amitness.com/2020/02/back-translation-in-google-sheets/

Python收拢库:https://github.com/kootenpv/contractions

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.macqim.com/kj/872.html

三级真人牲交-亚洲做性视频在线观看-激情AV-伊人成人在线视频 香港赛马会最新消息| 香港赛马会最新消息| 澳门彩库网2020开奖记录完整版下载-澳门彩库网2020开奖记录| 香港赛马会最新消息| 香港马会最新消息新闻| 2020年香港马会恢复时间| 香港马会最新通知| 1997香港官方彩票网| 2020年09期什么时候开奖| 香港什么时候恢复开奖| 香港赛马会最新消息| 2020年香港马会恢复时间| 香港什么时候恢复开奖| 香港马会最新消息新闻| 香港现聚令最新消息| 2020香港开奖记录结果 小说| 香港马会最新报道| 香港马会搅珠最新通知| 09期马会通知开奖日| 香港赛马会最新消息| 2020年香港马会恢复时间| 4847王中王铁算开奖结果小说| 2020香港开奖记录结果 小说| 香港什么时候恢复开奖| 二四六天天好彩免费资料精选| 香港2020年09期开奖时间| 澳门十二生肖买马资料| 420888澳门论坛六肖六码| 澳门名都论坛www688068cm| 澳门每天一期彩票资料| 2020澳门特料码特| 澳门论坛精选资料| 澳门2020开奖结果+开奖记录| 2020澳门码资料| 澳门福彩开奖结果| 澳门精选免费资料大全亮点| 澳门精选免费资料特点| 2020澳门特料码特| 澳门2020开奖结果+开奖记录| 420888澳门论坛六肖六码| 澳门码开奖结果| 澳门十二生肖买马资料| 澳门天天彩开奖结果| 中国福利彩票高级软件| 2020澳门码资料| 澳门精选免费资料大全| 澳门牛魔王四肖选一肖| 420888澳门论坛六肖六码| 澳门名都论坛四不像论坛| 2020澳门特料码特| 澳门每天一期彩票资料| 在哪里可以看澳门的买马资料| 澳门2020开奖结果+开奖记录| 香港澳门开奖免费资料| 4847王中王铁算开奖结果小说| 澳门精选免费资料大全| 澳门免费资料大全| 420888澳门论坛六肖六码| 2020澳门特料码特| 澳门名都论坛www688068cm| 澳门十二生肖买马资料| 澳门论坛841995| 2020澳门码资料| 420888澳门论坛六肖六码| 澳门每天一期彩票资料| 澳门名都论坛www688068cm| 澳门十二生肖买马资料| 澳门2020开奖结果+开奖记录| 澳门精选免费资料大全| 2020澳门码资料| 澳门牛魔王四肖选一肖| 澳门名都论坛四不像论坛| 420888澳门论坛六肖六码| 澳门每天一期彩票资料| 澳门名都论坛www688068cm| 澳门十二生肖买马资料| 澳门2020开奖结果+开奖记录| 澳门精选免费资料大全| 2020澳门码资料| 澳门牛魔王四肖选一肖| 澳门名都论坛四不像论坛| 澳门赛马会主页mjc.mo| 420888澳门论坛六肖六码| 奥门赛马会| 2020澳门码资料| 澳门赛马排位表+资料| 2020澳门特料码特| 澳门十二生肖买马资料| 澳门每天一期彩票资料| 澳门精选免费资料大全| 澳门牛魔王四肖选一肖| 澳门名都论坛四不像论坛| 澳门精选免费资料大全| 420888澳门论坛六肖六码| 2020澳门特料码特| 澳门每天一期彩票资料| 香港赛马会最新消息| 淮澳门六心水论坛司|