三级真人牲交-亚洲做性视频在线观看-激情AV-伊人成人在线视频
首页 科技 正文

结合啦,NLP数据增强技术性!丰富資源归纳

白交 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

数据增强技术性早已是CV行业的标准配置,例如对图象的转动、镜像系统、高斯白噪声这些。

但在NLP行业,对于文本的数据增强,确是不那么多见。

因此,就会有一位深度学习T型技术工程师,在目前的参考文献中,归纳一些NLP数据增强技术性。

稳稳干货知识,在这里大放送。

文本取代

文本取代主要是对于不在更改句子含意的状况下,替换文本中的单词,例如,近义词替换、词嵌入替换这些。

然后,大家就来好好地介绍一下。

近义词替换

说白了,便是在文本中随机抽取一个单词,随后再同义词库里将其替换为近义词。

例如,应用WordNet数据库查询,将「awesome」替换为「amazing」。

这一技术性较为普遍,在过去的论文中有很多都应用了这一技术性,例如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

论文连接:https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

论文连接:https://arxiv.org/abs/1901.11196

要完成此项技术性,可根据NLTK对WordNet开展浏览,还能够应用TextBlob API。

除此之外,还有一个PPDB数据库查询,包括着上百万个单词的词典。

词嵌入替换

这类方式是,采用早已预训炼好的单词置入,如Word2Vec、GloVe、FastText、Sent2Vec等,并将置入室内空间中近期的临接词做为句子中一些单词的替换。

例如:

那样,就可以将单词替换成邻近的3个单词,得到文本的3种组合方式。

掩码语言模型(MLM)

类似BERT、ROBERTA、ALBERT,Transformer实体模型早已在很多的文本训炼过,应用掩码语言模型的外置每日任务。

在这个每日任务中,实体模型务必按照前后文来预测分析掩码的单词。除此之外,还能够运用这一点,对文本开展扩充。

跟以前的方式对比,转化成的文本在英语的语法上面更为连贯性。

可是,必须留意的是,决策遮盖哪一个单词并非易事,它决策了实际效果的最后展现。

根据TF-IDF的单词替换

这一方式最开始是出現在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

论文连接:https://arxiv.org/abs/1904.12848

理论依据取决于TF-IDF评分低的单词是沒有数据量的的词,因而能够 替换,而不危害句子的本来含意。

根据测算全部文本文档中单词的 TF - IDF评分并取最少评分来挑选替换初始单词的单词。

反方向汉语翻译

反方向汉语翻译,便是先将句子译成另一种語言,例如,英文翻译成德语。

随后再汉语翻译回原先的語言,也就是将法文翻译回英文。

查验2个句子中间的不同点,从而将新的句子做为提高文本。

还能够一次应用多语种开展反方向汉语翻译,造成大量的组合。

例如,除开德语之外,再将其汉语翻译为中文和意大利文。

要完成反方向汉语翻译,能够 应用TextBlob。此外,还能够应用Google Sheets,使用说明已附文末。

文本方式变换

这一方式主要是运用正则表达式运用的的简易匹配算法变换,在Claude Coulombe的论文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中有详解。

论文连接:https://arxiv.org/abs/1812.04718

举个简易的事例,将本来方式变换为简称,相反也是。

可是也会出現一些模棱两可,例如:

在这里,挑选容许模棱两可的收拢,但不允许拓展。

Python的收拢库已附文末。

随机噪声引入

说白了,也就是在文本中引入噪音,来训炼实体模型对振荡的可扩展性。

例如,语法错误。

句子改制。

空白页噪音。

任意插进。

任意互换。

任意删掉。

语法树

这一方式也出現在了Claude Coulombe的论文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中。

论文连接:https://arxiv.org/abs/1812.04718

其构思是分析并转化成原话的依附树,运用标准开展变换,转化成新句子。

例如,将句子的积极语调变换为处于被动语调,相反也是。

文本混和

此项技术性的念头来源于一项名叫“Mixup”的图像增强技术性。

Guo et al.在这个基础上开展了改动,将其运用到NLP。

「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」

论文连接:https://arxiv.org/abs/1905.08941

关键有二种方式。

wordMixup

这一方式取决于,提取2个任意的句子,将他们开展零添充,使其长短同样。随后,按一定占比组成在一起。

所获得的单词置入根据CNN/LSTM伺服电机传送到句子置入中,接着测算交叉熵损失。

好啦,NLP的数据增强技术性就详细介绍到这儿,期待可以对你有一定的协助。

传送器

博客地址:https://amitness.com/2020/05/data-augmentation-for-nlp/

WordNet数据:https://www.nltk.org/howto/wordnet.html

TextBlob API:https://textblob.readthedocs.io/en/dev/quickstart.html#wordnet-integration

PPDB数据:http://paraphrase.org/#/download

YF-IDF编码:https://github.com/google-research/uda/blob/master/text/augmentation/word_level_augment.py

应用Google Sheets完成反方向汉语翻译:https://amitness.com/2020/02/back-translation-in-google-sheets/

Python收拢库:https://github.com/kootenpv/contractions

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.macqim.com/kj/872.html

三级真人牲交-亚洲做性视频在线观看-激情AV-伊人成人在线视频