面向深度学习的文本预处理方式

如今，深度学习引起了人们极大的兴趣，尤其是自然语言处理(NLP)。不久前，Kaggle公司开展一场自然语言处理(NLP)竞赛，其名称为“Quora不真诚问题挑战(Quora Question insincerity Challenge)”。这个竞赛指出解决文本分类问题，其目的是通过竞赛以及Kaggle专家提供的宝贵内核，使其变得更容易理解。

首先从解释竞赛中的文本分类问题开始。

文本分类是自然语言处理中的一项常见任务，它将不确定长度的文本序列转换为文本类别。那么文本分类有什么作用?可以：

了解评论时的情绪

在Facebook等平台上查找有害评论

在Quora上查找不真诚的问题，而目前Kaggle公司正在进行的一项竞赛

在网站上查找虚假评论

确定文本广告是否会被点击

现在，这些问题都有一些共同点。而从机器学习的角度来看，这些问题本质上是相同的，只是目标标签发生了变化，并没有其他的变化。话虽如此，业务知识的添加可以帮助使这些模型更加健壮，这就是在预处理数据以进行测试分类时想要包含的内容。

虽然本文关注的预处理管道主要围绕深度学习，但其中大部分也适用于传统的机器学习模型。

首先，在完成所有步骤之前，先了解一下文本数据深度学习管道的流程，以便更进一步了解整个过程。

通常从清理文本数据和执行基本事件驱动架构(EDA)开始。在这里，尝试通过清理数据来提高数据质量。还尝试通过删除词汇表外(OOV)的单词来提高Word2Vec嵌入的质量。前两个步骤之间通常没有什么顺序，并且通常在这两个步骤之间来回切换。
面向深度学习的文本预处理方式

热点

面向深度学习的文本预处理方式

由 dawei

您错过了

MsSQL数据库镜像与高可用性深度优化策略探究

5G移动互联时代网络质量全方位深度评估报告

移动互联与数码科技：重塑生活，开启变革新篇章

精通网页布局：核心要素与实战设计技巧教程

友情链接

面向深度学习的文本预处理方式

由 dawei

相关文章

移动互联与数码科技：重塑生活，开启变革新篇章

移动互联与数码科技：引领生活风尚的科技新浪潮

移动互联数码科技：重塑生活风尚的科技革命力量

您错过了

MsSQL数据库镜像与高可用性深度优化策略探究

5G移动互联时代网络质量全方位深度评估报告

移动互联与数码科技：重塑生活，开启变革新篇章

精通网页布局：核心要素与实战设计技巧教程