语言模型

#语言模型#

已有0人关注此标签

内容分类

ezpod

基于Snorkel弱监督和ULMFiT迁移学习的微博情感分类

本文是作者一个tweet/微博文本分类实战项目的全程重现与总结。该项目的最大特点是使用了弱监督技术(Snorkel)来获得海量标注数据,同时使用预训练语言模型进行迁移学习。 项目的主要步骤如下: 采集一小批已标注样本(~600) 使用弱监督利用大量未标注样本生成训练集 使用一个大型预训练语言模型进行迁移学习 要快速掌握机器学习应用的开发,推荐汇智网的机器学习系列教程。

游客epf6llf36clhs

Python自然语言处理工具小结

作者:伏草惟存 来源:http://www.cnblogs.com/baiboy/p/nltk2.html Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。

uncle_ll

推荐系列(六):深层神经网络模型(2)

简单介绍Softmax训练的样本以及与fm的对比

技术小能手

遍地开花的 Attention ,你真的懂吗?

今天,阿里巴巴工程师楠易,将 Attentioin 的知识系统性地梳理、回顾、总结,不求深刻,但求浅显,希望能帮助对 Attention 有疑惑的同学。

雷锋网

超越 BERT 和 GPT,微软亚洲研究院开源新模型 MASS!

在序列到序列的自然语言生成任务中完胜 BERT!

egptee

语音识别(ASR)基础介绍第二篇——万金油特征MFCC

上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。   整个ASR的处理流程大致可以分为下图: 左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。  而MFCC主要用在左侧的处理流程中,即“特征处

雷锋网

谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT!

并在 18 项任务上取得了当前最佳效果!

egptee

语音识别(ASR)基础介绍第三篇——经典做法及术语概念

上一章介绍了万金油特征MFCC,相当于数据的输入已经确定了。 本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考,了解了之后,和相关专业的人交流,大概就不再迷茫了:D 传统方法也可以按 声学模型 和 语言学模型 的方式来划分。 声学模型主要的职责是,把一段音频处理成类似拼音的形式, 然后交给语言模型来猜: 能够发这些音的单词,怎么组合起来更常见一些。然后找到最可能的组合,便是asr的结

技术小能手

一文读懂深度学习:从神经元到BERT

自然语言处理领域的殿堂标志 BERT 并非横空出世,背后有它的发展原理。今天,蚂蚁金服财富对话算法团队整理对比了深度学习模型在自然语言处理领域的发展历程。

雷锋网

无监督循环神经网络文法 (URNNG) | NAACL19

NAACL19 关于无监督循环神经网络文法的论文解读,在语言模型和无监督成分句法分析上都取得了非常不错的结果

数据智能小二

AI产品免费用!再写测评拿好礼,KOL大牛就是你!

盼望着,盼望着,5月来了,优惠的气息近了。一切都像要试用的样子,欣欣然张开了眼。山朗润起来了,水涨起来了,开发者的脸红起来了。

数据智能小二

不断被取代的传统职业:快速发展的智能交互

在人工智能的浪潮面前,越来越多的职业正被替代

zhangningyu1690

通用句子向量漫谈

句子向量漫谈 # 背景 ​ 近期业务需要使用文本上下文语义特征,而将文本进行编码和表征是NLP最核心的技术之一,于是调研了表征文本的相关技术,总结如下, 以飨后人。 ## 混沌未开 ​ 在word2vec诞生之前,NLP中并没有一个统一的方法去表示一段文本。

AI事儿

【智能语音】泡沫下的破浪者,智能语音产品到底落地何处?

如今的科技在各个方面的发展都非常的迅速,越来越多“不切实际”的幻想也在被实现!而作为现代人信息获取以及沟通需求最为方便快捷的路径-智能语音,这条路就摆在我们面前。