本文基于Bi-LSTM-CRF模型和Bi-LSTM模型,构建了古文和白话文自动分词模型。在构建的古汉语自动分词模型中,调和平均值为95.87%的Bi-LSTM-CRF训练模型可作为古汉语自动分词的最佳模型;在构建的白话文自动分词模型中,调和平均值为92.86%的...[继续阅读]
海量资源,尽在掌握
本文基于Bi-LSTM-CRF模型和Bi-LSTM模型,构建了古文和白话文自动分词模型。在构建的古汉语自动分词模型中,调和平均值为95.87%的Bi-LSTM-CRF训练模型可作为古汉语自动分词的最佳模型;在构建的白话文自动分词模型中,调和平均值为92.86%的...[继续阅读]
问句属于短文本,本章所涉及的问句分类类别较少,特征较为突出,因此可以采用支持向量机进行分类模型的训练。分类问题同样也可以视为序列标注问题,按照序列标注的方式进行,因此我们可以选择自然语言处理领域常用的条件随机场...[继续阅读]
在语料处理阶段,我们需要在Windows系统下运行Python处理语料,因此首先要在Windows系统下安装Python,我们安装的是Python3.7版本。读者可自行选择版本进行安装,建议安装Python3.x版本,因为2.x版本与最新版本的语法有些不同,且有些新库不能正...[继续阅读]
对自然语言进行语法和语义层面的研究一般有两种方法:理性主义(rationalist)和经验主义(empiricist)[1],这也是自然语言处理中两种基本的研究策略。理性主义着力于规则,经验主义着力于统计[2]。在20世纪60年代,研究者们对理解自然语言...[继续阅读]
(1) 条件随机场模型目前,基于统计的机器学习方法主要有隐马尔可夫模型、最大熵模型(ME)和条件随机场等。最大熵模型结构紧凑,通用性好,但训练成本较高;隐马尔可夫模型训练和识别时的速度快,但对于本文这类语料识别效果不佳。...[继续阅读]
五四运动之后,以白话文为主的现代汉语体系逐步建立,但古代汉语并未就此消失,其作为历史的、文化的符号继续存在于中国人民的生活当中。当下,国民经济充分发展,国家所倡导的回归经典运动更是赋予了古代汉语新生。古代汉语的...[继续阅读]
该类方法最早于20世纪50年代末期提出。被称作基于词典的分词是因为这种分词的操作依据是其使用的机器词典,机械分词法是在字符串的基础上进行的,字符串可谓是该分词方式的一个重要内容,就是把很大的一个字符串根据特殊的策...[继续阅读]
(1) LSTM模型介绍循环神经网络(RNN)在工作时一个重要的优点在于,能够在输入和输出序列之间的映射过程中利用上下文相关信息。然而不幸的是,标准的循环神经网络(RNN)能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入...[继续阅读]
本章在进行先秦典籍问句自动分类研究时,先将所有问句随机打乱,按照9∶1划分为训练集和测试集,用十折交叉的方式进行实验,以避免单次实验导致结果的偶然性。以下是三种模型分别进行先秦典籍问句分类实验的各个具体步骤。(...[继续阅读]
【古文】 先主姓刘,讳备,字玄德,涿郡涿县人,汉景帝子中山靖王胜之后也。【现代文】 先主姓刘,名备,字玄德,涿郡涿县人,是汉景帝的儿子中山靖王刘胜的后代。【古文】 胜子贞,元狩六年封涿县陆城亭侯,坐酎金失侯,因家焉。【现代...[继续阅读]