当前位置:首页 > 汉语知识 > 知识挖掘的平行句法语料库 > 列表
知识挖掘的平行句法语料库 共有 103 个词条内容

7.3 三种模型的训练过程及结果分析

    CRF模型操作起来比较简单,对GPU性能要求不高,但为了保证比较结果的公平性,我们同样选用了上文中介绍过的实验环境。首先安装好crf++工具包,打开CRF训练文件的文件夹,将处理好准备训练和测试的语料移到该文件夹目录下。模板文件...[继续阅读]

知识挖掘的平行句法语料库

附件三 史部典籍词性标注语料

    命/n 曰/v 首/nrx 仰/v 足/nrx 肣/v 外/n 高/v 内/n 下/v。/w 卜/v 有/v 忧/n,/w 无/v 伤/n 也/u。/w 行者/nrx 不/d 来/v。/w 病/n 久/v 死/v。/w 求/v 财物/n 不/d 得/v。/w 见/v 贵人/nrx 者/r 吉/v。/w 命/n 曰/v 外/n 高/v 内/n 下/v。/w 卜/v 病/n 不/d 死/v,/w 有...[继续阅读]

知识挖掘的平行句法语料库

第5章 词性级的古白平行语料库构建及分析研究

    要进行词性标注,首先碰到两个问题:一是标记集如何确定,二是如何处理词语的兼类。在词性标记集已经确定的情况下,如果一个词只有一个词性,当然就直接标上该词性标记,如果一个词在词典中有两个及两个以上的词性,就会面临选择...[继续阅读]

知识挖掘的平行句法语料库

4.2.3 基于人工智能技术——模拟分词

    基于人工智能技术——模拟分词的过程是模拟人类大脑对分词的思考方式,尝试将人类对语言的了解和认知过程通过数字化的模型进行描绘。使用该算法对大脑进行模拟,然后对相关模型构建进行操作,在神经网络内部注入分词知识的...[继续阅读]

知识挖掘的平行句法语料库

8.4.5 模型应用

    在本章获得的序号8的Bi-LSTM模型基础上,可以使用该模型对其他先秦典籍问句快速且较为准确地识别其类别。本章利用开发的平台,可将输入的问句进行分类,具体的平台功能如图8-6所示。图8-6 先秦典籍问句自动分类展示根据图8-6,将待...[继续阅读]

知识挖掘的平行句法语料库

5.2.4 古文词性自动标注模型的构建与评价

    同样,为了获得性能指标最好的古文词性自动标注模型,本文对古文语料库进行了与白话文语料库相同的操作,得到10组古文测试结果(Acc)、准确率(P)、召回率(R)、调和平均值(F)作为模型精度的判断标准,并作为当前十折交叉验证下该模型...[继续阅读]

知识挖掘的平行句法语料库

6.3.1 人名自动识别模型的应用结果

    基于上述构建的古汉语和白话文人名自动识别模型和古汉语词性人名自动识别模型,分别对《史记》中未进行人名识别的空白语料进行人名实体的识别,以验证该模型在相似语料上的性能。表6-19为古文的应用结果示例,表6-20为白话文的...[继续阅读]

知识挖掘的平行句法语料库

5.1.4 基于深度学习的词性标注

    在深度学习技术成熟之前,机器学习主要使用的算法建模是带有一层或是没有隐形节点的建模,如条件随机场、支持向量机及最大熵模型等。这些带有一层或是没有隐形节点的建模在面对结构复杂的数据泛化问题时,能力十分有限[1]。...[继续阅读]

知识挖掘的平行句法语料库

附件四 史部典籍人名标注语料

    举【风后】【力牧】【常先】【大鸿】以治民。顺天地之纪,幽明之占,死生之说,存亡之难。时播百谷草木,淳化鸟兽虫蛾,旁罗日月星辰水波土石金玉,劳勤心力耳目,节用水火材物。有土德之瑞,故号【黄帝】。【黄帝】二十五子,其得...[继续阅读]

知识挖掘的平行句法语料库

5.2.5 最佳模型在相似语料上的性能测试

    基于上文所构建的白话文词性自动标注最佳模型和古文词性自动标注最佳模型,分别对测试语料中未进行词性标注的白话文和古文进行词性标注,以验证最佳模型在相似语料上的性能。测试语料的标注结果样例如图5-2所示:图5-2 古文...[继续阅读]

知识挖掘的平行句法语料库