知识挖掘的平行句法语料库-汉语

附件五史部典籍浅层句法标注语料

其诞将天威,柔服【以德】,伐叛【以刑】,称〈UNK〉意焉。瑜之东渡,因与同行,留家曲阿。尚【从大道】来,当避之;三公上君过失,皆有本末。何事于仁,必也圣乎,尧、舜其犹病诸!昔卫武公年过志壮,勤求辅弼,每独叹责。泽【以经】传文...[继续阅读]

知识挖掘的平行句法语料库

字数： 26989

6.3.3 对比分析古白文本在姓名上的不同

将最优模型分析用于识别古文和白话文,并统计识别出的人名频次以及识别出的人名所占篇幅比重见表6-28。由表可知,理论上古文和白话文由于表达相同语义,其存在的人名实体在频次上应该相等或者差别较小,但是统计结果发现古文中...[继续阅读]

知识挖掘的平行句法语料库

字数： 559

4.4 史书类古白词汇分布分析

词频分析(Word Frequency Analysis)是对正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现的频次来确定核心内容。以词频分析法研究我...[继续阅读]

知识挖掘的平行句法语料库

字数： 485

7.1 相关研究概述

我们通过CiteSpace分析了1991年组块概念被系统提出后到2000年CoNLL-2000共享任务推出之前学术界对于浅层句法或组块识别研究的341篇相关文献,其关键词分布如图7-1所示,可见在此期间大部分研究者都将精力投入到了主谓短语和主语宾语等...[继续阅读]

知识挖掘的平行句法语料库

字数： 218

6.4 小结

本章首先对命名实体识别的研究现状和发展前沿进行了总结,讨论了命名实体的概念和含义。然后利用CiteSpace软件绘制了命名实体识别领域的研究热点图谱,并且分析了命名实体识别领域研究的热点关键词。接着对命名实体识别目前主...[继续阅读]

知识挖掘的平行句法语料库

字数： 398

1.3 研究方法

自然语言处理的方法:分词和词性标注模型的构建、短语结构标注的开发均是基于自然语言处理的方法完成的。文本挖掘的方法:条件随机场模型、深度学习模型的使用、类别模型的构建、自动问答系统的搭建使用了文本挖掘方法。比...[继续阅读]

知识挖掘的平行句法语料库

字数： 336

2.1.4 机构合作差异

数字人文研究的标志性特点之一是“多样性和包容性”。一项数字人文研究需要不同类型的专业知识和技术,需要多位研究者,乃至多个机构合作完成。国外学者对比了数字人文研究期刊与其他领域期刊中的作者合作和国际间合作。本...[继续阅读]

知识挖掘的平行句法语料库

字数： 1009

5.2.3 现代文词性自动标注模型的构建与评价

使用Bi-LSTM模型进行训练时,首先修改参数num_layers为2,即将bilstm层数设置为两层,修改参数feature_nums为1,即特征列数为一列,将参数label2id列表放入相应语料中产生的所有不重复的词性标签。实验使用WinSCP与Linux系统的服务器相连,将处理好...[继续阅读]

知识挖掘的平行句法语料库

字数： 2176

3.1.1 句子对齐研究的定量分析

在对句子对齐所涉及的研究领域进行分析的基础上,本研究制定了与之相关的检索词,英文主要包含:sentence alignment、Bilingual alignment、align text和Corpus alignment,汉语的检索词为:句子对齐、双语对齐、文本对齐、语料对齐。具体研究数据的...[继续阅读]

知识挖掘的平行句法语料库

字数： 2521

2.1 国内国际数字人文研究学科参与度与机构合作模式差异

我们以学科分布与机构合作模式等外部差异作为切入点,通过量化和合作图谱绘制等较为直观的方法明确国内与国际数字人文研究在上述两方面的差异。通过CiteSpace的共被引网络生成与聚类功能呈现国际数字人文领域的知识结构,生成...[继续阅读]

知识挖掘的平行句法语料库

字数： 178

附件五 史部典籍浅层句法标注语料

6.3.3 对比分析古白文本在姓名上的不同

4.4 史书类古白词汇分布分析

7.1 相关研究概述

6.4 小结

1.3 研究方法

2.1.4 机构合作差异

5.2.3 现代文词性自动标注模型的构建与评价

3.1.1 句子对齐研究的定量分析

2.1 国内国际数字人文研究学科参与度与机构合作模式差异

附件五史部典籍浅层句法标注语料