知识挖掘的平行句法语料库-汉语

7.1.3 国内外部分相关研究介绍

周强等[1]通过对大量汉语语料文本中最长名词短语分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法。后者的识别正确率和召回率分别达到85.4%和...[继续阅读]

知识挖掘的平行句法语料库

字数： 535

7.1.2 国内外浅层句法或组块识别研究关键词分析

通过对浅层句法或组块识别研究的分析,我们确定的中文相关文献的检索词为:浅层句法识别、组块识别、短语识别、中文组块、介宾结构识别、短语标注。年份确定为2000年至今,通过检索与筛选,在中国知网共采集到3159篇中文目标文...[继续阅读]

知识挖掘的平行句法语料库

字数： 818

2.3 小结

从2010年数字人文研究的内容、方法和前沿正式被引入国内算起[1][2],数字人文研究在国内的发展已经接近十年。鉴于数字人文研究是一个典型的跨学科且提倡多学者参与的研究领域,本文通过学科分布、学科参与度、机构参与度等量...[继续阅读]

知识挖掘的平行句法语料库

字数： 409

7.4.2 古白史书语料获取与处理

本章用于古白史书介宾结构分析的五部史书按年代远近排序分别为《左传》《战国策》《汉书》《后汉书》和《三国志》。五部史书皆属二十四史,时间跨度从公元前4世纪到公元3世纪,约7个世纪,由史学家或专职官员撰写,语言规范考...[继续阅读]

知识挖掘的平行句法语料库

字数： 927

5.3.2 分析古白史书词性的分布情况

(1) 古文史书的词性分布情况为了统计每部史书中的词性分布情况,使用Notepad++处理上文标注的语料。首先,使用“替换”功能去掉第二列没有实际意义的标注“E-n”。其次,对于语料中出现的“<UNK>词性标注”的情况,用正则表达式...[继续阅读]

知识挖掘的平行句法语料库

字数： 2084

3.2.4 实验结果分析

(1) 实验评测为了对实验结果进行评测,我们引入召回率(R)、准确率(P)以及将召回率和准确率融合的调和平均值(F),具体定义如下:假设a为实验对齐过程中对齐正确的句对,b为实验对齐过程中对齐不正确的句对,c为实验对齐过程中忽视对...[继续阅读]

知识挖掘的平行句法语料库

字数： 4136

4.4.3 古文和白话文史书类词汇分析

通过对比《战国策》《汉书》《后汉书》《三国志》和《左传》这五部史书古文与现代文词频前五十位的词,可以发现古文与现代文用词的一些相似与区别之处。首先,从古文与现代文词频前五十位可以看出,两者之间前五十位的词大...[继续阅读]

知识挖掘的平行句法语料库

字数： 693

第2章定量对比视角下的国内外数字人文研究进展

从2005年之前范围较为狭窄的人文计算(Humanities Computing)到含义更为丰富的数字人文(Digital Humanities)[1],Busa[2]、王晓光[3]等学者将数字人文视为人文学科方法论和研究范式上的创新,认为数字人文的目标是将现代信息技术融入传统的人文...[继续阅读]

知识挖掘的平行句法语料库

字数： 1169

5.3.1 标注古白史书文本

调用上述所训练的最优的现代文和古文的词性标注模型,完成对《汉书》《后汉书》《三国志》《战国策》《左传》古文和白话文平行语料的词性标注。以《汉书》为例,首先,读取古白平行语料,并按照【古文】【现代文】的标签将语...[继续阅读]

知识挖掘的平行句法语料库

字数： 556

7.2.1 介宾结构数据预处理

我们从清华汉语树库中直接获得的一手语料是十分全面的,语料中用不同的标记标记出了所有的句法结构和分词词性,具体如表7-1所示。表7-1 清华汉语树库原始语料序号句子1 3 [ZJ[ZZ<de>从此/d,/,[AD[ZW[DZ[SL这/rN种/qN][DZ<de>[ZZ被...[继续阅读]

知识挖掘的平行句法语料库

字数： 4133

7.1.3 国内外部分相关研究介绍

7.1.2 国内外浅层句法或组块识别研究关键词分析

2.3 小结

7.4.2 古白史书语料获取与处理

5.3.2 分析古白史书词性的分布情况

3.2.4 实验结果分析

4.4.3 古文和白话文史书类词汇分析

第2章 定量对比视角下的国内外数字人文研究进展

5.3.1 标注古白史书文本

7.2.1 介宾结构数据预处理

第2章定量对比视角下的国内外数字人文研究进展