具体研究数据的搜集与处理如下:在国外分析方面,所采集的数据来源于Web of ScienceTM核心合集数据库,检索时间截止到2019年9月25日,以TS=(“named entity recognition” OR “named entity identification”)进行检索,共获取文献1 671篇。在国内分析方面...[继续阅读]
海量资源,尽在掌握
具体研究数据的搜集与处理如下:在国外分析方面,所采集的数据来源于Web of ScienceTM核心合集数据库,检索时间截止到2019年9月25日,以TS=(“named entity recognition” OR “named entity identification”)进行检索,共获取文献1 671篇。在国内分析方面...[继续阅读]
借助Python的gensim模块,计算tfidf的函数,我们将分词且去除停用词后的问句向量化,通过公式9-7的余弦距离来表征两个向量之间的相似度。计算出的余弦值越接近1,就表明两个问句向量的夹角越接近0度,也就是两个向量越相似。通过这种...[继续阅读]
将古文人名识别的最优模型用于古籍古文部分的人名识别,并且统计不同古籍中识别出的人名词频及其排序,结果见表6-26。由表6-26可知:《汉书》整体篇幅最大,语料本身篇幅最大,因此识别出的人名相对而言是最多的,占《汉书》篇幅的...[继续阅读]
在上述对自动分词所涉及的研究领域进行分析的基础上,本研究制定了与之相关的检索词:英文主要包含Chinese Word Segmentation、 Chinese segmentation、the Chinese phrase Separation和Automatic word segmentation;汉语的检索词为中文分词、文本分词和自动...[继续阅读]
(1) LSTM模型循环神经网络(RNN)工作时一个重要的优点在于:能够在输入和输出序列之间的映射过程中利用上下文相关信息。但常规的RNN存在的一个问题是无法解决“长期依赖”(Long-term Dependency)问题,即有用信息和预测点相隔较远。以词...[继续阅读]
文中基于支持向量机、条件随机场和双向长短时记忆神经网络进行了先秦典籍问句的自动分类研究,其中特征词是利用TF-IDF算法获得。语料库中共包含1 200条问句,按照十折交叉的方式训练和在测试集上进行开放测试,除了支持向量机的...[继续阅读]
基于自动分词的基本概念,结合自动分词技术目前最常见的三类算法,根据对相关探究所涉及的研究内容,本部分拟从基于词典的分词方法——机械匹配分词、基于统计的分词方法——最大概率分词、基于人工智能技术——模拟分词这...[继续阅读]
中国历史典籍浩如烟海,在历史发展的长河中赋予了中华民族特有的个性和民族身份感。对历史典籍中的优秀文化进行深度挖掘,把这些优秀的历史文化介绍给世界,是促进世界对中国的了解和接受,实现中外文化交流,达到世界文化融合...[继续阅读]
结合已构建的典籍平行语料库和所构建的相应分词、词性、实体和短语标注模型,融合知识图谱的相应方法和技术,本章构建了典籍自动问答系统。所构建的典籍问答系统涵盖了实体知识抽取、知识图谱构建和相应具体语义知识点的呈...[继续阅读]
实验利用CRF模型、Bi-LSTM模型和Bi-LSTM-CRF模型三种模型,基于《史记》预先处理过的语料训练出姓名实体标注的模型,然后用这个模型,对后续没有标注的史书,包括《三国志》《汉书》《后汉书》,完成实体标注。同样地,现代汉语是基于...[继续阅读]