当前位置:首页 > 实用文档 > 生物学 > 正文

融合过滤和相似度计算的高错误率基因组数据敏感序列识别

小型微型计算机系统 页数: 9 2022-05-13
摘要: 为解决现有算法难以有效识别高错误率测序数据中敏感序列的问题,提出一种融合过滤和相似度计算的敏感序列识别算法.首先,分割待识别序列为多条短序列,通过构建双布隆过滤器,对短序列进行动态过滤去重,以避免重复运算;然后,对短序列局部片段进行k-mer编码,改进优化短序列局部片段相似性度量的方法,以准确识别短串联重复序列;其次,对短序列进行k-mer编码并与GWAS Catalog数据库...