融合过滤和相似度计算的高错误率基因组数据敏感序列识别
小型微型计算机系统
页数: 9 2022-05-13
摘要: 为解决现有算法难以有效识别高错误率测序数据中敏感序列的问题,提出一种融合过滤和相似度计算的敏感序列识别算法.首先,分割待识别序列为多条短序列,通过构建双布隆过滤器,对短序列进行动态过滤去重,以避免重复运算;然后,对短序列局部片段进行k-mer编码,改进优化短序列局部片段相似性度量的方法,以准确识别短串联重复序列;其次,对短序列进行k-mer编码并与GWAS Catalog数据库...