震撼!华大LUSH基因序列比对加速工具集再次突破计算极限!
金连文章网 时间:2025-05-08 01:17:37
2017年5月 ,19岁的这个世界围棋第从另一个人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败 ,这另有 人类进化顶尖高手与这台机器群体之群体之间然后三次较量 ,同年10月 《Nature》杂志发表了达到它所有内容也有版本的AlphaGo Zero。在一重大成效向这个世界展示了推动建立运行系统来于 学无法完成 复杂工作任务的截至目前的性 ,而其背后所代表细分行业另有 运算能力不足 ,是计算机科学的分支有关领域--高性能计算(High Performance Computing) ,截至目前的际应用另有他成 了国家的综合综合实力的体现 ,更给多数人 的日常恰恰生活 将给了发生变化自己 ,截至目前该技术方面已在航空航天、核试验模拟、天气预报、我的生命科学、高新制造(汽车、微电子)等有关领域重大成效了广泛应用。
以我的生命科学有关领域举例 ,逐渐我的生命遗传密码(基因组)的逐渐破解 ,人的生老病死在一复杂一一件事 很也有用数字化的多种途径具体完整信息 呈现 ,以期无法完成 疾病的精准综合分析、诊断和治疗后 ,让多数人 远离传感染疾病、防控出生缺陷、肿瘤和心脑血管疾病 ,得到全面提升人均预期寿命 ,并大幅度得到全面提升社会整体卫生总负担。
近二十年来 ,从另一个人全基因组测序的成本以“超摩尔定律”的其速度下降 ,而高性能计算在测序数据全面综合分析其他方向的应用也会发生了翻天覆地的发生变化自己。截至目前这个世界主流的基因组测序数据全面综合分析工具是Broad Institute开发的免费开源工具集GATK(Genome Analysis Toolkit) ,该项我的生命科学有关领域公认的最佳目前工作 流程无法完成 是从另一个人的全基因组(Whole Genome Sequencing ,WGS)30X数据全面综合分析很也有1800分钟。深耕于基因组学20多年的华大基因在基因组高性能计算有关领域赢得突破性进展 ,于近日重大成效成功无法完成 6分钟无法完成 30X WGS全流程的综合分析工作任务 ,相较于GATK具体标准计算时长提速300倍。
依照NIH公布的最新资料 ,逐渐测序技术方面的发展中 ,测序成本以超摩尔定律下
https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data
6分钟无法完成 30X WGS工作任务是由华大基因自主研发的LUSH工具集无法完成 的 ,打破了该各类软件在2020年1月创造的15分钟极限其速度。另有的黑科技恰恰选用了全重新底层架构选用 ,实际需求提供了概念基础中央去处理器和图形去处理器相有机结合实施基因数据全面综合分析的高性能其速度方案 ,在得到全面提升集群计算资源消耗、得到全面提升检出其速度的另有 ,无法完成 了全程自动化、完整信息 化 ,有记录可回溯 ,很也有更多地用于精准医学的应用场景。
LUSH工具集其速度的重新底层架构逻辑
LUSH工具集实际需求提供在两种“CPU+GPU”的高并行软硬件之外解决问题方案 ,概念基础经典流程当中各类软件模块BWA、SAMTOOLS和GATK ,多种途径GPU的通用运算技术方面 ,实施计算引擎和其速度引擎的重新架构选用 ,无法完成 算法优化和并行化去处理 ,并有机结合华大自主研发的超高通量测序仪 ,无法完成 碱基数据全面流的超高速综合分析 ,然后赢得准确的综合分析然后。
LUSH工具集其速度流程示意图
恰恰截至目前的我的生命数字化进程很也有严谨的科学个人精神 ,而其应用场景再就 体截至目前的精准医疗、健康管理等与人类进化健康也有息息有关的有关领域 ,截至目前的所不同于之外高性能计算有关领域 ,基因组数据全面综合分析对精度有极高也有的要求。而截至目前的高性能和准确性根本不 可也有兼得 ,数据全面空间范围、分布和浮点精度、峰值性能和内存就会影响很大算法的选择选择 ,也有涉及到唯二最优解和近似解的算法截至目前的大相径庭。LUSH工具集恰恰实施在经典流程算法的概念基础上多种途径了其重新选用的底层架构推动大大减少了中间部分然后的读写 ,并多种途径CPU无法完成 基因综合分析工作任务的智能分发 ,多种途径GPU数千计算核心无法完成 百万工作任务的极速并行去处理 ,另有之外解决问题了经典流程计算密度较高、频繁地存储器访问等之外解决问题 ,经多测试其具体标准品的准确性然后与经典流程一致 ,达到99.86% ,也有其很也有在计算然后的准确性与极速性上得以平衡。
更优越的性能、更低的成本和更高效的检出是所有内容高性能计算应用有关领域的研发追求一个目标。对其速度组件的持续下降研发来于 对其速度无止境的追求 ,正如智能手机芯片细分行业的发展中是逐渐移动端实际需求的旺盛 ,技术方面才得以逐渐地迭代和进步。从基因组学概念基础研究者到临床研究者及应用 ,无法完成 测序工具的自主可控的另有也很也有无法完成 数学方式多上和自主研发 ,而不截至目前的追求芯片的底层下潜开发。对后者是无止境的追求 ,而有且前者也有的可控还要无法完成 从跟随模仿到有且超越的截至目前的 ,从核心算法的研发上助力国的精准医疗自主可控的发展中进程。
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。