Bioinformatics

Awesome Bioinformatics Awesome URL Check TOC

> 生物信息学是一个跨学科领域,开发用于理解生物数据的方法和软件工具. — Wikipedia

精选的生物信息学软件、资源和库列表. 主要基于命令行,免费或开源. 请随意 contribute!


Package suites

软件包套件收集特定语言或平台的软件包和安装工具. 我们有一些生物信息学软件.

  • Bioconductor - 用于分析和理解高通量基因组数据的大量工具,包括 1500 多个软件包. [ paper-2004 | web ]

  • Biopython - 免费提供的 Python 生物计算工具,包括说明书、包装和详尽的文档. 的一部分 Open Bioinformatics Foundation . 包含非常有用 Entrez package for API access to the NCBI databases. [ paper-2009 | web ]

  • Bioconda - 一个频道 conda package manager 专注于生物信息学软件. 包括一个存储库,其中包含 3000 多个可立即安装(使用“conda install”)生物信息学包. [ paper-2018 | web ]

  • BioJulia - Julia 编程语言的生物信息学和计算生物学基础设施. [ web ]

  • Rust-Bio - 对生物信息学有用的算法和数据结构的 Rust 实现. [ paper-2016 ]
  • SeqAn - 用于序列分析的现代 C++ 库.
  • (Poly)merase - 用于工程生物的 Go 库和命令行实用程序.

Data Tools

  • GGD - 去获取数据; 用于获取基因组数据的命令行界面. [ web ]
  • SRA-Explorer - 轻松获取 SRA 下载链接和其他信息. [ web ]

Data Processing

Command Line Utilities

  • Bioinformatics One Liners - 有用的单行命令的 Git 存储库.
  • BioNode - 模块化和通用的生物信息学,Bionode 为生物信息学分析工作流提供可管道化的 UNIX 命令行工具和 JavaScript API. [ web ]
  • bioSyntax - vim/less/gedit/sublime 中计算生物学文件格式(SAM、VCF、GTF、FASTA、PDB 等)的语法突出显示. [ paper-2018 | web ]
  • CSVKit - 用于处理 CSV/制表符分隔文件的实用程序. [ web ]
  • csvtk - 另一个跨平台、高效、实用且漂亮的 CSV/TSV 工具包. [ web ]
  • datamash - 数据转换和统计. [ web ]
  • easy_qsub - 使用脚本模板轻松提交 PBS 作业. 支持多个输入文件.
  • GNU Parallel - 在单个多核机器上并行运行作业的通用并行器. Here 是一些使用 GNU Parallel 的示例脚本. [ web ]
  • grabix - 用于随机访问 BGZF 文件的小工具.
  • gsort - 根据指定的顺序对基因组文件进行排序.
  • tabix - 表文件索引. [ paper-2011 ]
  • wormtable - 大型数据集的一次写入多次读取表.
  • zindex - 在压缩文本文件上创建索引.

Next Generation Sequencing

Workflow Managers

  • BigDataScript - 一种跨系统脚本语言,用于在不同规模和功能的计算机系统中处理大数据管道. [ paper-2014 | web ]
  • Bpipe - 一种用于定义流水线阶段并将它们链接在一起以形成流水线的小语言. [ web ]
  • Common Workflow Language - 用于描述分析工作流和工具的规范,这些工作流和工具在各种软件和硬件环境中可移植和可扩展,从工作站到集群、云和高性能计算 (HPC) 环境. [ web ]
  • Cromwell - 一个面向科学工作流的工作流管理系统. [ web ]
  • Galaxy - 一个流行的开源、基于网络的数据密集型生物医学研究平台. 具有多种功能,从数据分析到工作流管理再到可视化工具. [ paper-2018 | web ]
  • Nextflow (推荐) - 围绕 UNIX 管道概念建模的流畅 DSL,它以可移植的方式简化了并行和可扩展管道的编写. [ paper-2018 | web ]
  • Ruffus - 广泛用于科学和生物信息学的 Python 计算管道库. [ paper-2010 | web ]
  • SeqWare - 基于 Hadoop Oozie 的工作流系统,专注于云环境中的基因组学数据分析. [ paper-2010 | web ]
  • Snakemake - Python 中的工作流管理系统,旨在通过提供快速舒适的执行环境来降低创建工作流的复杂性. [ paper-2018 | web ]
  • Workflow Descriptor Language - Broad 开发的工作流标准. [ web ]

Pipelines

  • Awesome-Pipeline - 管道资源列表.
  • Bactopia - 使用 Nextflow 构建的灵活管道,用于完整分析细菌基因组. [ web ]
  • bcbio-nextgen - 电池包括用于变异和 RNA-Seq 分析、结构变异调用、注释和预测的基因组分析管道. [ web ]
  • R-Peridot - 使用直观的 GUI 进行差异表达分析的可定制管道. [ web ]
  • ngs-preprocess - 用于预处理短和长测序读取的管道,使用 Nextflow 构建. [ web ]

Sequence Processing

序列处理包括多路分解原始读取数据和修剪低质量碱基等任务.

  • AfterQC - fastq 数据的自动过滤、修整、错误消除和质量控制. [ paper-2017 ]
  • FastQC - 高通量序列数据的质量控制工具. [ web ]
  • Fastqp - 使用 Python 的 FASTQ 和 SAM 质量控制.
  • Fastx Tookit - FASTQ/A 短读预处理工具:解复用、修剪、剪辑、质量过滤和屏蔽实用程序. [ web ]
  • MultiQC - 将多个样本的生物信息学分析结果汇总到一份报告中. [ paper-2016 | web ]
  • SeqFu - 用 Nim 编写的 FASTA/FASTQ 文件的序列操作工具包. [ paper-2021 | web ]
  • SeqKit - Golang 中用于 FASTA/Q 文件操作的跨平台和超快工具包. [ paper-2016 | web ]
  • seqmagick - 在 Biopython 中以一种方便的方式进行文件格式转换. [ web ]
  • Seqtk - 用于处理 FASTA/Q 格式序列的工具包.
  • smof - UNIX 风格的 FASTA 操作工具.

Data Analysis

以下项目允许通过引入专门的数据库进行可扩展的基因组分析.

  • Hail - 可扩展的基因组分析.
  • GLNexus - 用于群体测序项目的可扩展 gVCF 合并和联合变异调用. [ paper-2018 ]

Sequence Alignment

Pairwise

  • Bowtie 2 - 用于将测序读数与长参考序列对齐的超快且内存高效的工具. [ paper-2012 | web ]
  • BWA - Burrow-Wheeler Aligner 用于 DNA 序列之间的成对比对.
  • WFA - 波前比对算法 (WFA),它利用序列相似性来加速比对 [ paper-2020 ]
  • Parasail - 用于全局、半全局和局部成对序列比对的 SIMD C 库 [ paper-2016 ]
  • MUMmer - 用于快速比对整个基因组的系统,无论是完整的还是草图的. [ paper-1999 | paper-2002 | paper-2004 | web ]

Multiple Sequence Alignment

  • POA - 用于多个同源序列的快速比对和共识的部分顺序比对. [ paper-2002 ]

Clustering

Quantification

  • Cufflinks - Cufflinks 组装转录本,估计其丰度,并测试 RNA-Seq 样本中的差异表达和调控. [ paper-2010 ]
  • RSEM - 用于从 RNA-Seq 数据估计基因和同种型表达水平的软件包. [ paper-2011 | web ]

Variant Calling

  • DeepVariant - 基于深度学习的变体调用程序 [ paper-2018 ]
  • freebayes - 基于贝叶斯单倍型的多态性发现和基因分型. [ web ]
  • GATK - 高通量测序数据中的变异发现. [ web ]
  • Octopus - 具有广泛适用性的多态贝叶斯基因分型模型. [ paper-2021 ]
  • bcftools - samtools/bcftools 是一套用于处理 NGS 数据的工具,可用于调用变体. [ paper-2009 | web ]

Structural variant callers

  • Delly - 通过集成的双端和拆分读取分析发现结构变异. [ paper-2012 ]
  • lumpy - 块状:结构变异发现的一般概率框架. [ paper-2014 ]
  • manta - 映射测序数据的结构变体和插入缺失调用程序. [ paper-2015 ]
  • gridss - GRIDSS:基因组重排识别软件套件. [ paper-2017 ]
  • smoove - 使用现有工具进行结构变体检测和基因分型,但很顺利.

BAM File Utilities

  • Bamtools - 用于处理 BAM 文件的工具集合. [ paper-2011 ]
  • bam toolbox MtDNA:核覆盖率; BAM Toolbox 可以输出 MtDNA 的比率:核覆盖率,代表线粒体含量.
  • mergesam - 自动化常见的 SAM 和 BAM 转换.
  • mosdepth - 用于 WGS、外显子组或靶向测序的快速 BAM/CRAM 深度计算. [ paper-2017 ]
  • SAMstat - 显示下一代测序的序列统计信息. [ paper-2010 | web ]
  • Somalier - BAMs/CRAMs/VCFs/GVCFs 的快速样本交换和相关性检查. [ paper-2020 ]
  • Telseq - Telseq is a tool for estimating telomere length from whole genome sequence data. [ paper-2014 ]

VCF File Utilities

GFF BED File Utilities

Variant Simulation

  • Bam Surgeon - 用于向现有 .bam 文件添加突变的工具,用于测试突变调用者. [ web ]
  • wgsim - 带有 samtools! - 读取模拟器. [ web ]

Variant Prediction/Annotation

Python Modules

Data

Tools

Assembly

  • SPAdes - SPAdes(圣彼得堡基因组组装器)是一个组装工具包,包含各种组装管道和原核基因组组装的事实上的标准.
  • SKESA - SKESA 是微生物基因组的从头序列读取组装器. 它使用保守的启发式方法,旨在在基因组中的重复区域创建中断. 这导致出色的序列质量,而不会显着影响连续性.

Annotation

  • Prokka - Prokka:快速原核基因组注释. Prokka 是被引用最多的微生物基因组注释注释命令行工具之一.
  • Bakta - Bakta 是一种用于对细菌基因组和质粒进行快速和标准化注释的工具. 它以机器可读的 JSON 和生物信息学标准文件格式提供富含 dbxref 和 sORF 的注释,用于自动下游分析.

Long-read sequencing

Long-read Assembly

  • canu - 用于大小基因组的单分子序列组装器.
  • flye - 使用重复图进行单分子测序读取的从头组装器.
  • hifiasm - 用于准确 Hifi 读取的单倍型解析组装器.
  • wtdbg2 - 用于长噪声读取组装的模糊 Bruijn 图方法

Visualization

Genome Browsers / Gene Diagrams

以下工具可用于可视化基因组数据或构建基因组数据的自定义可视化,包括来自 DNA-Seq、RNA-Seq 和 ChIP-Seq、变体等的序列数据.

  • Squiggle - 易于使用的 DNA 序列可视化工具,可将 FASTA 文件转换为基于浏览器的可视化. [ paper-2018 | web ]
  • biodalliance - 嵌入式基因组查看器. 集成来自各种来源的数据,并且可以直接从流行的基因组学文件格式(包括 bigWig、BAM 和 VCF)加载数据. [ paper-2011 | web ]
  • BioJS - BioJS 是一个包含一百多个 JavaScript 组件的库,使您能够使用当前的 Web 技术可视化和处理数据. [ paper-2014 | web ]
  • Circleator - 使用 BioPerl 和 SVG 对基因组相关数据进行灵活的循环可视化. [ paper-2014 ]
  • DNAism - 用于 DNA 数据的基于 Horizo​​n 图表 D3 的 JavaScript 库. [ paper-2016 | web ]
  • IGV js - 基于 Java 的浏览器. 用于基因组数据和注释的快速、高效、可扩展的可视化工具. 处理多种格式. [ paper-2019 | web ]
  • Island Plot - 基于 D3 JavaScript 的基因组查看器. 构造 SVG. [ paper-2015 ]
  • JBrowse - JavaScript 基因组浏览器,可通过插件和跟踪定制进行高度定制. [ paper-2016 | web ]
  • PHAT - 用于分析和可视化下一代测序数据集的点击式跨平台套件. [ paper-2018 | web ]
  • pileup.js - JavaScript 库,可用于生成交互式和高度可定制的基于 Web 的基因组浏览器. [ paper-2016 ]
  • scribl - 用于绘制基于画布的基因图的 JavaScript 库. [ paper-2012 | web ]
  • Lucid Align - 现代序列比对查看器. [ web ]

Database Access

Resources

Becoming a Bioinformatician

Bioinformatics on GitHub

Sequencing

  • Next-Generation Sequencing Technologies - Elaine Mardis (2014) [1:34:35] - 对下一代和第三代测序技术的优秀(技术)概述,以及在癌症研究中的一些应用.
  • Annotated bibliography of *Seq assays - 大约 100 篇关于各种测序技术和分析的论文列表,从转录到转座因子发现.
  • For all you seq... (PDF) (3456x5471) - Illumina 的大量信息图,说明了有多少测序技术有效. 技术涵盖蛋白质-蛋白质相互作用、RNA 转录、RNA-蛋白质相互作用、RNA 低水平检测、RNA 修饰、RNA 结构、DNA 重排和标记、DNA 低水平检测、表观遗传学和 DNA-蛋白质相互作用. 包括参考文献.

RNA-Seq

ChIP-Seq

YouTube Channels and Playlists

  • Current Topics in Genome Analysis 2016 - 在 NIH 举办的 14 场精彩系列讲座,内容涉及基因组学的当前主题,从序列分析到测序技术,甚至更多的转化主题(如基因组医学).
  • GenomeTV - “GenomeTV 是 NHGRI 的官方视频资源集合,从讲座到新闻纪录片,再到处理基因组研究的研究、问题和临床应用的会议的完整视频集合.”
  • Leading Strand - 冷泉港实验室 (CSHL) 会议的主题演讲. 更多关于 The Leading Strand.
  • Genomics, Big Data and Medicine Seminar Series - “我们的研讨会致力于 GBM 的关键交叉点,深入研究将深刻塑造未来的‘前沿’技术和方法.”
  • Rafael Irizarry's Channel - Rafael Irizarry 博士关于基因组学统计的讲座和学术演讲.
  • NIH VideoCasting and Podcasting - “NIH VideoCast 以实时流媒体视频的形式通过互联网向全球观众直播研讨会、会议和会议.” 不仅是基因组学和生物信息学视频,还有许多关于生物信息学和基因组学领域特定用途的精彩演讲.

Blogs

  • ACGT - 基思·布拉德南 (Keith Bradnam) 博士写到“关于生物学、基因组学以及生物信息学首字母缩写词的虚假使用对人类持续威胁的思考”.
  • Opiniomics - Mick Watson 博士撰写了有关生物信息学、基因组和生物学的文章.
  • Bits of DNA - Lior Pachter 博士撰写有关计算生物学的评论和评论.
  • it is NOT junk - Michael Eisen 博士撰写了“关于基因组、DNA、进化、开放科学、棒球和其他重要事物的博客”

Miscellaneous

Online networking groups

License

CC0