Skip to content

Bioinformatics

Awesome Bioinformatics Awesome Check URLs Generate TOC

> 生物信息学是一个跨学科领域,它开发用于理解生物数据的方法和软件工具. — Wikipedia

精选的生物信息学软件、资源和库列表. 主要基于命令行,免费或开源. 请随时 contribute!


Package suites

软件包套件收集特定语言或平台的软件包和安装工具. 我们有一些用于生物信息学的软件.

  • Bioperl - 用于生物信息学、基因组学和生命科学的开源 Perl 工具的用户和开发者国际协会. [ paper-2002 | web ]

  • Bioconductor - 大量用于分析和理解高通量基因组数据的工具,包括 1500 多个软件包. [ paper-2004 | web ]

  • **Biopython ** - 免费提供的 Python 生物计算工具,包括说明书、包装和详尽的文档. 的一部分 Open Bioinformatics Foundation . 包含非常有用 Entrez 用于访问 NCBI 数据库的 API 包. [ paper-2009 | web ]

  • Bioconda - 一个频道 conda package manager 专注于生物信息学软件. 包括一个存储库,其中包含 3000 多个可随时安装(使用 conda install)的生物信息学包. [ paper-2018 | web ]

  • BioJulia - Julia 编程语言的生物信息学和计算生物学基础设施. [ web ]

  • Rust-Bio - 对生物信息学有用的算法和数据结构的 Rust 实现. [ paper-2016 ]
  • SeqAn - 用于序列分析的现代 C++ 库.
  • (Poly)merase - 用于工程生物的 Go 库和命令行实用程序.
  • Biocaml - Biocaml 旨在成为生物信息学的高性能用户友好库.

Data Tools

Downloading

  • **GGD ** - 去获取数据; 用于获取基因组数据的命令行界面. [ web ]
  • SRA-Explorer - 轻松获取 SRA 下载链接和其他信息. [ web ]

Compressing

  • Genozip - 常见基因组文件格式(BAM、CRAM、FASTQ、VCF 等)的压缩器. [ web | paper-2021 ]

Data Processing

Command Line Utilities

  • Bioinformatics One Liners - 有用的单行命令的 Git 仓库.
  • BioNode - 模块化和通用生物信息学,Bionode 为生物信息学分析工作流程提供可管道化的 UNIX 命令行工具和 JavaScript API. [ web ]
  • bioSyntax - vim/less/gedit/sublime 中计算生物学文件格式(SAM、VCF、GTF、FASTA、PDB 等)的语法突出显示. [ paper-2018 | web ]
  • CSVKit - 用于处理 CSV/制表符分隔文件的实用程序. [ web ]
  • csvtk - 另一个跨平台、高效、实用且漂亮的 CSV/TSV 工具包. [ web ]
  • datamash - 数据转换和统计. [ web ]
  • **easy_qsub ** - 使用脚本模板轻松提交 PBS 作业. 支持多个输入文件.
  • GNU Parallel - 在单个多核机器上并行运行作业的通用并行器. Here 是一些使用 GNU Parallel 的示例脚本. [ web ]
  • grabix - 一个用于随机访问 BGZF 文件的小工具.
  • gsort - 根据指定顺序对基因组文件进行排序.
  • tabix - 表文件索引. [ paper-2011 ]
  • wormtable - 大型数据集的一次写入多次读取表.
  • zindex - 在压缩文本文件上创建索引.

Next Generation Sequencing

Workflow Managers

  • BigDataScript - 一种跨系统脚本语言,用于处理不同规模和功能的计算机系统中的大数据管道. [ paper-2014 | web ]
  • Bpipe - 一种用于定义流水线阶段并将它们链接在一起以制作流水线的小型语言. [ web ]
  • Common Workflow Language - 一种描述分析工作流程和工具的规范,这些工作流程和工具可移植并可扩展到各种软件和硬件环境,从工作站到集群、云和高性能计算 (HPC) 环境. [ web ]
  • Cromwell - 面向科学工作流程的工作流程管理系统. [ web ]
  • **Galaxy ** - 一个流行的开源、基于网络的平台,用于数据密集型生物医学研究. 具有多种功能,从数据分析到工作流管理再到可视化工具. [ paper-2018 | web ]
  • Nextflow (推荐) - 围绕 UNIX 管道概念建模的流畅 DSL,以可移植的方式简化了并行和可扩展管道的编写. [ paper-2018 | web ]
  • redun - 基于 python 的工作流管理器.
  • Ruffus - 广泛用于科学和生物信息学的 python 计算管道库. [ paper-2010 | web ]
  • SciPipe - 嵌入在 Go 编程语言中的工作流库,专注于支持复杂的工作流构造,编译为单个二进制文件,为每个输出提供强大的文件命名和全面的审计报告 [ paper-2019 | web ]
  • SeqWare - 基于 Hadoop Oozie 的工作流系统,专注于云环境中的基因组学数据分析. [ paper-2010 | web ]
  • Snakemake - Python 中的工作流管理系统,旨在通过提供快速舒适的执行环境来降低创建工作流的复杂性. [ paper-2018 | web ]
  • Workflow Descriptor Language - 由 Broad 开发的工作流程标准. [ web ]

Pipelines

  • Awesome-Pipeline - 管道资源列表.
  • Bactopia - 使用 Nextflow 构建的灵活管道,用于细菌基因组的完整分析. [ web ]
  • Bacannot - 一个通用但全面的细菌注释管道,使用 Nextflow 构建,具有用于调查结果的漂亮图形选项. [ web ]
  • bcbio-nextgen - 电池包括用于变体和 RNA-Seq 分析、结构变体调用、注释和预测的基因组分析管道. [ web ]
  • R-Peridot - 使用直观的 GUI 进行差异表达分析的可定制管道. [ web ]
  • ngs-preprocess - 用于预处理短序列和长序列读取的管道,使用 Nextflow 构建. [ web ]

Sequence Processing

序列处理包括诸如多路分解原始读取数据和修剪低质量碱基等任务.

  • AfterQC - fastq 数据的自动过滤、修剪、错误删除和质量控制. [ paper-2017 ]
  • FastQC - 用于高通量序列数据的质量控制工具. [ web ]
  • Fastqp - 使用 Python 的 FASTQ 和 SAM 质量控制.
  • Fastx Tookit - FASTQ/A short-reads 预处理工具:解复用、修剪、裁剪、质量过滤和屏蔽实用程序. [ web ]
  • MultiQC - 将多个样本的生物信息学分析结果汇总到一份报告中. [ paper-2016 | web ]
  • SeqFu - 用 Nim 编写的用于 FASTA/FASTQ 文件的序列操作工具包. [ paper-2021 | web ]
  • SeqKit - 在 Golang 中用于 FASTA/Q 文件操作的跨平台和超快工具包. [ paper-2016 | web ]
  • seqmagick - 在 Biopython 中以一种方便的方式进行文件格式转换. [ web ]
  • Seqtk - 用于处理 FASTA/Q 格式序列的工具包.
  • smof - UNIX 风格的 FASTA 操作工具.

Data Analysis

以下项目允许通过引入专门的数据库进行可扩展的基因组分析.

  • Hail - 可扩展的基因组分析.
  • GLNexus - 用于群体测序项目的可扩展 gVCF 合并和联合变体调用. [ paper-2018 ]

Sequence Alignment

Pairwise

  • Bowtie 2 - 一种超快且内存高效的工具,用于将测序读取与长参考序列对齐. [ paper-2012 | web ]
  • BWA - 用于 DNA 序列之间成对比对的 Burrow-Wheeler Aligner.
  • WFA - 波前比对算法 (WFA),它利用序列相似性来加速比对 [ paper-2020 ]
  • Parasail - 用于全局、半全局和局部成对序列比对的 SIMD C 库 [ paper-2016 ]
  • MUMmer - 一个用于快速比对整个基因组的系统,无论是完整的还是草稿形式. [ paper-1999 | paper-2002 | paper-2004 | web ]
  • DIAMOND - 一种超快蛋白质对齐器,用于类似搜索的“blastp”和“blastx”. [ paper-2021 ]

Multiple Sequence Alignment

  • POA - 用于多个同源序列的快速比对和共识的部分顺序比对. [ paper-2002 ]

Clustering

Quantification

  • Cufflinks - Cufflinks 组装转录本,估计它们的丰度,并测试 RNA-Seq 样本中的差异表达和调节. [ paper-2010 ]
  • RSEM - 用于从 RNA-Seq 数据估计基因和亚型表达水平的软件包. [ paper-2011 | web ]

Variant Calling

  • DeepVariant - 基于深度学习的变体调用者 [ paper-2018 ]
  • freebayes - 基于贝叶斯单倍型的多态性发现和基因分型. [ web ]
  • GATK - 高通量测序数据中的变体发现. [ web ]
  • Octopus - 具有广泛适用性的多态贝叶斯基因分型模型. [ paper-2021 ]
  • bcftools - samtools/bcftools 是一套用于操作 NGS 数据的工具,可用于调用变体. [ paper-2009 | web ]

Structural variant callers

  • Delly - 通过集成的配对末端和拆分读取分析发现结构变异. [ paper-2012 ]
  • lumpy - lumpy:结构变异发现的通用概率框架. [ paper-2014 ]
  • manta - 映射测序数据的结构变体和插入缺失调用者. [ paper-2015 ]
  • gridss - GRIDSS:基因组重排识别软件套件. [ paper-2017 ]
  • smoove - 使用现有工具进行结构变异检出和基因分型,但很顺利.

BAM File Utilities

  • Bamtools - 用于处理 BAM 文件的工具集合. [ paper-2011 ]
  • **bam toolbox ** MtDNA:核覆盖; BAM 工具箱可以输出 MtDNA 的比率:核覆盖率,代表线粒体含量.
  • mergesam - 自动执行常见的 SAM 和 BAM 转换.
  • mosdepth - 用于 WGS、外显子组或靶向测序的快速 BAM/CRAM 深度计算. [ paper-2017 ]
  • SAMstat - 显示下一代测序的序列统计信息. [ paper-2010 | web ]
  • Somalier - 对 BAM/CRAM/VCF/GVCF 进行快速样本交换和相关性检查. [ paper-2020 ]
  • Telseq - Telseq 是一种从全基因组序列数据中估算端粒长度的工具. [ paper-2014 ]

VCF File Utilities

GFF BED File Utilities

Variant Simulation

  • Bam Surgeon - 用于向现有 .bam 文件添加突变的工具,用于测试突变调用者. [ web ]
  • wgsim - 带有 samtools! - 读取模拟器. [ web ]

Variant Prediction/Annotation

  • SIFT - 预测氨基酸取代是否影响蛋白质功能. [ paper-2003 | web ]
  • SnpEff - 遗传变异注释和效应预测工具箱. [ paper-2012 | web ]
  • Ensembl VEP - VEP 确定您的变异(SNP、插入、缺失、CNV 或结构变异)对基因、转录本和蛋白质序列以及调控区域的影响. [ paper-2016 | web ]

Python Modules

Data

Tools

Assembly

  • SPAdes - SPAdes(圣彼得堡基因组组装器)是一个组装工具包,包含各种组装管道和原核基因组组装的事实标准.
  • **SKESA ** - SKESA 是一种用于微生物基因组的从头序列读取组装器. 它使用保守的启发式方法,旨在在基因组的重复区域创建中断. 这导致出色的序列质量,而不会显着损害连续性.

Annotation

  • **Prokka ** - Prokka:快速原核基因组注释. Prokka 是微生物基因组注释中引用最多的注释命令行工具之一.
  • Bakta - Bakta is a tool for the rapid & standardized annotation of bacterial genomes & plasmids. It provides dbxref-rich and sORF-including annotations in machine-readable JSON & bioinformatics standard file formats for automatic downstream analysis.

Long-read sequencing

Long-read Assembly

  • canu - 用于大基因组和小基因组的单分子序列组装器.
  • flye - 使用重复图进行单分子测序读取的从头组装器.
  • hifiasm - 用于准确 Hifi 读取的单倍型解析汇编器.
  • wtdbg2 - 一种用于长噪声读取组装的模糊 Bruijn 图方法

Visualization

Genome Browsers / Gene Diagrams

以下工具可用于可视化基因组数据或构建定制的基因组数据可视化,包括来自 DNA-Seq、RNA-Seq 和 ChIP-Seq、变体等的序列数据.

  • Squiggle - 易于使用的 DNA 序列可视化工具,可将 FASTA 文件转换为基于浏览器的可视化. [ paper-2018 | web ]
  • **biodalliance ** - 可嵌入的基因组查看器. 集成来自各种来源的数据,并可以直接从流行的基因组学文件格式(包括 bigWig、BAM 和 VCF)加载数据. [ paper-2011 | web ]
  • BioJS - BioJS 是一个包含一百多个 JavaScript 组件的库,使您能够使用当前的 Web 技术可视化和处理数据. [ paper-2014 | web ]
  • Circleator - 使用 BioPerl 和 SVG 对基因组相关数据进行灵活的循环可视化. [ paper-2014 ]
  • DNAism - 基于地平线图 D3 的 DNA 数据 JavaScript 库. [ paper-2016 | web ]
  • **IGV js ** - 基于 Java 的浏览器. 用于基因组数据和注释的快速、高效、可扩展的可视化工具. 处理多种格式. [ paper-2019 | web ]
  • **Island Plot ** - 基于 D3 JavaScript 的基因组查看器. 构建 SVG. [ paper-2015 ]
  • JBrowse - JavaScript 基因组浏览器,可通过插件和轨道定制进行高度定制. [ paper-2016 | web ]
  • PHAT - 用于分析和可视化下一代测序数据集的点击式跨平台套件. [ paper-2018 | web ]
  • pileup.js - JavaScript 库,可用于生成交互式和高度可定制的基于 Web 的基因组浏览器. [ paper-2016 ]
  • scribl - JavaScript library for drawing canvas-based gene diagrams. [ paper-2012 | web ]
  • Lucid Align - 现代序列比对查看器. [ web ]

Database Access

Resources

Becoming a Bioinformatician

Bioinformatics on GitHub

Sequencing

  • Next-Generation Sequencing Technologies - Elaine Mardis (2014) [1:34:35] - 对下一代和第三代测序技术的出色(技术)概述,以及在癌症研究中的一些应用.
  • Annotated bibliography of *Seq assays - 约 100 篇关于从转录到转座因子发现的各种测序技术和分析的论文列表.
  • For all you seq... (PDF) (3456x5471) - Illumina 的大量信息图,说明有多少种测序技术有效. 技术涵盖蛋白质-蛋白质相互作用、RNA 转录、RNA-蛋白质相互作用、RNA 低水平检测、RNA 修饰、RNA 结构、DNA 重排和标记、DNA 低水平检测、表观遗传学和 DNA-蛋白质相互作用. 包括参考资料.

RNA-Seq

ChIP-Seq

YouTube Channels and Playlists

  • Current Topics in Genome Analysis 2016 - 在 NIH 举办的 14 场精彩系列讲座,内容涉及基因组学的当前主题,从序列分析到测序技术,甚至更多的转化主题,如基因组医学.
  • GenomeTV - “GenomeTV 是 NHGRI 的官方视频资源集,从讲座到新闻纪录片,再到处理基因组研究的研究、问题和临床应用的会议的完整视频集.”
  • Leading Strand - 冷泉港实验室 (CSHL) 会议的主题演讲. 更多关于 The Leading Strand.
  • Genomics, Big Data and Medicine Seminar Series - “我们的研讨会致力于 GBM 的关键交叉点,深入研究将深刻塑造未来的‘前沿’技术和方法.”
  • Rafael Irizarry's Channel - Rafael Irizarry 博士关于基因组学统计的讲座和学术讲座.
  • NIH VideoCasting and Podcasting - “NIH VideoCast 以实时流媒体视频的形式通过 Internet 向全球观众直播研讨会、大会和会议.” 不仅仅是基因组学和生物信息学视频,还有许多关于生物信息学和基因组学领域特定用途的精彩演讲.

Blogs

  • ACGT - 基思·布拉德南 (Keith Bradnam) 博士写道:“关于生物学、基因组学的思考,以及生物信息学首字母缩略词的滥用对人类的持续威胁.”
  • Opiniomics - Mick Watson 博士撰写有关生物信息学、基因组和生物学的文章.
  • Bits of DNA - Lior Pachter 博士撰写有关计算生物学的评论和评论.
  • it is NOT junk - Michael Eisen 博士撰写了“关于基因组、DNA、进化、开放科学、棒球和其他重要事物的博客”
  • #!/perl/bioinfo - EEAD-CSIC 的计算和结构生物学小组用西班牙语和英语撰写关于植物基因组学、计算和结构生物学问题的想法和代码.

Miscellaneous

Online networking groups

License

CC0