Bioinformatics

Awesome Bioinformatics Awesome URL Check TOC

>生物信息学是一个跨学科领域,致力于开发用于理解生物学数据的方法和软件工具. — Wikipedia

精选的生物信息学软件,资源和库的精选列表. 主要基于命令行,免费或开源. 请随意 contribute!


Package suites

软件包套件收集用于特定语言或平台的软件包和安装工具. 我们有一些生物信息学软件.

Data Tools

  • GGD -获取数据; 用于获取基因组数据的命令行界面. [ web ]
  • SRA-Explorer-轻松获得SRA下载链接和其他信息. [ web ]

Data Processing

Command Line Utilities

  • Bioinformatics One Liners-有用的单行命令的Git回购.
  • BioNode-模块化和通用生物信息学,Bionode为生物信息学分析工作流提供了可移植的UNIX命令行工具和JavaScript API. [ web ]
  • bioSyntax-vim / less / gedit / sublime中的计算生物学文件格式(SAM,VCF,GTF,FASTA,PDB等)的语法突出显示. [ paper-2018 | web ]
  • CSVKit-使用CSV /制表符分隔文件的实用程序. [ web ]
  • csvtk-另一个跨平台,高效,实用且美观的CSV / TSV工具包. [ web ]
  • datamash-数据转换和统计. [ web ]
  • easy_qsub -使用脚本模板轻松提交PBS作业. 支持多个输入文件. - GNU Parallel -通用并行器,可在一台多核计算机上并行运行作业. Here 是一些使用GNU Parallel的示例脚本. [ web ]
  • grabix-一种随机访问BGZF文件的工具.
  • gsort-根据指定顺序对基因组文件进行排序.
  • tabix-表文件索引. [ paper-2011 ]
  • wormtable-大型数据集的一次写入多次读取表.
  • zindex-在压缩的文本文件上创建索引.

Next Generation Sequencing

Workflow Managers

  • BigDataScript-一种跨系统脚本语言,用于处理具有不同大小和功能的计算机系统中的大数据管道. [ paper-2014 | web ]
  • Bpipe-一种用于定义管道阶段并将它们链接在一起以构成管道的小语言. [ web ]
  • Common Workflow Language-用于描述分析工作流和工具的规范,该分析工作流和工具可在从工作站到群集,云和高性能计算(HPC)环境的各种软件和硬件环境中移植和扩展. [ web ]
  • Cromwell-针对科学工作流程的工作流程管理系统. [ web ]
  • Galaxy -流行的基于Web的开源平台,用于数据密集型生物医学研究. 具有从数据分析到工作流管理再到可视化工具的多种功能. [ paper-2018 | web ]
  • Nextflow (推荐)-围绕UNIX管道概念建模的流畅DSL,可简化以可移植方式编写并行和可扩展管道的过程. [ paper-2018 | web ]
  • Ruffus-适用于python的计算管道库,在科学和生物信息学中广泛使用. [ paper-2010 | web ]
  • SeqWare-基于Hadoop Oozie的工作流系统,专注于云环境中的基因组数据分析. [ paper-2010 | web ]
  • Snakemake-Python中的工作流管理系统,旨在通过提供快速舒适的执行环境来降低创建工作流的复杂性. [ paper-2018 | web ]
  • Workflow Descriptor Language-由Broad开发的工作流程标准. [ web ]

Pipelines

  • Awesome-Pipeline-管道资源列表.
  • bcbio-nextgen-电池包括用于变异和RNA-Seq分析的基因组分析管道,结构变异调用,注释和预测. [ web ]
  • R-Peridot-使用直观的GUI进行差异表达分析的可定制管道. [ web ]

Sequence Processing

序列处理包括诸如对原始读取数据进行多路分解和修剪低质量碱基之类的任务.

  • AfterQC-fastq数据的自动过滤,修剪,错误消除和质量控制. [ paper-2017 ]
  • FastQC-用于高通量序列数据的质量控制工具. [ web ]
  • Fastqp-使用Python的FASTQ和SAM质量控制.
  • Fastx Tookit-FASTQ / A简要介绍了预处理工具:多路分解,修剪,剪切,质量过滤和掩蔽实用程序. [ web ]
  • MultiQC-将许多样品的生物信息学分析结果汇总到一个报告中. [ paper-2016 | web ]
  • SeqKit-用于Golang中的FASTA / Q文件操作的跨平台和超快速工具包. [ paper-2016 | web ]
  • seqmagick-以方便的方式在Biopython中进行文件格式转换. [ web ]
  • Seqtk-用于处理FASTA / Q格式序列的工具包.
  • smof-UNIX风格的FASTA操作工具.

Data Analysis

通过引入专门的数据库,以下各项可进行可扩展的基因组分析.

  • Hail-可扩展的基因组分析.
  • GLNexus-可扩展的gVCF合并和联合变量调用,以进行人口测序项目. [ paper-2018 ]

Sequence Alignment

Pairwise

  • Bowtie 2-一种超快速且高效存储的工具,可将测序读数与长参考序列进行比对. [ paper-2012 | web ]
  • BWA-用于DNA序列之间成对比对的Burrow-Wheeler Aligner.
  • WFA-波前对齐算法(WFA),它利用序列相似性来加快对齐速度 [ paper-2020 ]
  • Parasail-用于全局,半全局和局部成对序列比对的SIMD C库 [ paper-2016 ]
  • MUMmer-用于快速比对完整或草图形式的整个基因组的系统. [ paper-1999 | paper-2002 | paper-2004 | web ]

Multiple Sequence Alignment

  • POA-部分顺序比对,用于多个同源序列的快速比对和共有. [ paper-2002 ]

Quantification

  • Cufflinks-袖扣可收集转录本,估算其丰度,并测试RNA-Seq样品中的差异表达和调控. [ paper-2010 ]
  • RSEM-用于从RNA-Seq数据估计基因和同工型表达水平的软件包. [ paper-2011 | web ]

Variant Calling

  • freebayes-基于贝叶斯单元型的多态性发现和基因分型. [ web ]
  • GATK-高通量测序数据中的变异发现. [ web ]
  • samtools-一套用于处理下一代测序数据的工具. [ paper-2009 | web ]

Structural variant callers

  • Delly-通过整合的配对末端和拆分阅读分析发现结构变异. [ paper-2012 ]
  • lumpy-块状:用于结构变异发现的一般概率框架. [ paper-2014 ]
  • manta-用于映射测序数据的结构变体和indel调用者. [ paper-2015 ]
  • gridss-GRIDSS:基因组重排识别软件套件. [ paper-2017 ]
  • smoove-使用现有工具进行结构变异调用和基因分型,但是很顺利.

BAM File Utilities

  • Bamtools-用于处理BAM文件的工具集合. [ paper-2011 ]
  • bam toolbox MtDNA:核覆盖; BAM Toolbox可以输出线粒体含量的代理MtDNA:nuclear coverage的比率.
  • mergesam-自动执行常见的SAM和BAM转换.
  • mosdepth-用于WGS,外显子组或靶向测序的快速BAM / CRAM深度计算. [ paper-2017 ]
  • SAMstat - Displaying sequence statistics for next-generation sequencing. [ paper-2010 | web ]
  • Somalier-对BAM / CRAM / VCF / GVCF进行快速的样本交换和相关性检查. [ paper-2020 ]
  • Telseq-Telseq是一种从整个基因组序列数据估算端粒长度的工具. [ paper-2014 ]

VCF File Utilities

GFF BED File Utilities

Variant Simulation

  • Bam Surgeon-用于将突变添加到现有.bam文件中的工具,用于测试突变调用者. [ web ]
  • wgsim- samtools附带!-读取模拟器. [ web ]

Variant Prediction/Annotation

Python Modules

Data

Tools

Visualization

Genome Browsers / Gene Diagrams

以下工具可用于可视化基因组数据或构建基因组数据的自定义可视化,包括来自DNA-Seq,RNA-Seq和ChIP-Seq,变体等的序列数据.

  • Squiggle-易于使用的DNA序列可视化工具,可将FASTA文件转换为基于浏览器的可视化. [ paper-2018 | web ]
  • biodalliance -可嵌入的基因组查看器. 来自各种来源的集成数据,并且可以直接从流行的基因组文件格式(包括bigWig,BAM和VCF)加载数据. [ paper-2011 | web ]
  • BioJS-BioJS是一个包含数百个JavaScript组件的库,使您可以使用当前的网络技术来可视化和处理数据. [ paper-2014 | web ]
  • Circleator-使用BioPerl和SVG对基因组相关数据进行灵活的循环可视化. [ paper-2014 ]
  • DNAism-基于Horizo​​n chart D3的JavaScript库,用于DNA数据. [ paper-2016 | web ]
  • IGV js -基于Java的浏览器. 快速,高效,可扩展的可视化工具,用于基因组数据和注释. 处理多种格式. [ paper-2019 | web ]
  • Island Plot -基于D3 JavaScript的基因组查看器. 构造SVG. [ paper-2015 ]
  • JBrowse-可通过插件和跟踪自定义进行高度自定义的JavaScript基因组浏览器. [ paper-2016 | web ]
  • PHAT-点选式跨平台套件,用于分析和可视化下一代测序数据集. [ paper-2018 | web ]
  • pileup.js-JavaScript库,可用于生成交互式且高度可定制的基于Web的基因组浏览器. [ paper-2016 ]
  • scribl-JavaScript库,用于绘制基于画布的基因图. [ paper-2012 | web ] - Lucid Align -一种现代的序列比对查看器. [ web ]

Database Access

Resources

Becoming a Bioinformatician

Bioinformatics on GitHub

Sequencing

  • Next-Generation Sequencing Technologies - Elaine Mardis (2014) [1:34:35]-下一代和第三代测序技术的出色(技术)概述,以及在癌症研究中的某些应用.
  • Annotated bibliography of *Seq assays -约100篇论文,涉及从转录到可转座因子发现的各种测序技术和测定.
  • For all you seq... (PDF) (3456x5471)-Illumina的大规模信息图,阐明了多少种测序技术起作用. 技术涵盖蛋白质-蛋白质相互作用,RNA转录,RNA-蛋白质相互作用,RNA低水平检测,RNA修饰,RNA结构,DNA重排和标记,DNA低水平检测,表观遗传学和DNA-蛋白质相互作用. 包括参考.

RNA-Seq

ChIP-Seq

YouTube Channels and Playlists

  • Current Topics in Genome Analysis 2016 -在NIH举行的十四次精彩系列讲座,内容涉及基因组学的当前主题,从序列分析到测序技术,甚至还有更多翻译主题,例如基因组医学.
  • GenomeTV -“ GenomeTV是NHGRI官方视频资源的集合,包括演讲,新闻纪录片,会议的完整视频集,这些视频集涉及基因组研究的研究,问题和临床应用.”
  • Leading Strand -冷泉港实验室(CSHL)会议的主题演讲. 更多关于 The Leading Strand.
  • Genomics, Big Data and Medicine Seminar Series -“我们的研讨会专门针对GBM的关键交叉领域,深入研究将深刻塑造未来的'出血边缘'技术和方法.”
  • Rafael Irizarry's Channel -Rafael Irizarry博士关于基因组统计的讲座和学术讲座.
  • NIH VideoCasting and Podcasting -“ NIH VideoCast通过互联网向全世界的观众直播研讨会,会议和会议,作为实时流视频.” 不仅是基因组学和生物信息学视频,而且还有许多关于特定领域的生物信息学和基因组学使用的精彩演讲.

Blogs

  • ACGT -基思·布拉德南(Keith Bradnam)博士写道:“关于生物学,基因组学以及假生物使用丙烯醛的假冒对人类的持续威胁的思想”.
  • Opiniomics -Mick Watson博士撰写有关生物信息学,基因组和生物学的文章.
  • Bits of DNA - Dr. Lior Pachter writes review and commentary on computational biology.
  • it is NOT junk -迈克尔·艾森(Michael Eisen)博士撰写了“关于基因组,DNA,进化,开放科学,棒球和其他重要事物的博客”

Miscellaneous

Online networking groups

License

CC0