Bioinformatics

很棒的生物信息学 Awesome Build Status ======================

>生物信息学是一个跨学科领域,致力于开发用于理解生物学数据的方法和软件工具. - Wikipedia

精选的很棒的生物信息学软件,资源和库的列表. 主要基于命令行,免费或开源. 请随意 contribute!


Package suites

软件包套件收集用于特定语言或平台的软件包和安装工具. 我们有一些生物信息学软件.

Bioconductor

  • Bioconductor - A plethora of tools for analysis and comprehension of high-throughput genomic data, including 1500+ software packages.

Biopython

Bioconda

  • Bioconda-的频道 conda package manager 专业从事生物信息学软件. 包括一个存储库,该存储库包含3000多个随时可安装(带有conda install)生物信息学软件包.

Data Processing

Command Line Utilities

  • Bioinformatics One Liners-有用的单行命令的Git存储库.
  • BioNode-模块化和通用的生物信息学,Bionode为生物信息学分析工作流提供了可移植的UNIX命令行工具和JavaScript API.
  • bioSyntax-vim / less / gedit / sublime中的计算生物学文件格式(SAM,VCF,GTF,FASTA,PDB等)的语法突出显示.
  • CSVKit-处理CSV /制表符分隔文件的实用程序.
  • csvtk-另一个跨平台,高效,实用且美观的CSV / TSV工具包.
  • datamash-数据转换和统计.
  • __easy_qsub -使用脚本模板轻松提交PBS作业. 支持多个输入文件.
  • GNU parallel-通用并行器,可在一台多核计算机上并行运行作业. Here 一些使用GNUparallel的示例脚本.
  • grabix-随机存取BGZF文件的工具.
  • tabix-表文件索引.
  • wormtable-大型数据集的一次写入多次读取表.
  • zindex-在压缩的文本文件上创建索引.

Next Generation Sequencing

Workflow Managers

  • BigDataScript-一种跨系统脚本语言,用于处理具有不同大小和功能的计算机系统中的大数据管道.
  • Bpipe-一种用于定义管道阶段并将它们链接在一起以构成管道的小语言.
  • Common Workflow Language-用于描述分析工作流和工具的规范,该分析工作流和工具在从工作站到集群,云和高性能计算(HPC)环境的各种软件和硬件环境中均可移植并且可伸缩.
  • Cromwell-面向科学工作流程的工作流程管理系统.
  • __Galaxy -流行的基于Web的开放源代码平台,用于数据密集型生物医学研究. 具有从数据分析到工作流管理再到可视化工具的多种功能.
  • __GATK Queue_-流水线系统可以与GATK以及其他高通量序列分析软件一起使用.
  • Nextflow (recommended) - A fluent DSL modelled around the UNIX pipe concept, that simplifies writing parallel and scalable pipelines in a portable manner.
  • Ruffus-适用于科学和生物信息学的python计算管道库.
  • SeqWare-基于Hadoop Oozie的工作流系统,专注于云环境中的基因组数据分析.
  • Snakemake-Python中的工作流管理系统,旨在通过提供快速,舒适的执行环境来降低创建工作流的复杂性.
  • Workflow Descriptor Language-由Broad开发的工作流程标准.

Pipelines

  • Awesome-Pipeline-管道资源列表.
  • __bcbio-nextgen_-电池包括用于变异和RNA-Seq分析的基因组分析管道,结构变异调用,注释和预测.
  • R-Peridot-可通过直观的GUI进行差异表达分析的可定制管道.

Sequence Processing

序列处理包括诸如对原始读取数据进行多路分解和修剪低质量碱基之类的任务.

  • AfterQC-fastq数据的自动过滤,修剪,错误消除和质量控制
  • FastQC-用于高通量序列数据的质量控制工具.
  • Fastqp-使用Python进行FASTQ和SAM质量控制.
  • Fastx Tookit-FASTQ / A简要介绍了预处理工具:多路分解,修剪,剪切,质量过滤和掩蔽实用程序.
  • MultiQC-将许多样品的生物信息学分析结果汇总到一个报告中.
  • SeqKit-Golang中用于FASTA / Q文件操作的跨平台和超快速工具包.
  • seqmagick-以方便的方式在Biopython中进行文件格式转换
  • Seqtk-用于处理FASTA / Q格式的序列的工具包.
  • smof-UNIX风格的FASTA操作工具.

Sequence Alignment

新对齐

DNA重测序

  • Bowtie 2-一种超快速且高效存储的工具,用于将测序读数与长参考序列进行比对.
  • __BWA_-Burrow-Wheeler Aligner用于DNA序列之间的成对比对.

Variant Calling

  • __freebayes_-基于贝叶斯单元型的多态性发现和基因分型.
  • GATK-高通量测序数据中的变体发现.
  • samtools/bcftools/htslib-一套用于处理下一代测序数据的工具.

BAM File Utilities

  • Bamtools-处理BAM文件的工具集合.
  • mergesam-自动执行常见的SAM和BAM转换.
  • mosdepth-WGS,外显子组或靶向测序的快速BAM / CRAM深度计算
  • SAMstat-显示下一代测序的序列统计信息.
  • Somalier-对BAM / CRAM / VCF / GVCF进行快速的样本交换和相关性检查.
  • __Telseq_-Telseq是从整个基因组序列数据估算端粒长度的工具.

VCF File Utilities

  • bcftools-用于处理VCF文件的工具集.
  • vcfanno-用其他VCF / BED / tabixed文件注释VCF.
  • vcflib-用于解析和处理VCF文件的C ++库.
  • __vcftools_-VCF操作和统计(例如,连锁不平衡,等位基因频率,Fst).

GFF BED File Utilities

  • gffutils - GFF and GTF file manipulation and interconversion.
  • BEDOPS-快速,高度可扩展且易于并行化的基因组分析工具包.
  • Bedtools2-用于基因组算术的瑞士军刀.

Variant Simulation

  • Bam Surgeon-用于将突变添加到现有.bam文件中的工具,用于测试突变调用者.
  • wgsim-samtools附带!-读取模拟器.

Variant Prediction/Annotation

  • SIFT-预测氨基酸取代是否影响蛋白质功能.
  • SnpEff-遗传变异注释和效果预测工具箱.

Python Modules

Data

  • cruzdb-对UCSC Genome数据库的Pythonic访问.
  • pyensembl-使用Pythonic访问Ensembl数据库.
  • bioservices-从Python访问生物Web服务.

Tools

Visualization

Genome Browsers / Gene Diagrams

以下工具可用于可视化基因组数据或构建基因组数据的定制可视化,包括来自DNA-Seq,RNA-Seq和ChIP-Seq,变体等的序列数据.

  • Squiggle-易于使用的DNA序列可视化工具,可将FASTA文件转换为基于浏览器的可视化.
  • __biodalliance -可嵌入的基因组查看器. 来自各种来源的集成数据,并且可以直接从流行的基因组文件格式(包括bigWig,BAM和VCF)加载数据.
  • BioJS-BioJS是一个包含数百个JavaScript组件的库,使您可以使用当前的Web技术可视化和处理数据.
  • __Circleator_-利用BioPerl和SVG对基因组相关数据进行灵活的循环可视化.
  • DNAism-基于D3地平线图表的JavaScript库,用于DNA数据.
  • __IGV js -基于Java的浏览器. 快速,高效,可扩展的可视化工具,用于基因组数据和注释. 处理大 variety of formats.
  • __Island Plot -基于D3 JavaScript的基因组查看器. 构造SVG.
  • JBrowse-JavaScript基因组浏览器,可通过插件进行高度自定义并跟踪自定义
  • PHAT-跨平台套件的点击式,用于分析和可视化下一代测序数据集.
  • pileup.js-JavaScript库,可用于生成交互式且高度可定制的基于Web的基因组浏览器.
  • __scribl -JavaScript库,用于绘制基于画布的基因图. Homepage 有例子.
  • Lucid Align-现代的序列比对查看器
  • Circos-Perl软件包,用于圆形图,非常适合基因组重排.
  • ClicO FS-Circos的基于Web的交互式服务.
  • OmicCircos-R软件包,用于组学数据的圆形图.
  • J-Circos-Java应用程序,用于与马戏团图进行交互工作.
  • rCircos-R包用于圆形图.

Database Access

Resources

Becoming a Bioinformatician

Bioinformatics on GitHub

Sequencing

RNA-Seq

ChIP-Seq

YouTube Channels and Playlists

  • Current Topics in Genome Analysis 2016 -在NIH举行的十四次精彩系列讲座,内容涉及基因组学的当前主题,从序列分析到测序技术,甚至还有更多翻译主题,例如基因组医学.
  • GenomeTV -“ GenomeTV是NHGRI官方视频资源的集合,包括演讲,新闻纪录片,会议的完整视频集,这些视频集涉及基因组研究的研究,问题和临床应用.”
  • Leading Strand -冷泉港实验室(CSHL)会议的主题演讲. 更多关于 The Leading Strand.
  • Genomics, Big Data and Medicine Seminar Series -“我们的研讨会专门针对GBM的关键交叉领域,深入研究将深刻塑造未来的'出血边缘'技术和方法.”
  • Rafael Irizarry's Channel -Rafael Irizarry博士关于基因组统计的讲座和学术讲座.
  • NIH VideoCasting and Podcasting -“ NIH VideoCast通过互联网向全世界的观众直播研讨会,会议和会议,作为实时流视频.” 不仅是基因组学和生物信息学视频,而且还有许多关于特定领域的生物信息学和基因组学使用的精彩演讲.

Blogs

  • ACGT -基思·布拉德南(Keith Bradnam)博士写道:“有关生物学,基因组学以及假生物使用丙烯醛的假冒对人类的持续威胁的思想”.
  • Opiniomics -Mick Watson博士写有关生物信息学,基因组和生物学的文章.
  • Bits of DNA -Lior Pachter博士撰写了有关计算生物学的评论和评论.
  • it is NOT junk -迈克尔·艾森(Michael Eisen)博士撰写了“关于基因组,DNA,进化,开放科学,棒球和其他重要事物的博客”

Miscellaneous

License

CC0