Notes de mise à jour admins gLeaves-package 3.7.x

Annotations et outils :

Mise à jour des datafiles : remplacer le dossier datafiles de la configuration des workers de gLeaves par le nouveau mis à disposition.

L’utilisation d’Exomedepth est maintenant possible, nécessitant, comme pour l’utilisation de ClinSV ou WisecondorX, une annotation des évènements via annotSV.

Il est également possible d’annoter gnomAD à l’import plutôt que dans les VCFs, pour optimiser le stockage et les temps d’annotation. Pour cela, téléchargez les datasets depuis le site et rajouter

gnomad_genomes_dir="/mon/path/vers/gnomAD/genomes/version_3.1.2"
gnomad_exomes_dir="/mon/path/vers/gnomAD/exomes/version_2.1.1"

dans la section [vcf_to_json] de la configuration du worker d’import (settings_import.toml). Attention à bien conserver le version_numerodelaversion comme dernier dossier, il est utilisé pour remonter l’information de version dans gLeaves.

Métriques et exploitation des workers :

Vous devrez ajouter :

à la configuration des workers d’import (settings_import.toml) et compute_rec (settings_compute-rec.toml) les informations suivantes :

dans la section [email] :

min_level = "error" # "off" | "debug" | "info" | "warn" | "error"

vous pouvez ici ajuster, via "off", "debug", "info", "warn", "error" à quel niveau de log vous souhaitez recevoir un courriel sur les tâches traitées par les différents workers.

dans une nouvelle section :

[metrics]
dest="monserveurgraphite:numerodeport"
prefix="gleaves.env.worker"

veillez ici à remplacer env et worker par les valeurs qui conviennent (par exemple prod et import, ou preprod et compute-rec…)
et dans dest à pointer vers un serveur graphite.

à la configuration du worker index (settings_index.toml) les informations suivantes :

dans la section [email] :

min_level = "error" # "off" | "debug" | "info" | "warn" | "error"

vous pouvez ici ajuster, via "off", "debug", "info", "warn", "error" à quel niveau de log vous souhaitez recevoir un courriel sur les tâches traitées par les différents workers.

La section [metrics] qui devrait déjà exister peut au besoin être adaptée de manière similaire à celle des autres workers.

Nouvelles informations pipeline prises en charge dans gLeaves :

De nouvelles informations peuvent être remontées par vos pipelines dans gLeaves via le JSON d’import (non obligatoires, si vous ne les utilisez pas, ne les ajoutez pas) :

Le sexe inféré via les clés suivantes :

"clinsv": {
    "sample_id0": {
      "inferred_gender": "XY"
    },
    "sample_id1": {
      "inferred_gender": "XX"
    },
    "sample_id2": {
      "inferred_gender": "XY"
    }
  },

Comme pour les bams, les objets contenus par l’objet clinsv sont au nombre et au nom des échantillons du VCF des SNVs.

Les callable loci sous forme de bed via les clés suivantes :

"callable_loci": {
    "sample_id0": {
      "data": "s3://path/vers/mon/echantillon/beds/callable_loci/sample_id0_callableloci_genome.bed"
    },
    "sample_id1": {
      "data": "s3://path/vers/mon/echantillon/beds/callable_loci/sample_id1_callableloci_genome.bed"
    },
    "sample_id2": {
      "data": "s3://path/vers/mon/echantillon/beds/callable_loci/sample_id2_callableloci_genome.bed"
    }
  },

Comme pour le sexe inféré au dessus, les objets contenus par l’objet callable_loci sont au nombre et au nom des échantillons du VCF des SNVs.

Les valeurs de contrôle qualité (QC) suivantes :

"qc_values_mr": {
    "sample_id0": {
      "%_bases_above_20": 95.33665606306415,
      "Mean_Coverage": 38.300855502541886,
      "PCT_Callable": 90.82306096253954,
      "Q30_bases": 121275161348
    },
    "sample_id1": {
      "%_bases_above_20": 94.01438829356556,
      "Mean_Coverage": 33.73580716474486,
      "PCT_Callable": 90.74747599385792,
      "Q30_bases": 107657509707
    },
    "sample_id2": {
      "%_bases_above_20": 94.54165589119985,
      "Mean_Coverage": 35.528030508552185,
      "PCT_Callable": 90.76747702674781,
      "Q30_bases": 113301643295
    }
  },

Comme pour le sexe inféré au dessus, les objets contenus par l’objet qc_values_mr sont au nombre et au nom des échantillons du VCF des SNVs. Ils contiennent des clés correspondant aux métriques généralement remontées par un pipeline d’analyse.