Thomas Gerds: Sensitivity analysis using lava simulation

In this talk I will introduce the simulation functions of the R-package lava (Klaus K Holst, 2006-2017, https://github.com/kkholst/lava). I will demonstrate how to utilize these tools to perform a sensitivity analysis for a given regression analysis. The first step is to simulate data that are alike the real data under the substantive model which was fitted to the real data for the original regression analysis. To do this we specify a structural equation model for the joint distribution of all variables; in addition to the substantive model which describes the relation between outcome and predictors, this requires parametric models for the interrelationships of the predictor variables. Simulated data under the so obtained system of structural equations should be alike the real data. The second step is then to introduce various deviations from the substantive model in order to study the robustness of the results found in the real data. Which deviations are of particular interest depends very much on the subject matter question and are difficult to discuss in great generality. For the sole purpose of illustration I will simulate data that are alike the pbc data of the survival package, and study the sensitivity of a Cox regression analysis to the existence of an unobserved confounder.

Farouk Nathoo: Bayesian Group-Sparse Multi-Task Regression for Imaging Genetics

Recent advances in technology for brain imaging and high-throughput genotyping have motivated studies examining the influence of genetic variation on brain structure. In this setting, high-dimensional regression for multi-SNP association analysis is challenging as the response variables obtained through brain imaging comprise potentially interlinked endophenotypes, and there is a desire to incorporate a biological group structure among SNPs based on their genetic arrangement. We consider a recently developed approach for the analysis of imaging genetic studies based on penalized regression with regularization based on a group \(l_{2,1}\)-norm penalty which encourages sparsity at both the gene and SNP level. While incorporating a number of useful features, a shortcoming of the proposed approach is that it only furnishes a point estimate and techniques for obtaining valid standard errors or interval estimates are not provided. We solve this problem by developing a corresponding Bayesian formulation based on a three-level hierarchical model that allows for full posterior inference using Gibbs sampling. Techniques for the selection of tuning parameters are investigated thoroughly and we make comparisons between cross-validation, fully Bayes, and empirical Bayes approaches for the choice of tuning parameters. Our proposed methodology is investigated using simulation studies and is applied to the analysis of a large dataset collected as part of the Alzheimer’s Disease Neuroimaging Initiative. I will discuss how our MCMC algorithm scales with an increasing number of SNPs, imaging phenotypes, and subjects, and I will also describe extensions of the model for application to brain-wide data and the corresponding development of a spatial model that is currently in progress. Finally, I will introduce the R package ‘bgsmtr’ that implements our model.

Julie Bertrand: Approche Bayésienne en pharmacogénétique avec JAGS et RStan

Résumé

Les modèles non linéaires à effets mixtes (MNLEM) utilisent les connaissances a priori sur le médicament pour mieux quantifier la réponse moyenne et sa variabilité intra et inter-patient. Leur développement en pharmacogénétique (PG) devrait permettre d’augmenter la puissance de détection des marqueurs génétiques de la variabilité inter-patient. Pour estimer les paramètres de ces MNLEM, l’approche par maximum de vraisemblance, principalement utilisée en pharmacologie quantitative est mise en défaut dans les études PG de criblage à haut débit ou N<<p. Dans ce cadre, nous explorons une approche de régression pénalisée (extension de type LASSO dans saemix [1]) puis des approches Bayésiennes (JAGs [2] et RStan [3]) par une étude de simulation et sur les données de l’essai PECAN ANRS 12154 [4].

Abstract

Nonlinear mixed effect models use the a priori knowledge on the drug to better quantify its average response, intra and inter variability. Their development in pharmacogenetics (PG) is expected to increase the power of detecting the genetic markers of the interpatient variability. The maximum likelihood approach, commonly used in quantitative pharmacology, fail to estimate these model parameters in high throughput PG studies where N<<p. In that context, we explore a penalized regression (LASSO extension to saemix [1] and Bayesian approaches through a simulation study and on real data from the PECAN ANRS 12154 trial [4].

[1] https://cran.r-project.org/web/packages/saemix/index.html

[2] http://mcmc-jags.sourceforge.net/

[3] http://mc-stan.org/interfaces/rstan

[4] Bertrand J, Chou M, Richardson DM, Verstuyft C, Leger PD, Mentré F, et al. Multiple genetic variants predict steady-state nevirapine clearance in HIV-infected Cambodians. Pharmacogenet Genomics. dec 2012;22(12):868‑76.

Marie-Pierre Etienne: Some statistical approaches for movement ecology

Résumé : Quelques approches statistiques pour l’écologie du déplacement

L’inférence de modèles de mouvement donne un éclairage pertinent sur les mécanismes écologiques responsables des dynamiques au niveau individuel et/ou populationnel. Ces analyses sont essentielles pour les gestionnaires de la faune sauvage pour comprendre les comportements complexes des animaux. Dans le domaine de l’halieutique, Identifier les motifs qui expliquent l’utilisation que les pêcheurs font de l’espace est un élément essentiel d’une gestion durable des ressources marines. Ces deux domaines développent aujourd’hui de grands campagnes de déploiement de GPS. Les questions écologiques que l’ont peut étudier grâce à l’analyse de ce type de données sont très larges et la spécifité des données de trajectoires( objet spatio temporel) réclame de nouveaux développements méthodologiques. Le domaine des statistiques pour l’écologie du mouvement est donc en plein essor et de nombreuses approches différentes sont proposées pour extraire des informations pertinentes de l’analyse des trajectoires. Parmi celles-ci nous pouvons distinguer - des modèles discret en temps et en espace (essentiellement des modèles de Markov sur grille) - des modèles à temps discrets mais à espace d’états continu (marche aléatoire, modèle auto regressif vectoriel et modèles de Markov cachés) - des modèles continus en temps et en espace (mouvement Brownien, Processus de Ornstein Uhlenbeck et plus généralement équation différentielle stochastique)

Dans cet exposé, nous mettrons en avant des développements récents relevant des deux derniers points. En supposant que le mouvement est caractéristique d’un type d’activité, on peut chercher à identifier la succesion des activités en s’intéressant aux changements dans les propriétés du mouvement. Des méthodes de segmentations peuvent être utilisées pour réussir à identifier ces instants de changements. Une autre hypothèse classique consiste à supposer que la partie déterministe d’un mouvement est dirigée par le potentiel de l’environnement. Etudier la trajectoire doit ainsi donner de l’information sur ce potentiel environnemental. Le lien entre trajectoire et environnement est étudié grâce à des modèles d’équations différentielles stochastiques.

Abstract : Some statistical approaches for movement ecology

Statistical inference of movement models provides many insights on the ecological features that explain population-level dynamics. These analyzes are crucial to wildlife managers to understand complex animal behaviours . In fisheries science, understanding the underlying patterns responsible for spatial use of the ocean is a key aspect of a sustainable management. Both fields promote now large programs to deploy Global Positioning System (GPS) device. The ecological questions addressed by analyzing those GPS data are very broad and the specifity of trajectories data (a spatio temporal object) requires the development of new statistical approaches. The field of statistics for movement ecology is growing and many different approaches have been proposed. Among them, we can distinguish between - discrete time and discrete space approaches (mostly Markov model on lattice), - discrete time and continuous space approaches (Random walk, Vectorial auto-regressiv model, Hidden Markov model, ….) - continuous time and continuous space methods (Brownian motion, Ornstein Uhlenbeck process and more generally Stochastic differential equestions)

In this talk, we will highlight some recent development in the two last cases. - Assuming that the unknown activity of the animal is responsible of some characteristics of the movement, the succession of different activities might be identified by looking for changes in the properties of the trajectory. Change points detection methods can be used for the identification of the activity. - Another common assumption proposes to link the movement to some potential of the environment . Studying the trajectory should therefore provide information on this potential. This link is studied, in a continuous time and continuous space framework, using the Stochastic differential framework.

Joel Gombin: Faut-il coder pour être (data)journaliste ? Comment les rédactions peuvent utiliser R

Résumé :

Le datajournalisme devient aujourd’hui une figure imposée du journalisme. Dans le même temps, on demande de plus en plus aux datascientistes d’être capables de raconter une histoire à partir de données. Dans cette intervention, je montre comment R peut être utile dans un travail de journalisme, tout au long du “data pipeline” ou du workflow de la data science. Je m’appuie sur des projets personnels aussi bien que sur d’autres expériences de datajournalisme, en France et à l’étranger. Utiliser R n’est pas indispensable au datajournalisme. Mais il peut en faciliter la pratique et le rendre plus réplicable

Abstract: Datajournalism

Datajournalism becomes a must-do of journalism. Conversely, datascientists are more increasingly required to be able to tell a story out of data. In this talk, I show how R can be useful in a journalism work, at all steps of the ‘data pipeline’ or the data science workflow. I use examples from personal projects as well as from other experiences of datajournalsm, in France and abroad. Using R is not necessary for datajournalism. But it can definititely make it easier and more replicable