Zanim zaczniemy:
https://goo.gl/forms/rZPuFVsXgVECY2403
- 14 III scrapping
- 21 III Tidyverse cz 1 a dokładniej
dplyr
itidyr
- 28 III Budowa pakietów
- 4 IV Shiny
- 11 IV HPC + Archivist
- 18 IV Oddanie projektu 1
- 25 IV Debugowanie kodu, profilowanie kodu, zrównoleglanie kodu
- 9 V Prezentacje pakietów cz. 1
- 16 V Prezentacje pakietów cz. 2
- 23 V Tidyverse cz 2, broom, forcats, lubridate, purrr, tidyverse, presiData
- 30 V Oddanie projektu 2/1
- 6 VI Bazy danych duże i małe bazy danych, zabawka, jeżeli wystarczy czasu, OO, OO skrypt z zajęć
- 13 VI Oddanie projektu 2/2
Treść projektu drugiego jest tutaj
Projekt 1 można wykonywać w grupach do 3 osób. Celem projektu jest zebranie z różnych źródeł skryptów R od różnych autorów, a następnie wykonanie prostej analizy częstościowej na tych skryptach. Każdy zespół powinien:
- Z repozytoriów kodu R (takich jak GitHub, CRAN, Bioconductor inne) pobrać kody instrukcji R dla przynajmniej 10 różnych autorów (zalecana liczba to 100+ różnych autorów). Kody powinny być zbierane w postaci plików tekstowych z podziałem na dwie grupy: A) kody R dla pakietów i B) kody R dla skryptów/analiz/raportów.
- Po zebraniu kodów dla każdego autora/grupy należy przeprowadzić analizę dotyczącą częstości wykorzystania różnych pakietów R/funkcji R.
- Należy zaprezentować analizę porównawczą kodów od różnych autorów/grup.
Wśród zebranych skryptów należy mieć przynajmniej 10 autorów/źródeł których nie ma żadna inna grupa.
Punkt 3 będzie prezentowany na zajęciach. Zaliczenie tego projektu jest na podstawie zaprezentowanego raportu oraz wolumenu zebranych kodów R.
Można w analizach wykorzystywać kody zebrane przez inne zespoły (za ich zgodą), ale każdy zespół musi dostarczyć przynajmniej 10 unikatowych źródeł.
Jako ciekawe rozszerzenie projektu można potrafktować analizy związane ze sposobem nazywania zmiennych/funkcji.
Wyniki (prezentacje, skrypty scapujące dane) proszę umieścić w katalogu Projekt1
w podkatalogu z nazwą zespołu. Spakowane pozyskane skrypty R należy umieścić w portalu typu WeTransfer, Dropbox, GDrive. W ww katalogu wystarczy umieścić link do tych materiałów.
W niewielkich grupach (jedna lub dwie osoby) proszę przygotowac krótką prezentację nt jednego wybranego pakietu dla R. Prezentacja powinna być krótka (10 min) zawierać informacje o tym: 1. jaki problem rozwiązuje dany pakiet, 2. przykład użycia danego pakietu, 3. dyskusja nt elastyczności i łatwości użycia danego pakietu.
Pakiety należy omawiać w oparciu o artykułu z JSS. Lista pakietów do wyboru znajduje się poniżej. Do jednego tematu zgłosić może się maksymalnie jedna grupa, decyduje kolejność zgłoszeń, proszę dopisać się poniżęj do tematu i przesłać zgłoszenie jako pull request.
Prezentacja powinna trwać do 10 min, ale należy przewidzieć kolejne 10 min na dyskusje / samodzielne uruchomienie pakietu przez uczestników zajęć (do prezentacji należy dołączyć kod R lub umieścić go na slajdach w prezentacji).
Tematy:
- Visually Exploring Missing Values in Multivariable Data Using a Graphical User Interface Xiaoyue Cheng, Dianne Cook, Heike Hofmann --AK--
- missMDA: A Package for Handling Missing Values in Multivariate Data Analysis Julie Josse, François Husson --MŁ--
- The R Package groc for Generalized Regression on Orthogonal Components Martin Bilodeau, Pierre Lafaye de Micheaux, Smail Mahdi
- fitdistrplus: An R Package for Fitting Distributions Marie Laure Delignette-Muller, Christophe Dutang --Mateusz Kobyłka
- ranger: A Fast Implementation of Random Forests for High Dimensional Data in C++ and R Marvin N. Wright, Andreas Ziegler --Kam Rom
- Interactive Dendrograms: The R Packages idendro and idendr0 Tomáš Sieger, Catherine B. Hurley, Karel Fišer, Claudia Beleites --Mat Kru
- CircNNTSR: An R Package for the Statistical Analysis of Circular, Multivariate Circular, and Spherical Data Using Nonnegative Trigonometric Sums Juan José Fernández-Durán, María Mercedes Gregorio-Domínguez
- bartMachine: Machine Learning with Bayesian Additive Regression Trees Adam Kapelner, Justin Bleich
- gramEvol: Grammatical Evolution in R Farzad Noorian, Anthony M. de Silva, Philip H. W. Leong
- R Package gdistance: Distances and Routes on Geographical Grids Jacob van Etten--M.Piliszek--
- Identifying Causal Effects with the R Package causaleffect Santtu Tikka, Juha Karvanen
- PrevMap: An R Package for Prevalence Mapping Emanuele Giorgi, Peter J. Diggle
- pvclass: An R Package for p Values for Classification Niki Zumbrunnen, Lutz Dümbgen -- MK --
- SmoothHazard: An R Package for Fitting Regression Models to Interval-Censored Observations of Illness-Death Models Célia Touraine, Thomas A. Gerds, Pierre Joly
- Constructing Multivariate Survival Trees: The MST Package for R Peter Calhoun, Xiaogang Su, Martha Nunn, Juanjuan Fan --J.G.
- A Recipe for inferference: Start with Causal Inference. Add Interference. Mix Well with R. Bradley C. Saul, Michael G. Hudgens
- SIS: An R Package for Sure Independence Screening in Ultrahigh-Dimensional Statistical Models Diego Franco Saldana, Yang Feng
- PPtreeViz: An R Package for Visualizing Projection Pursuit Classification Trees Eun-Kyung Lee
- mplot: An R Package for Graphical Model Stability and Variable Selection Procedures Garth Tarr, Samuel Müller, Alan H. Welsh -- Katarzyna W
- epinet: An R Package to Analyze Epidemics Spread across Contact Networks Chris Groendyke, David Welch -JJ
- ThresholdROC: Optimum Threshold Estimation Tools for Continuous Diagnostic Tests in R Sara Perez-Jaume, Konstantina Skaltsa, Natàlia Pallarès, Josep L. Carrasco
- tscount: An R Package for Analysis of Count Time Series Following Generalized Linear Models Tobias Liboschik, Konstantinos Fokianos, Roland Fried
- vdmR: Generating Web-Based Visual Data Mining Tools with R Tomokazu Fujino -- Eliza K
- trackeR: Infrastructure for Running and Cycling Data from GPS-Enabled Tracking Devices in R Hannah Frick, Ioannis Kosmidis --Monika Chudek, Anna Gierlak
- Computing and Visualizing Dynamic Time Warping Alignments in R: The dtw Package Toni Giorgino --komosinskid
Zaliczenie jest oparte o
- zespołowy projekt 1 (30% zaliczenia),
- prezentacje pakietów (20% zaliczenia),
- indywidualny projekt 2 (50% zaliczenia).
library("BetaBit")
proton()
------
w80dni <- readLines("http://www.gutenberg.org/cache/epub/103/pg103.txt")
head(w80dni)
------
library("rvest")
premiery <- read_html("http://www.filmweb.pl/premiere")
filmy <- html_nodes(premiery, ".filmPreview__title")
html_text(filmy)