diff --git a/slides/data_management.html b/slides/data_management.html index 3f30d12..a45a623 100644 --- a/slides/data_management.html +++ b/slides/data_management.html @@ -1085,6 +1085,72 @@

Formato tidy data

R for Data Science - tidy data

+
+

Formato tidy data

+
+
+

+
+
+
+
+

+
+
+
+
+

Buenas practicas para la recolección de datos

+
+ +
+
+
+

Errores comunes en tablas de datos

+

Más de una variable por columna

+
+
+

+
+

+
+

Source: Data Carpentry

+
+
+

Errores comunes en tablas de datos

+

Múltiples tablas

+ +

Source: Data Carpentry

+
+
+

Errores comunes en tablas de datos

+

Información en colores

+

Se puede evitar simplemente añadiendo una columna a la tabla original.

+
+
+

+
+

+
+
+
+

Recolección de datos

+ +

Hertz & McNeill 2024 PLoS Comput Biol

+

Paquetes que usaremos

@@ -2034,7 +2100,7 @@

Reestructurar datos con library(tidyr)

  • Función pivot_longer()
  • -

    Fuente: Garrick Aden-Buie’s - Tidyexplained Verbs

    +

    Fuente: Garrick Aden-Buie’s - Tidyexplained Verbs

    Reestructurar datos

    @@ -2318,6 +2384,22 @@

    Guardar dataset

  • write_delim - usa cualquier separador de datos (ej. delim = “|”)
  • +
    +

    Guardar dataset

    +
    +
    #install.packages("arrow")
    +library(arrow)
    +
    +write_parquet(dt_sp, here("data/clean_data.parquet"))
    +
    +dt_sp |>
    +  group_by(site) |>
    +  arrow::write_dataset(path = "data/clean_data", format = "parquet")
    +
    +

    El formato parquet para guardar datos es una forma muy eficiente de manejar grandes bases de datos.

    +

    Este formato archiva los datos en forma de columnas, ofrece una compresion mayor que .csv incluso mayor que .rds y es más rapido para trabajar.

    +

    Además permite el particionado de datos en diferentes ficheros.

    +

    Recursos