Abierto
Cerca

El lenguaje R para ayudar al estadístico habra. ¿Qué es el paquete R?: manual de instrucciones ¿Qué es R?

Debes escribir esto en la terminal.

La belleza de R es esta:

  1. Este programa es gratuito (distribuido bajo licencia GPL),
  2. Se han escrito muchos paquetes para que este programa resuelva una amplia gama de problemas. Todos ellos también son gratuitos.
  3. El programa es muy flexible: los tamaños de cualquier vector y matriz se pueden cambiar a petición del usuario, los datos no tienen una estructura rígida. Esta propiedad resulta extremadamente útil en el caso de la previsión, cuando el investigador necesita dar una previsión para un período arbitrario.

Esta última propiedad es especialmente relevante ya que otros paquetes estadísticos (como SPSS, Eviews, Stata) asumen que puede que sólo nos interese analizar datos que tengan una estructura fija (por ejemplo, todos los datos de un archivo de trabajo deben tener la misma periodicidad). con las mismas fechas de inicio y fin).

Sin embargo, R no es el programa más amigable. Mientras trabaja con él, olvídese del mouse: casi todas las acciones más importantes se realizan mediante la línea de comando. Sin embargo, para hacer la vida un poco más fácil y el programa en sí un poco más acogedor, existe un programa frontend llamado RStudio. Puedes descargarlo desde aquí. Se instala después de que R ya esté instalado. RStudio tiene muchas herramientas convenientes y una interfaz agradable, sin embargo, el análisis y el pronóstico aún se realizan mediante la línea de comando.

Intentemos echar un vistazo a este maravilloso programa.

Conociendo RStudio

La interfaz de RStudio se ve así:

En la esquina superior derecha de RStudio se indica el nombre del proyecto (que por ahora tenemos “Ninguno”, es decir, falta). Si hacemos clic en esta inscripción y seleccionamos "Nuevo proyecto", se nos pedirá que creemos un proyecto. Para fines de pronóstico básicos, simplemente seleccione "Nuevo directorio" (una nueva carpeta para el proyecto), "Proyecto vacío" (un proyecto vacío) y luego ingrese el nombre del proyecto y seleccione el directorio en el que guardarlo. Usa tu imaginación e intenta pensar en un nombre tú mismo :).

Cuando trabaja con un proyecto, siempre puede acceder a los datos, comandos y scripts almacenados en él.

En el lado izquierdo de la ventana de RStudio está la consola. Aquí es donde ingresaremos varios comandos. Por ejemplo, escribamos lo siguiente:

X< - rnorm (100 , 0 , 1 )

Este comando generará 100 variables aleatorias a partir de una distribución normal con expectativa cero y varianza unitaria, luego creará un vector llamado "x" y escribirá los 100 valores resultantes en él. Símbolo "<-» эквивалентен символу «=» и показывает какое значение присвоить нашей переменной, стоящей слева. Иногда вместо него удобней использовать символ «->”, aunque nuestra variable en este caso debería estar a la derecha. Por ejemplo, el siguiente código creará un objeto "y" que es absolutamente idéntico al objeto "x":

x -> y

Estos vectores aparecen ahora en la parte superior derecha de la pantalla, bajo la pestaña, que he titulado “Entorno”:

Cambios en la pestaña “Entorno”

En esta parte de la pantalla se mostrarán todos los objetos que guardemos durante la sesión. Por ejemplo, si creamos una matriz como esta:

\(A = \begin(pmatrix) 1 y 1 \\ 0 y 1 \end(pmatrix) \)

con este comando:

A< - matrix (c (1 , 0 , 1 , 1 ) , 2 , 2 )

luego aparecerá en la pestaña “Entorno”:

Cualquier función que utilicemos requiere que le asignemos unos valores a determinados parámetros. En función matriz() existen los siguientes parámetros:

  • datos: vector con datos que deben escribirse en la matriz,
  • nrow – número de filas en la matriz,
  • ncol – número de columnas en la matriz,
  • byrow - parámetro lógico. Si es “VERDADERO” (verdadero), entonces la matriz se completará en filas (de izquierda a derecha, fila por fila). De forma predeterminada, este parámetro está establecido en FALSO.
  • dimnames: una hoja con nombres de filas y columnas.

Algunos de estos parámetros tienen valores predeterminados (por ejemplo, byrow = FALSO), mientras que otros pueden omitirse (por ejemplo, nombres tenues).

Uno de los trucos de "R" es que a cualquier función (por ejemplo, a nuestra matriz()) se puede abordar estableciendo los valores directamente:

Otra opción es hacer clic en el nombre del objeto en la pestaña "Entorno".

Matriz

donde matriz es el nombre de la función que nos interesa. En este caso, RStudio abrirá el panel de “Ayuda” especialmente para usted con una descripción:

También puede encontrar ayuda sobre una función escribiendo el nombre de la función en la ventana de “búsqueda” (icono con una lente) en la pestaña “Ayuda”.

Si no recuerdas exactamente cómo escribir el nombre de una función o qué parámetros se utilizan en ella, simplemente comienza a escribir su nombre en la consola y presiona el botón “Tab”:

Además de todo esto, puedes escribir scripts en RStudio. Es posible que los necesite si necesita escribir un programa o llamar a una secuencia de funciones. Los scripts se crean usando el botón con un signo más en la esquina superior izquierda (debe seleccionar "R Script" en el menú desplegable). En la ventana que se abre después de esto, puede escribir cualquier función y comentario. Por ejemplo, si queremos trazar un gráfico lineal sobre la serie x, podemos hacerlo así:

trama(x)

lineas(x)

La primera función construye un diagrama de dispersión simple y la segunda función agrega líneas encima de los puntos que conectan los puntos en serie. Si selecciona estos dos comandos y presiona "Ctrl+Enter", se ejecutarán, lo que hará que RStudio abra la pestaña "Trazado" en la esquina inferior derecha y muestre el trazado trazado en ella.

Si aún necesitamos todos los comandos escritos en el futuro, entonces este script se puede guardar (disquete en la esquina superior izquierda).

En caso de que necesite consultar un comando que ya haya escrito en el pasado, hay una pestaña "Historial" en la parte superior derecha de la pantalla. En él puede buscar y seleccionar cualquier comando que le interese y hacer doble clic para pegarlo en la consola. En la propia consola, puedes acceder a los comandos anteriores usando los botones Arriba y Abajo de tu teclado. La combinación de teclas "Ctrl+Arriba" le permite mostrar una lista de todos los comandos recientes en la consola.

En general, RStudio tiene muchos atajos de teclado útiles que facilitan mucho el trabajo con el programa. Puedes leer más sobre ellos.

Como mencioné anteriormente, existen muchos paquetes para R. Todos ellos están ubicados en el servidor CRAN y para instalar cualquiera de ellos es necesario saber su nombre. La instalación y actualización de paquetes se realiza mediante la pestaña "Paquetes". Accediendo a él y pulsando en el botón “Instalar”, veremos algo parecido al siguiente menú:

Escribimos en la ventana que se abre: pronóstico es un paquete escrito por Rob J. Hyndman que contiene un montón de funciones útiles para nosotros. Haga clic en el botón "Instalar", después de lo cual se instalará el paquete "pronóstico".

Alternativamente, podemos instalar cualquier paquete, sabiendo su nombre, usando el comando en la consola:

instalar. paquetes ("suave")

siempre que esté, por supuesto, en el repositorio de CRAN. liso es un paquete en el que desarrollo y mantengo funciones.

Algunos paquetes solo están disponibles en código fuente en sitios como github.com y requieren que se creen primero. Para crear paquetes en Windows, es posible que necesite el programa Rtools.

Para utilizar cualquiera de los paquetes instalados, debe habilitarlo. Para hacer esto, debe buscarlo en la lista y marcarlo, o usar el comando en la consola:

biblioteca (previsión)

Puede aparecer un problema desagradable en Windows: algunos paquetes se descargan y ensamblan fácilmente, pero no se instalan de ninguna manera. R en este caso escribe algo como: "Advertencia: no se puede mover la instalación temporal...". Todo lo que necesitas hacer en este caso es agregar la carpeta con R a las excepciones en tu antivirus (o desactivarla mientras instalas paquetes).

Tras descargar el paquete, todas las funciones incluidas en el mismo estarán disponibles para nosotros. Por ejemplo, la función pantalla ts(), que se puede utilizar así:

pantalla ts(x)

Ella nos construirá tres gráficos, que discutiremos en el capítulo "Kit de herramientas del pronosticador".

Además del paquete pronóstico Utilizo el paquete con bastante frecuencia para varios ejemplos. Mcomp. Contiene series de datos de la base de datos M-Competition. Por eso te recomiendo que lo instales también.

Muy a menudo necesitaremos no sólo conjuntos de datos, sino también datos de la clase “ts” (series de tiempo). Para crear una serie de tiempo a partir de cualquier variable, debe ejecutar el siguiente comando:

X< - ts (x , start = c (1984 , 1 ) , frequency = 12 )

Aquí está el parámetro comenzar le permite especificar la fecha a partir de la cual comienza nuestra serie temporal, y frecuencia establezca la frecuencia de datos. El número 12 en nuestro ejemplo indica que estamos tratando con datos mensuales. Como resultado de ejecutar este comando, transformamos nuestro vector “x” en una serie temporal de datos mensuales a partir de enero de 1984.

Hablemos un poco sobre el lenguaje de programación llamado R. Recientemente, puedes leer artículos en nuestros blogs sobre y, aquellas áreas en las que simplemente necesitas tener a mano un lenguaje potente para trabajar con estadísticas y gráficos. Y R es sólo uno de ellos. Será bastante difícil para un recién llegado al mundo de la programación creer esto, pero hoy en día R ya es más popular que SQL y se utiliza activamente en organizaciones comerciales, investigaciones y universidades.

Sin entrar en las reglas, la sintaxis y los usos específicos, veamos simplemente los libros y recursos básicos que le ayudarán a aprender R desde cero.

Qué es el lenguaje R, por qué lo necesita y cómo usarlo sabiamente, puede aprenderlo del maravilloso Ruslan Kuptsov, que dirigió hace poco menos de un año como parte de GeekWeek-2015.

Libros

Ahora que hay un cierto orden en tu cabeza, puedes empezar a leer literatura, afortunadamente hay más que suficiente. Empecemos por los autores nacionales:


recursos de Internet

Cualquiera que quiera aprender cualquier lenguaje de programación debe visitar dos recursos en busca de conocimientos: el sitio web oficial de sus desarrolladores y la mayor comunidad online. Bien. No hagamos una excepción con R:

Pero nuevamente, imbuidos de preocupación por aquellos que aún no han tenido tiempo de aprender inglés, pero realmente quieren aprender R, mencionemos varios recursos rusos:

Mientras tanto, completemos el cuadro con una pequeña lista de sitios en inglés, pero no menos educativos:

CRAN es en realidad un lugar donde puedes descargar el entorno de desarrollo R a tu computadora. Además, manuales, ejemplos y otras lecturas útiles;

Quick-R: breve y claramente sobre estadísticas, métodos para procesarlas y el lenguaje R;

Burns-Stat: sobre R y su predecesor S con una gran cantidad de ejemplos;

R for Data Science es otro libro de Garrett Grolemund, traducido a formato de libro de texto en línea;

Awesome R: una selección del mejor código del sitio web oficial, publicado en nuestro querido GitHub;

Mran: lenguaje R de Microsoft;

Tutorial R es otro recurso con información organizada del sitio web oficial.

El siguiente tema me impulsó a escribir este artículo: En busca del puesto ideal o el enigma de Habr. El hecho es que después de familiarizarme con el lenguaje R, miro con mucho recelo cualquier intento de calcular algo en Excel. Pero debo admitir que conocí a R hace sólo una semana.

Objetivo: recopilar datos de su HabraHabr favorito utilizando el lenguaje R y realizar, de hecho, para qué se creó el lenguaje R, a saber: análisis estadístico.

Entonces, después de leer este tema aprenderás:

  • ¿Cómo se puede utilizar R para extraer datos de recursos web?
  • Cómo transformar datos para su posterior análisis
  • ¿Qué recursos son de lectura altamente recomendada para cualquiera que quiera conocer mejor a R?

Se espera que el lector sea lo suficientemente independiente como para familiarizarse con las construcciones básicas del idioma. Los enlaces al final del artículo son los más adecuados para esto.

Preparación

Necesitaremos los siguientes recursos:

Después de la instalación deberías ver algo como esto:

En el panel inferior derecho, en la pestaña Paquetes, puede encontrar una lista de paquetes instalados. Necesitaremos instalar adicionalmente lo siguiente:

  • Rcurl: para trabajar con la red. Cualquiera que haya trabajado con CURL comprenderá inmediatamente todas las oportunidades que se abren.
  • XML: un paquete para trabajar con el árbol DOM de un documento XML. Necesitamos funcionalidad para encontrar elementos por xpath.
Haga clic en "Instalar paquetes", seleccione los que necesita y luego selecciónelos con una marca de verificación para que se carguen en el entorno actual.

Obteniendo datos

Para obtener el objeto DOM de un documento recibido de Internet basta con seguir estas líneas:
URL<-"http://habrahabr.ru/feed/posts/habred/page10/" cookie<-"Мои сверхсекретные печеньки" html<-getURL(url, cookie=cookie) doc<-htmlParse(html)
Preste atención a las cookies que se envían. Si desea repetir el experimento, deberá sustituir las cookies que recibe su navegador después de iniciar sesión en el sitio. A continuación, necesitamos obtener los datos que nos interesan, a saber:
  • Cuando se publicó la publicación
  • ¿Cuántas visitas hubo?
  • ¿Cuántas personas han añadido esta entrada a sus favoritos?
  • ¿Cuántos clics hubo en +1 y -1 (total)?
  • ¿Cuántos clics +1 hubo?
  • cuanto -1
  • Valoración actual
  • Número de comentarios
Sin entrar en demasiados detalles, sólo te daré el código:
publicado<-xpathSApply(doc, "//div[@class="published"]", xmlValue) pageviews<-xpathSApply(doc, "//div[@class="pageviews"]", xmlValue) favs<-xpathSApply(doc, "//div[@class="favs_count"]", xmlValue) scoredetailes<-xpathSApply(doc, "//span[@class="score"]", xmlGetAttr, "title") scores<-xpathSApply(doc, "//span[@class="score"]", xmlValue) comments<-xpathSApply(doc, "//span[@class="all"]", xmlValue) hrefs<-xpathSApply(doc, "//a[@class="post_title"]", xmlGetAttr, "href")
Aquí utilizamos la búsqueda xpath para elementos y atributos.
A continuación, se recomienda encarecidamente crear un marco de datos a partir de los datos recibidos; este es un análogo de las tablas de la base de datos. Será posible realizar solicitudes de diferentes niveles de complejidad. A veces te sorprende lo elegante que puedes hacer esto o aquello en R.
publicaciones<-data.frame(hrefs, published, scoredetailes, scores, pageviews, favs, comments)
Después de generar el data.frame, deberá corregir los datos recibidos: convertir las líneas en números, obtener la fecha real en un formato normal, etc. Lo hacemos de esta manera:

Publicaciones$comentarios<-as.numeric(as.character(posts$comments)) posts$scores<-as.numeric(as.character(posts$scores)) posts$favs<-as.numeric(as.character(posts$favs)) posts$pageviews<-as.numeric(as.character(posts$pageviews)) posts$published<-sub(" декабря в ","/12/2012 ",as.character(posts$published)) posts$published<-sub(" ноября в ","/11/2012 ",posts$published) posts$published<-sub(" октября в ","/10/2012 ",posts$published) posts$published<-sub(" сентября в ","/09/2012 ",posts$published) posts$published<-sub("^ ","",posts$published) posts$publishedDate<-as.Date(posts$published, format="%d/%m/%Y %H:%M")

También es útil agregar campos adicionales que se calculan a partir de los ya recibidos:
puntuaciones divididas<-sapply(strsplit(as.character(posts$scoredetailes), "\\D+", perl=TRUE),unlist) if(class(scoressplitted)=="matrix" && dim(scoressplitted)==4) { scoressplitted<-t(scoressplitted) posts$actions<-as.numeric(as.character(scoressplitted[,1])) posts$plusactions<-as.numeric(as.character(scoressplitted[,2])) posts$minusactions<-as.numeric(as.character(scoressplitted[,3])) } posts$weekDay<-format(posts$publishedDate, "%A")
Aquí hemos convertido los conocidos mensajes del tipo “Total 35: 29 y ↓6” en una serie de datos sobre cuántas acciones se realizaron, cuántas ventajas y cuántas desventajas hubo.

En este punto, podemos decir que todos los datos han sido recibidos y convertidos a un formato listo para su análisis. Formateé el código anterior como una función lista para usar. Al final del artículo puedes encontrar un enlace a la fuente.

Pero el lector atento ya habrá notado que de esta manera recibimos datos de una sola página para obtenerlos para toda una serie. Para obtener datos para una lista completa de páginas, se escribió la siguiente función:

Obtener publicaciones para páginas<-function(pages, cookie, sleep=0) { urls<-paste("http://habrahabr.ru/feed/posts/habred/page", pages, "/", sep="") ret<-data.frame() for(url in urls) { ret<-rbind(ret, getPosts(url, cookie)) Sys.sleep(sleep) } return(ret) }
Aquí usamos la función del sistema Sys.sleep para no causar accidentalmente un efecto habra en el propio habr :)
Se propone utilizar esta función de la siguiente manera:
publicaciones<-getPostsForPages(10:100, cookie,5)
Así, descargamos todas las páginas del 10 al 100 con una pausa de 5 segundos. No nos interesan las páginas hasta el número 10, ya que allí las valoraciones aún no son visibles. Después de unos minutos de espera, todos nuestros datos están en la variable posts. ¡Recomiendo guardarlos de inmediato para no perturbar el centro cada vez! Esto se hace de esta manera:
write.csv(publicaciones, archivo="publicaciones.csv")
Y lo leemos de la siguiente manera:
publicaciones<-read.csv("posts.csv")

¡Hurra! ¡Aprendimos cómo recibir datos estadísticos de Habr y guardarlos localmente para el siguiente análisis!

Análisis de los datos

Dejaré esta sección sin mencionar. Invito al lector a jugar él mismo con los datos y obtener sus propias conclusiones duraderas. Por ejemplo, intente analizar la dependencia del estado de ánimo de las personas más y menos según el día de la semana. Daré solo 2 conclusiones interesantes que saqué.
Los usuarios de Habr están mucho más dispuestos a votar a favor que en contra.
Esto se puede ver en el siguiente gráfico. Observe cuánto más uniforme y amplia es la “nube” de desventajas que la distribución de ventajas. La correlación entre las ventajas y el número de vistas es mucho más fuerte que la de las desventajas. En otras palabras: sumamos sin pensar, ¡pero restamos para actuar!
(Pido disculpas por las inscripciones en los gráficos: todavía no he descubierto cómo mostrarlos correctamente en ruso)

De hecho, hay varias clases de publicaciones.
Esta afirmación se dio por sentada en la publicación mencionada, pero quería asegurarme de que fuera real. Para hacer esto, basta con calcular la proporción promedio de ventajas con respecto al número total de acciones, lo mismo para las desventajas, y dividir la segunda por la primera. Si todo fuera homogéneo, entonces no deberíamos observar muchos picos locales en el histograma, pero están ahí.


Como puede ver, hay picos pronunciados alrededor de 0,1, 0,2 y 0,25. Invito al lector a buscar y “nombrar” estas clases por sí mismo.
Me gustaría señalar que R es rico en algoritmos para agrupación de datos, aproximación, prueba de hipótesis, etc.

Recursos útiles

Si realmente quieres sumergirte en el mundo de R, te recomiendo los siguientes enlaces. Comparta sus blogs y sitios interesantes sobre el tema de R en los comentarios. ¿Hay alguien que escriba sobre R en ruso?

Programación en R. Nivel 1. Conceptos básicos

El lenguaje R es la herramienta de análisis de datos estadísticos más popular del mundo. Contiene una amplia gama de capacidades para analizar datos, visualizarlos y crear documentos y aplicaciones web. ¿Quieres dominar este poderoso lenguaje con la guía de un mentor experimentado? Te invitamos al curso "Programación en lenguaje R. Nivel 1. Conocimientos básicos".

Este curso está dirigido a una amplia gama de especialistas que necesitan buscar patrones en grandes cantidades de datos, visualizarlos y sacar conclusiones estadísticamente correctas: sociólogos, gestores de ensayos clínicos/farmacólogos, investigadores (astronomía, física, biología, genética, medicina, etc.), analistas de TI, analistas de negocios, analistas financieros, especialistas en marketing. El curso también atraerá a especialistas que no se sientan cómodos con la funcionalidad (o las tarifas) / .

Durante las clases adquirirás habilidades básicas en análisis y visualización de datos en el entorno. R. La mayor parte del tiempo se dedica a tareas prácticas y a trabajar con conjuntos de datos reales. Aprenderá todas las nuevas herramientas para trabajar con datos y aprenderá cómo aplicarlas en su trabajo.

Finalizado el curso se expide un certificado de formación avanzada del centro.

¿Qué es un paquete R?

Un paquete R es una extensión creada para resolver un problema específico en . Los paquetes sin los cuales sería difícil imaginar trabajar en R se incluyen en el ensamblaje básico y están disponibles automáticamente después de instalar R en su computadora (el llamado kernel de R). Por ejemplo, el paquete stat le permite realizar pruebas estadísticas y, gracias al paquete de gráficos, puede crear gráficos en R. Sin embargo, la mayoría de los paquetes tienen aplicaciones altamente especializadas y para trabajar con ellas necesita "ampliar" su biblioteca R instalando el paquete necesario en su computadora.

Desde un punto de vista técnico, un paquete R es una colección de datos y documentación correspondiente, recopilados en un todo único de acuerdo con un esquema estándar. Cada paquete debe probarse para detectar errores y cumplir con los estándares del Archivo Oficial de Paquetes R (CRAN). Si se detecta alguna discrepancia, el paquete no será aceptado en la CRAN. Gracias a este enfoque, los principios para trabajar con cualquier paquete R son los mismos, lo que los hace simples y fáciles de usar. ¡Para el otoño de 2018, se superó la cantidad de paquetes en CRAN!

¿Cómo instalar y cargar un paquete en R?

Hay varias formas de instalar un paquete R. Empecemos por el caso más común: instalar un paquete desde CRAN. Para hacer esto, simplemente ingrese la función install.packages en la consola y en los argumentos escriba el nombre del paquete que está buscando (por ejemplo, tome el paquete ggplot2):

instalar.paquetes("ggplot2")

En la ventana que se abre con una lista de países, seleccione cualquier espejo para descargar. El proceso de instalación del paquete en su biblioteca comenzará automáticamente. A veces puede notar que en lugar de un paquete, se cargan varios en su biblioteca. Esto sucede porque el paquete a menudo utiliza funciones o datos de otros paquetes sin los cuales el paquete R instalado no podrá funcionar completamente. Entonces el paquete con dependencias ( dependencias) “extrae” otros paquetes y se instala en la biblioteca junto con ellos.

Después de instalar el paquete, debe cargarlo en su sesión actual usando la función biblioteca():

biblioteca("ggplot2")

Si no se hace esto, las funciones del paquete instalado no funcionarán. Esto se explica por el hecho de que cuando se inicia R, solo los paquetes básicos (sobre los que escribimos anteriormente) se cargan automáticamente, mientras que el resto debe cargarse manualmente.

Instalación de un paquete R a través de GitHub

Sin embargo, no todos los paquetes R están disponibles en CRAN. Muchos investigadores trabajan colectivamente en paquetes R en la plataforma GitHub, donde comparten ideas, informan errores, los corrigen y notifican a otros usuarios en línea. La mayoría de las veces, los paquetes se publican en GitHub y aún se encuentran en la etapa de desarrollo/prueba, por lo que su estabilidad no está garantizada. Para poder descargar un paquete R desde GitHub, primero debes instalar el paquete "devtools", cargarlo en el entorno R y usar la función install_github(), donde indicamos en los argumentos el nombre del desarrollador principal del paquete y , separado por una barra, el nombre del paquete:

install.packages("devtools") biblioteca("devtools") install_github("Autor/Nombre del paquete")

Instale el paquete R manualmente (tar.gz o archivo zip)

Algunos paquetes se encuentran en otras plataformas (por ejemplo, ResearchGate), en los sitios de grupos de investigación o en el sitio web personal del desarrollador, desde donde puede descargar el paquete R a su computadora como un archivo con extensión .tar.gz o . extensión zip. En este caso, debes descargar el paquete manualmente usando el mismo comando install.packages(). Sin embargo, en el primer argumento de la función no es necesario especificar el nombre del paquete, sino la dirección del archivo descargado, y también ingresar argumentos adicionales:

install.packages("Desktop/PackageName.tar.gz", repos = NULL, tipo="fuente")

¡Leer la documentación es la clave para trabajar con paquetes R!

La documentación es el elemento más importante de la interacción del usuario con el paquete R. Podría ser en forma de publicación en un sitio web, video educativo, publicación científica o guía de referencia. Las primeras tres opciones le permiten demostrar claramente la idea y las capacidades del paquete. Es con ellos con los que recomiendo comenzar a familiarizarse con un paquete desconocido para usted (si está disponible en Internet).

Guia de referencia ( Manual de referencia), por el contrario, es técnico una descripción del paquete R, sus funciones y datos. A diferencia de otro tipo de documentación, cualquier paquete disponible en CRAN cuenta con un manual de referencia. Está escrito en un formato específico y está sincronizado con el código de función. Como resultado, puede buscar información de ayuda utilizando comandos de ayuda en el entorno R. Por ejemplo, para encontrar la descripción del paquete instalado ggplot2, simplemente ingrese el nombre del paquete seguido de un signo de interrogación:

?ggplot2

Ahora tenemos toda la información disponible sobre el paquete ggplot2. De la misma manera, puedes mirar la documentación de una función específica: después del nombre del paquete, coloca dos puntos dobles y el nombre de la función que estás buscando (por ejemplo, la función stat_ellipse ) :

Todo lo mismo se puede encontrar en formato PDF en el sitio web oficial de CRAN (por ejemplo, el manual de referencia del paquete ggplot2). La primera página contiene una descripción del paquete R, luego una lista de sus funciones y tablas de datos, luego una descripción técnica detallada de cada una de ellas en orden alfabético.

Conclusión

Después de leer la documentación, podrá utilizar el paquete R de forma segura para sus propios fines. No puedo dar instrucciones universales aquí, porque... Todos tenemos diferentes tareas y, en consecuencia, utilizamos diferentes paquetes. Por tanto, si tienes alguna dificultad o duda escríbela en los comentarios, estaré encantado de responderte.

¡Y en el próximo artículo armaremos el paquete R con nuestras propias manos!