Buenos días estimados lectores, el día de hoy cubriré una herramienta que nos puede ayudar en el tema del análisis de datos.  La herramienta que instalé es  Microsoft R Open misma que Microsoft ha puesto para descarga pública y funciona sobre Windows,  Mac OS X y diversas distribuciones de Linux (Ubuntu, CentOS/Red Hat enterprise y OpenSUSE).

Para los que el álgebra lineal, la probabilidad y estadística y el análisis de datos les recuerdan épocas muy académicas y tal vez muy estresantes, pueden saltarse hasta donde dice P.D.

Para el tema de análisis de datos un requisito es el estar familiarizado con análisis estadístico, álgebra lineal y otros bichos matemáticos que pueden afectar nuestro comportamiento en la vida diaria de una manera positiva e influyente (es una mala broma, jajaja). Y aunque no soy científico de datos, empecemos:

El Lenguaje R, que es la base de esta herramienta  es un ambiente de programación para el análisis de datos y gráficos.

Para una introducción al Lenguaje R pueden visitar https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf

R permite el manejo de datos, cálculos sobre ellos y su despliegue gráfico.

Entre otras cosas ofrece:

  • Facilidades para manejo y almacenamiento de datos.
  • Conjunto de operadores para cálculos sobre arreglos y matrices.
  • Colección de herramientas intermedias integradas para el análisis de datos.
  • Facilidades gráficas para análisis de datos y su despliegue
  • Lenguaje de programación (llamado ‘S’) que incluye bucles (ciclos), funciones recursivas definidas por el usuario, así como facilidades para entrada y salida de datos.

Es en resumen un ambiente planeado y coherente.

En mi vida profesional pasada estuve a cargo de soportar y dar asesoría sobre una herramienta de análisis estadístico (SAS) y allí tuve la oportunidad de entrar en el fascinante mundo del análisis de datos, eso sí no soy un experto.

Hace unos meses traté de ver la forma de adquirir el SAS para la empresa, sin embargo no somos un “target prospect” para dicha empresa, así que me dí a la tarea de encontrar una herramienta que pudiera utilizar ocasionalmente y que estuviera dentro de nuestro presupuesto para esto (básicamente cero es el presupuesto).

A R desde hace algún tiempo le había puesto el ojo, pero fue hasta hace un par de semanas que preparando BitCasting encontré que Microsoft puso disponible una versión de R y decidí bajarla.

Su manejo de datos vectorial y matricial es muy intuitivo (dentro del contexto de un científico de datos, cosa que no soy) entre las cosas bonitas, está el que te permite hacer comparaciones entre vectores y matrices contra escalares, claro está que todas las operaciones básicas de vectores y matrices son soportadas. El manejo de tablas es poderoso.

Entre otras funciones cuenta con transposición de matrices, ecuaciones lineales e inversión, Eigenvalues y Eigenvectors, descomposición y determinantes así como ajuste de mínimos cuadrados.

Así mismo ofrece funciones para evaluar distribuciones probabilísticas (beta, binomial, Cauchy, Chi-cuadrada, exponencial, Gamma, Geométrica, Poisson).

Así mismo, cuenta con las funciones básicas como promedios y medias. Además de hacer análisis de varianza (anova) y obtener mínimos cuadrados.

Y además es extensible, por lo que puedes agregar tus propias funciones (cosa que no pretendo hacer ni enseñar).

En resumen, si ocasionalmente necesitamos realizar algún análisis de datos y no tenemos acceso a herramientas comerciales como SAS o SPSS, R es una poderosa opción, tanto para el trabajo como para la diversión (sí, a algunos la estadística, el álgebra lineal y la probabilidad nos entretienen y divierten).

Para aquellos interesados en aprender más sobre R, aquí podrán encontrar un curso gratuito https://www.datacamp.com/courses/free-introduction-to-r

Que tengan un muy buen día.


P.D.

Para los que siempre me preguntan qué sucederá con Apple, les digo que la empresa todavía trae vuelo (y además reportó un trimestre récord, así como mil millones de dispositivos activos), pero ya se le está acabando el tiempo, tiene que arriesgarse. Si no le doy un par de años para que se nos vaya a pique. Así mismo tiene que avanzar en el espacio de “streaming “de TV (su nuevo Apple TV me gustó mucho) y eso puede ayudarle a que agarre impulso, el tema de los smartphones ya está saturado y el de las tabletas, bueno, ese también tiene sus retos.   Un As bajo la manga es el tema del uso la Mac en las empresas y ese creo yo sorprenderá a propios y extraños. Recordemos que Apple siempre se ha desenvuelto atendiendo mercados de nicho, el iPhone, iPad e iPod fueron las excepciones a la regla. El otro tema de oportunidad es que tu smartphone sea tu equipo de escritorio, pero se han visto muy lentos en esto.

David Treviño CITI Value in Real Time

DAVID TREVIÑO
Chief Technology Officer

Author

admin

Comments (3)

  1. gerardo oliva
    27 enero, 2016 Responder

    Cual es la diferencia entre el SAS, Hadoop y el R Open, entiendo que son diferentes tiempos, pero manejan datos, es decir se complementan? compiten? o son conceptos separados.

    Respecto a apple , las computadoras de apple son excelentes y me encantan,solo que son 2,000 dollars facebook machines, pero si les sacas jugo son unas máquinas impresionantes, siempre he querido una, pero pues siempre he tenido otras prioridades (por decirlo de otra manera).Depende de lo que harán en las empresas , puede justificarse o no, pero si son de gran ayuda, ya que si pones una con OSX y le pones una VM con Windows y una imagen corporativa, puede ser muy estable, así cumples con lo que requieres y tienes una maquina que satisfaga visualmente y sea poderosa, estable, etc.

    • David Treviño
      27 enero, 2016 Responder

      Hadoop permite almacenar grandes volumenes de datos de manera distribuida, así como su procesamiento distribuido. Sobre Hadoop desarrollas aplicaciones que explotan esos datos. Existe en Hadoop componentes para hacer la transformación de datos. Tanto SAS como R tienen un componente de programación y de funciones de análisis estadístico. SAS tiene un componente que permite acceder a datos almacenados en Hadoop. Existe también un paquete de R que permite acceso a datos almacenados en Hadoop.

Leave a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *