Listado de la etiqueta: Minería de textos

El viernes 8 de febrero José Pino presentó la ponencia “Text Mining y toma de decisiones” en el Curso de la UMA “Experto Universitario de Gestión de Recursos Humanos en Entornos Digitales”, gracias a María Paz Andrés, su directora.  La ponencia consistió en la explicación de dos aplicaciones prácticas de R en HR Analytics.

Aquí podéis encontrar la ponencia completa: https://www.academia.edu/38316168/Text_Mining_para_la_toma_de_decisiones_en_HR_Analytics

El tutorial de R-Temis Mining Solution elaborado por José Pino lo podéis encontrar aquí: https://www.researchgate.net/publication/307546514_Tutorial_de_R-Text_Mining_Solution

Taller de reutilización y análisis de datos abiertos; minería de texto y cartografía de la información textual.

Descripción

Taller formativo promovido por el grupo de investigación iArtHis_Lab de la Universidad de Málaga en el contexto del título de Grado en Ingeniería de la Energía.

Esta actividad de innovación educativa, basada en el aprendizaje activo y la interacción, tiene por objeto la familiarización de los alumnos con la filosofía del Open Data y con las políticas de reutilización de la información de las Administraciones públicas.

Los datos abiertos de las Administraciones Públicas son datos accesibles a cualquier ciudadano, lo que hace posible su reutilización y análisis.  La Ley 37/2017 de reutilización de la información del sector público establece que «la información generada desde las instancias públicas, con la potencialidad que le otorga el desarrollo de la sociedad de la información, tiene un gran interés para las empresas a la hora de operar en sus ámbitos de actuación, contribuir al crecimiento económico y a la creación de empleo, y para los ciudadanos como elemento de transparencia y guía para la participación democrática».

El Artículo 11 del Tratado de la Unión Europea determina que la variable ambiental debe situarse al mismo nivel que las cuestiones económicas, sociales y culturales y que debe tenerse en cuenta en todo el proceso relacionado con el diseño y puesta en marcha de las políticas públicas.

El  Reglamento (CE) Nº 1221/2009 del Parlamento Europeo y del Consejo (Reglamento EMAS III), de 25 de noviembre de 2009, es el marco normativo europeo que regula la participación voluntaria de las organizaciones en un sistema comunitario de gestión y auditoría medioambientales. Los datos abiertos con información sobre las organizaciones europeas reconocidas con el sistema comunitario de gestión y auditoría medioambientales (EMAS) están accesibles a través del buscador del Registro EMAS. El Registro EMAS es la herramienta administrativa de la Comisión Europea para la inscripción y reconocimiento público de las empresas y organizaciones que voluntariamente tienen implantado un sistema de gestión ambiental.  Las organizaciones reconocidas con el EMAS informan públicamente y periódicamente del funcionamiento de su sistema de gestión medioambiental a través de una declaración medioambiental.

El conjunto open data a emplear en el taller se ha descargado de la web del Registro de EMAS (http://ec.europa.eu/environment/emas/register/).

Fases de la actividad

  • Accederemos a la fuente de datos (EMAS Register). Realizaremos una búsqueda con el término «spain» y descargaremos el archivo Excel de 854 registros (búsqueda realizada el 25 de abril de 2017 a las 18:54 h) a nuestro ordenador, en un carpeta que crearemos al efecto.

  • Descargaremos e instalararemos R.Temis en nuestro ordenador, si no lo tenemos ya instalado.

    1. R.Temis es un paquete programado en R, para análisis de datos textuales, que opera en la interfaz de RCommander. La página con información sobre el programa se encuentra en http://rtemis.hypotheses.org/

  • Preparararemos los datos para el análisis. Procederemos a:

    1. Convertir el archivo excel a archivo CSV (.csv)

    2. En la primera fila, reemplazar los espacios en blanco por barra baja (_)

    3.  A partir de la columna Registration_date, crear tres nuevas columnas (se configurarán sin formato de número): Registration_day, Registration_month y Registration_year.

    4. Completar y limpiar los datos erróneos en las columnas Organisation_region, Organisation_town.

    5. En las columnas Organisation_region, Organisation_town y Primary_verifier_name, reemplazar los espacios en blanco por barra baja (_)

    6. En la columna NACE_codes, reemplazar las comas (,) por espacios en blanco ( ).

Analizaremos con R.Temis el archivo CSV tal como se ha preparado en el punto anterior. Realizaremos análisis de subconjuntos y crearemos informes html con listados de los términos por ocurrencias y alfabéticos, crearemos gráficos de una y dos variables.

 

 

 

 

  • Crearemos un mapa en Google Maps con la información del registro EMAS obtenida para la búsqueda «Spain». Esta actividad de cartografía de la información consiste en la integración de dos sistemas de información, uno espacial (Google Maps) y otro textual (base de datos del Registro EMAS.

    1. Crearemos un nuevo mapa en My Maps de Google Maps

    2. Importaremos el archivo Excel del EMAS Register para construir el nuevo mapa

    3. Seleccionaremos las columnas Organisation town y Organisation postal code para georreferenciar cada item.
    4. Nuestro mapa está accesible en este enlace web

Aprendizajes

a) Conocer la filosofía del Open Data y la existencia de fuentes de datos abiertos .

b) Conocer la política de reutilización de la información del sector público.

c) Conocer la herramienta R Text Mining Solution  y técnicas de análisis de datos mediante minería de texto.

d) Interpretar los resultados del análisis y realizar informes de análisis con listados y distintos tipos de gráficos.

e) Realizar cartografía de información textual empleando Google Maps.


 

Esta actividad forma parte del proyecto de innovación educativa de la Universidad de Málaga Metodologías de prototipado. Design thinking e innovación tecnológica para el desarrollo de proyectos artístico-culturales (PIE15-188)

Profesor: José Pino Díaz
Participantes: Estudiantes de la asignatura Gestión Medioambiental del Grado de Ingeniería de la Energía.

 

Análisis de redes estratégicas en torno a la producción teórico-artística (siglos XVI y XVII) mediante técnicas de KDD.

Ya está publicada en Dixit la presentación que realizó Nuria Rodríguez Ortega en el marco del seminario internacional Redes culturales en el primer imperio global (siglos XVI-XVIII), que se celebró en la Escuela de Estudios Hispanoamericanos de Sevilla el 18 de marzo de 2016. [Más info sobre el evento aquí].

pajek

Ver la presentación aquí.

Listado de la etiqueta: Minería de textos