3ESO-SA2-Datos Masivos

Datos por todas partes

 

En la sociedad actual, se están generando multitud de datos de distintas fuentes constantemente.

Imaginad que hablamos de millones de correos electrónicos, fotos, vídeos, operaciones de compra y venta, mensajes de texto, etc, que circulan diariamente por internet.

El siguiente vídeo sobre big data que contiene información muy interesante.

Vais a ser conscientes de la enorme cantidad de datos que generamos hoy en día, como por ejemplo:

  • ¿Cuánto tiempo usas al día un smartphone?
  • ¿Por medio de qué acciones generas datos en la red?
  • ¿Por medio de qué dispositivos generamos datos en la red?

¡Increíble! Seguro que os parece muy interesante.

¿Dónde se almacenan los datos?

Con el siguiente vídeo vais a ser conscientes de la enorme cantidad de datos que generamos hoy en día y aprenderéis otras cuestiones, como por ejemplo:

  • ¿Que son los servidores qué funciones cumplen?
  • ¿Qué función cumple la nube virtual en la red?
  • ¿Qué es un centro de datos?
  • ¿Los centros de datos tienen alguna repercusión medioambiental?

¡Alucinante! Seguro que os parece muy interesante.

Scraping data

Una de las técnicas usadas en la primera fase de tratamiento de los datos del big data es el scraping data (arañar datos, raspar datos, en español), se refiere a la técnica en la que un programa informático extrae datos del resultado generado por otro programa para analizarlos o utilizarlos en otra parte. Normalmente estos programas simulan la navegación de una persona en internet.

El ejemplo más utilizado es el web scraping que utiliza una aplicación informática para leer y extraer datos valiosos de sitios web de forma automatizada, simulando la navegación web que haría una persona. En el caso de búsqueda de imágenes, el proceso se denomina Image Scraping.

Imagen que representa la búsqueda de datos en la web

El web scraping se utiliza para recopilar datos de contacto, tales como direcciones de correo electrónico o números de teléfono, o información especial como términos de búsqueda o URL, con gran rapidez. En el ámbito profesional, es scraping se utiliza para conseguir ventajas con respecto a la competencia.

El buscador de Google utiliza la tecnología de web scraping para mostrar información metereológica o comparaciones de precios de vuelos y hoteles.

Muchos portales de comparación de precios también utilizan el scraping para representar información de otros proveedores y sitios web.

¿Es legal el web scraping?

Cuidado porque el scraping no siempre es legal.

Imagen que describe la justicia y las leyes

Los autores de un scraping de datos deben tener en cuenta los derechos de propiedad intelectual y la normativa de protección de datos de los sitios web.

Por otra parte, el web scraping puede tener consecuencias negativas para algunas empresas online y sitios web, por ejemplo, puede ralentizar la velocidad de conexión del sitio web.

Retor dice

A continuación aprenderemos qué es big data y para qué se utiliza.

Para entender mejor qué es el big data veremos cada uno de los siete adjetivos que lo describen.

Veremos algunas de las aplicaciones más importante y comprenderás su importancia en el actual mundo tecnológico.

Pero no te preocupes, te mostraré la información de una forma sencilla.

¡Vamos a conocer que es el big data!

¿Qué es big data?

Big data (en español, macrodatos) es un gran volumen de datos de diferentes fuentes que presentan diferentes estructuras y que cambian a una gran velocidad, por lo que se hace imposible procesar por los sistemas informáticos tradicionales, se necesita una gran capacidad de procesamiento como el ofrecido por el Cloud Computing o Servicios informáticos en la nube.

A continuación os propongo que veáis tres vídeos sobre el big data. En ellos encontraréis información muy interesante.

Big Data, el valor de los datos
  • Cómo aportamos datos sin darnos cuenta.
  • ¿Se utilizan los datos de forma adecuada?

Veréis como os sorprenderá.

 
Aplicaciones de Big data 

Big data permite encontrar soluciones para las organizaciones o las personas a través del análisis de grandes volúmenes de información usando gran capacidad de cómputo con Cloud Computing y Machine Learning.

Con estos datos se pueden tomar decisiones, demuestran comportamientos de los usuarios, tendenciaspredicen por lo tanto comportamientos futuros.

A continuación, os presento un vídeo sobre estas posibilidades del big data para las organizaciones:

  • ¿Qué aplicaciones puede tener el big data?
  • ¿Cómo contribuye big data y la IA en la mejora de la sociedad?

Como puedes ver, son temas muy importantes que debes conocer.

Actividades

Vamos a crear nuestro asistente turístico

Imagen que representa una persona pensandoDebéis pensar y anotar el nombre de las categorías o etiquetas que permitan clasificar los datos.

Recordad que el nombre de las categorías o etiquetas debe ser corto y representativo de la información que va a contener.

Piensa, en el caso de nuestro reto, son evidentes las etiquetas, clases o categorías. Recuerda que nuestro asistente turístico debe ayudar en la elección de una provincia andaluza a otras personas.

¿Necesitas ayuda con este ejercicio?

Recuerda que nuestro asistente virtual debe asesorar sobre las provincias andaluzas.

Deberás crear una etiqueta para cada una de las ocho provincias.

Imagen que representa los datos de las etiquetas del modeloHa llegado el momento de recopilar toda la información necesaria para desarrollar nuestro reto. En este ejercicio debéis anotar los datos relacionados con el asistente virtual y clasificarlos en las etiquetas que habéis creado.

Recordad que cuantos más datos tenga nuestro modelo mejor funcionará el asistente turístico virtual.

Es importante que los datos sean coherentes y estén bien clasificados. Recuerda la importancia de la generalización, esto permitirá al modelo clasificar correctamente datos de entrada que no coincidan exactamente con los almacenados en las etiquetas. 

Incluid en cada etiqueta todos los datos que guarden relación.

Este trabajo es muy importante, la colaboración del grupo será fundamental.

Imagen que representa una persona reflexionandoOs propongo la siguiente actividad:

"Jugad" en grupo a leer los datos que habéis anotado y comprobad que la etiqueta de clasificación es correcta.

Pensad en las posibles respuestas que van a dar las personas cuando el asistente virtual les pregunte: ¿qué actividades turísticas quieren hacer en Andalucía? Así, podéis valorar si el modelo clasificará bien esas respuestas o tenéis que añadir más información a las etiquetas.

Más adelante, esto os puede ahorrar mucho tiempo.

Es el momento de entrar en la aplicación Machine Learning crear un nuevo proyecto.

Es recomendable ponerle un nombre apropiado a nuestro proyecto.

Es el momento de introducir las etiquetas que habéis creado anteriormente e ir añadiendo los datos asociados a ellas.

Es un trabajo muy laborioso, recuerda que estamos en una parte muy importante, tenéis que tener un poco de paciencia.

Recordad que una vez introducimos todos los datos, debéis generar el modelo.

Ha llegado el momento de comprobar cómo responde nuestro modelo.

Os propongo a vuestro grupo:

  • Comprobar que los datos introducidos son clasificados de forma correcta por el modelo.
  • También podéis probar variaciones en los datos introducidos y comprobar el resultado.
  • Comprobar que el grado de confianza es el adecuado.

Recordad que podéis volver a entrenar y generar un nuevo modelo.

Imagen de la palabra ScratchUna vez comprobado que el modelo reconoce los datos con el nivel de confianza adecuado, ha llegado el gran momento.

Vosotras y vosotros vais a desarrollar el programa con Scratch que permita a vuestro asistente turístico responder de forma correcta a las diferentes preguntas que le podáis hacer.

Recordad que nuestro asistente turístico virtual debe poder aprender.

¡Ánimo, seguro que lo hacéis muy bien!

LUMEN

¿Necesitas ayuda con este ejercicio?

Me gusta ayudarte, por ejemplo puedes programar la presentación del asistente virtual en Scratch:

Decir: "Hola, soy tu asistente turístico virtual".

Pregunta: "Voy asesorarte en tu visita turística por Andalucía ¿qué te gustaría hacer?"

Imagen que representa una persona que interactúa con un ordenadorLlega el paso más deseado. Vamos a probar el funcionamiento de nuestro asistente turístico virtual

Podéis pedirle a una compañera o compañero de otro grupo que lo pruebe y comprobar el resultado.

Seguro que siempre hay algo que se puede mejorar. Os animo a que lo intentéis.