Llegamos a 17.200.020 Millones de Visitas, gracias a ustedes!!

Big Data

De WikicharliE
Big Data
Bienvenido a Departamento de Sistemas e Informática de WikicharliE

Presentación

Bunker WIKILEAKS WikicharliE.jpg

WikicharliE Patrimonio de Chile

Contenido

Big Data a la gestión y análisis de enormes volúmenes de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.

Dicho concepto engloba infraestructuras, tecnologías y servicios que han sido creados para dar solución al procesamiento de enormes conjuntos de datos estructurados, no estructurados o semi-estructurados (mensajes en redes sociales, señales de móvil, archivos de audio, sensores, imágenes digitales, datos de formularios, emails, datos de encuestas, logs etc,) que pueden provenir de sensores, micrófonos, cámaras, escáneres médicos, imágenes?

El objetivo de Big Data, al igual que los sistemas analíticos convencionales, es convertir el Dato en información que facilita la toma de decisiones, incluso en tiempo real. Sin embargo, más que una cuestión de tamaño, es una oportunidad de negocio. Las empresas ya están utilizando Big Data para entender el perfil, las necesidades y el sentir de sus clientes respecto a los productos y/o servicios vendidos. Esto adquiere especial relevancia ya que permite adecuar la forma en la que interactúa la empresa con sus clientes y en cómo les prestan servicio.

No obstante, el asociar el concepto Big Data a grandes volúmenes de datos no es nuevo. La gran mayoría de las empresas ya llevan mucho tiempo manejando grandes volúmenes de datos y han desarrollado DataWarehouses y potentes herramientas analíticas que les permiten tratar de forma adecuada esos grandes volúmenes. La evolución de la tecnología y los menores costes del almacenamiento han hecho que los volúmenes manejados por estas aplicaciones hayan aumentado de manera muy importante.

Las 'Vs' del Big Data

¿Cuál es entonces la diferencia entre las aplicaciones analíticas y de gestión y los nuevos conceptos de Big Data? Las diferencias se asocian, en la mayoría de los artículos de referencia, a tres palabras, las tres 'Vs' del Big Data: Volumen, Variedad y Velocidad (3Vs). Sin embargo, en base a la experiencia adquirida por las empresas pioneras en esta aventura, se ha ampliado la definición original, añadiendo nuevas características como son la Veracidad y Valor del dato (5Vs).

Hablamos de Big Data cuando los volúmenes superan la capacidad del software habitual para ser manejados y gestionados. Este concepto se encuentra en continuo movimiento porque los avances tecnológicos permiten tratamientos de volúmenes mayores. Cuando hablamos de grandes volúmenes nos referimos a tratamientos de Terabytes o Petabytes. Esto permite incluir en este tipo de proyectos informaciones (por ejemplo logs) que hasta la fecha no se utilizaban porque la tecnología no permitía procesarlos en un tiempo razonable. El concepto de volumen es muy variable y cada día que pasa eleva lo que podemos considerar grandes volúmenes de datos.

En el concepto de variedad nos referimos a la inclusión de otros tipos de fuentes de datos diferentes a las que se utilizan de forma tradicional. Nos referimos a información obtenida en diferentes Redes Sociales, en el número cada vez mayor de dispositivos electrónicos conectados, la explotación de sensores que permiten conocer los movimientos y hábitos de vida, de información externa de diversas fuentes, etc.

La información que procesan los Datawarehose es información estructurada que ha pasado por numerosos filtros de calidad para poder garantizar que la información de salida tiene una precisión y una exactitud determinada. Sin embargo, cuando hablamos de Big Data nos referimos a información que puede estar semiestructurada o no tener ninguna estructuración. La gestión de esta información desestructurada precisa de una tecnología diferente y permite tomar decisiones basadas en información que tiene importantes grados de inexactitud. Muchos de estos algoritmos se relacionan con los tratamientos de sistemas avanzados de lógica difusa.

Por último, el concepto de velocidad se refiere a la rapidez con que los datos se reciben, se procesan y se toman decisiones a partir de ellos. A la mayoría de los sistemas tradicionales les es imposible analizar de forma inmediata los grandes volúmenes de datos que les llegan, sin embargo, incorporar el concepto de tiempo real es imprescindible para sistemas de detección del fraude o la realización de oferta personalizadas a los clientes.

Pero, no menos importante al barajar este concepto, es la veracidad, esto es, confianza de los datos, extraer datos de calidad eliminado la imprevisibilidad inherente de algunos, como el tiempo, la economía etc, para, de esta forma, llegar a una correcta toma de decisiones

Finalmente, se añade el valor. La importancia del dato para el negocio, saber que datos son los que se deben analizar, es fundamental. Tanto que ya se empieza a hablar del científico de datos, un profesional con perfil científico, tecnológico...y visión de negocio.[1]

Captura

¿De dónde provienen todos estos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día tiene más capacidad de cómputo que la NASA cuando el hombre llegó a la luna17 por lo que la cantidad de datos generados por persona y en unidad de tiempo es muy grande. Catalogamos la procedencia de los datos según las siguientes categorías:18

  • Generados por las personas: El hecho de enviar correos electrónicos por e-mail o mensajes por WhatsApp, publicar un estado en Facebook, tuitear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de e-mails, se comparten más de 700.000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube.19 Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.
  • Transacciones de datos: La facturación, las llamadas o las transacción entre cuentas generan información que tratada pueden ser datos relevantes. Un ejemplo más claro lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un ingreso de X euros, la computación lo interpretará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y más metadatos.
  • E-marketing y web: Generamos una gran cantidad de datos cuando navegamos por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de tracking utilizadas en su mayoría con fines de marketing y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
  • Machine to Machine (M2M): Son las tecnologías que comparten datos con dispositivos: medidores, sensores de temperatura, de luz, de altura, de presión, de sonido… que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas (Wi-Fi, Bluetooth, RFID…) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción o los sensores de signos vitales en la medicina.
  • Biométrica: Son el conjunto de datos que provienen de la seguridad, defensa y servicios de inteligencia. Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiadas por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.

Transformación

Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen sin estar relacionadas. El siguiente objetivo consta en hacer que los datos se recojan en un mismo lugar y darles un formato.

Aquí entran en juego las plataformas ETL (Extract, Transform and Load). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato…) y finalmente cargar los datos en la base de datos o Data Warehouse especificada. Un ejemplo de plataforma ETL es el Pentaho Data Integration, más concretamente su aplicación Spoon.

Pizarra

Logo Pizarra WikicharliE.JPG
  • ¿Cuánta información hay en el mundo: El 2015 había 5 zetabytes. Un ZB es un 1 con 21 ceros, lo cual no te dirá mucho. Pero si tú pones esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, podrías hacer 4500 pilas de libros que lleguen hasta el sol. O sea, hay mucha información.
  • Crece a un ritmo exponencial. Se duplica cada dos años y medio. Entonces, ahora probablemente son 10 ZB.
  • Deep Learning: Es la manera como se hace la IA hoy en día. Son redes neuronales que funcionan de manera muy similar al cerebro, con muchas jerarquías. Todo esto que hacen Apple y Google y todas las Siri en el teléfono, todo usa Deep Learning. Es una IA súper poderosa que descubrimos hace cinco años y ya todo el mundo la usa, porque es muy superior a todo lo que habíamos encontrado.

Visita otros de nuestros artículos

TODAS LAS PAGINAS.png
Haz click en el emoticón
Herramientas personales
Espacios de nombres

Variantes
Vistas
Acciones
Navegación
Herramientas
Contacta a Orquesta Tabaco y Ron para Eventos y Matrimonios http://tabacoyron.cl/