Trabajo Final en Curso
Licenciatura en Sistemas de Información
@tdelvechio - Tomas Delvechio
UNLu (2017)
¿Grandes datos? No! Datos Masivos
Big Data hace referencia a diversos enfoques, procesos, herramientas y técnicas que tienen por objetivo el tratamiento de volúmenes de información que no es viable procesar en un único dispositivo.
Google y la Gripe H1N1 (2009)
Predicción de evolución de precios en asientos de aviones
Netflix y la producción de contenido
Si tenemos algoritmos y poder de procesamiento para manejar toda la información disponible, no es necesario generar modelos que expliquen la realidad, sino explicar y predecir la realidad en base a los hechos recopilados históricamente
Extraer valor de las bases de datos masivas
(Propias y publicas)
Baeza-Yates, R. y Ribeiro-Neto, B. "Modern Information Retrieval". ACM Press. Addison Wesley. 1999.La Recuperación de Información trata con la representación, el almacenamiento, la organización y el acceso a ítems de información
Salton, G. Y Mc Gill, M.J. "Introduction to Modern Information Retrieval". New York. Mc Graw-Hill Computer Series. 1983.Es un campo relacionado con la estructura, análisis, organización, almacenamiento, búsqueda y recuperación de información
Disciplina de varias décadas de desarrollo
Área: Recuperación de Información. Base de datos no estructuradas
Ámbito: Motores de Búsqueda (Google, Yahoo!, Bing)
Objetivo: Mejorar la recuperación de documentos
Escala: Internet (Toda la Web) - Pequeña escala
Es una estructura que "mapea" términos a los documentos que los contienen.
Estructura clásica para recuperación (Existen otras propuestas)
Invierte la forma de acceso a los datos (Respecto de la colección)
Operaciones involucradas
2 partes:
Operaciones a realizar en la construcción de un índice
Escalar en un único equipo (Aun supercomputadora) en algún momento se volverá imposible, inviable o ineficiente.
Escalar en un cluster de commodity hardware
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.Apache Hadoop Official Web
Dos servicios que operan de forma independiente, en arquitectura master/slave
Framework y scheduler de procesos
Sistema de Archivos Distribuido
Dean, J. Et. all. "MapReduce: Simplified Data Processing on Large Clusters". OSDI. 2004. Enlace.
http://www-inst.eecs.berkeley.edu/~cs61a/sp12/labs/lab14/mapreduce_diag.png
http://devveri.com/wp-content/uploads/2012/07/mapreduce.png
Premisas
Implementar algoritmos de indexación en un entorno distribuido de hardware económico y prestaciones limitadas.
Probar el comportamiento de un cluster con plataformas usadas en Big Data en tareas intensivas de creación de ı́ndices.
Medir la eficiencia de un algoritmo diseñado para MapReduce para procesar una colección de documentos con diferentes configuraciones de la plataforma.
Se compararan 2 estructuras
Presentado por Ding y Suel en 2011
Proponen la extensión del índice mediante la adición de una estructura de datos adicional
Divide la posting list en bloques, y agrega una capa de información.
El algoritmo visualizaria las postings lists de la siguiente manera
La estructura que agrega hace que el índice final sea de mayor tamaño
Índice Block-Max Comprimido
Speedup mide la mejora de rendimiento de un algoritmo al agregar nodos (nucleos) al cluster