Trabajo Final en Curso
Licenciatura en Sistemas de Información
@tdelvechio - Tomas Delvechio
CIDETIC - UNLu (2014)
Google - Youtube - Facebook - Twitter - Sitios de noticias - Imágenes - Música - Vídeos - Documentos (PDF) - Mapas - Torrent - Deep Web - Publicidad - Streaming - Transacciones
Primer serie producida en base a un análisis de Big Data (Netflix)
Extraer valor de las bases de datos masivas (Propias y publicas)
Baeza-Yates, R. y Ribeiro-Neto, B. "Modern Information Retrieval". ACM Press. Addison Wesley. 1999.La Recuperación de Información trata con la representación, el almacenamiento, la organización y el acceso a ítems de información
Salton, G. Y Mc Gill, M.J. "Introducttion to Modern Information Retrieval". New York. Mc Graw-Hill Computer Series. 1983.Es un campo relacionado con la estructura, análisis, organización, almacenamiento, búsqueda y recuperación de información
Disciplina de varias décadas de desarrollo
Evolución: Especialización->Generalización->Especialización
Área: Recuperación de Información. Base de datos no estructuradas
Ámbito: Motores de Búsqueda (Google, Yahoo!, Bing)
Objetivo: Mejorar la recuperación de documentos
Escala: Internet (Toda la Web) - Pequeña escala
Es una estructura que "mapea" términos a los documentos que los contienen.
Estructura clásica para recuperación (Existen otras propuestas)
Invierte la forma de acceso a los datos (Respecto de la colección)
Operaciones involucradas
2 partes:
Operaciones a realizar en la construcción de un índice
Escalar en un único equipo (Aun supercomputadora) en algún momento se volverá imposible, inviable o ineficiente.
Escalar en un cluster de commodity hardware
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.Apache Hadoop Official Web
Dos servicios que operan de forma independiente, en arquitectura master/slave
Framework y scheduler de procesos
Sistema de Archivos Distribuido
Dean, J. Et. all. "MapReduce: Simplified Data Processing on Large Clusters". OSDI. 2004. Enlace.
http://www-inst.eecs.berkeley.edu/~cs61a/sp12/labs/lab14/mapreduce_diag.png
http://devveri.com/wp-content/uploads/2012/07/mapreduce.png
Premisas
Implementar y medir la velocidad de construcción de un Indice Invertido basado en 2 estructuras avanzadas de Indice, resignando tamaño a costa de obtener resultados de forma mas eficiente en la etapa de resolución de consultas.
Implementación distribuida de los algoritmos en Hadoop
Evaluar y comparar la performance de los algoritmos
Baseline: Indexador "clásico"
Se compararan 2 estructuras, ademas del baseline
Autores: Konow, Navarro, Clarke y López-Ortíz en 2013
R. Konow, G. Navarro, C. L. A. Clarke, and A. López-Ortíz, "Faster and Smaller Inverted Indices with Treaps" SIGIR ’13 Proc. 36th Int. ACM SIGIR Conf. Res. Dev. Inf. Retr., vol. 1, pp. 193–202, 2013.Treap: Estructura de datos que combina Arboles y Heaps
La posting list de un II basado en Treaps tiene algunas modificaciones se necesitan representar 3 cosas:
Para la Topología, se usara un isomorfismo que simplifica la construcción del Árbol
Presentado por Ding y Suel en 2011
Proponen la extensión de un enfoque ampliamente conocido (WAND), mediante la adición de una estructura de datos adicional
Divide la posting list en bloques, y agrega una capa de información.
El algoritmo visualizaria las postings lists de la siguiente manera
S. Ding and T. Suel, "Faster top-k document retrieval using block-max indexes" Proc. 34th Int. ACM SIGIR Conf. Res. Dev. Inf. - SIGIR ’11, p. 993, 2011La estructura que agrega hace que el indice final sea de mayor tamaño