carrero |
Crea tu propio rastreador de sitios web, tu copia de Google Posted: 23 May 2011 11:53 PM PDT ¿Qué pasará cuando Microsoft Bing se coma definitivamente a Yahoo? Seguro que herramientas como Site Explorer serán historia y cada se complicará más el uso de herramientas como Advanced Link Manager, en definitiva nos tocará crear nuestra propia araña para indexar y recorrer páginas web sin depender de los grandes buscadores. Existen hoy muchas opciones para crear nuestro propio spider, soluciones de código abierto que son realmente potentes. Nutch es posiblemente la mejor opción para crear tu propia araña o rastreador de páginas web. Este fue construido sobre el concepto de Lucene (tiene una opción comercial) y soportado por Hadoop usando MapReduce (similar a Google) para grandes volúmenes y consultas de datos. Todos estos están basados en Java, pero existen versiones basadas en .net como Lucene.NET, Nutch.NET y Hadoop.NET que han sido portados a C#. Pero la cosa no queda aquí y aunque Nutch es posiblemente la mejor opción para crear un rastreador y tener tu propio Google o Bing, hay otras opciones que os detallamos en esta pequeña lista:
Crea tu propio rastreador de sitios web, tu copia de Google is a post from: Carrero |
You are subscribed to email updates from Carrero » , Carrero. David Carrero y Jaime Carrero. Todo sobre Internet, Tecnología, Negocios, Tendencias, Dominios, Bitácoras, Diseño y Programación, … , de nuestras empresas (Color Vivo, Nervia Digital, …) y de nuestra red de sitios web. To stop receiving these emails, you may unsubscribe now. | Email delivery powered by Google |
Google Inc., 20 West Kinzie, Chicago IL USA 60610 |
No hay comentarios:
Publicar un comentario