Un ejemplo de cómo jugar con nuestro entorno de Big Data es resolviendo algún problema cotidiano, que lo podríamos hacer de forma lazy.
Yo, por ejemplo, me encuentro que cada x tiempo tengo invitaciones en LinkedIn y, de vez en cuando, añado gente con algún criterio basado en mis intereses, así que un proyecto interesante sería encontrar una forma para que, cada día, las invitaciones nuevas se aceptaran si cumplen unos requisitos y que a cierta cantidad de gente se le enviara una invitación según unos parámetros.
Planteado de otra forma y a nivel más alto sería un proyecto para una consultora que gestionara candidatos y empresas a nivel global. Las empresas introducen sus propuestas y lo que están buscando, y nuestro algoritmo lo busca y lo clasifica según algún criterio.
Antes de empezar con el código deberíamos tener clara la estructura a seguir. Primero utilizaríamos la API de LinkedIn o simplemente scraping de su web para obtener información de tanta gente como podamos. Esa información se parsea y se clasifica con tags, pongamos por ejemplo años de experiencia, idiomas, skills, etc. Por otro lado, las empresas tendrían que poder introducir lo que buscan: un candidato que hable x idiomas, tenga y experiencia en algún sector, etc Luego usaríamos un decision tree para clasificar los candidatos de LinkedIn y asignarles un valor incrementado por cada tag que cumplan.
Finalmente, podríamos darle a las consultoras un resultado de qué candidatos son los más óptimos para lo que están buscando. Este ejemplo, llevado al extremo del Big Data sería recoger información, no sólo de LinkedIn, sino de cualquier otro sitio donde la gente se anuncie y exponga su curriculum como INEM, Infojobs, etc.
Pero antes de correr hay que aprender a caminar, así que primero haremos una prueba de concepto resolviendo el problema de aceptar las invitaciones que nos llegan y enviar invitaciones según unos criterios. Para que este artículo no sea excesivamente largo, lo dividiré en varias partes.
Cómo montar tu entorno Hadoop monocluster
El objetivo de esta guía es mostrar cómo montar tu entorno Hadoop en la nube a un precio razonable, más allá de la máquina virtual que ofrece Hadoop, con la versatilidad de disponer de tu propio servidor actualizable. Serán varios artículos que iré posteando en Just Code It para que no se haga tan, tan extenso, así que aquí va la primera edición de este tutorial sobre cómo montar tu entorno Hadoop monocluster.
Hosting económico en 1and1


Configurar Ambari
wget -nv http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.6.0.0/ambari.repo -O /etc/yum.repos.d/ambari.repo
Profit!
ambari-server start

Por: Borja Robles Gómez
Senior Quality Assurance Automation Engineer en Netquest
5 años de experiencia en QA, Testing & Automation. Apasionado sobre automatización de procesos y buscando siempre algo nuevo sobre lo que aprender.
Alumno del KeepCoding Big Data & Machine Learning Bootcamp I
Si tienes algo que deseas compartir o quieres formar parte de KeepCoding, escríbenos a [email protected].