style="display:inline-block;width:728px;height:90px"
data-ad-client="ca-pub-5164839828746352"
data-ad-slot="7563230308">

blog de jgaribay

Football Mejor y peor equipo

Se presentan los resultados de la liga premier 2001 y 20002 el programa obtiene el mejor y el peor equipo basado en los goles anotados y recibidos.

se utiliza la programacion MapReduce para resolverlo.
Este es el Mapper:

package mx.com.sinapsis.ds.test.futbol;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class ObtenerDiferenciaMapper extends Mapper<LongWritable, Text, LongWritable, Text>{
        private Text diferenciaText = new Text();
       
        protected void map(LongWritable key, Text value, Context context)
                      throws java.io.IOException, InterruptedException {
                String[] dato = value.toString().split(",");
               
                int temp = Integer.parseInt(dato[5]) - Integer.parseInt(dato[6]);
                diferenciaText.set(dato[0] + "," + temp);
               
                context.write(new LongWritable(1), diferenciaText);
               
        }

}

este es el reducer:

 

package mx.com.sinapsis.ds.test.futbol;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

Ejemplo MapReduce Hadoop 5

Ya unicamente nos falta la clase main, para poder ejeutar nuestro ejemplo

Tambien es pequena asi que la pongo toda de una vez:

package mx.com.sinapsis.ds.test.ComparaPais;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class MaximaPoblacion extends Configured implements Tool {
       
        public static void main(String[] args)
                    throws Exception
                  {
                    ToolRunner.run(new Configuration(), new MaximaPoblacion(), args);
                  }

        @Override
        public int run(String[] args) throws Exception {
               
                args = new String[]{"input","output"};
               
                if (args.length != 2)
            {
              System.err.println("Usage: Max Poblacion <in> <out>");
              return 0;
            }
            setConf(new Configuration());
            Configuration conf = getConf();        

            Job job = new Job(conf, "compara pais");

Ejemplo MapReduce Hadoop 4

Ahora veremos la parte del reduce, el cual nos tiene que entregar el pais que tiene el numero maximo de pobladores.

En este caso sabemos ya que el map del anterior post manda a llamar al reduce por cada region existente, por lo que unicamente tenemos ahora que ubicar el pais que tiene la mayor poblacion.

El codigo es muy pequeño asi que no es necesario partirlo para explicarlo.

package mx.com.sinapsis.ds.test.ComparaPais;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaximaPoblacionReducer extends
                Reducer<Text, Text, Text, Text> {
       
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException{
                Long maxValue = Long.MIN_VALUE;
                String pais = "";
                //se obtiene el pais que tenga la mayor poblacion
                for(@SuppressWarnings("unused") Text value : values){
                        String[] valores = value.toString().split(":");                
                        if(!valores[0].equals("World")){                               
                                Long bMaxValue = Math.max(maxValue, Long.valueOf(valores[1]));
                                //Si es maximo que el anterior se guarda el pais que corresponde
                                if(bMaxValue > maxValue){

Ejemplo MapReduce Hadoop 3

Clase Map

Analizado el texto del cual obtendremos la informacion, vamos a crear la clase map la cual nos agrupara los paises por region, descartando todas las partes del texto que no sean necesarias.

En esta clase map lo que se va a hacer es identificar los paises y los datos necesarios por region:

 

  context.write(new Text(Pais.getRegion()), new Text(Pais.getNombre() + ":" +poblacion));

Se utiliza tambien patterns para identificar los datos necesarios:

 

  final static Pattern PAIS_PATTERN = Pattern.compile("[@][A-Z][a-z]*(,)?(\\s)?([A-Z][a-z]*)?(\\s)?([A-Z][a-z]*)?(\\s)?([A-Z][a-z]*)?(\\s)?([A-Z][a-z]*)?(\\s)?([A-Z][a-z]*)?[:][Geography]{9}");
 final static Pattern POBLACION_PATTERN = Pattern.compile("^\\s[Population]{10}[:]{1}\\s*");//Population: 65,780 (July 1995 est.)
 final static Pattern REGION_PATTERN = Pattern.compile("^\\s[Map]{3}\\s[references]{10}[:]*");// Map references: Africa
       

Se utiliza una clase plana para guardar los datos de pais

 

  Pais.nombre = pais;
 Pais.region = region;
       

debemos quitar los datos del mundo para que no se contabilice

 

Ejemplo MapReduce Hadoop 2

Comandos para cargar los datos en hdfs:

# Cargar en el HDFS
# Primero renombre los archivos con nombre corto
# CW para Datos estadisticos de la CIA 1995
$ mv pg571.txt CW.txt

# El siguiente comando falla si el directorio existe
$ hadoop fs -mkdir /user/cloudera

# Ahora ponga el texto en el directorio
$ hadoop fs -put CW.txt /user/cloudera

# Creamos alias de los comandos de hadoop
$ alias hput="hadoop fs -put"
$ alias hcat="hadoop fs -cat"
$ alias hls="hadoop fs -ls"
$ alias hrmr="hadoop fs -rm -r"

$ gzip CW.txt

# El punto hace referencia al directorio home de Cloudera
# en hdfs, /user/cloudera

$ hput DS.txt.gz .

# Verificar los archivos que existen ahora
$ hls
Found 4 items
drwx------ - cloudera cloudera 0 2014-04-10 16:03 .staging
-rw-r--r-- 3 cloudera cloudera 3013212 2014-04-21 14:28 CW.txt
drwxr-xr-x - cloudera cloudera 0 2014-04-10 16:03 HF.out
-rw-r--r-- 3 cloudera cloudera 605499 2014-04-10 15:25 HF.txt

Las parte clave en el documento que vamos a utilizar son:

Ejemplo MapReduce Hadoop 1

En el mundo actual los datos se han vuelto las estrellas, cuando uno prende la TV y enciende Netflix se da buena cuenta de esas posibilidades, rapidamente nos damos cuenta de que este sistema a averiguado cosas acerca de nuestras preferencias y en base a ellas nos brinda recomendaciones que en la mayoria de los casos son acertadas, esa es su mision conocer perfectamente nuestros gustos para tenernos mas tiempo sentados comodamente disfrutando de la programacion.

Si uno aparte lo utiliza para ver una de las series de casa como House Of Cards, la mayoria cae atrapado en la historia,fue echa tambien en base a el gusto de la mayoria de la poblacion, vamos la jugada es redonda.

Los programas que generalmente observamos, los que vemos pero luego de un rato abandonamos, a las escenas que nos aburren y le damos avanzar o las que rebobinamos, todo eso lo utiliza Netflix para generar la serie y cada capitulo.

Vamos pues a entrar un poco al mundo de BigData de la mano de la programacion MapReduce con el framework Hadoop(java), yo estoy tambien apenas aprendiendo asi que espero junto con varios lograr entender como hacer cosas como las señaladas en las lineas de introduccion.

Distribuir contenido

style="display:inline-block;width:728px;height:90px"
data-ad-client="ca-pub-5164839828746352"
data-ad-slot="7563230308">