//TODO 说明
[xxuser@xxhost ~]$ hadoop jar $HADOOP_STREAMING_JAR \
> -input /test/ylb/mock_data/cv-pt-demo.txt \
> -output /test/ylb/mock_data/output/cv-pt-demo-10 \
> -mapper "awk '\$1~/1/ {printf(\"%s\t%s\n\",\$1,\$2)}'" \
> -reducer "awk 'BEGIN{pt[\"test_key\"]=0;} {key=\$2/10;pt[key]+=1;} END{ for(k in pt){printf(\"%d\t%d\n\",k,pt[k]);} }'"
1. -mapper " awk ' ' " , 这种写法的话, ' ' 里面的脚本中有三种字符(shell特殊字符)需要转义,分别是 " ' $
这种写法的好处是可以方便的引用外部shell变量
-mapper ' awk " " ' 这种写法则不需要转义
第一种写法比较容易出错,所有必须要理解 unix shell 的 双引号 单引号 的区别
摘自 http://hi.baidu.com/liangkejia_jaja/blog/item/189438f03ef74709b17ec5bf.html
1)"" -> 双引号(不保留完整内容,比如遇到$, 反引号, \ 等就会执行相应的shell)
# echo "Today is `date`" -> Today is Wed Aug 3 05:50:34 GMT 2011
2)'' -> 单引号(完整保留内容)
# echo "Today is `date`" -> Today is `date`
3)`` -> 反引号 (反引号内的shell会执行)
# echo `date` -> Wed Aug 3 05:59:19 GMT 2011
分享到:
相关推荐
讲述了Windows平台的Hadoop安装... 最后,以最简单的求和为例,剖析Hadoop的Map/Reduce工作机制,对于初学Hadoop及Map/Reduce的读者有很大的帮助。相信通过最简单的求和为例,读者可步入Hadoop的Map/Reduce开发者行列。
hadoop中map/reduce自学资料合集
hadoop开发文档
【摘要】在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题。
NULL 博文链接:https://sgq0085.iteye.com/blog/1879442
hadoop权威指南,hadoop map/reduce 分布式计算
hadoop权威指南,hadoop map/reduce 分布式计算
Hadoop Streaming 官方中文文档
Hadoop/etc/hadoop/slaves 的IP地址要变。 5个重要的配置文件逐个检查,IP地址需要变 2.配置文件确认无错误,看日志: 从logs日志中寻找slave的namenode为什么没有起来。 3.最后发现是hdfs中存在上次的数据,删掉...
hadoop2.2.0/2.6.0/2.7.0/2.7.1 64位安装包。
本文在研究BIRCH算法、规则关联算法、Hadoop的map/reduce机制的基础上,提 出了一种基于map/reduce的应用于网络安全事件分析的并行关联方法。一方面,通过对BIRCH 算法的改进,在BIRCH的分层次思想中引入预定义的...
Hadoop Map Reduce教程,介绍hadoop map/reduce框架的各个方面
具体的解释可以参见我的博客:http://dongxicheng.org/mapreduce/hadoop-streaming-programming/
在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题
eclipse中使用Hadoop Map/Reduce插件进行map/reduce的开发
本项目为一个Hadoop课程设计,使用Java语言和map/reduce实现贝叶斯文本分类器。项目的具体内容如下:1:用MapReduce算法实现贝叶斯分类器的训练过程,并输出训练模型; 2:用输出的模型对测试集文档进行分类测试。...
Hadoop学习总结之四:Map-Reduce的过程解析
( Hadoop Streaming编程实战(C++、PHP、Python).pdf ) ( Hadoop Streaming编程实战(C++、PHP、Python).pdf )
Map:俗点说就是直接把数据打散,一份数据把它切分成多份小的数据进行处理,这个过程可以称之为Map。 Reduce:有打散当然要有聚合,把处理完的数据再重新合成一个,这个过程称之为Reduce。 这两个操作实际上就是...
Hadoop系列--配置/安装/教程/搭建/配置