Hadoop Streaming 之 awk实现Map/Reduce

ama2000

浏览: 88177 次
性别:
来自: 杭州

最近访客更多访客>>

airyoureyes

yokoboy

tianwaikai

四月如期而至

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

MapReduce
Hadoop
awk

Hadoop Streaming awk MapReduce

//TODO 说明

[xxuser@xxhost ~]$ hadoop jar $HADOOP_STREAMING_JAR \
> -input /test/ylb/mock_data/cv-pt-demo.txt \
> -output /test/ylb/mock_data/output/cv-pt-demo-10 \
> -mapper "awk '\$1~/1/ {printf(\"%s\t%s\n\",\$1,\$2)}'" \
> -reducer "awk 'BEGIN{pt[\"test_key\"]=0;} {key=\$2/10;pt[key]+=1;} END{ for(k in pt){printf(\"%d\t%d\n\",k,pt[k]);} }'"

1. -mapper " awk ' ' " , 这种写法的话， ' ' 里面的脚本中有三种字符（shell特殊字符）需要转义，分别是 " ' $

这种写法的好处是可以方便的引用外部shell变量

-mapper ' awk " " ' 这种写法则不需要转义

第一种写法比较容易出错，所有必须要理解 unix shell 的双引号单引号的区别

摘自 http://hi.baidu.com/liangkejia_jaja/blog/item/189438f03ef74709b17ec5bf.html

1)"" -> 双引号（不保留完整内容，比如遇到$, 反引号, \ 等就会执行相应的shell）
# echo "Today is `date`"   -> Today is Wed Aug  3 05:50:34 GMT 2011
    
2)'' -> 单引号（完整保留内容）
# echo "Today is `date`"   -> Today is `date`
    
3)`` -> 反引号 （反引号内的shell会执行）
# echo `date`   -> Wed Aug 3 05:59:19 GMT 2011

分享到：

GAWK的兼容模式，传统模式 | awk 第x1行到第x2行

2011-12-03 22:33
浏览 8815
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop Streaming 之 awk实现Map/Reduce

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop Streaming 之 awk实现Map/Reduce

评论

发表评论

相关推荐

awk分隔符

Hadoop Streaming 之 传递参数 环境变量

[转载]Hadoop Streaming 实战： aggregate

AWK数组的排序

AWK数组

awk中的字符串处理函数

awk正则表达式

ERES BRES的区别

AWK 几个特殊的内置变量

awk 去空格

AWK pattern {action} 详解

GAWK的兼容模式，传统模式

awk 第x1行 到 第x2行

awk调用shell

AWK的内置变量

awk代码中执行shell

awk 引用shell变量， 变量的作用域

最近访客更多访客>>

Hadoop Streaming 之传递参数环境变量

awk 第x1行到第x2行

awk 引用shell变量，变量的作用域