环境
CentOS 6.8 64位 1核 2GB
JDK 1.7.0_75 64 位
Hadoop 1.1.2
Pig 0.16.0
上传访问日志
- 准备数据
1 | $ zcat access.log.*.gz > website_log.txt |
- 在HDFS中创建 /class7/in 目录
1 | $ hadoop fs -mkdir /class7/input |
- 把 website_log.txt 上传到 /class7/in 目录中
1 | $ hadoop fs -copyFromLocal website_log.txt /class7/input |
测试
- 进入 pig shell 命令行模式
1 | $ pig |
- 执行代码
1 | # 加载HDFS中访问日志,使用空格进行分割,只加载ip列 |
执行时间较长,请耐心等待。
- 退出 pig shell 命令行模式
1 | grunt> quit |
- 查看结果
1 | $ hadoop fs -cat /class7/out/part-r-00000 |