awk的一些使用方法

输出字符串长度： awk '{if(length($1)>200)print}' 去掉最后两行： awk 'NF-=2' 2C.txt | le for语句与split语句： le rid_list.txt | awk -F\; '{for(i=1;i<NF;++i){split($i,a,",");print a[1];}}' | le 用分号分割需要转义： awk -F\; '{print $1}' rid_list.txt 第三列出现分隔符(分号)的次数小于10次的输出： awk '{if(gsub(/;/,"& ...

2012-04-01 17:50
浏览 1141
评论(0)
分类:编程语言

hadoop的一些使用方法

命令行查看当前正在执行的job id: [hadoop@compute-63-9 ~]$ /hadoop/hadoop_home/bin/hadoop job -jt compute-63-0:9001 -list all |awk '{ if($2==1) print $1 }' job_201203311041_0041 设置副本数目 hadoop fs -setrep [-R] [-w] <副本個數> <HDFS檔案名稱> 设置map输出压缩： conf.set("mapred.compress.map.output", ...

2012-04-01 17:49
浏览 4151
评论(0)
分类:行业应用

2011我最喜欢的两个东西

1.豆瓣电台 2.Evernote

2012-02-26 15:16
浏览 712
评论(0)
分类:非技术

MapReduce的工作原理-笔记

博客分类：

hadoop

To create the list of tasks to run, the job scheduler first retrieves the input splits computed by the JobClient from the shared filesystem.It then creates one map task for each split. 事实上，当输入数据足够小的时候，它会按照你设定的mapper数目来执行。 Tasktrackers have a fixed number of slots for map tasks and for reduce tasks: ...

2011-12-21 09:29
浏览 1334
评论(0)
分类:行业应用

gcc编译问题

博客分类：

gcc

c++

[hadoop@hs15 soap2.21]$ make gcc -c -msse3 -O3 -funroll-loops -maccumulate-outgoing-args -fomit-frame-pointer -DMAKE_TIME=\""`date`"\" -DPTHREADS BWT.c -o BWT.o BWT.c:537: error: shift must be an immediate BWT.c:424: error: shift must be an immediate BWT.c:425: error: shif ...

2011-12-19 14:34
浏览 1602
评论(2)
分类:编程语言

DistributedCache使用

DistributedCache使用： 1.import包 import org.apache.hadoop.filecache.DistributedCache; 2.加到Cache中 DistributedCache.addCacheFile(new Path(args[++i]).toUri(), job.getConfiguration()); 3.Map或Reduce中调用 Configuration conf = context.getConfiguration(); Path [] pathwaysFiles = new Path[0]; try { ...

2011-12-18 16:50
浏览 3507
评论(2)
分类:行业应用

hadoop Incompatible namespaceIDs

博客分类：

hadoop

错误： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs DataNode的VERSION内容： [hadoop@dl180-2 current]$ more /hdfs/tmp/dfs/data/current/VERSION #Mon Feb 25 07:42:26 HKT 2002 namespaceID=698320168 storageID=DS-222936147-10.200.6.22-50010-101 ...

2011-12-18 16:47
浏览 989
评论(0)
分类:行业应用

hadoop控制mapper的数目

由于数据上传后，一般以集群的默认dfs.block.size作为块大小。但是由于我的输入文件小于块大小，但是每一行又需要在mapper中做并行，在默认的情况下，hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法：在主函数中设置： job.getConfiguration().setInt("mapred.max.split.size",10000000); // for split and get more mappers 在上述设置后，原来我默认的dfs.block.size是256mb，输入文件大小为120mb，按照10000000字节 ...

2011-12-18 16:41
浏览 1472
评论(0)
分类:编程语言

sed的一些使用方法

用SED如何輸出指定範圍的行,輸出的是1－5行 sed -n '1,5p' filename 如果要求輸出的是1,9,11,33行 sed -n '1p;9p;11p;33p' urfile 替换： sed -i "s/-Xmx4096m/-Xmx2048m/g" mapred-site.xml 注释：把全文的-Xmx4096m替换成-Xmx2048m 指定行替换： sed -i "21s/4/14/" mapred-site.xml 注释：把21行的第一个4替换成14，如果全部替换要用 sed -i "21s/4/14/g" ...

2011-12-18 16:36
浏览 989
评论(0)
分类:非技术

分布式文件系统NFS上搭建hadoop集群

总的来说，hadoop并不适合搭建在NFS上。一来是NFS的存储成本过高，二来损失了hadoop原本在分布式上的“本地性”特点。不过由于各种各样的原因，有时候需要在分布式文件系统NFS上搭建hadoop。分布式NFS这种架构主要是计算节点和存储节点的分离。计算节点带有少量的存储。在某些情况下甚至没有存储可以用，这是因为计算节点除了装系统的空间外，不给用户在计算节点上存储任何东西。因此，搭建hadoop也就可以分两种情况：一、计算节点上有存储空间可以使用的情况。这种情况其实较好处理。因为计算节点可以有存储可以用，因此可以把HADOOP_HOME设在每个计算节点的存储上，这个目录一般来 ...

2011-12-18 16:32
浏览 4083
评论(0)
分类:企业架构

简单的分布式矩阵乘法

其实就是用DistributeCache将其中的一个较小的矩阵放到内存中。

2011-10-13 10:18
浏览 1193
评论(0)
分类:行业应用

python的小puzzle

a=[1] for aa in a: print aa a.append(aa+1) 结果就是无限循环啦。每次输出是前面加一。既然append不行，那就insert在前面吧。 a=[1] for aa in a: print aa a.insert(0,aa+1) 依然是无限循环，而且每次都输出1。既然如此，只能想一些很挫的办法。如使用下标： a=[1] for i in range(len(a)): print a[i] a.insert(0,a[i]+1)

2011-10-12 19:51
浏览 774
评论(0)
分类:编程语言

ganglia集群监控

安装的方法网上一大堆，不同的系统有不同的方法，只有试过才知道那个最适用自己集群的。我的系统是rhel，就直接yum安装后来发现图表的坐标没显示出来，找了最新版的gweb放到apache的目录下，还是不行，就猜想可能是rrdtool的版本过低导致，因此查看了一下rrdtool的版本，发现是1.2的，网上那些有坐标的都是1.3以上的。于是下载了一个最新的1.4.5的版本。 ./configure make make install 编译过程有可能需要乱七八糟的包，只要顺利搞定，然后把编译好的程序替换掉旧版本的rrdtool，图表的的坐标和标签，颜色之类都正常了。用这软件检测集群的 ...

2011-10-09 20:08
浏览 1016
评论(0)
分类:行业应用

Shell的一些使用方法

获取本机所有用户： cat /etc/passwd dd用于复制，从if读出，写到of。if=/dev/zero不产生IO，因此可以用来测试纯写速度。同理of=/dev/null不产生IO，可以用来测试纯读速度。bs是每次读或写 1.测/目录所在磁盘的纯写速度： time dd if=/dev/zero bs=1024 count=1000000 of=/1Gb.file 2.测/目录所在磁盘的纯读速度： dd if=/kvm/ftp/other/1Gb.file bs=64k |dd of=/dev/null 本目录文件夹占用空间的大小： du -h --max-d 1 iostat ...

2011-09-27 10:12
浏览 1081
评论(0)
分类:编程语言

printf()与fprintf()函数的问题

下面代码直接Segment fault出错： printf(">@;?.=@?>)>%25135501313>;0=71-<;2;6%:<>;#####"); 原因可能是遇到%号后，开始算占位符，至于占位符具体怎么算还不是太清楚，出现段错误是因为后面的变长参数可能不匹配导致的。上面代码变长参数为0。若要输出%，还得： printf("%%") bug产生的原因是使用方法不正确，后面那句对于异常字符串可能产生异常，而前面的则不会： fprintf(stdout, "%s", str-> ...

2011-09-26 09:05
浏览 603
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

awk的一些使用方法

hadoop的一些使用方法

2011我最喜欢的两个东西

MapReduce的工作原理-笔记

gcc编译问题

DistributedCache使用

hadoop Incompatible namespaceIDs

hadoop控制mapper的数目

sed的一些使用方法

分布式文件系统NFS上搭建hadoop集群

简单的分布式矩阵乘法

python的小puzzle

ganglia集群监控

Shell的一些使用方法

printf()与fprintf()函数的问题

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>