ress 发表于 2014-3-7 10:28:00

torque+ubuntu

首先,实在ubuntu上面安装torque。
$ sudo apt-get install torque-server torque-scheduler
$ sudo apt-get install torque-common torque-mom libtorque2
$ sudo apt-get install torque-client
关于hostname注意:
$ host $HOSTNAME
ubuntu (ubuntu系统默认hostname)
然后,一定需要修改/etc/hosts这个文件,
127.0.1.1 ubuntu
把这行注释掉,
写出自己的静态ip XXXX
例如,我的就写成了:
192.168.1.108   XXXX
否则,后面qterm和qmgr会出现:Unauthorized Request
改完这个hosts文件后,开始切入正题。
$ sudo echo $HOSTNAME > /etc/torque/server_name
$ sudo echo $HOSTNAME > /var/spool/torque/server_name
$ sudo pbs_server -t create
$ sudo echo $HOSTNAME np=`grep proc /proc/cpuinfo | wc -l` > /var/spool/torque/server_priv/nodes
$ sudo qterm
$ sudo pbs_server
$ sudo pbs_mom
如果运行中出现什么问题,ps一下,kill所有pbs带头的进程,然后重新开启运行。
ps aux | grep pbs
接着,可以看看:
$ pbsnodes -a
的结果。
$sudo momctl -d 0 -h $HOSTNAME         (diagnosis)
后面,创建一个队列,名字叫作 batch:
$ sudo qmgr -c 'create queue batch'
$ sudo qmgr -c 'set queue batch queue_type = Execution'
$ sudo qmgr -c 'set queue batch resources_default.nodes = 1'
$ sudo qmgr -c 'set queue batch resources_default.walltime = 01:00:00'
$ sudo qmgr -c 'set queue batch enabled = True'
$ sudo qmgr -c 'set queue batch started = True'
$ sudo qmgr -c 'set server default_queue = batch'
$ sudo qmgr -c 'set server scheduling = True'
注意,如果作业运行时间很长,那么就把walltime改长一点。
开启调度:
$ sudo pbs_sched
最后,查看是否运行
$ ps -e | grep pbs
1286 ?      00:00:00 pbs_mom
1293 ?      00:00:00 pbs_server
2174 ?      00:00:00 pbs_sched
这样,我们就可以提交作业了。
不能用root提交任务,
(报错: Bad UID for job execution MSG=root user root not allowed while submittng the job)
echo "sleep 20" | qsub
用 qstat 应该可以查到。
页: [1]
查看完整版本: torque+ubuntu