mrjob

軟件截圖:
mrjob
軟件詳細信息:
版本: 0.4
上傳日期: 20 Feb 15
開發: David Marin
許可: 免費
人氣: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob是一個Python模塊,可以幫助你編寫和運行Hadoop的流工作。
mrjob完全支持亞馬遜彈性MapReduce(EMR)服務,讓您買的時候Hadoop集群上以小時為單位。它也可以用自己的Hadoop集群。
安裝:
蟒蛇setup.py安裝
設置EMR亞馬遜
  *創建一個Amazon Web Services賬戶:http://aws.amazon.com/
  *註冊彈性MapReduce:http://aws.amazon.com/elasticmapreduce/
  *讓您的訪問和密鑰(去http://aws.amazon.com/account/並點擊“安全證書”),並設置環境變量$ AWS_ACCESS_KEY_ID並據此$ AWS_SECRET_ACCESS_KEY

試試吧!

#本地
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md>計數
#在EMR
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r EMR>計數
#Hadoop集群上
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r的Hadoop>計數
高級配置
在其他AWS地區運行,上傳你的源代碼樹,運行make,並使用其他高級mrjob功能,你需要設置mrjob.conf。 mrjob會在其的conf文件:
  *〜/ .mrjob
  * mrjob.conf在$ PYTHONPATH任何地方
  * /etc/mrjob.conf
見mrjob.conf.example以獲取更多信息

特點

  • 在EMR運行作業,你自己的Hadoop集群,或本地(測試)。
  • 在寫多步工作(一個地圖,減少步送入下一個)
  • 複製您的生產環境中的Hadoop
  • 上傳您的源代碼樹,並把它放在你的工作的$ PYTHONPATH
  • 運行彩妝和其他安裝腳本
  • 設置環境變量(如$ TZ)
  • 在容易從壓縮包安裝Python包(EMR只)
  • 在安裝透明地mrjob.conf配置文件處理
  • 從EMR自動解讀錯誤日誌
  • 在SSH隧道來的Hadoop作業跟踪器上的EMR
  • 在最低設置
  • 要運行EMR,設置$ AWS_ACCESS_KEY_ID美元AWS_SECRET_ACCESS_KEY
  • 要運行Hadoop集群上,設置$ HADOOP_HOME

要求

  • 在Python中

類似的軟件

JPPF
JPPF

11 Apr 16

cloudinitd
cloudinitd

11 May 15

Lustre
Lustre

11 May 15

Pyro4
Pyro4

14 Apr 15

顯影劑的其他軟件 David Marin

doloop
doloop

11 May 15

意見 mrjob

評論沒有發現
添加評論
打開圖片!