mrjob是一個Python模塊,可以幫助你編寫和運行Hadoop的流工作。
mrjob完全支持亞馬遜彈性MapReduce(EMR)服務,讓您買的時候Hadoop集群上以小時為單位。它也可以用自己的Hadoop集群。
安裝:
蟒蛇setup.py安裝
設置EMR亞馬遜
  *創建一個Amazon Web Services賬戶:http://aws.amazon.com/
  *註冊彈性MapReduce:http://aws.amazon.com/elasticmapreduce/
  *讓您的訪問和密鑰(去http://aws.amazon.com/account/並點擊“安全證書”),並設置環境變量$ AWS_ACCESS_KEY_ID並據此$ AWS_SECRET_ACCESS_KEY
試試吧!
#本地
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md>計數
#在EMR
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r EMR>計數
#Hadoop集群上
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r的Hadoop>計數
高級配置
在其他AWS地區運行,上傳你的源代碼樹,運行make,並使用其他高級mrjob功能,你需要設置mrjob.conf。 mrjob會在其的conf文件:
  *〜/ .mrjob
  * mrjob.conf在$ PYTHONPATH任何地方
  * /etc/mrjob.conf
見mrjob.conf.example以獲取更多信息
特點:
- 在EMR運行作業,你自己的Hadoop集群,或本地(測試)。
- 在寫多步工作(一個地圖,減少步送入下一個)
- 複製您的生產環境中的Hadoop
- 上傳您的源代碼樹,並把它放在你的工作的$ PYTHONPATH
- 運行彩妝和其他安裝腳本
- 設置環境變量(如$ TZ)
- 在容易從壓縮包安裝Python包(EMR只)
- 在安裝透明地mrjob.conf配置文件處理
- 從EMR自動解讀錯誤日誌
- 在SSH隧道來的Hadoop作業跟踪器上的EMR
- 在最低設置
- 要運行EMR,設置$ AWS_ACCESS_KEY_ID美元AWS_SECRET_ACCESS_KEY
- 要運行Hadoop集群上,設置$ HADOOP_HOME
要求:
- 在Python中
評論沒有發現