joball icon nav experts unselect

找專家

joball icon nav needs unselect

找案件

joball icon nav needs unselect

新增

joball icon nav needs unselect

新版預覽

急件

本日

三日內

七日內

即將到期

已結束

請自行報價

(PTT) Python data pipeline 改善與測試

2021年12月26日-10:56刊登・36次觀看

有效時間:徵到為止。2022-01-02前完成,額外加給20%。

專案說明:
現有 data pipeline 包含三個獨立運行的docker service:
Common Crawl data retriever, GDELT data retriever 與 data preprocessor。
程式語言為 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。
中間資料集與結果皆以 MongoDB 儲存。

資料處理邏輯與 docker 封裝已基本完成,小資料集測試OK。
但推上測試環境爬取真實資料時,發生諸多問題例如

- 各種data bugs除之不盡
- 無法測試並確認scheduler的正確性與可靠性
- 不知道要如何應付網路中斷、資料重抓錯抓、系統停機重啟等各種狀況。

主要的requirement就是解決上面的問題,讓程式達到可以上線的品質。

接觸洽談流程如下:
發案人會先做一次live demo,
展示目前的code如何運作,解釋功能設計與問題瓶頸。
決定接案後,發案人會與接案者共同 refine 一次具體的 requirement spec,
並開放 GitLab private repo 給接案者作業。

預算:NTD 15k
- 2022-01-02前完成,額外加給20%
- 如須使用AWS等付費服務,事先與發案人討論即可。費用由發案人負擔。

接案者要求:
- 一般 Python 3 服務之開發、測試與維護經驗
- 熟悉此類連續運行服務之可靠性設計
- 熟悉 docker 環境調試
- 能夠有紀律的執行一般 Git DevOps,例如每個 commit 盡量只做一件事;
commit message 與 changelog 簡明清楚等
- (加分項)熟悉平行化程式之設計與除錯
- (重要加分項)具相似data pipeline與服務的架設經驗

附註:保密義務

連結

Google 廣告區塊

0

JOBALL系統

添加至 Wallet

最後上線: 3小時前

接案身份: 個人

所在地區: 臺南市

服務地區: 可遠距, 不限地點

340338

詢問次數: 即將開放

個人標籤

尚未設定標籤

頭像|JOBALL系統

JOBALL系統

3小時前登入