背景

作为INF DC所规划的对外统一分布式API,Bigflow目前支持了Local/DCE两种计算引擎, Task Manager流式计算引擎正在联合开发和迭代中。将更多的计算引擎纳入Bigflow中, 可以使得用户有更多的选择

另一方面,作为社区最火热的Apache Spark,在公司内部的应用规模也越来越大,相对于 传统的DCE(MapReduce)而言,Spark的常驻内存式计算模型能够在许多业务场景(尤其是中 小规模数据计算的场景)下有更好的性能。但Spark在公司内部的应用还有许多有待改进的 方面,例如,作为Spark的Python API,PySpark有功能不够完善、性能比较低的缺点