Skip to main content

Python Bigdata Starter

欢迎参加python大数据入门篇的学习。入门篇的课程面向的是具有一定的python编程基础,并立志与进军与大数据掘金领域的朋友。本书将透过一个银行系统的案例,重点阐述流转换,数据处理,以及并行计算三大主轴的应用案例和设计方案,为后续的大数据应用打下坚实的基础。

  1. CP01 职场新人挑战大数据集成: 作为一个职场新人,如何将专业技能与大数据分析整合,成为跨界人才,并最终实现财务自由是一个课题。结合作者10多年的最佳实践,分享一条敏捷的大数据入门之路。
  2. CP02 大数据入门训练的三大主轴: 一个大数据的人才,应该从哪里开始的?本课程将大数据的实践技能,划分为“流转换”,数据处理,并行计算三大主轴,并设计10个mini项目,帮助大家快速进入大数据的殿堂。
  3. CP03 “流转换”入门之多文件合并: 在“流转换”的入门篇,我们将透过一个多文件合并的原型项目,展现在在文件系统和内存中,对文件进行转换与合并处理,这也是大数据处理最重要的基本功之一。
  4. CP04 “流转换”提高之XML文件解析: XML具有“自描述”的特性,是大数据中很常用的一种数据表达格式,我们将介绍如何对xml文件转换为csv文件,说明如何使用合适的组件来减少内存的占用。
  5. CP04+ XML解析与列表生成式: 在本章节中,会重点透过面向对象的观点来理解XML解析与列表生成式的数据结构,以及解析方法。并重点介绍如何通过列表生成式来编写简洁而优雅的代码
  6. CP05 文件压缩与解压缩操作: 压缩与解压缩操作是大数据处理的一项基本技能。 本章节将通过一个文件压缩转换的案例,重点介绍大数据中的文件原始流与中间流的核心概念,以及如何巧用中间流,提供数据处理的效率。
  7. CP05+ 文件解压缩之函数详解: 本章节将介绍如何通过几个函数来实现文件的压缩与解压缩操作,并帮助读者理解,如何合理的提炼原子函数,来打造可重用的原子函数。
  8. CP06 FTP文件下载原型项目: FTP是大数据应用中最重要的一种数据互通接口。本章节重点讲解如何实现FTP的文件下载处理,以及如果通过面向对象的方法,来设计一个通用的FTP组件。
  9. CP07 将CSV生成XML文件: 在很多大数据场合,我们也需要在接口上传递xml格式的文件。本章节就介绍如何生成一个xml格式的文件,并在此强化对XML这种数据结构的理解。
  10. CP08 基于pandas生成报表: 在数据处理主轴部分,我们首先介绍如何利用pandas来制作报表,这也是非常重要的一个数据处理技能。在本章节中,我们将介绍几个重要的pandas原子函数,方便读者理解pandas的编程过程。
  11. CP09 将数据拷贝到数据库: 数据库是一个融合数据持久化与数据处理能力的组件,也是大数据处理的基础。本章节中将介绍,如何将数据拷贝到postgres-SQL数据库中,这也是贯通大数据的数据处理主轴中非常重要的一个技能。
  12. CP010 两种方法实现数据汇总运算:数据汇总运算是非常基础的一种数据处理技能。在本章节中,我们将分别介绍基于内存计算,和基于数据库函数的方法,实现数据的汇总处理。其中数据库方法比较适合中小规模的汇总运算,而内存计算比较适合大规模的汇总运算。
  13. CP010+ SQLAlchemy与数据汇总运算: 中小规模的汇总运算是常见的数据处理基本技能。我们将重点介绍如何利用SQLAlchemy组件,实现一种弹性的汇总函数编写,这样既获得了数据库汇总方式的便捷性;又避免了编写相关程序的繁琐性。实现高效的数据处理。
  14. CP011 如何实现FTP高效下载:如何实现从多个FTP接口上高效的下载文件,是大数据处理中的一个难点。 在并行计算这个主轴部分,我们将详细解释多线程和多进程的方式,来实现文件高速下载。
  15. CP012 分布式文件处理:大数据的含义是数据的规模大到1台服务器难以处理,所以多机协同处理是大数据入门的一个重点。本章节中将通过一个分布方式文件处理的案例,介绍分布式计算的基础设计方法。
Starter
MicroServ
Tutorials
Blog