Pycon 2015上海归来,只有短短的8个小时,收获满满,会上干货很多,部分分享做了简短的笔记。没做笔记的好几个分享其实内容都还不错,由于ppt看不清楚,也没太听明白演讲者的重点,比较遗憾。

#1.阿里ace: 直接运行python的django,web.py,flask应用; 技术上使用lxc+docker管理容器; devpy构建pypi mirror; 包管理用 pip install -u requirements.txt nginx+uWSGI with unix socket

#2.daocloud: gunicorn做python服务,服务可以自动重启;

微服务:快速迭代,独立扩展,团队解耦,安全; 微服务的工具链:

flask,request处理微服务;
监控:sentry
服务器:gunicorn
分发:docker

#3.股票 flashhq.py

华泰,共3家提供flash行情

开源工具:tushare, 基于datayes的工作开发的股票分析工具

kivy:app开发,buildozer打包工具

android r24.3.4,rename to sdk-21

#4.钢铁交易中心 工具链:

nginx,gunicorn,django
oracle,es,redis
splunk,node.js,celery

大规模的python集群,处理交易中心的所有交易;

rest api,方法即url,

django toolbar是嵌入在template中的,sql,函数的profiling,

如何profile所有django应用的api性能:实现decorator,动态生成url pattern。

参考 :

孔令开的restapi

分享的slides

#5.jieba分词,es

slides

slides on git

#6.python进行大数据分析处理与可视化: 数据领域,60%在用R,40%在用python。

工具链:

pandas:数据收集,分析/清洗,内存处理,千万级以内的数据。
matploylib,seaborn:用作可视化分析;
bokeh:地图,热力图,处理大数据量;

pandas

pandas把数据抽象为dataframe,可以理解成有行和列的数据集,可以从csv,url,数据库直接生成dataframe。

通过dataframe的抽象,pandas可以很方便地进行数据的过滤,噪音,冗余数据处理,数据关联分析等等常用操作一行代码处理,也可用把这些操作连在一起,作链式处理,一行代码做完数据清洗,处理和分析;(旁注:linux里面我们用awk很方便地按列处理数据,而用pandas,我们可以很方便地对整个数据集进行处理,对集合的列或行的数据进行处理。)

遇到大数据,用pandas可按chunk处理。

也可用blaze,spark处理。blaze支持用pandas;

blaze比较慢,成熟,稳定性不足,

spark作数据的初步处理,简单分析,取出数据后用pandas来分析。

##ipython notebook补一下:

python里面教学用的超级工具,可用在web页面写代码,执行代码,代码和结果保存为ipython notebook,可用在演讲时replay。bokeh可以在notebook中使用。

$ipython notebook 启动浏览器,

自动访问ipython notebook的web页面: http://localhost:8888/

#7.rir

远程执行代码,不留痕迹。

远程服务的import上挂钩子,import可以从本地找library。

pexpect可以用本地的console作为远程的stdout/stdin。

[slides] (http://github.com/shell909090/slides)

run_it_remote脚步

ttyrec,ttyplay:tty终端的录制与replay。

ipython notebook可以!开头执行命令。

#8.python的数据工具箱 肖凯

作者的图书《数据科学中的R语言》。

1).问题,数据,方法,工具,问题比后面的任何一项更加重要;
2).工种类别:数据分析师,模型分析师,数据开发。通常三种工种用sas,matlab,c/java不同工具。如果都用python,能填补不同语言,人员之间的鸿沟。
3).常用的工具,除 pandas, matplotlib, numpy, bokeh之外:
    statsmodel:统计模型
    nltk:自然语言处理
    networkx: 复杂网络处理
    theano:深度学习,可以自动求导。上层的框架:keras。。。

分析流程用到的工具(按顺序):

python -> pandas -> matplotlib -> scipy/numpy -> bokeh

#9.基于状态的数据中心自动化管理 consortium工具

传统机房,跟各种不同的backend进行处理和自动化。

#10.luiti数据仓库 dag visualizer

luiti

比较完整的 py + gi 说明

luigi