工具 效率 groovy    2017-05-25 00:22:20    5    0    0
## 文件 ### 文件操作 ``` def dir = new File("/images") dir.eachFile{file-> } def writer = new File("/users.txt") writer.write("") //清空文件 ``` ### 文件读取 ``` file.eachLine{ } file.splitEachLine("\t"){ } ```
工具    2017-05-24 09:34:31    4    0    0
之前一直用笨重的`apache http client`, 看到Android上都是在用OkHttp来访问接口,尝试一下. ## 提交form ``` new Request.Builder() .url(url) .post(new FormBody.Builder() .add("userNam
python 工具 效率    2017-05-24 09:32:57    2    0    0
需要临时写一个API接口提供web服务,没有太多复杂的逻辑~ 要求就是快速,支持json 使用rails太重了,试了下`flask`,真好用, ```python import json from find_obj import search_image,match_images from flask import jsonify from flask import Flask from
大数据 工作    2017-05-24 09:32:25    4    0    0
Ambari-Server机器挂了一段时间,重启后发现Ambari的监控界面上各种警报~ 想用Ambari在界面提供的界面来修复,发现Agent已经失联,无法进行任何操作. 使用`sudo ambari-agent status`查看agent的状态 : running ,似乎是正常的. 尝试万能问题解决方案:`重启` ,瞬间解决~ ``` sudo service ambari-
python 机器学习    2017-05-19 11:19:12    3    0    0
mode: 众数, 即出现次数最多的数. 当`axis=None`时, 整个array被展开成1维度,就变成了常规可以理解的众数. 当指定`axis`时, 如`axis=0` , 就变成了一个数在列出现的情况统计, 用array[1,columns] 表示. 虽然看懂了整个过程,但是依然不明白N维求众数的意义. ``` >>> a = np.array([[6, 8, 3
机器学习    2017-05-19 08:29:22    4    0    0
## 生成FFM的训练格式 有两种方式,可以先使用2快速验证模型~ 1. 从0开始,维护feature-index到feature的对应关系的dict. 训练和使用时再翻译过来~ 1.1 优点: 可解释性好,weight空间无浪费. 缺点: 需要维护额外的dict, 有转换开销~ 2. 使用hash方式,近似算出一个hash值. 2.1 优点: 简单. 缺点:得出来的feature
2017-05-16 00:32:48    17    0    0

## 请求分析

qunar的页面数据有些会用js-data的方式加载到前端,不过不要高兴的太早,这些数据是加密的...

qunar的部分描述信息是半图片半文字的.直接对这块进行截图,然后使用OCR识别更方便一些,毕竟字体比较标准.

quanr没有酒店id的概念,只能通过酒店名称的方式进行搜索,这个构思我觉得蛮不错的,给了其他酒店的机会来让用户尝试.


## 实现

基本上模拟浏览器操作是处理这种问题的最好方式.

用`selenide`实现没啥难度, 就是模拟正常的搜索行为,然后解析网页. 

私房菜    2017-05-13 11:28:43    10    0    0
## 韭菜鸡蛋饺子 1. 炒鸡蛋,剁碎 2. 姜片切碎 2. 韭菜摘好,晾干水分,然后剁碎 3. 锅内放油,小火,加入花椒大料, 等凉. 此处如果有五香粉,也可以直接用,不用再炒油. 4. 先将油放入韭菜,姜碎搅拌均匀,然后在加入盐,鸡精,蚝油继续搅拌 5. 超市买皮,包饺子. todo: 菠菜叶榨汁, 胡萝卜榨汁, 做成有颜色的饺子 ## 清炒苋菜 1. 苋菜去掉根茎,洗净. 切的
工作 cassandra    2017-05-12 10:58:10    19    0    0
## 现象 06-10出现了大量的pending日志, 即imp找不到bid, 10分钟后pending日志处理完毕. ### 日志数据 日志是90s产生一次. bid日志的qps在12k左右, 理论上来说, 90s大概会有100w日志产生.即如果程序不消费,会有100w的lag存在 ``` more nohup.out | grep -E '2017-05-12 12:(0|1|2
机器学习 笔记    2017-04-28 02:07:49    19    0    0
``` conda install -c conda-forge seaborn=0.7.1 ``` ## category类型变量分析 相当于统计 group by x1 | collect(y) , 将collect的点都画出来. 也可以添加`hue=x2`参数, 指定一个x2嵌套分析. 相当于 collect(y splited by x2) group by x1 . ### s
1/6