下面是我做过的一些比较有代表性的项目。一些是硕士研究方向,一些是竞赛项目。
角色: 核心开发
旨在利用历史健康数据(门诊记录,住院记录等)对健康主体进行建模,结合领域专家信息实现有监督的度量学习 进而产生有效的相似度度量方式,最终利用其进行检索
Technologies: deep metric learning、multi-label classify、自动编码机、回归预测、信息检索、数据索引与缓存、tensorflow
角色: 独立开发
使用悟空机器人提供的sdk-API完成对机器人的操作,包括机器人的四肢、眼睛、语音等位置。自己设计了机器人说相声、老虎机、主人识别三项功能。感兴趣可以观看全部视频
Technologies: java、设计模式、机器人设计
角色: 独立开发
根据广州市2014年8月1日至2014年12月31日五个月的公交刷卡数据(6时-21时)对公交行为进行建模,数据涉及 200万用户、2条线路(共计约800万条数据),同时提供天气状况,预测次年1.1-1.7的分时段流量数据(含假日)。主要完成了公交模型设计、特征工程、回归算法的研究及使用、时序性数据的研究
所用技术: Python(sklearn)、GBDT、RF、线性模型
角色: 核心开发
普适场景下,很多时候无法利用GPS(与GPS原理有关)进行定位,例如:商场门口打车、家里叫外卖这类场景。指纹定位有效的解决了这一难题,其定位精度比单纯利用mac的聚类定位要高很多。具体做法是将地图划分为一个个小方格,每个格子利用mac信息和定位热度生成其独有的特征,众多格子进行排序,找到最有可能发生定位的那个方格,即为最终的定位目标。
由此可见,指纹定位问题最终转化为了排序问题,项目中使用learn to rank的思路解决这一问题,主要应用了pairwise和listwise方法(目前定位精度约20m)
所用技术: sklearn、lightGBM、xgboost
角色: 核心开发
信息化时代,人们对公共交通的依赖程度变高,而且用户对公交交通的服务水平要求也在变高。人们不再单纯的希望知道公交车怎样乘坐,甚至于想知道公交车的实时位置,以便于进行出行决策。
项目中利用公交车上的wifi信息,实时判定公交车的位置,主要包扩处理公交线路数据,提取公交线路特征,对公交路线进行建模;设计并实现基于MapReduce的用户WiFi定位数据挖掘算法,用于实现用户与公交线路的匹配
所用技术: Hadoop、spark、sklearn
角色: 核心开发
一站式大数据分析应用开发平台,支持多种大数据处理分析框架的接入,并借助其分布式存储和计算能力,加快大数据分析的速度。构建基于 Web 的拖曳式的数据分析应用开发界面,同时将用户从平台搭建,工具集成,接口学习,算法管理,实验脚本编写和多任务调度等繁杂工作中抽离出来。
主要设计并实现系统基础架构;基于Hbase的中间数据管理;设计基于组件以及模型驱动的数据分析业务流程处理框架,设计与实现基于嵌套图识别与分层的模型转换算法
所用技术: Hadoop,MapReduce优化,Hbase,Hibernate,数据流模型转换、Spring MVC