XCLW23887 基于KMeans聚类算法的上网监测数据分析方法研究 (字数:9510)摘要随着互联网技术的飞速发展,特别是机器人、人工智能的应用,人们能够获取的信息呈现了爆炸式的增长。几年前我们觉得一个亿的数据量已经很大了,但现在几十亿、几百亿的数据量都很常见。面对互联网时代的海量信息,如何从中提取出我们需要的有价..
XCLW23887 基于KMeans聚类算法的上网监测数据分析方法研究 (字数:9510) 摘要 随着互联网技术的飞速发展,特别是机器人、人工智能的应用,人们能够获取的信息呈现了爆炸式的增长。几年前我们觉得一个亿的数据量已经很大了,但现在几十亿、几百亿的数据量都很常见。面对互联网时代的海量信息,如何从中提取出我们需要的有价值的数据,如何对这些庞杂的数据进行分类,并找出其中的异常信息等等。国内外很多大公司都投入大量的人力物力研发机器学习算法,以期能够从“堆积如山”的信息中找出“金子”。 本文使用K-Means聚类、PCA降维机器学习算法,分析海量的网吧上网数据,以期从中找出一些规律、发现一些问题,给上级领导制定相关政策提供辅助依据。例如我分析了以下问题,并找到了相应的答案: 1)最喜欢上网吧的人群是70后、80后还是90后?根据不同人群的喜好特点,网吧可以制定不同的营销策略。例如80后一般喜欢怀旧的游戏,魔兽、传奇等等;90后一般喜欢多加入时尚元素,喜欢新的刺激冒险的游戏等等。 2)网民一般喜欢哪个时间段去上网?网吧可以根据不同的时段制定不同的收费策略,例如上网高峰时可以定价高点,上网低谷时可以制定些促销措施。 3)最受网民喜欢的网吧是哪几家? 4)最爱去网吧上网的是哪些网民? 5)网民去网吧上网,上网频率和每次上网时间大概是多少? 6)全市哪些地区网民上网比较多? 7)制作百度地图热力,显示出全市网民上网的分布情况。如果某个地区网民上网人数突然增多,是否可能出现大量人群聚集情况?这需要上级部门安排警力维护现场秩序。 8)给出一个证件号码,预测该网民是否喜爱上网? 关键词 机器学习 无监督学习 聚类算法 K-Means 降维 预测 目录 摘要 I 第1章 机器学习与聚类 3 1.1 机器学习概述 3 1.2 聚类算法概述 3 1.3 聚类算法分类 4 1.3.1 原型聚类 4 1.3.2 密度聚类 4 1.3.3 层次聚类 4 第2章 K-Means概述 5 2.1 K-Means国内外现状 5 2.2 K-Means含义 5 2.3 K-Means算法的实现 7 2.3.1 主程序 9 2.3.2 绘图函数 9 2.3.3 分配聚类中心函数 10 2.3.4 计算聚类中心函数 11 2.3.5 自定义K-Means函数 11 第3章 K-Means在上网监测数据分析中的应用 13 3.1 上网监测数据说明 13 3.1.1 数据清洗函数 13 3.1.2 字符转日期函数 15 3.2 最佳上网时间 16 3.3 上网时长调查 19 3.4 最爱上网个人评选 21 3.5 最佳网吧评选 23 第4章 降维及数据预测 26 4.1 降维概述 26 4.2 爱上网的XX后 26 4.3 不同地区网吧情况分析 29 4.4 上网人员迁徙情况 31 4.5 数据预测 33 参考文献 39 致谢 40
|
上一篇:基于Jsp的学生学籍信息管理系统的.. | 下一篇:基于LAMP的网页文字放置类游戏网.. |
点击查看关于 基于 KMeans 算法 上网 监测 数据分析 方法研究 的相关范文题目 | 【返回顶部】 |