本文介绍: 基于Python爬取了1500条阳光热线中关于城乡建设的留言,通过BERT预训练语言模型提取文本的语义向量特征,利用临近传播算法对语义向量特征进行聚类得到127类群众关注问题,定义热度评价指标并利用归一化和熵值法得到评价指标的权重以计算当前群众关注的热点问题。主成分分析:原理是将n维特征映射到k维上,k维是全新的正交特征,这k维特征成为主成分,是重新构造出来的k维特征。爬虫编码流程:指定url——发起请求——获取响应数据——数据解析——持久化存储。
基于BERT模型的群众问政留言之城乡建设热点大数据分析
Python爬虫
数据清洗
热点挖掘问题
基于Python的学生综合评价自动评分
数据预处理
数据转换
特征选择
特征提取
模型建立
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。