
本文详细讲解了如何在 pandas dataframe 中,根据多个列的优先级来计算排名。通过将次要排序列进行微小加权并叠加到主要排序列上,再结合 `rank(method='dense', ascending=false)` 方法,能够灵活处理多级平局,确保排名结果的准确性和一致性,有效应对复杂的数据排序需求。
在数据分析和处理中,我们经常需要对数据集进行排名。通常情况下,排名是基于单个指标进行的。然而,当存在多个指标,并且需要按照特定优先级来打破平局时,简单的排序或排名函数可能无法直接满足需求。例如,我们可能需要首先依据“总分”进行排名,如果总分相同,则依据“效率分”进行判别,如果效率分也相同,则最终依据“难度分”来确定名次。本教程将介绍一种在 Pandas DataFrame 中实现这种多条件优先级排名的高级方法。
核心概念:加权综合分数法
为了实现多条件优先级排名,一个有效的方法是构建一个“加权综合分数”。其核心思想是:
- 主排序键(例如“Total Score”)保持其原始权重。
- 次级排序键(例如“EScore”、“DScore”)被赋予极小的权重。这些权重必须足够小,以至于它们在累加到主排序键上时,不会改变因主排序键不同而产生的排名顺序。它们的作用仅仅是在主排序键值完全相同的情况下,才能够通过其微小的差异来打破平局。
- 通过这种方式生成的综合分数,将包含所有排序条件的优先级信息。对这个综合分数进行排名,即可得到满足多条件优先级要求的最终排名。
实现步骤
我们将使用一个示例 DataFrame 来演示这一过程。
1. 准备数据
首先,创建一个包含待排名数据的 Pandas DataFrame:
import pandas as pd
df = pd.DataFrame({
"DScore": [2, 2, 4, 4, 5],
"EScore": [6, 7, 9, 9, 10],
"Total Score": [17, 15, 23, 23, 25]
})
print("原始 DataFrame:")
print(df)输出:
原始 DataFrame: DScore EScore Total Score 0 2 6 17 1 2 7 15 2 4 9 23 3 4 9 23 4 5 10 25
我们的目标是根据 Total Score 降序排名,若 Total Score 相同,则根据 EScore 降序排名,若 EScore 也相同,则根据 DScore 降序排名。
2. 构建加权综合分数
根据上述核心概念,我们将 EScore 和 DScore 乘以一个极小的权重,然后加到 Total Score 上。
选择权重的原则是:
网易人工智能
网易数帆多媒体智能生产力平台
233
查看详情
- EScore 的最大可能值乘以其权重,必须小于 Total Score 列中最小的非零差值。
- DScore 的最大可能值乘以其权重,必须小于 EScore 的最大可能值乘以其权重。
在本例中,Total Score 的最小非零差值是 2 (17-15)。EScore 的最大值是 10。 如果 EScore 权重设为 0.01,则 EScore * 0.01 的最大值为 10 * 0.01 = 0.1。这小于 Total Score 的最小差值 2,因此不会影响 Total Score 间的排名。 DScore 的最大值是 5。 如果 DScore 权重设为 0.0001,则 DScore * 0.0001 的最大值为 5 * 0.0001 = 0.0005。这小于 EScore * 0.01 的最小差值(例如,如果 EScore 差 1,则 0.01),因此不会影响 EScore 间的排名。
# 构建加权综合分数
# EScore权重设为0.01,DScore权重设为0.0001
df['Composite Score'] = df['Total Score'].add(df['EScore'].mul(0.01)).add(df['DScore'].mul(0.0001))
print("\n带有加权综合分数的 DataFrame:")
print(df)输出:
带有加权综合分数的 DataFrame: DScore EScore Total Score Composite Score 0 2 6 17 17.0602 1 2 7 15 15.0702 2 4 9 23 23.0904 3 4 9 23 23.0904 4 5 10 25 25.1005
可以看到,Composite Score 列已经将所有优先级信息编码进去。例如,第2行和第3行的 Total Score 都是 23,EScore 都是 9,DScore 都是 4,所以它们的 Composite Score 完全相同。
3. 应用排名函数
现在,我们可以对 Composite Score 列应用 rank() 函数来生成最终排名。
- ascending=False:表示分数越高,排名越靠前(即排名值越小)。
- method='dense':表示在存在相同分数时,它们会获得相同的排名,并且下一个不同的分数会获得紧随其后的排名,不会跳过数字。例如,如果前两名并列第一,下一个将是第二名(1, 1, 2),而不是第三名(1, 1, 3)。
- .astype('int'):将排名结果转换为整数类型。
df['Rank'] = df['Composite Score'].rank(ascending=False, method='dense').astype('int') print("\n最终排名结果 DataFrame:") print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果
输出:
最终排名结果 DataFrame: DScore EScore Total Score Rank 0 2 6 17 3 1 2 7 15 4 2 4 9 23 2 3 4 9 23 2 4 5 10 25 1
可以看到,Total Score 为 25 的获得了第 1 名。Total Score 为 23 的两行都获得了第 2 名。Total Score 为 17 的获得了第 3 名。Total Score 为 15 的获得了第 4 名。这完全符合我们多条件优先级排名的预期。
完整代码示例
import pandas as pd
# 原始数据
df = pd.DataFrame({
"DScore": [2, 2, 4, 4, 5],
"EScore": [6, 7, 9, 9, 10],
"Total Score": [17, 15, 23, 23, 25]
})
print("原始 DataFrame:")
print(df)
# 构建加权综合分数并直接计算排名
# 为EScore和DScore赋予极小的权重,以确保它们只在Total Score相同时代替判别
# 权重选择需确保:
# 1. 次级权重 * 次级分数最大值 < 主级分数最小差异
# 2. 更次级权重 * 更次级分数最大值 < 次级权重 * 次级分数最小差异
df['Rank'] = (
df['Total Score']
.add(df['EScore'].mul(0.01)) # EScore作为第一平局打破者,权重0.01
.add(df['DScore'].mul(0.0001)) # DScore作为第二平局打破者,权重0.0001
.rank(ascending=False, method='dense') # 降序排名,相同分数使用密集排名
.astype('int') # 转换为整数类型
)
print("\n最终排名结果 DataFrame:")
print(df)权重选择的考量与注意事项
- 权重的相对大小: 选择权重时,最关键的是确保次级排序键的加权值不会影响主排序键的相对顺序。例如,如果 Total Score 的最小差异是 1,那么 EScore 的加权最大值必须远小于 1。如果 EScore 的最大值是 100,权重设为 0.01,那么最大加权值就是 1,这可能会影响 Total Score 的原始顺序。在这种情况下,可能需要选择更小的权重,例如 0.001。
- 数据范围: 在实际应用中,需要根据各列数据的实际范围(最小值、最大值)来仔细选择权重。一个好的实践是先计算出各列的数值范围和可能的最小差异,然后据此确定合适的权重。
- 浮点数精度: 由于涉及到浮点数运算,在极端情况下可能会遇到浮点数精度问题。但对于大多数排名场景,上述权重选择方法是足够稳健的。
- 可读性: 虽然这种方法非常有效,但生成的“加权综合分数”本身可能不具备直观的业务含义。在最终展示时,通常会移除这个辅助列,只保留最终的排名列。
总结
通过构建加权综合分数并结合 Pandas 的 rank() 函数,我们可以高效且灵活地实现基于多列优先级的数据排名。这种方法不仅能够处理简单的单列排名,更能应对复杂的平局打破规则,为数据分析提供了强大的工具。理解权重选择的原则是成功应用此方法的关键,确保排名结果的准确性和业务逻辑的正确性。
以上就是Pandas DataFrame 多条件优先级排序与排名的详细内容,更多请关注其它相关文章!
# 多个
# 元氏国内网站推广哪家好
# 面包店如何营销推广活动
# 台州seo网站建设费用
# 推广网站的视频广告是什么
# 鼓楼区推广网站建设
# 济南知名网站推广
# 网站建设的其他问题
# 壮阳药seo
# 安徽企业网站建设哪里好
# 网站建设的总体设计
# 则是
# 编码
# 降序
# 获得了
# 以其
# 都是
# 网易
# 设为
# 多条
# 单元格
# 数据排序
# 工具
相关栏目:
【
企业资讯168 】
【
行业动态20933 】
【
网络营销52431 】
【
网络学院91036 】
【
运营推广7012 】
【
科技资讯60970 】
相关推荐:
在Blazor WebAssembly应用中动态注入客户端特定指标代码的策略
html两个JS只运行一个怎么办_让双JS在html中都运行方法【技巧】
邮政快递包裹最新位置 邮政快递实时追踪入口
火狐浏览器占用内存高卡顿怎么办 火狐浏览器性能优化设置技巧
拼多多购物车商品数量无法修改如何处理 拼多多购物车操作优化方法
J*a 递归快速排序中静态变量的状态管理与陷阱
Go语言JSON解析深度指南:动态访问与结构体映射实践
虚幻5科幻题材ARPG大作遭取消!本是《奇异人生》厂商新作
夸克浏览器桌面版同步不了书签怎么处理 夸克浏览器跨设备同步异常解决方案
1688商家版怎样分析买家画像精准供货_1688商家版分析买家画像精准供货【供货策略】
菜鸟取件码是什么怎么查 最全查询渠道汇总
包子漫画官方网站在线链接-包子漫画在线阅读平台主页地址
J*aScript中localStorage数据的获取、清洗与格式化教程
自动更新Socket连接中的Access Token并处理存储变化
C#如何安全地从用户上传的XML文件中读取数据? 验证与清理策略
Win10桌面图标大小调整 Win10个性化设置桌面图标教程【美化】
《噬血代码2》新预告片发布 展示游戏剧情
CSS布局中意外空白:解决padding-top导致的顶部间距问题
sublime怎么格式化代码_sublime代码美化与一键排版插件配置
如何使用spryker/configurable-bundles-products-resource-relationship模块解决复杂产品捆绑关系难题
msn官网入口地址手机版 msn官方网站手机最新链接
Python vgamepad库按键模拟:正确使用XUSB_BUTTON常量
2025AO3夸克浏览器通道_AO3手机HTTPS安全入口分享
C++如何生成随机数_C++ random库使用方法与范围设置
Excel如何用迷你图显趋势_Excel用迷你图显趋势【趋势小图】
手机CPU怎么影响游戏体验_手机CPU对游戏性能的影响分析
J*a里如何使用forEach遍历Map_Map遍历方法说明
HTML5原生日期选择器与jQuery UI:实现日期选择器的联动与程序化控制
极速漫画官方主页网址 极速漫画漫画在线浏览官网链接
iwriter统一登录平台 iwrite账号密码登录页面
蛙漫安全无毒 官方认证的绿色入口
打开就能玩的植物大战僵尸 植物大战僵尸网页版传送门
win11如何加载ICC颜色配置文件 Win11校色文件安装与显示器色彩管理【指南】
edge浏览器怎么允许弹出窗口_Edge弹窗权限开启方法
mc.js官网登录入口 mc.js官方登录入口最新版
Golang如何安装Swagger工具_GoSwagger文档生成环境
Safari怎么安装扩展程序 浏览器插件安装与管理方法【详解】
夸克浏览器图书入口 夸克手机浏览器阅读入口
React列表渲染与独立状态管理:避免全局状态影响局部更新
React onClick 事件处理:函数引用 vs. 匿名函数
Golang如何实现微服务鉴权与权限控制_Golang微服务鉴权与权限管理实践
Composer如何在生产环境安全地执行composer update
Composer的 "licenses" 命令如何帮助你遵守开源协议_检查项目依赖的许可证合规性
TikTok国际版网页端快速入口 TikTok全球版短视频浏览教程
解决Python logging 中 datefmt 导致时间戳固定不变的问题
深入理解J*aScript Promise异步执行顺序与微任务队列
微信网页版官方入口教程 微信网页版网页版快速登录步骤
格力空气能E5故障代码是什么情况_格力空气能E5代码解析与应对措施
支付宝如何管理隐私设置_支付宝隐私保护的配置技巧
初次安装JDK时环境变量如何正确配置_J*A_HOME与PATH设置规则讲解


ense').astype('int')
print("\n最终排名结果 DataFrame:")
print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果