本文介绍了能破解文本马赛克的Depix项目。其基于线性方框滤波器原理,利用德布鲁因序列生成查找图像,通过匹配像素化区块还原文本,非AI生成式恢复。该项目有字体等限制,用法简单,可结合OCR实现自动化,前人曾用穷举法,作者批判了GAN的生成式恢复。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

序言
像素化(马赛克)是一种常见的打码方式,通过降低图像中部分区域的分辨率来隐藏某些关键信息。不过,道高一尺魔高一丈啊……
比如本文介绍了的这个相当有意思的破解马赛克项目Depix,Github上线三天近7000 star,目前,已接近15000 star。

毕竟这个效果看起来相当好了,如果自制数据集配合PaddleOCR识别,恐怕连识别部分都不需要人工干预了
接下来,我们就试着研究下这个项目。
参考资料
- 原文介绍:Recovering passwords from pixelized screenshots
- Depix项目地址
- De Bruijn Sequence Generator for Faster Shift Register Code Bruteforcing
- 打马赛克就安全了吗?AI消除马赛克,GitHub开源项目上线三天收获近7000星
像素化(马赛克)是什么
首先,作者介绍了马赛克的原理。作者说道,他要破解的目标是使用普通线性滤波器的像素化结果。我们不妨认为下面这个表情包可以分割成四个大小相同的方块,那么,通过线性滤波器每个方块会得到一个计算结果,再用这个结果填充该方块内输出图像上每个像素点的值。所以,我们会看到,这个笑脸完全在输出结果中完全被隐藏了,这就是马赛克最简单的实现方式之一。
一些消除马赛克的尝试
Depix并不是凭空产生的,前人的工作成果给了作者很大的启发。如果在缺少可以还原图像的已知信息,过往的研究方案无一例外地选择了看似最“笨”的办法:如果我要破解某个信用卡号,那就对所有信用卡号它们进行像素化,然后将恢复结果与被像素化的卡号进行比较。我们可以理解这类匹配的方式,类似于穷举。
熟悉GAN技术的读者可能知道,理论上我们可以通过GAN在某种程度上实现马赛克“消除”。但是,用AI技术的话,恢复的马赛克区域本质上是生成的,并不是真正的原始结果。本文中,作者对此也批判了一番:The AI generates faces that result in the same image when pixelized, but the face it recovers is not the original.
算法介绍
首先明确研究的场景还是有限制的,这是基于文本的马赛克恢复研究。
由于线性方框滤波器是一种确定性算法,对同样的值执行像素化通常会产生同样的像素化 block。使用同样位置的 block 对相同文本执行像素化,会得到同样的 block 值。我们可以尝试像素化文本来找出匹配的模式。更幸运的是,我们还可以把每个block或block组合看作一个子问题。
简小派
简小派是一款AI原生求职工具,通过简历优化、岗位匹配、项目生成、模拟面试与智能投递,全链路提升求职成功率,帮助普通人更快拿到更好的 offer。
123
查看详情
项目的局限:作者没有选择创建潜在字体的查找表。该算法要求在相同背景上具备相同的文本大小和颜色。
最终解决方案:使用待处理字符的 De Bruijn sequence (德布鲁因序列),将其粘贴到相同的编辑器中,然后截图。该截图可以用作相似 block 的查找图像。
问题:什么是De Bruijn sequence?到这个网站试试看就知道啦。De Bruijn Sequence Generator for Faster Shift Register Code Bruteforcing
德布鲁因序列包括待处理字符的所有双字符组合。这很重要,因为一些block会重叠两个字符。找出恰当的匹配需要搜索图像中具备相同像素配置的block——换句话说,穷举地更完善了,这样将像素化的block与匹配block对照的时候,匹配上的概率更高。双字符德布鲁因序列:
在以下测试图像中,Depix 算法无法找到「o」的一部分。这是因为在搜索图像中,搜索 block 还包含下一个字母(「d」)的一部分,但在原始图像中这里有个空格。——换言之,这个算法有个比较大的缺点,那就是对“匹配”要求比较苛刻
算法实验
该项目用法相当简单,一行命令搞定:
python depix.py -p [pixelated rectangle image] -s [search sequence image] -o output.pngIn [3]
# !git clone https://github.com/beurtschipper/Depix
Cloning into 'Depix'... remote: Enumerating objects: 89, done. remote: Total 89 (delta 0), reused 0 (delta 0), pack-reused 89 Unpacking objects: 100% (89/89), done. Checking connectivity... done.In [1]
%cd Depix/
/home/aistudio/DepixIn [ ]
!python depix.py -p images/testimages/testimage3_pixels.png -s images/searchimages/debruinseq_notepad_Windows10_closeAndSpaced.png -o output.png
移除马赛克效果
制作自己的解密系统
掌握了Depix,我们也可以根据算法的要求准备自己的德布鲁因序列与带测试马赛克截图。一个关键点是,字体大小一致。这个简单操作实际做起来还有一丢丢麻烦。
In [6]!python depix.py -p images/testimages/21.png -s images/searchimages/03.png -o output3.png
INFO:root:Loading pixelated image from images/testimages/21.png INFO:root:Loading search image from images/searchimages/03.png INFO:root:Finding color rectangles from pixelated space INFO:root:Found 62 same color rectangles INFO:root:45 rectangles left after moot filter INFO:root:Found 11 different rectangle sizes INFO:root:Finding matches in search image INFO:root:Removing blocks with no matches INFO:root:Splitting single matches and multiple matches INFO:root:[2 straight matches | 38 multiple matches] INFO:root:Trying geometrical matches on single-match squares INFO:root:[4 straight matches | 36 multiple matches] INFO:root:Trying another pass on geometrical matches INFO:root:[4 straight matches | 36 multiple matches] INFO:root:Writing single match results to output INFO:root:Writing *erage results for multiple matches to output INFO:root:S*ing output image to: output3.png
这里用某知名聊天软件的截图马赛克功能做了个尝试,手法比较粗糙,把上下左右行的字符给混进来了,导致效果不太好,不过,也许火眼金睛的读者能猜出加密的什么。哈哈。
以上就是打码就安全了?像素化(马赛克)破解技术Depix简介的详细内容,更多请关注其它相关文章!
# 卡号
# 龙游公司推广营销大概价格多少
# 丽水关键词优化seo
# 七里河区营销型网站建设
# 兰州好的网站优化团队
# 嘉兴浙量关键词快速排名
# 网站推广的技术是
# 长沙seo袁飞品牌最好
# 大润发团购类网站推广
# 咸宁seo推广电话
# 黑龙江抖音推广营销知识
# 我们可以
# 有个
# 是一种
# python
# 自己的
# 一言
# 布鲁
# 穷举
# 打码
# 中文网
# udio
# notepad
# 聊天软件
# ai
# windows
# git
相关栏目:
【
企业资讯168 】
【
行业动态20933 】
【
网络营销52431 】
【
网络学院91036 】
【
运营推广7012 】
【
科技资讯60970 】
相关推荐:
昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
美图第二届影像节发布七款AI影像创作工具
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
vivo人工智能模型现身C-Eval
美图公司吴欣鸿:AI技术重构影像产业
0代码微调大模型火了,只需5步,成本低至150块
第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》
日入400万,第一批AI骗子已上岗
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
人工智能驱动艺术,打开达利的超现实想象
羚客系统即将升级,推出全新的AI数字化工具
AI无法对传统文化符号进行解构和创新
微软在德国举办MR研讨会,向女性分享元宇宙潜力
人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。
杀入生成式AI的亚马逊云科技,能否再次生成未来?
当一个网站的内容被 AI 完全接管
华为小艺AI助手将实现强大的大模型能力
不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”
海柔创新携手SAP,以机器人技术助力全球客户升级数智化竞争力
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
盘古大模型3.0正式发布 AI开发正走向新“工业化开发模式”
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
挑战传统,AI智能工具引领文案创作的无限创意
Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等
数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好
2025 WAIC|美团无人机发布第四代新机型
下一个前沿:量子机器学习和人工智能的未来
OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作
华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余
70年前他本想逃避考试,却影响了整个互联网
LinkedIn 推出生成式 AI 辅助撰写帖文功能,将向所有用户开放
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
Zoom远程会议应用:AI培训需经用户授权
《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!
报道称亚马逊正在测试AI生成产品评价摘要
技术如何使人变得懒惰?
应对算力挑战,亚马逊云科技发力AI基础设施建设
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
谷歌在人工智能领域没有“护城河”?
深企派遣无人机救援队赴京津冀开展防汛救灾任务
Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码
人工智能驱动智能建筑会是未来趋势吗?
此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处
调查:过半数艺术家认为 AI 作图无法帮助他们的工作
学生作文评分的新趋势:教师与AI的合作模式
GPT-4不能在麻省理工学院获得计算机科学学位
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
机器人加速!稀土永磁也被带火,持续性如何?


