网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
07月19日漏签0天
人工智能吧 关注:116,112贴子:508,193
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 37回复贴,共1页
<<返回人工智能吧
>0< 加载中...

集合快查?

  • 只看楼主
  • 收藏

  • 回复
  • 贴吧用户_0R7b4J6960
  • 贾维斯
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
请问一下?,百万条数量级的字符串句子集合。
有个集合,
我要在这两组之间,找到其中的句子,在其中一个集合存在,另外一个集合不存在。
用什么算法快?


  • 贴吧用户_0R7b4J6960
  • 贾维斯
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
@小唯⚙️機械心
这样明说吧, 功能是这样的,用户的文件有很多图片资源,存在各个位置,
有一个软件是做图的,要用到各种图片。
从其他电脑复制一个做图项目,就带有很多用到的资源图片,
但是,我经常要从其他地方复制做图的项目,就会堆压很多内容重复的图片,我想用算法去除重复的图片,减少硬盘空间占用。


2025-07-19 06:01:12
广告
  • 贴吧用户_0R7b4J6960
  • 贾维斯
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
@章氏不错

先找盆再找球,特征法。


  • 火星的日升日落
  • 多啦A梦
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
你想免费以及有源码就用es。
我的则是免费但是不开源,可以用千元台式机(硬盘另计)语义检索全人类简体中文知识里面最符合你要求的一句话。
想自己搞一般就不用去费劲了,因为我这个技术是可以吊打谷歌的技术。



  • 贴吧用户_0R7b4J6960
  • 贾维斯
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
@璐村惂鐢ㄦ埛_7SKAAD6馃惥 ==>当一个程序是依靠bug运行的时候,最好不要动它。
确实,之前公司有位已经走的老哥留下一个烂摊子就是这样的,
每一行脚本都用try ()catch()
逻辑也写在try之中,try中有try,
运行不成,再运行。
比如:
try( m.v=10)catch(try(m.val=10)catch(try(m.value=10)catch(m=null)))


  • 胡梦柯5
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
如果你只是想简单处理,且文件名基本完全反映了不同的文件(即不需要智能的模糊的文件名判别及文件内容神经网络比对),事实上不需要太高级,有部分重复是可接受的。用在程序中使用shell或os的文件搜索功能,结果存在变量中,如果找不到匹配文件,允许复制,找到,则不复制,但用字典进行重复文件的维护,即需要一个额外的字典或json文件来存储有重复的文件的路径键值对,形如{某程序:{原带路径的文件名:用于替代的带路径的文件名,……},……},以便于用户程序建立新的path后好找到重复而没拷过来的替代文件。


  • 贴吧用户_0R7b4J6960
  • 贾维斯
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
看了一下,md5码是16个字节,合成整数是int128。
不知道C#中有没有这个大整数。


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 37回复贴,共1页
<<返回人工智能吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示