Ⅰ 假设有1亿个人名,找出名字重复数最多的前10个,用Java编程怎么做
这个用java做很简单,先把不同名字的取出来,放在一个list集合里,然后,取出list集合里的数据,然后取出list中的对象,取值。键值对的形式。装在set里。然后排序,去前十个。
这是思路,貌似遍历一亿数据有点多啊。没试过,你看看行不行吧!
数据库,应该有方法直接取吧?
Ⅱ 上千万或亿条数据量,如何统计出重复记录最多的前N条
对于这个问题,我个人觉得可以通过统计的方法来完成:去重+统计,具体的做法是:
(1)初始化一个空的集合A(具体的就不去说了,建议用hashtable)。
(2)顺序读入这些数据,如果当前读入的数据不在该集合A中,则将其插入到A中,并将其出现次数标记为0。如果在当前的集合中出现了,则将其当前的出现次数++。
(3)再从统计好的集合中找出重复记录最多的前N条。
Ⅲ 怎样从一列数据中找到重复的数据
怎样从一列数据中找到重复的数据
方法:使用“条件格式”重复命令。
1、 打开EXCEL表格,选择整列单元格,点击“开始”--条件格式--突出显示单元格规则。
2、选择”重复值“设置突出显示的颜色即可。
Ⅳ 请教:在excel表中有大量的数据,如何在一列中以最快的速度找到重复的数据。
假设数字在A列,数字由第二行开始,在B2输入公式:
=IF(COUNTIF(A:A,A2)>1,"重复","")
把鼠标放在B2单元格的右下角变成黑十字时按鼠标左键向下拉,
再以B列排序或筛选,将标有“重复”的行删除即可。