Merge-Listen, die gemeinsame Elemente

Mein input ist eine Liste von Listen. Einige gemeinsame Elemente, wie zB.

L = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]

Ich Zusammenführen müssen alle Listen, die ein gemeinsames element, und wiederholen Sie diesen Vorgang so lange, als es keine mehr Listen mit der gleichen Artikelnummer. Ich dachte über die Verwendung von booleschen Operationen und eine while-Schleife, konnte aber nicht kommen mit einer guten Lösung.

Das Endergebnis sollte sein:

L = [['a','b','c','d','e','f','g','o','p'],['k']]

Was meinst du mit verschmelzen? Union? Können Sie zeigen, welches Ergebnis erwarten Sie für Ihr Beispiel-Daten?
In Ihrem Beispiel, würden Sie stoppen Sie, wenn Sie auf [k]? Oder gehen Sie über alle dein Listen?
was ist mit der Liste [[a, b, c], [b, d, e], [d, f, g]]. Sollten alle sein verschmolzen sich zu einer Liste? die ersten und die letzten Listen nicht haben ein gemeinsames element.
So oder so, der Komplexität werden am besten expotential (wahrscheinlich noch schlimmer). Wie wäre es mit sets statt, um zumindest die Prüfung für die gemeinsamen Elemente schnell?
Sie gehen durch die ganze Liste einmal Eintritt in alle Listen, die ein gemeinsames element (wenn bool(set(A) & Satz(B)) == True). Danach prüfen Sie wieder und wieder, so lange wie Sie können nicht an der restlichen Liste. Wenn es eine Liste mit keine gemeinsamen Elemente auf andere Listen, wir halten es, wie es ist.

InformationsquelleAutor Wistful Jesus | 2011-01-30

Können Sie Ihre Liste als notation für Graphen, dh ['a','b','c'] ist ein graph mit 3 Knoten miteinander verbunden. Das problem, das Sie versuchen zu lösen, ist die Suche nach angeschlossene Komponenten, die in diesem Diagramm.

Können Sie NetworkX für diese, was den Vorteil hat, dass es ziemlich garantiert, um korrekt zu sein:

l = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]

import networkx 
from networkx.algorithms.components.connected import connected_components


def to_graph(l):
    G = networkx.Graph()
    for part in l:
        # each sublist is a bunch of nodes
        G.add_nodes_from(part)
        # it also imlies a number of edges:
        G.add_edges_from(to_edges(part))
    return G

def to_edges(l):
    """ 
        treat `l` as a Graph and returns it's edges 
        to_edges(['a','b','c','d']) -> [(a,b), (b,c),(c,d)]
    """
    it = iter(l)
    last = next(it)

    for current in it:
        yield last, current
        last = current    

G = to_graph(l)
print connected_components(G)
# prints [['a', 'c', 'b', 'e', 'd', 'g', 'f', 'o', 'p'], ['k']]

Lösen diese effizient selbst müssen Sie konvertieren die Liste in etwas Grafik-ish sowieso, so dass Sie könnte genauso gut verwenden die networkX von Anfang an.

Eigentlich brauche ich diese Grafiken erstellen danach.
Jesus: ein Grund mehr, die Bibliothek zu benutzen.
Coole Antwort. Als eine kleine Anregung, um es noch kürzer, die to_edges - Funktion ersetzt werden könnte, durch izip(part[:-1], part[1:]).
Was ist die Zeit-Komplexität von connect_components?

InformationsquelleAutor Jochen Ritzel

28

Algorithmus:
1. nehmen, legen Sie zunächst Eine Liste von
2. für jede andere Menge B in die Liste tun, wenn B ist gemeinsames element(s) mit Einem join B in Einem; entfernen Sie B aus der Liste
3. 2 wiederholen. bis Sie nicht mehr überlappen, mit Einem
4. setzen Sie Ein in outpup
5. wiederholen Sie 1. mit dem rest der Liste
So möchten Sie vielleicht zu verwenden, setzt nicht auf "Liste". Das folgende Programm sollte es tun.
```
l = [['a', 'b', 'c'], ['b', 'd', 'e'], ['k'], ['o', 'p'], ['e', 'f'], ['p', 'a'], ['d', 'g']]

out = []
while len(l)>0:
    first, *rest = l
    first = set(first)

    lf = -1
    while len(first)>lf:
        lf = len(first)

        rest2 = []
        for r in rest:
            if len(first.intersection(set(r)))>0:
                first |= set(r)
            else:
                rest2.append(r)     
        rest = rest2

    out.append(first)
    l = rest

print(out)
```
Ich mag diese Antwort. Für mich, die Frage fühlt wie eine set-problem. Ein kleiner Punkt: die elegante first, *rest = l Konstrukt ist Python 3 nur, tauschen es mit first, rest = l[0], l[1:] scheint gut zu funktionieren, auf python 2.7

InformationsquelleAutor Howard

Stieß ich auf das gleiche Problem zu versuchen, zu verschmelzen-down-Listen mit gemeinsamen Werten. In diesem Beispiel kann das sein, was du suchst.
Es nur Schleifen über Listen einmal und updates resultset wie es geht.

lists = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
lists = sorted([sorted(x) for x in lists]) #Sorts lists in place so you dont miss things. Trust me, needs to be done.

resultslist = [] #Create the empty result list.

if len(lists) >= 1: # If your list is empty then you dont need to do anything.
    resultlist = [lists[0]] #Add the first item to your resultset
    if len(lists) > 1: #If there is only one list in your list then you dont need to do anything.
        for l in lists[1:]: #Loop through lists starting at list 1
            listset = set(l) #Turn you list into a set
            merged = False #Trigger
            for index in range(len(resultlist)): #Use indexes of the list for speed.
                rset = set(resultlist[index]) #Get list from you resultset as a set
                if len(listset & rset) != 0: #If listset and rset have a common value then the len will be greater than 1
                    resultlist[index] = list(listset | rset) #Update the resultlist with the updated union of listset and rset
                    merged = True #Turn trigger to True
                    break #Because you found a match there is no need to continue the for loop.
            if not merged: #If there was no match then add the list to the resultset, so it doesnt get left out.
                resultlist.append(l)
print resultlist

#

resultset = [['a', 'b', 'c', 'd', 'e', 'g', 'f', 'o', 'p'], ['k']]

dieser algo ist nicht der richtige Mann ! wenn die Liste ist so etwas wie die [[0, 2], [1, 8], [1, 4], [2, 8], [2, 6], [3, 5], [6, 9]] dann wird das Ergebnis 3 sub-Liste anstelle von 2 sub-Liste.
dies ist inzwischen korrigiert worden

InformationsquelleAutor Nicholas Braaksma

6

Ich denke, dieses Problem kann gelöst werden durch die Modellierung des Problems als Grafik. Jede Teilliste ist ein Knoten und teilt eine Kante mit einem anderen Knoten nur, wenn die beiden Teillisten haben einige Elemente gemeinsam. So, eine zusammengeführte Teilliste ist im Grunde ein angeschlossene Komponente in der Grafik. Die Zusammenführung aller von Ihnen ist einfach eine Frage der Suche nach allen angeschlossenen Komponenten und listet Sie.

Kann dies durch eine simple traversal über dem Diagramm. Beide BFS und DFS verwendet werden kann, aber ich bin mit der DFS hier, da ist es etwas kürzer für mich.
```
l = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
taken=[False]*len(l)
l=[set(elem) for elem in l]

def dfs(node,index):
    taken[index]=True
    ret=node
    for i,item in enumerate(l):
        if not taken[i] and not ret.isdisjoint(item):
            ret.update(dfs(item,i))
    return ret

def merge_all():
    ret=[]
    for i,node in enumerate(l):
        if not taken[i]:
            ret.append(list(dfs(node,i)))
    return ret

print(merge_all())
```
Dies bedeutet nicht die richtigen Ergebnisse zurück
Können Sie gemeinsam einen Fall gibt, für den dies nicht gelingt?
ah, es scheint, das problem existiert in Python 3.5, aber nicht 2.7...
Können Sie bitte teilen Sie ein Fall für die dies scheitert in Python 3.5?
Aktualisiert den code auf Python-3.5.

InformationsquelleAutor MAK

Als Jochen Ritzel darauf hingewiesen, Sie sind auf der Suche nach angeschlossenen Komponenten in einem Diagramm. Hier ist, wie könnte man es umsetzen ohne die Verwendung einer graph-Bibliothek:

from collections import defaultdict

def connected_components(lists):
    neighbors = defaultdict(set)
    seen = set()
    for each in lists:
        for item in each:
            neighbors[item].update(each)
    def component(node, neighbors=neighbors, seen=seen, see=seen.add):
        nodes = set([node])
        next_node = nodes.pop
        while nodes:
            node = next_node()
            see(node)
            nodes |= neighbors[node] - seen
            yield node
    for node in neighbors:
        if node not in seen:
            yield sorted(component(node))

L = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
print list(connected_components(L))

InformationsquelleAutor pillmuncher

Mein Versuch. Hat funktionalen Charakter.

#!/usr/bin/python
from collections import defaultdict
l = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
hashdict = defaultdict(int)

def hashit(x, y):
    for i in y: x[i] += 1
    return x

def merge(x, y):
    sums = sum([hashdict[i] for i in y])
    if sums > len(y):
        x[0] = x[0].union(y)
    else:
        x[1] = x[1].union(y)
    return x


hashdict = reduce(hashit, l, hashdict)
sets = reduce(merge, l, [set(),set()])
print [list(sets[0]), list(sets[1])]

InformationsquelleAutor Rumple Stiltskin

Habe ich gefunden itertools eine schnelle option für das Zusammenführen von Listen und es löste dieses problem für mich:

import itertools

LL = set(itertools.chain.from_iterable(L)) 
# LL is {'a', 'b', 'c', 'd', 'e', 'f', 'g', 'k', 'o', 'p'}

for each in LL:
  components = [x for x in L if each in x]
  for i in components:
    L.remove(i)
  L += [list(set(itertools.chain.from_iterable(components)))]

# then L = [['k'], ['a', 'c', 'b', 'e', 'd', 'g', 'f', 'o', 'p']]

Für große Gruppen Sortieren LL von der Frequenz aus den häufigsten Elementen der Beine kann die Dinge beschleunigen ein bisschen

InformationsquelleAutor mimomu

Habe ich benötigt, um führen Sie die clustering-Technik beschrieben, durch die OP, die millionenfach für sehr große Listen, und wollte daher, um zu bestimmen, welche der Methoden, die oben vorgeschlagen ist sowohl für höchst präzise und performantester.

Lief ich 10 versuche für die Eingabe von Listen der Größe von 2^1 bis 2^10 für jede Methode vor, mit der gleichen input-Liste für jede Methode, gemessen und die Durchschnittliche Laufzeit jedes Algorithmus vorgeschlagen, oben in Millisekunden. Hier sind die Ergebnisse:

Merge-Listen, die gemeinsame Elemente

Diese Ergebnisse halfen mir zu sehen, dass die Methoden, die konsequent die richtigen Ergebnisse zurück, @jochen das ist die Schnellste. Unter den Methoden, die nicht konsequent die richtigen Ergebnisse zurück, die mak-Lösung oft nicht enthalten sind alle Eingabe-Elemente (z.B. Liste der Mitglieder fehlen), und die Lösungen von braaksma, cmangla, und Sternchen nicht garantiert werden maximal zusammengeführt.

Es ist interessant, dass die zwei schnellsten, richtigen algorithmen haben die beiden top-Menge an upvotes zu Datum, und richtig Platz um.

Hier ist der code zum ausführen des tests:

from networkx.algorithms.components.connected import connected_components
from itertools import chain
from random import randint, random
from collections import defaultdict, deque
from copy import deepcopy
from multiprocessing import Pool
import networkx
import datetime
import os

##
# @mimomu
##

def mimomu(l):
  l = deepcopy(l)
  s = set(chain.from_iterable(l))
  for i in s:
    components = [x for x in l if i in x]
    for j in components:
      l.remove(j)
    l += [list(set(chain.from_iterable(components)))]
  return l

##
# @Howard
##

def howard(l):
  out = []
  while len(l)>0:
      first, *rest = l
      first = set(first)

      lf = -1
      while len(first)>lf:
          lf = len(first)

          rest2 = []
          for r in rest:
              if len(first.intersection(set(r)))>0:
                  first |= set(r)
              else:
                  rest2.append(r)
          rest = rest2

      out.append(first)
      l = rest
  return out

##
# Nx @Jochen Ritzel
##

def jochen(l):
  l = deepcopy(l)

  def to_graph(l):
      G = networkx.Graph()
      for part in l:
          # each sublist is a bunch of nodes
          G.add_nodes_from(part)
          # it also imlies a number of edges:
          G.add_edges_from(to_edges(part))
      return G

  def to_edges(l):
      """
          treat `l` as a Graph and returns it's edges
          to_edges(['a','b','c','d']) -> [(a,b), (b,c),(c,d)]
      """
      it = iter(l)
      last = next(it)

      for current in it:
          yield last, current
          last = current

  G = to_graph(l)
  return list(connected_components(G))

##
# Merge all @MAK
##

def mak(l):
  l = deepcopy(l)
  taken=[False]*len(l)
  l=map(set,l)

  def dfs(node,index):
      taken[index]=True
      ret=node
      for i,item in enumerate(l):
          if not taken[i] and not ret.isdisjoint(item):
              ret.update(dfs(item,i))
      return ret

  def merge_all():
      ret=[]
      for i,node in enumerate(l):
          if not taken[i]:
              ret.append(list(dfs(node,i)))
      return ret

  result = list(merge_all())
  return result

##
# @cmangla
##

def cmangla(l):
  l = deepcopy(l)
  len_l = len(l)
  i = 0
  while i < (len_l - 1):
    for j in range(i + 1, len_l):
      # i,j iterate over all pairs of l's elements including new
      # elements from merged pairs. We use len_l because len(l)
      # may change as we iterate
      i_set = set(l[i])
      j_set = set(l[j])

      if len(i_set.intersection(j_set)) > 0:
        # Remove these two from list
        l.pop(j)
        l.pop(i)

        # Merge them and append to the orig. list
        ij_union = list(i_set.union(j_set))
        l.append(ij_union)

        # len(l) has changed
        len_l -= 1

        # adjust 'i' because elements shifted
        i -= 1

        # abort inner loop, continue with next l[i]
        break

      i += 1
  return l

##
# @pillmuncher
##

def pillmuncher(l):
  l = deepcopy(l)

  def connected_components(lists):
    neighbors = defaultdict(set)
    seen = set()
    for each in lists:
        for item in each:
            neighbors[item].update(each)
    def component(node, neighbors=neighbors, seen=seen, see=seen.add):
        nodes = set([node])
        next_node = nodes.pop
        while nodes:
            node = next_node()
            see(node)
            nodes |= neighbors[node] - seen
            yield node
    for node in neighbors:
        if node not in seen:
            yield sorted(component(node))

  return list(connected_components(l))

##
# @NicholasBraaksma
##

def braaksma(l):
  l = deepcopy(l)
  lists = sorted([sorted(x) for x in l]) #Sorts lists in place so you dont miss things. Trust me, needs to be done.

  resultslist = [] #Create the empty result list.

  if len(lists) >= 1: # If your list is empty then you dont need to do anything.
      resultlist = [lists[0]] #Add the first item to your resultset
      if len(lists) > 1: #If there is only one list in your list then you dont need to do anything.
          for l in lists[1:]: #Loop through lists starting at list 1
              listset = set(l) #Turn you list into a set
              merged = False #Trigger
              for index in range(len(resultlist)): #Use indexes of the list for speed.
                  rset = set(resultlist[index]) #Get list from you resultset as a set
                  if len(listset & rset) != 0: #If listset and rset have a common value then the len will be greater than 1
                      resultlist[index] = list(listset | rset) #Update the resultlist with the updated union of listset and rset
                      merged = True #Turn trigger to True
                      break #Because you found a match there is no need to continue the for loop.
              if not merged: #If there was no match then add the list to the resultset, so it doesnt get left out.
                  resultlist.append(l)
  return resultlist

##
# @Rumple Stiltskin
##

def stiltskin(l):
  l = deepcopy(l)
  hashdict = defaultdict(int)

  def hashit(x, y):
      for i in y: x[i] += 1
      return x

  def merge(x, y):
      sums = sum([hashdict[i] for i in y])
      if sums > len(y):
          x[0] = x[0].union(y)
      else:
          x[1] = x[1].union(y)
      return x

  hashdict = reduce(hashit, l, hashdict)
  sets = reduce(merge, l, [set(),set()])
  return list(sets)

##
# @Asterisk
##

def asterisk(l):
  l = deepcopy(l)
  results = {}
  for sm in ['min', 'max']:
    sort_method = min if sm == 'min' else max
    l = sorted(l, key=lambda x:sort_method(x))
    queue = deque(l)

    grouped = []
    while len(queue) >= 2:
      l1 = queue.popleft()
      l2 = queue.popleft()
      s1 = set(l1)
      s2 = set(l2)

      if s1 & s2:
        queue.appendleft(s1 | s2)
      else:
        grouped.append(s1)
        queue.appendleft(s2)
    if queue:
      grouped.append(queue.pop())
    results[sm] = grouped
  if len(results['min']) < len(results['max']):
    return results['min']
  return results['max']

##
# Validate no more clusters can be merged
##

def validate(output, L):
  # validate all sublists are maximally merged
  d = defaultdict(list)
  for idx, i in enumerate(output):
    for j in i:
      d[j].append(i)
  if any([len(i) > 1 for i in d.values()]):
    return 'not maximally merged'
  # validate all items in L are accounted for
  all_items = set(chain.from_iterable(L))
  accounted_items = set(chain.from_iterable(output))
  if all_items != accounted_items:
    return 'missing items'
  # validate results are good
  return 'true'

##
# Timers
##

def time(func, L):
  start = datetime.datetime.now()
  result = func(L)
  delta = datetime.datetime.now() - start
  return result, delta

##
# Function runner
##

def run_func(args):
  func, L, input_size = args
  results, elapsed = time(func, L)
  validation_result = validate(results, L)
  return func.__name__, input_size, elapsed, validation_result

##
# Main
##

all_results = defaultdict(lambda: defaultdict(list))
funcs = [mimomu, howard, jochen, mak, cmangla, braaksma, asterisk]
args = []

for trial in range(10):
  for s in range(10):
    input_size = 2**s

    # get some random inputs to use for all trials at this size
    L = []
    for i in range(input_size):
      sublist = []
      for j in range(randint(5, 10)):
        sublist.append(randint(0, 2**24))
      L.append(sublist)
    for i in funcs:
      args.append([i, L, input_size])

pool = Pool()
for result in pool.imap(run_func, args):
  func_name, input_size, elapsed, validation_result = result
  all_results[func_name][input_size].append({
    'time': elapsed,
    'validation': validation_result,
  })
  # show the running time for the function at this input size
  print(input_size, func_name, elapsed, validation_result)
pool.close()
pool.join()

# write the average of time trials at each size for each function
with open('times.tsv', 'w') as out:
  for func in all_results:
    validations = [i['validation'] for j in all_results[func] for i in all_results[func][j]]
    linetype = 'incorrect results' if any([i != 'true' for i in validations]) else 'correct results'

    for input_size in all_results[func]:
      all_times = [i['time'].microseconds for i in all_results[func][input_size]]
      avg_time = sum(all_times) / len(all_times)

      out.write(func + '\t' + str(input_size) + '\t' + \
        str(avg_time) + '\t' + linetype + '\n')

Und zum Plotten:

library(ggplot2)
df <- read.table('times.tsv', sep='\t')

p <- ggplot(df, aes(x=V2, y=V3, color=as.factor(V1))) +
  geom_line() +
  xlab('number of input lists') +
  ylab('runtime (ms)') +
  labs(color='') +
  scale_x_continuous(trans='log10') +
  facet_wrap(~V4, ncol=1)

ggsave('runtimes.png')

InformationsquelleAutor duhaime

Dies ist eine ziemlich schnelle Lösung ohne Abhängigkeiten. Es funktioniert wie folgt:

Zuweisen einer eindeutigen Referenznummer für jede von Ihr lebt (in diesem Fall der erste index der Teilliste)
Erstellen ein Wörterbuch der Referenz-Elemente für jede Teilliste, und für jedes Element in jeder Teilliste.
Wiederholen Sie die folgenden Verfahren, bis es verursacht keine Veränderungen:

3a. Gehen Sie durch jedes Element in jeder Teilliste. Wenn das Element den aktuellen Referenz-Nummer unterscheidet sich von der Referenz-Anzahl der Unterliste, dann muss das element ein Teil der zwei Listen. Die Zusammenführung der beiden Listen (entfernen von der aktuellen Teilliste von der Referenz), und legen Sie die Referenz-Anzahl aller Elemente in der aktuellen Teilliste werden die Referenz-Nummer der neuen Teilliste.

Wenn diese Prozedur bewirkt, dass keine änderungen, es ist, weil alle Elemente sind Bestandteil genau einer Liste. Da working set ist eine Verringerung in der Größe bei jeder iteration der Algorithmus, der unbedingt beendet.

   def merge_overlapping_sublists(lst):
    output, refs = {}, {}
    for index, sublist in enumerate(lst):
        output[index] = set(sublist)
        for elem in sublist:
            refs[elem] = index
    changes = True
    while changes:
        changes = False
        for ref_num, sublist in list(output.items()):
            for elem in sublist:
                current_ref_num = refs[elem]
                if current_ref_num != ref_num:
                    changes = True
                    output[current_ref_num] |= sublist
                    for elem2 in sublist:
                        refs[elem2] = current_ref_num
                    output.pop(ref_num)
                    break
    return list(output.values())

Hier sind eine Reihe von tests für diesen code:

def compare(a, b):
    a = list(b)
    try:
        for elem in a:
            b.remove(elem)
    except ValueError:
        return False
    return not b

import random
lst = [["a", "b"], ["b", "c"], ["c", "d"], ["d", "e"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b", "c", "d", "e"}])
lst = [["a", "b"], ["b", "c"], ["f", "d"], ["d", "e"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b", "c",}, {"d", "e", "f"}])
lst = [["a", "b"], ["k", "c"], ["f", "g"], ["d", "e"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b"}, {"k", "c"}, {"f", "g"}, {"d", "e"}])
lst = [["a", "b", "c"], ["b", "d", "e"], ["k"], ["o", "p"], ["e", "f"], ["p", "a"], ["d", "g"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"k"}, {"a", "c", "b", "e", "d", "g", "f", "o", "p"}])    
lst = [["a", "b"], ["b", "c"], ["a"], ["a"], ["b"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b", "c"}])

Beachten Sie, dass der Rückgabewert ist eine Liste von Sätzen.

InformationsquelleAutor Zags

0

Ohne zu wissen durchaus, was Sie wollen, habe ich beschlossen, nur denke, Sie meinte: ich will den finden, der jedes element nur einmal.
```
#!/usr/bin/python


def clink(l, acc):
  for sub in l:
    if sub.__class__ == list:
      clink(sub, acc)
    else:
      acc[sub]=1

def clunk(l):
  acc = {}
  clink(l, acc)
  print acc.keys()

l = [['a', 'b', 'c'], ['b', 'd', 'e'], ['k'], ['o', 'p'], ['e', 'f'], ['p', 'a'], ['d', 'g']]

clunk(l)
```
Ausgabe sieht so aus:
```
['a', 'c', 'b', 'e', 'd', 'g', 'f', 'k', 'o', 'p']
```
.__class__ == list sieht so unglaublich falsch. Zumindest isinstance(sub, list). Wenn auch nur als eine Sache des Prinzips. (Auch, man könnte/sollte nur einen Satz, statt ein dict mit falschen Werten.)
schuldig in beiden Punkten zu 🙂
Auch k sollte nicht mit anderen Komponenten pro die OP ' s Frage
heh, das Bearbeiten, Hinzugefügt diese Anforderung wurde Hinzugefügt, nachdem ich gepostet meine Antwort. Es ist sehr lehrreich, dass anstelle der Beantwortung der Frage, die ich hätte Fragen sollen das Plakat zu schreiben, eine bessere Frage zuerst. Danke.
vielen Dank für zeigt mir den .__Klasse__ hack!

InformationsquelleAutor sarnold

Dies ist vielleicht eine einfachere/schnellere Algorithmus und scheint gut zu funktionieren -

l = [['a', 'b', 'c'], ['b', 'd', 'e'], ['k'], ['o', 'p'], ['e', 'f'], ['p', 'a'], ['d', 'g']]

len_l = len(l)
i = 0
while i < (len_l - 1):
    for j in range(i + 1, len_l):

        # i,j iterate over all pairs of l's elements including new 
        # elements from merged pairs. We use len_l because len(l)
        # may change as we iterate
        i_set = set(l[i])
        j_set = set(l[j])

        if len(i_set.intersection(j_set)) > 0:
            # Remove these two from list
            l.pop(j)
            l.pop(i)

            # Merge them and append to the orig. list
            ij_union = list(i_set.union(j_set))
            l.append(ij_union)

            # len(l) has changed
            len_l -= 1

            # adjust 'i' because elements shifted
            i -= 1

            # abort inner loop, continue with next l[i]
            break

    i += 1

print l
# prints [['k'], ['a', 'c', 'b', 'e', 'd', 'g', 'f', 'o', 'p']]

InformationsquelleAutor cmangla

Vermisse ich nicht quirurgic version. Ich poste es auf 2018 (7 Jahre später)

Einer einfach und understable Ansatz:

1) Kartesisches Produkt ( cross join ) verschmelzen beide, wenn es gemeinsame Elemente

2) entfernen Sie dups

#your list
l=[['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]

#import itertools
from itertools import product, groupby

#inner lists to sets (to list of sets)
l=[set(x) for x in l]

#cartesian product merging elements if some element in common
for a,b in product(l,l):
    if a.intersection( b ):
       a.update(b)
       b.update(a)

#back to list of lists
l = sorted( [sorted(list(x)) for x in l])

#remove dups
list(l for l,_ in groupby(l))

#result
[['a', 'b', 'c', 'd', 'e', 'f', 'g', 'o', 'p'], ['k']]

InformationsquelleAutor dani herrera

Können Sie networkx-Bibliothek, da ist ein Graphentheorie und angeschlossenen Komponenten problem:

import networkx as nx

L = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]

G = nx.Graph()

#Add nodes to Graph    
G.add_nodes_from(sum(L, []))

#Create edges from list of nodes
q = [[(s[i],s[i+1]) for i in range(len(s)-1)] for s in L]

for i in q:

    #Add edges to Graph
    G.add_edges_from(i)

#Find all connnected components in graph and list nodes for each component
[list(i) for i in nx.connected_components(G)]

Ausgabe:

[['p', 'c', 'f', 'g', 'o', 'a', 'd', 'b', 'e'], ['k']]

InformationsquelleAutor Scott Boston

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.