极客时间-轻松学习，高效学习-极客邦

失火的夏天

2019-01-23

思考题用一个有向图来存储任务之间的依赖关系，然后用拓扑排序的思想来执行任务，每次都找到入度为0的，放在队列里，启动线程池开始执行，队列里的任务并行执行完毕，再次调用拓扑排序找到入度为0的人，放入队列，直到所以任务跑完

 3

 86
Jerry银银

2019-01-23

一看到依赖，就想到了拓扑。

这种感觉好是还是不好呢？



 22
DFighting

2019-08-13

现在才明白，其实最底层的数据结构是<addr,value>，按照存储介质是否连续、是否显示制定key又可以分为数组、链表和hash，其中数组可以认为是一种<index,arr[index]>，链表是<p,*p>，然后在这基础之上衍生出了一维的线性表、栈、队列，散列表，二维的树(平衡二叉树、红黑树、跳表)，三维的图，还有就是各种数据结构灵活组合的数据结构，这里的跳表可以算是组合类型的，但是它的使用范围很多，所以划到了二维中。这些是存储
然后是算法：排序、分治、贪心、回溯、动态规划
第一次真正感觉到了数据结构和算法的关联，好神奇的感觉。至少现在觉得那些难记的算法、数据结构没那么困难了，多思考、实践总会能够像写代码般应用到实际中。

 2

 13
hua168

2019-01-23

老师，我就问一个题外问题：
大专学历，想直接自学考本科或研究生，自考学历IT类公司承认的吗？
很多都要求全日制本科~~

 2

 12
🐱您的好友William...

2019-02-08

使用拓扑关系来构建图安排计算顺序，这个spark，tensorflow都是这么安排的，效率比最开始的MapReduce还要高很多。



 6
茴香根

2019-01-23

思考题讲的够直白了，n个任务有互相依赖。那么并行处理的方法就要采用流水线的思想了。创建n个线程，每个线程完成一个任务。每个线程在它的上游线程结束输出结果后启动，完成之后把结果传递给下游任务线程继续流程。整个工作场景像工厂里面的流水线一样，每一个线程都努力地重复着某一阶段的任务，提高整体资源利用率。



 5
xuery

2019-04-09

想到的第一个思路就是前面所讲的拓扑排序，任务之间的关系用有向图表示，如果是采用khan遍历，则每次找到入度为0的，同时多线程执行，等他们执行完（java可以通过CountDownLatch来模拟实现），然后同理找到入度为0的任务，继续同理执行，直到全部执行完



 3
刺猬

2019-11-24

王铮老师，你好，学习了这么久一直有一个疑问，之前讲的那个100G订单排序的问题，一大份数据分成多份小数据然后进行排序，原理其实很简单，但是分的时候可以用到什么算法，分完组合的时候用到什么算法，因为100G订单不是之前就分好的，要一次性分，那也需要扫描这100G订单，另外如果分的时候不是采用先对数据按照大小划分区间，然后再排序的话，那么在每一段内是有序的，但是不能保证组合以后也有序，所以组合的时候还有进行排序，这种情况有什么好的解决思路。

 2

 2
Smallfly

2019-01-23

并行搜索只用一个队列不可以么？

作者回复: 也可以的。不过就有可能导致没法找到最短路径了。



 2
mrlay

2019-07-21

我觉得能够并行执行多少个任务，是取决于这些任务之间的依赖关系；采用拓扑只是为了确认任务的先后执行。最坏的情况下还是会变成串行的。



 1
Geek_46cdcd

2019-05-09

请问老师，广度优先搜索中用两个队列是为了解决多线程的并发问题吗？

作者回复: 是的

 1

 1
牧民牛仔

2019-01-24

既然有依赖关系，我条件反射想到拓扑排序算法，根据依赖关系把任务分组，各组任务按照依赖关系排序。没有依赖关系的任务组可以并行执行，有依赖关系的任务组内则按依赖关系有序的执行。



 1
子嘉

2019-01-23

思考题是：拓扑排序么。。



 1
纯洁的憎恶

2019-01-23

并行与分治的区别是什么？前者偏工程，后者偏算法么？还是前者在并发环境中，后者在单核串行环境中？

作者回复: 并行是一种工程思路。分治是一种算法思想。感觉差不多哈；）你理解就好，不要太纠结；）



 1
feifei

2019-01-23

我想到了图，讲依赖关系抽象成边，使用图排序就可以找出依赖关系，然后将每一层的任务放入线程池执行，当一层完成后，继续下一层处理



 1
注定非凡

2020-02-08

算法的目的就是为了提高代码执行的效率。当算法无法再继续优化的情况下，需要借助并行计算的处理思想对算法进行改造

并行排序
假设要给大小为 8GB 的数据进行排序，最常用的是三种排序算法，归并排序、快速排序、堆排序，时间复杂度为 O(nlogn) 。从理论上讲，已经很难再从算法层面优化了。而利用并行的处理思想可以将执行效率提高很多倍。

第一种是对归并排序并行化处理
    * 将这8GB 的数据划分成 16 个小的数据集合，每个集合包含 500MB 的数据。
    * 用 16 个线程，并行地对这 16 个 500MB 的数据集合进行排序。
    * 16 个小集合分别排序完成之后，再将这 16 个有序集合合并。

第二种是对快速排序并行化处理
    * 将数据扫描一遍，找到数据所处的范围区间，在按从小到大划分成 16 个小区间。
    * 将 8GB 的数据划分到对应的16 个小区间中，启动 16 个线程，并行地进行排序。
    * 等到 16 个线程都执行结束后，得到的数据就是有序数据了。

对比这两种处理思路
    * 共同点：它们利用的都是分治的思想，对数据进行分片，然后并行处理。
    * 不同点：
        （1）第一种处理思路是，先随意地对数据分片，排序之后再合并。
        （2）第二种处理思路是，先对数据按照大小划分区间后再排序，排完序就不需要再处理了。
    * 这个跟归并和快排的区别如出一辙。

并行查找
      散列表是一种非常适合快速查找的数据结构。
弊端：
    * 如果给动态数据构建索引，数据不断加入会使散列表的装载因子越来越大
    * 为了保证散列表性能不下降，就需要对散列表进行动态扩容
    * 对巨大的散列表进行动态扩容，不仅比较耗时，还比较消耗内存
优化：
    * 实际上可以将数据随机分割成 k 份（比如 16 份），每份中的数据只有原来的 1/k
    * 然后针对这 k 个小数据集合分别构建散列表。这样，散列表的维护成本就变低了
    * 当某个小散列表的装载因子过大的时，可以单独对这个散列表进行扩容，而其他散列表不需要进行扩容。
    * 当要查找数据时，通过 16 个线程并行地在这16 个散列表中查找数据。这样的查找性能，比起一个大散列表的做法，也并不会下降，反倒有可能提高。
    * 当往散列表中添加数据时，可以将新数据放入装载因子最小的散列表中，这样也有助于减少散列冲突。

假设有 2GB 的数据，放到 16 个散列表中，每个散列表中的数据大约是 150MB。当某个散列表需要扩容的时候，我们只需要额外增加 150*0.5=75MB 的内存（假设还是扩容到原来的 1.5 倍）。不管从扩容的执行效率还是内存的利用率上，这种多个小散列表的处理方法，都要比大散列表高效

并行字符串匹配
在文本中查找某个关键词可以通过字符串匹配算法来实现，字符串匹配算法有 KMP、BM、RK、BF 等

如果处理的是超级大的文本，可以把大的文本，分割成 k 个小文本。假设 k 是 16，就启动 16 个线程，并行地在这 16 个小文本中查找关键词，这样整个查找的性能就提高了 16 倍

并行搜索
搜索算法有：广度优先搜索、深度优先搜索、Dijkstra 最短路径算法、A* 启发式搜索算法。对于广度优先搜索算法，也可以将其改造成并行算法。
    * 广度优先搜索是一种逐层搜索的搜索策略
    * 基于当前这一层顶点，我们可以启动多个线程，并行地搜索下一层的顶点
    * 在代码实现方面，原来广度优先搜索的代码实现，是通过一个队列来记录已经遍历到但还没有扩展的顶点
    * 经过改造之后的并行广度优先搜索算法，需要利用两个队列来完成扩展顶点的工作

展开




Kevin⚡️Zhou

2020-01-19

广度优先搜索那段, 如果采用并行搜索, 难道不需要考虑线程之间的race condition么?




Sid

2019-11-18

并行搜索，广度优先遍历，A中每个顶点的处理是并行的，但为了保证扩展出的节点之间的顺序与A队列节点之间的顺序一致，扩展出的顶点“放入”到B队列这个步骤还是要串行的吧。




CarreyWang

2019-10-25

广度优先搜索里面

假设这两个队列分别是队列 A 和队列 B。多线程并行处理队列...

这样先清空A，再清空B的做法，与原来只使用一个队列的方式没有太大的效率提升吧？无法做到在拓展A的时候同时拓展B啊？？？？




Magic

2019-09-22

拓扑排序



