色狼窝影院-性爱镜头 从方针分拨到旅途盘算,哈工大团队建议智能仓库的多智能体深度学习处罚有规划
  • 你的位置:色狼窝影院 > 噜噜网影音先锋 > 性爱镜头 从方针分拨到旅途盘算,哈工大团队建议智能仓库的多智能体深度学习处罚有规划

性爱镜头 从方针分拨到旅途盘算,哈工大团队建议智能仓库的多智能体深度学习处罚有规划

发布日期:2025-07-05 10:48  点击次数:106

性爱镜头 从方针分拨到旅途盘算,哈工大团队建议智能仓库的多智能体深度学习处罚有规划

性爱镜头 跟着物流行业的快速发展,智能仓库工夫应时而生,旨在提高仓储效力和天真性。传统仓库依赖传送带等固定开荒,固然粗略完成基本的物料搬运任务,但其天真性差,难以妥贴不断变化的需求。智能仓库通过引入多智能体系统,期骗自主出动的机器东说念主来完成货色的搬运和分拣,大大提高了仓储操作的效力和天真性。但是智能仓库面对的一个关节挑战是奈何灵验地进行方针分拨和旅途盘算(TAPF),以确保多个机器东说念主粗略高效协同责任,幸免旅途打破和资源糟塌。在智能仓库中,TAPF问题触及为每个机器东说念主分拨任务(如搬运货色)并盘算其行进旅途,以确保任务粗略高效完成且旅途不发生打破。TAPF问题的复杂性在于其常常是一个NP难问题,具有普遍的搜索空间。传统纪律常常将方针分拨和旅途盘算分开处理,但这种纪律忽略了两者之间的彼此影响,可能导致次优的处罚有规划。合理的方针分拨不仅不错灵验减少机器东说念主的旅途长度,提高操作效力,还能匡助幸免不同机器东说念主之间的旅途打破。因此,处罚TAPF问题关于智能仓库的高效启动至关蹙迫。

图片性爱镜头性爱镜头

8 月 27 日发表的论文《Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective》建议了一种基于合作多智能体深度强化学习(RL)的纪律,初度将TAPF问题建模为合作多智能体深度RL问题,并同期处罚方针分拨和旅途盘算。具体更动点包括:

初度建模:论文初度将TAPF问题建模为合作多智能体深度RL问题,填补了现存规划的空缺。

香蕉鱼免费观看在线视频

物理动态特质:在旅途盘算阶段,论文辩论了机器东说念主的物理动态特质(如速率和加快度),这在以往规划中较为稀疏。

践诺考证:通过践诺考证,论文纪律在各式任务成就中证实精采,方针分拨合理,旅途接近最短,且比基线纪律更高效。

这些更动点不仅为智能仓库中的TAPF问题提供了新的处罚想路,也展示了合作多智能体深度RL在本体应用中的后劲。

论文的规划团队来自哈尔滨工业大学(深圳)收尾科学与工程系,成员包括Qi Liu, Jianqi Gao, Dongjie Zhu, Xizheng Pang, Pengbin Chen, Jingxiang Guo, Yanjie Li。团队在多智能体系统、深度强化学习和智能仓库工夫方面具有丰富的规划提示和工夫蓄积。通过本规划,团队展示了其在智能仓库范围的更启程手和工夫实力,为将来的规划和应用奠定了坚实基础。

配景与动机传统仓库工夫主要依赖于传送带、叉车和固定的货架系统来完成物料搬运和存储。这些系统固然在一定进程上提高了仓储效力,但其局限性也十分显著。率先,传统仓库系统穷乏天真性,难以妥贴不断变化的订单需乞降仓储布局诊治。其次,传送带和固定货架系统的扩展性差,增多新的存储空间或搬运旅途常常需要大范围的硬件修订。此外,传统仓库系统的自动化进程有限,依赖多数东说念主工操作,导致东说念主力本钱高且容易出现东说念主为随意。智能仓库系统的上风智能仓库系统通过引入多智能体系统(如自主出动机器东说念主),克服了传统仓库工夫的诸多局限性。智能仓库的主要上风包括:高天真性:智能仓库中的自主出动机器东说念主不错证据及时需求动态诊治搬运旅途和任务分拨,妥贴性强。高扩展性:智能仓库系统不错通过增多或减少机器东说念主数目来天真诊治仓储身手,无需大范围硬件修订。高效力:多智能体系统粗略并行处理多个任务,权贵提高了仓储操作效力。低东说念主力本钱:智能仓库系统的高度自动化减少了对东说念主工操作的依赖,裁减了东说念主力本钱和东说念主为随意的风险。现存TAPF问题处罚纪律的不及在智能仓库中,方针分拨与旅途盘算(TAPF)问题是确保多个机器东说念主高效协同责任的关节。但是现存的TAPF问题处罚纪律存在一些不及之处。分离处理:传统纪律常常将方针分拨和旅途盘算分开处理,忽略了两者之间的彼此影响。这种纪律可能导致次优的处罚有规划,无法充分优化举座效力。物理动态特质忽略:很多现存纪律在旅途盘算中忽略了机器东说念主的物理动态特质(如速率和加快度),导致盘算旅途不够精准,影响本体推论成果。时刻效力低:传统纪律在处理复杂任务场景时,计较时刻飞速增多,难以繁盛本体应用中的及时性要求。论文建议的基于合作多智能体深度强化学习的纪律,旨在同期处罚方针分拨和旅途盘算问题,并辩论机器东说念主的物理动态特质,从而克服现存纪律的不及,提高智能仓库系统的举座效力和实用性。TAPF问题的建模方针分拨与旅途盘算(TAPF)问题是智能仓库系统中的中枢问题之一。TAPF问题包括两个主要部分:多智能体任务分拨(MATA)和多智能体旅途寻找(MAPF)。在MATA中,系统需要证据订单需求为每个智能体分拨特定任务,而在MAPF中,系统需要盘算每个智能体的旅途,确保其在推论任务时不会与其他智能体发生打破。TAPF问题常常是NP难问题,具有普遍的搜索空间,奏凯求解绝顶贫困。传统纪律常常将这两个问题分开处理,但这种纪律忽略了任务分拨和旅途盘算之间的彼此影响,可能导致次优的处罚有规划。

图片

图1:将TAPF建模为MARL问题多智能体强化学习(MARL)是一种处理多个智能体在共同环境中交互的学习纪律。MARL的方针是学习一个计谋,使整个智能体粗略协同责任,完成共同方针。MARL不错通过以下几个关节元素来建模。情景空间(S):暗意系统的整个可能情景。动作空间(A):暗意智能体不错推论的整个可能动作。情景滚动函数(P):刻画系统从一个情景滚动到另一个情景的概率。奖励函数(r):界说智能体在推论某个动作后赢得的奖励。扣头因子(γ):用于均衡即时奖励和将来奖励的权重。时刻范围(T):暗意决策经过的时刻跨度。在MARL中,每个智能体证据其不雅测到的环境情景遴荐动作,并通过与环境和其他智能体的交互来学习最优计谋。合作多智能体深度强化学习(Cooperative MARL)异常适用于需要多个智能体协同责任的场景,如智能仓库中的TAPF问题。在智能仓库的TAPF问题中,辩论智能体的物理动态特质(如速率和加快度)关于提高旅途盘算的精准性和本体推论成果至关蹙迫。传统纪律常常只护理智能体的下一个位置,而忽略了其物理动态特质,这可能导致盘算旅途不够精准,影响本体推论成果。论文建议的纪律初度在TAPF问题中辩论了智能体的物理动态特质。具体来说,智能体的动作空间是谄媚的,暗意智能体在四个基本方进取的出动速率。通过计较智能体的速率和加快度,不错更准确地盘算其旅途,确保旅途盘算的本体可行性和高效性。

图片

图2:智能体的物理能源学通过将TAPF问题建模为合作多智能体深度强化学习问题,并辩论智能体的物理动态特质,论文建议的纪律粗略更灵验地处罚智能仓库中的方针分拨与旅途盘算问题,提高系统的举座效力和实用性。具体纪律1. TAPF问题的MARL建模情景空间、动作空间与奖励函数的界说在论文中,方针分拨与旅途盘算(TAPF)问题被建模为一个合作多智能体强化学习(MARL)问题。具体来说,系统的情景空间(S)、动作空间(A)和奖励函数(r)被界说如下:情景空间(S):每个智能体的不雅测包含其本身的位置和速率、整个任务的相对位置、其他智能体的相对位置以及驾驭阻扰物的相对位置。通过这些不雅测,智能体粗略感知其周围环境并作念出决策。动作空间(A):智能体的动作空间是谄媚的,暗意智能体在四个基本方进取的出动速率(左、右、下、上)。最终动作是四个标的速率的向量和。奖励函数(r):奖励函数被界说为多个部分的组合,包括任务告捷奖励、任务到智能体的距离奖励、智能体与阻扰物碰撞的刑事包袱以及智能体之间碰撞的刑事包袱。具体公式如下:告捷奖励:

图片

       其中n暗意繁盛要求的元素数目。

距离奖励:

图片

碰撞刑事包袱(阻扰物):

图片

       其中n暗意繁盛要求的元素数目。

碰撞刑事包袱(智能体):

图片

       其中n暗意繁盛要求的元素数目。

智能体的物理动态特质论文初度在TAPF问题中辩论了智能体的物理动态特质。具体来说,智能体的动作不单是是位置的变化,还包括速率和加快度的计较。通过计较智能体在四个基本方进取的力(F⃗x, F⃗−x, F⃗y, F⃗−y),证据牛顿第二定律不错得到加快度,然后通过加快度计较速率,最终得到智能体的动作。这种纪律使得旅途盘算愈加精准,粗略更好地反应本体推论中的物理特质。

图片

图3:智能体的动作空间2. 使用MADDPG算法处罚TAPF问题计谋收集与指摘者收集的更新在论文中,使用多智能体深度细目性计谋梯度(MADDPG)算法来处罚TAPF问题。由于智能体是同质的,它们不错分享沟通的计谋收集,从而提高学习效力。具体来说,计谋参数通过麇集指摘者Q进行迭代更新,指摘者参数通过最小化蚀本函数进行优化:计谋参数的更新公式为:

图片

其中,xt和at分离暗意整个智能体在时刻步t的不雅测和动作的拼接,D暗意包含样本的重放缓冲区。

指摘者参数的优化公式为:

图片

其中,yt为方针指摘者收集的值,界说为:

图片

奖励分享与推论阶段的计谋在测验经过中,智能体通过分享奖励来学习合作计谋。在推论阶段,仅使用计谋收集π,其输入为各智能体的不雅测,输出为施加在智能体上的力。证据智能体的物理动态特质,不错计较出智能体的动作。具体来说在推论阶段,每个智能体仅依赖其局部不雅测进行决策,从而完结散播推论。

图片

图4:任务和智能体的距离矩阵。通过这种纪律,论文建议的处罚有规划粗略同期处罚方针分拨和旅途盘算问题,提高智能仓库系统的举座效力和实用性。践诺收尾1. 方针分拨与旅途盘算性能考证为了考证论文纪律在方针分拨与旅途盘算(TAPF)问题上的性能,规划团队在不同难度的智能仓库场景中进行了践诺。践诺成就了五个不同难度的场景:两个智能体-两个任务、两个智能体-四个任务、五个智能体-五个任务、五个智能体-十个任务和五个智能体-二十个任务。践诺收尾表示,在整个不同难度的场景中,论文纪律的平均报告值均呈现出单调增多的趋势,考证了纪律的领路性。具体证实如下:通俗任务(如两个智能体-两个任务):方针分拨和旅途盘算均证实精采,任务分拨合理,旅途接近最短。复杂任务(如五个智能体-二十个任务):尽管任务难度徐徐增多,论文纪律一经粗略合理分拨任务,并盘算出接近最短的旅途。这些收尾标明,论文纪律在各式任务成就中均能灵验处罚TAPF问题,具有较高的妥贴性和领路性。2. 合作身手考证为了考证智能体在打破场景下的合作身手,规划团队联想了一个特定的打破场景。在该场景中,两个智能体的任务旅途势必会发生打破。践诺收尾表示,智能体粗略在打破点彼此褪色,然后不断导航到各自的任务点,告捷完成任务。具体证实为:智能体1和智能体2:在打破点彼此褪色,分离沿着红色和青色轨迹完成导航任务。这一收尾考证了论文纪律在合作多智能体深度强化学习中的灵验性,智能体粗略在复杂环境中学会合作,幸免打破,提高任务完生效力。3. 时刻效力考证时刻效力是本体应用中一个蹙迫的考量身分。规划团队将论文纪律与传统纪律在时刻破钞上的证实进行了对比。传统纪律先处罚方针分拨问题(TA),然后进行旅途盘算(PF),而论文纪律同期处罚这两个问题。践诺收尾表示:通俗任务(如两个智能体-两个任务):传统纪律的时刻破钞不错采纳。复杂任务(如五个智能体-二十个任务):传统纪律的时刻破钞飞速增多,难以繁盛及时性要求。比拟之下,论文纪律在整个不同难度的任务中均能高效地提供计谋,考证了那时刻效力。这些收尾标明,论文纪律在时刻效力上具有权贵上风,粗略更好地繁盛本体应用中的需求。践诺收尾展示了论文纪律在智能仓库中的潜在应用价值。通过同期处罚方针分拨和旅途盘算问题,并辩论智能体的物理动态特质,论文纪律不仅提高了系统的举座效力和领路性,还展示了其在本体应用中的高效性和实用性。这为智能仓库系统的进一步发展和优化提供了新的想路和工夫相沿。规划与将来责任论文纪律初度将方针分拨与旅途盘算(TAPF)问题建模为合作多智能体深度强化学习(MARL)问题,粗略同期处罚这两个关节问题,幸免了传统纪律均分离处理带来的次优解。在旅途盘算中辩论了智能体的物理动态特质(如速率和加快度),使得盘算旅途愈加精准,粗略更好地反应本体推论中的物理特质。践诺收尾标明,论文纪律在各式任务成就中均证实出较高的时刻效力,粗略繁盛本体应用中的及时性要求。智能体在打破场景中粗略学会合作,幸免旅途打破,提高任务完生效力。尽管论文纪律在时刻效力上证实优异,但在处理大范围智能体和任务时,计较复杂度仍然较高,可能需要进一步优化算法以提高可扩展性。论文纪律在特定的智能仓库环境中证实精采,但在不同类型的仓库环境中,可能需要对算法进行诊治和优化,以妥贴不同的应用场景。深度强化学习纪律常常需要多数的测验时刻和计较资源,论文纪律在本体应用中可能需要较长的测验周期。进一步优化算法以裁减计较复杂度,提高可扩展性,使其粗略处理更大范围的智能体和任务。规划奈何使算法在不同类型的智能仓库环境中具有更好的妥贴性,提高其通用性。探索及时学习和在线更新的纪律,使智能体粗略在本体操作中不断学习和优化计谋,提高系统的动态响应身手。结合视觉、语音等多模态信息,提高智能体的感知身手和决策精度。论文纪律在智能仓库中的告捷应用展示了其在智能物流范围的普遍后劲,将来不错膨胀到更无为的物流场景中,如智能配送中心和无东说念主仓库。在智能制造范围,论文纪律不错用于优化坐褥线上的物料搬运和任务分拨,提高坐褥效力和天真性。在劳动机器东说念主范围,论文纪律不错用于多机器东说念主合作任务,如清洁机器东说念主和配送机器东说念主,提高其合作身手和任务完生效力。论断论文建议了一种基于合作多智能体深度强化学习的纪律,初度将智能仓库中的方针分拨与旅途盘算(TAPF)问题建模为合作多智能体深度强化学习问题,并同期处罚这两个关节问题。通过践诺考证,论文纪律在各式任务成就中均证实精采,方针分拨合理,旅途接近最短,且比基线纪律更高效。论文纪律在时刻效力和合作身手上证实出权贵上风,展示了其在智能仓库中的潜在应用价值。论文纪律通过同期处罚方针分拨和旅途盘算问题,并辩论智能体的物理动态特质,不仅提高了智能仓库系统的举座效力和领路性,还展示了其在本体应用中的高效性和实用性。将来,论文纪律有望在智能物流、智能制造和劳动机器东说念主等范围得到无为应用,为这些范围的进一步发展和优化提供新的工夫相沿和处罚有规划。(END)参考贵府:https://arxiv.org/pdf/2408.13750

图片

波动寰球(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI工夫驱动的匡助用户进行心理照看的器具和传递心理价值的酬酢家具,基于意志科学和心理价值的表面基础。波动寰球将东说念主的意志和心理应作规划和应用的对象,探索东说念主的意志机制和特征,培养东说念主的意志手段和民俗,繁盛东说念主的意志体验和趣味趣味,提妙手的自我意志、自我照看、自我迁移、自我抒发和自我完结的身手,让东说念主赢得简直的解放安稳和内在的力量。波动寰球将开荒一个陶冶咱们的心理和反应的价值体系。这是一款针对平常东说念主的基于东说念主类领路和步履情势的心理照看Dapp应用才略。

本站仅提供存储劳动,整个内容均由用户发布,如发现存害或侵权内容,请点击举报。

相关资讯
热点资讯
  • 友情链接:

Powered by 色狼窝影院 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2024 版权所有