ShowMeAI日报系列全新升级!掩盖AI人工智能 东西&结构 | 项目&代码 | 博文&共享 | 数据&资源 | 研讨&论文 等方向。点击检查 历史文章列表,在大众号内订阅论题 #ShowMeAI资讯日报,可接纳每日最新推送。点击 专题合辑&电子月刊 快速阅读各专题全集。
东西&结构
『Git Based MLOps』用Git / GitHub完结MLOps
github.com/codingpot/g…
这个项目展现了怎么在 Git/GitHub 中完结 MLOps。 为了完结这一方针,该项目大量运用了 DVC、DVC Studio、DVCLive 等东西,并展现了构建的详细流程。一切产品均由 iterative.ai、Google Drive、Jarvislabs.ai 和 HuggingFace Hub 构建。
『lnx』Rust写的高效查找引擎
github.com/lnx-search/…
lnx 的构建结合tokio-rs 、超 Web 结构与 tantivy 查找引擎的原始核算才能,构成了高效的引擎体系。
这使得lnx能够一起对成千上万的文档刺进进行毫秒级索引(不再等待事情被索引!)每个索引业务和处理查找的才能,就像它仅仅哈希表上的另一个查找相同
『FastDeploy』简略易用的推理布置东西箱
github.com/PaddlePaddl…
掩盖业界主流优质预练习模型并供给开箱即用的开发体会,包括图画分类、方针检测、图画切割、人脸检测、人体要害点识别、文字识别等多使命,满意开发者多场景,多硬件、多渠道的快速布置需求。
『HETU』面向大规划自动化分布式练习的高功能分布式深度学习体系
github.com/Hsword/Hetu
HETU 河图 是北京大学 DAIR 实验室开发的针对万亿参数深度学习模型练习的高功能分布式深度学习体系。它既考虑了工业的高可用性,也考虑了学术界的创新,具有适用性、高功率、灵活性、敏捷性等许多先进的特点。
『chaiNNer』依据流程图/节点的图画处理 GUI
github.com/joeyballent…
一种依据流程图 / 节点的图画处理图形用户界面(GUI),旨在使链接图画处理使命(特别是由神经网络完结的使命)变得简略、直观和可定制。
没有任何现有的升级GUI能够像Chainer那样为您的图画处理工作流供给定制级别。不只能够彻底操控处理管道,还能够经过将几个节点衔接在一起来完结极其杂乱的使命。
博文&共享
『交叉熵解惑』博文
chris-said.io/2020/12/26/…
『图神经网络根底』公开课
www.graphneuralnets.com/p//basics-o…
本课程《Basics of Graph Neural Networks | Welcome AI Overlords》是关于图机器学习的快速阅读,介绍消息传递的基本概念并解说核心算法(如标签传达、图卷积网络和图注意网络),并展现怎么仅运用 NumPy 从头开始完结图卷积网络。
数据&资源
『专家混合』相关文献资源列表
github.com/XueFuzhao/a…
这个 repo 是关于 混合专家 (awesome mixture of experts)的精彩内容调集,包括论文、代码等。
研讨&论文
大众号回复要害字 日报,免费获取整理好的论文合辑。
⚡ 论文:LViT: Language meets Vision Transformer in Medical Image Segmentation
论文标题:LViT: Language meets Vision Transformer in Medical Image Segmentation
论文时刻:29 Jun 2022
所属范畴:医疗
对应使命:Medical Image Segmentation,Semantic Segmentation,医疗影像切割,语义切割
论文地址:arxiv.org/abs/2206.14…
代码完结:github.com/huanglizi/l…
论文作者:Zihan Li, Yunxiang Li, Qingde Li, You Zhang, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, Qingqi Hong
论文简介:In our model, medical text annotation is introduced to compensate for the quality deficiency in image data./在咱们的模型中,引入了医学文本注释来补偿图画数据的质量缺陷。
论文摘要:深度学习现已被广泛地使用于医学图画切割和其他方面。然而,现有的医学图画切割模型的功能受到了应战,首要受限于需求足够数量的高质量数据和高本钱的数据注释。为了克服这一限制,咱们提出了一个新的视觉言语医学图画切割模型LViT(Language meets Vision Transformer)。在咱们的模型中,引入了医学文本注释来补偿图画数据的质量缺陷。此外,文本信息能够在必定程度上指导伪标签的生成,进一步确保半监督学习中伪标签的质量。咱们还提出了指数伪标签迭代机制(EPI)来帮助扩展半监督版别的LViT和像素级注意模块(PLAM),以保存图画的部分特征。在咱们的模型中,LV(Language-Vision)损失被规划用来监督直接运用文本信息的无标签图画的练习。为了验证LViT的功能,咱们构建了多模态医学切割数据集(图画+文本),包括病理图画、X射线等。实验结果标明,咱们提出的LViT在彻底和半监督条件下都有更好的切割功能。代码和数据集可在 github.com/huanglizi/l… 获取。
⚡ 论文:VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning
论文标题:VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning
论文时刻:26 Jun 2022
所属范畴:核算机视觉
对应使命:Contrastive Learning,Video Captioning,对比学习,视频字幕
论文地址:arxiv.org/abs/2206.12…
代码完结:github.com/UARK-AICV/V…
论文作者:Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater, Khoa Luu, Ngan Le
论文简介:In this paper, we leverage the human perceiving process, that involves vision and language interaction, to generate a coherent paragraph description of untrimmed videos./在本文中,咱们运用人类的感知进程,包括视觉和言语的互动,对未修剪的视频发生一个连接的阶段描绘。
论文摘要:在本文中,咱们运用人类的感知进程,包括视觉和言语的互动,来生成未修剪视频的连接阶段描绘。咱们提出了由两种形式组成的视觉-言语(VL)特征,即:(1)视觉形式捕捉整个场景的全体视觉内容;(2)言语形式提取人类和非人类物体(如动物、车辆等)、视觉和非视觉元素(如关系、活动等)的场景要素描绘。此外,咱们主张在对比学习VL损失下练习咱们提出的VLCap。对ActivityNet Captions和YouCookII数据集的实验和融化研讨标明,咱们的VLCap在准确性和多样性指标上都优于现有的SOTA办法。
⚡ 论文:SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and Tracking for Autonomous Driving
论文标题:SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and Tracking for Autonomous Driving
论文时刻:29 Jun 2022
所属范畴:核算机视觉
对应使命:3D Multi-Object Tracking,Autonomous Driving,Multi-Object Tracking,object-detection,Object Detection,Object Tracking,三维多方针追寻,自主驾驭,多方针追寻,方针勘探,方针检测,方针追寻
论文地址:arxiv.org/abs/2206.14…
代码完结:github.com/synsin0/src…
论文作者:Yining Shi, Jingyan Shen, Yifan Sun, Yunlong Wang, Jiaxin Li, Shiqi Sun, Kun Jiang, Diange Yang
论文简介:This paper proposes Sparse R-CNN 3D (SRCN3D), a novel two-stage fully-convolutional mapping pipeline for surround-view camera detection and tracking./本文提出了稀少R-CNN 3D(SRCN3D),这是一种新型的两阶段彻底卷积映射管道,用于环视摄像头的检测和盯梢。
论文摘要:移动物体的检测和盯梢(DATMO)是自动驾驭环境感知的一个重要组成部分。尽管运用环视摄像机的三维检测器刚刚兴起,但运用不同的依据变换器的办法从透视的二维特征图中学习三维空间的查询的趋势越来越强。本文提出了稀少R-CNN 3D(SRCN3D),这是一个新颖的两阶段全卷积映射管道,用于环视摄像头检测和盯梢。SRCN3D采用了一个级联结构,对固定数量的候选框和候选潜在特征进行双轨更新。候选框被投射到透视图中,以聚集感兴趣区域(RoI)的部分特征。在此根底上,经过一个动态的实例交互头来完善主张特征,然后发生分类和使用于原始鸿沟框的偏移。与之前的艺术相比,咱们的稀少特征采样模块只运用部分二维特征来调整每个相应的三维提议框,从而构成一个完好的稀少范式。在一个多假设的三维多物体盯梢办法中,主张特征和外观特征都是在数据相关进程中采取的。在nuScenes数据集上的大量实验证明了咱们提出的SRCN3D检测器和盯梢器的有效性。代码可在 github.com/synsin0/src… 检查。
⚡ 论文:Matryoshka Representations for Adaptive Deployment
论文标题:Matryoshka Representations for Adaptive Deployment
论文时刻:26 May 2022
所属范畴:机器学习
对应使命:Representation Learning,表征学习
论文地址:arxiv.org/abs/2205.13…
代码完结:github.com/raivnlab/mr…
论文作者:Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, KaiFeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi
论文简介:The flexibility within the learned Matryoshka Representations offer: (a) up to 14x smaller embedding size for ImageNet-1K classification at the same level of accuracy; (b) up to 14x real-world speed-ups for large-scale retrieval on ImageNet-1K and 4K; and (c) up to 2% accuracy improvements for long-tail few-shot classification, all while being as robust as the original representations./学习到的Matryoshka标明法的灵活性供给了:(a) 在相同的准确度下,ImageNet-1K分类的嵌入巨细削减了14倍;(b) ImageNet-1K和4K的大规划检索的实际速度进步了14倍;以及(c) 长尾的少数相片分类的准确度进步了2%,而一切这些都与原始标明法相同强大。
论文摘要:表征学习是现代ML体系的核心组成部分,为众多的下流使命服务。在练习这种表征时,通常状况下,每个下流使命的核算和计算约束是不知道的。在这种状况下,死板的、固定容量的表征对手头的使命来说,可能有过度习惯或不习惯的问题。继而引导咱们考虑:能否规划一个灵活的标明,以习惯具有不同核算资源的多个下流使命?咱们的首要奉献是Matryoshka表征学习(MRL),它在不同的粒度上对信息进行编码,并答应单一的嵌入来习惯下流使命的核算限制。MRL最大限度地修改了现有的表征学习管道,并且在推理和布置进程中不发生额定的本钱。MRL学习的从粗到细的表征,至少与独立练习的低维表征相同准确和丰富。学习到的Matryoshka表征中的灵活性供给了:(a)在相同的准确度下,ImageNet-1K分类的嵌入尺度最多削减14倍;(b)在ImageNet-1K和4K的大规划检索中,实际速度最多添加14倍;以及(c)在长尾少数相片分类中,准确度最多进步2%,一起与原始表征相同强大。最后,咱们标明,MRL能够无缝地扩展到网络规划的数据集(ImageNet,JFT),跨过各种形式–视觉(ViT,ResNet),视觉+言语(ALIGN)和言语(BERT)。MRL的代码和预练习模型已在 github.com/raivnlab/mr… 发布。
⚡ 论文:Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
论文标题:Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
论文时刻:CVPR 2022
所属范畴:核算机视觉
对应使命:Denoising,Image Generation,Representation Learning,降噪,图画生成,表征学习
论文地址:arxiv.org/abs/2111.15…
代码完结:github.com/phizaz/diff…
论文作者:Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn
论文简介:Our key idea is to use a learnable encoder for discovering the high-level semantics, and a DPM as the decoder for modeling the remaining stochastic variations./咱们的要害主意是运用可学习的编码器来发现高档语义,并运用DPM作为解码器来模仿其他的随机变化。
论文摘要:扩散概率模型(DPMs)在图画生成方面取得了显著的质量,能够与GANs相媲美。但与GANs不同的是,DPMs运用一组缺乏语义的潜在变量,不能作为其他使命的有用标明。本文探讨了运用DPMs进行表征学习的可能性,并企图经过自动编码提取输入图画的有意义和可解读的表征。咱们的要害主意是运用一个可学习的编码器来发现高档语义,并运用DPM作为解码器来模仿其他的随机变化。咱们的办法能够将任何图画编码成两部分的埋伏代码,其间榜首部分是有语义的和线性的,第二部分捕捉随机细节,答应近乎准确的重建。这种才能使现在以GAN为根底的办法受到限制的应战性使用成为可能,例如实在图画上的属性操作。咱们还标明,这种两级编码进步了去噪功率,并自然地促进了各种下流使命,包括少样本条件生成。请拜访咱们的项目页面:diff-ae.github.io/
⚡ 论文:A Sentinel-2 multi-year, multi-country benchmark dataset for crop classification and segmentation with deep learning
论文标题:A Sentinel-2 multi-year, multi-country benchmark dataset for crop classification and segmentation with deep learning
论文时刻:2 Apr 2022
所属范畴:核算机视觉
对应使命:Crop Classification,Semantic Segmentation,Time Series,农作物分类,语义切割,时刻序列
论文地址:arxiv.org/abs/2204.00…
代码完结:github.com/orion-ai-la…
论文作者:Dimitrios Sykas, Maria Sdraka, Dimitrios Zografakis, Ioannis Papoutsis
论文简介:In this work we introduce Sen4AgriNet, a Sentinel-2 based time series multi country benchmark dataset, tailored for agricultural monitoring applications with Machine and Deep Learning./在这项工作中,咱们介绍了Sen4AgriNet,这是一个依据Sentinel-2的时刻序列的多国基准数据集,经过机器和深度学习为农业监测使用量身定制。
论文摘要:在这项工作中,咱们介绍了Sen4AgriNet,这是一个依据Sentinel-2的时刻序列的多国基准数据集,为农业监测使用定制了机器学习和深度学习。Sen4AgriNet数据集的注释来自于经过地块识别体系(LPIS)收集的农民申报,用于协调全国范围的标签。这些声明最近才作为公开数据供给,首次答应从地面实在数据中对卫星图画进行标注。咱们将依据粮食及农业组织(FAO)的指示性作物分类方案,在欧洲范围内提出新的作物类型分类规范,以满意一起农业政策(CAP)的需求。Sen4AgriNet是唯一包括一切光谱信息的多国多年的数据集。它的构建涵盖了2016-2020年加泰罗尼亚和法国的状况,一起能够扩展到其他国家。现在,它包括4250万个数据包,这使得它显着大于其他可用的档案。咱们提取了两个子数据集,以杰出其对不同深度学习使用的价值;对象汇总数据集(OAD)和补丁组装数据集(PAD)。OAD运用每个地块的分区计算,从而为分类算法创造了一个强大的标报到特征的实例。另一方面,PAD结构将分类问题归纳为地块提取、语义切割和标签。PAD和OAD在三种不同的状况下被查验,以展现和模仿不同年份和不同国家的空间和时刻变化的影响。
咱们是 ShowMeAI,致力于传达AI优质内容,共享行业解决方案,用知识加快每一次技术生长!点击检查 历史文章列表,在大众号内订阅论题 #ShowMeAI资讯日报,可接纳每日最新推送。点击 专题合辑&电子月刊 快速阅读各专题全集。
- 作者:韩信子@ShowMeAI
- 历史文章列表
- 专题合辑&电子月刊
- 声明:版权一切,转载请联系渠道与作者并注明出处
- 欢迎回复,托付点赞,留言引荐中有价值的文章、东西或主张,咱们都会尽快回复哒~