AI新闻动态（2024-07-07到2024-07-13) #86

Google 的 DeepMind 团队使用 Gemini 1.5 Pro 的长上下文窗口训练机器人导航和完成任务，这使得机器人能够处理和记住大量信息，增强其环境适应能力。
研究人员通过拍摄办公室或家的视频，让机器人观看这些视频，学习空间布局、物品位置及关键特征，机器人随后使用这些“记忆”导航。
在一个 9,000 平方英尺的区域内测试时，这些 Gemini 驱动的机器人在90%的情况下成功执行了超过50项不同指令，显著提升了机器人在复杂空间中的导航能力。
早期证据表明这些机器人不仅能导航，还能规划多步任务，例如检查冰箱库存并报告结果，显示出超越简单导航的理解和规划能力。
当前系统处理每个指令需要10到30秒，这对于实际应用来说过慢。此外，测试仅在受控环境中进行，尚未在混乱、不可预测的真实世界中验证。
DeepMind 团队正致力于加快系统速度并处理更复杂的任务，目标是最终实现机器人能够像人类一样理解和移动。

论文链接：Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

媒体文章：

机器之心：Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路
maginative：Google Is Using Gemini AI to Make Robots Smarter Navigators

0 replies

ikaijua · 2024-07-17T00:59:32Z

ikaijua
Jul 17, 2024
Maintainer Author

2024-07-13 Meta、英伟达和Together AI等机构的研究者推出了新一代FlashAttention算法，旨在加速大语言模型（LLM）的注意力计算

FlashAttention-3的速度是前代的1.5-2.0倍，在H100 GPU上实现了高达740 TFLOPS的计算速度，利用率达到75%。
新版本采用了warp-specialization、交错分块matmul和softmax运算，以及利用FP8低精度的不连贯处理等技术。
FlashAttention-3显著提高了GPU的利用率，特别是在H100 GPU上，从之前的35%提升至75%。
即使在低精度（FP8）下，FlashAttention-3也能保持性能，提供更快的处理速度，可能降低内存使用量。
通过加速注意力机制，FlashAttention-3允许AI模型更有效处理长文本，适用于需要长上下文理解的应用程序。
实验表明，FlashAttention-3在FP16精度下速度显著提升，且在FP8下接近1.2 PFLOPS，展示了其在新Hopper GPU架构上的强大性能。

Github地址：https://github.com/Dao-AILab/flash-attention

媒体文章：

机器之心：英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

0 replies

ikaijua · 2024-07-21T07:13:45Z

ikaijua
Jul 21, 2024
Maintainer Author

2024-07-17 普林斯顿大学研究人员分析了Transformer模型和人类大脑在语言处理中的相似性

Transformer模型通过结构化电路整合单词间的上下文信息，主要研究集中在模型生成的内部表征。
研究将Transformer模型的计算解构为功能专门的“transformations”，这些计算整合了跨词语的上下文信息。
利用功能性MRI数据，研究人员验证了这些“transformations”是否能解释大脑皮质语言网络中的活动差异。
研究证明，由注意力头执行的计算可以预测大脑特定皮层区域的活动，这些头沿着不同的梯度下降。
研究表明，Transformer模型中的“transformations”与嵌入相当，通常优于非上下文嵌入和经典句法注释。
该研究提供了理解人类语言处理的新视角，相关论文发表在《Nature Communications》上。

媒体文章：

机器之心：大脑如何处理语言？普林斯顿团队对Transformer模型进行分析

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AI新闻动态（2024-07-07到2024-07-13) #86

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 10 comments

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

AI新闻动态（2024-07-07到2024-07-13) #86

ikaijua Jul 7, 2024 Maintainer

目录

机器人

AI研究

AI投资

Replies: 10 comments

ikaijua Jul 7, 2024 Maintainer Author

2024-07-07 Holmes-VAD：一种新的视频异常检测框架，能够精确定位并解释检测到的异常

ikaijua Jul 14, 2024 Maintainer Author

2024-07-12 新加坡国立大学、南洋理工大学提出视频思维链推理框架Video-of-Thought（VoT），旨在提升视频理解和推理能力

ikaijua Jul 14, 2024 Maintainer Author

2024-07-12 AMD斥资6.65美元收购欧洲 AI 实验室 Silo AI

ikaijua Jul 14, 2024 Maintainer Author

2024-07-09 Stephen Wolfram进行了一场与机器人的直播采访，期间机器人对30多个问题对答如流

ikaijua Jul 17, 2024 Maintainer Author

2024-07-08 微软和萨里大学的研究者提出MInference方法，显著加速大语言模型（LLM）的长上下文处理能力

ikaijua Jul 17, 2024 Maintainer Author

2024-07-09 ControlNet作者Lvmin Zhang推出PaintsUndo新项目，一张图生成绘画全过程

ikaijua Jul 17, 2024 Maintainer Author

2024-07-11 蚂蚁集团开源了EchoMimic，一个逼真的音频驱动人像动画框架

ikaijua Jul 17, 2024 Maintainer Author

2024-07-13 谷歌的Gemini 1.5 Pro被应用于机器人训练机器人导航和完成任务

ikaijua Jul 17, 2024 Maintainer Author

2024-07-13 Meta、英伟达和Together AI等机构的研究者推出了新一代FlashAttention算法，旨在加速大语言模型（LLM）的注意力计算

ikaijua Jul 21, 2024 Maintainer Author

2024-07-17 普林斯顿大学研究人员分析了Transformer模型和人类大脑在语言处理中的相似性

ikaijua
Jul 7, 2024
Maintainer

ikaijua
Jul 7, 2024
Maintainer Author

ikaijua
Jul 14, 2024
Maintainer Author

ikaijua
Jul 14, 2024
Maintainer Author

ikaijua
Jul 14, 2024
Maintainer Author

ikaijua
Jul 17, 2024
Maintainer Author

ikaijua
Jul 17, 2024
Maintainer Author

ikaijua
Jul 17, 2024
Maintainer Author

ikaijua
Jul 17, 2024
Maintainer Author

ikaijua
Jul 17, 2024
Maintainer Author

ikaijua
Jul 21, 2024
Maintainer Author