Make Papers Easy

[Paper2Poster] This AI Agent Turns Your 22-Page Paper into a Conference Poster for Less Than a Cent

Paper at a Glance Paper Title: Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers Authors: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr Affiliation: University of Waterloo, National University of Singapore, University of Oxford Published in: arXiv, 2025 L...
2025-10-14
arXiv 2025
AI for Science

| Multimodal AI

| Agentic AI
Read more[Paper2Poster] This AI Agent Turns Your 22-Page Paper into a Conference Poster for Less Than a Cent
[CogAgent] An AI That Sees Your Screen Like You Do—And Can Use It For You

Paper at a Glance Paper Title: CogAgent: A Visual Language Model for GUI Agents Authors: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang Affiliation: Tsinghua University, Zhipu AI Published in: Conference on Compute...
2025-10-14
CVPR 2024
AI Agents

| Human-Computer Interaction

| Multimodal AI
Read more[CogAgent] An AI That Sees Your Screen Like You Do—And Can Use It For You
[MVBench] Beyond Still Frames: The Benchmark Testing if AI Truly Understands Time in Videos

Paper at a Glance Paper Title: MVBench: A Comprehensive Multi-modal Video Understanding Benchmark Authors: Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao Affiliation: Shanghai AI Laboratory, Chinese Academy of Sciences, T...
2025-10-11
CVPR 2024
Large Language Models

| Multimodal AI

| Video Understanding
Read more[MVBench] Beyond Still Frames: The Benchmark Testing if AI Truly Understands Time in Videos
[Deformable 3D Gaussians] Bringing 3D Gaussian Splatting to Life for Real-Time Dynamic Scenes

Paper at a Glance Paper Title: Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction Authors: Ziyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang, Xiaogang Jin Affiliation: Zhejiang University, ByteDance Inc. Published in: Conference on Computer Vision and Patte...
2025-10-11
CVPR 2024
Computer Vision

| 3D Reconstruction

| Neural Rendering
Read more[Deformable 3D Gaussians] Bringing 3D Gaussian Splatting to Life for Real-Time Dynamic Scenes
Making the Metaverse Real: How Semantic AI and Edge Computing Can Tame Holographic Video

Paper at a Glance Paper Title: Toward Communication-Efficient Holographic Video Transmission Through Semantic Communication and Edge Intelligence Authors: Han Hu, Kaifeng Song, Rongfei Fan, Cheng Zhan, Xintao Huan, and Jie Xu Affiliation: Beijing Institute of Technology, China; Southwest Univers...
2025-10-10
IEEE Wireless Communications 2025
Wireless Communications

| Edge Computing

| Video Streaming
Read moreMaking the Metaverse Real: How Semantic AI and Edge Computing Can Tame Holographic Video
[LISA++] Making Vision Models Talk and Point at the Same Time

Paper at a Glance Paper Title: LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model Authors: Senqiao Yang, Tianyuan Qu, Xin Lai, Zhuotao Tian, Bohao Peng, Shu Liu, Jiaya Jia Affiliation: The Chinese University of Hong Kong, SmartMore Published in: arXiv, January 2024...
2025-10-10
arXiv 2024
Computer Vision

| Large Language Models

| Multimodal AI
Read more[LISA++] Making Vision Models Talk and Point at the Same Time
[LISA] From 'Segment the Car' to 'Segment the Safest Place for a Toddler': LLMs Learn to Reason and See

Paper at a Glance Paper Title: LISA: Reasoning Segmentation via Large Language Model Authors: Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, Jiaya Jia Affiliation: CUHK, HIT (Shenzhen), SmartMore, MSRA Published in: Conference on Computer Vision and Pattern Recognition (CVPR...
2025-10-10
CVPR 2024
Computer Vision

| Large Language Models

| Image Segmentation
Read more[LISA] From 'Segment the Car' to 'Segment the Safest Place for a Toddler': LLMs Learn to Reason and See
Less is More: Recursive Reasoning with Tiny Networks

Paper at a Glance Paper Title: Less is More: Recursive Reasoning with Tiny Networks Authors: Alexia Jolicoeur-Martineau Affiliation: Samsung SAIL Montréal Published in: arXiv 2025 Link to Paper: https://arxiv.org/abs/2510.04871 The Gist of It: TL;DR In one sentence: This paper introduces the T...
2025-10-09
arXiv 2025
Deep Learning

| Model Architecture

| Reasoning
Read moreLess is More: Recursive Reasoning with Tiny Networks
[ExGRPO] Teach LLMs to Learn from Experience

Paper at a Glance Paper Title: ExGRPO: Learning to Reason from Experience Authors: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, and Yu Cheng Affiliation: University of Macau, Shanghai AI Laboratory, Nanjing University, The Chinese University of Hong Kong Publ...
2025-10-09
arXiv 2025
Large Language Models

| Reinforcement Learning

| AI Reasoning
Read more[ExGRPO] Teach LLMs to Learn from Experience
[Apriel-1.5-15B-Thinker] Smart Training, Not Bigger Models

Paper at a Glance Paper Title: Apriel-1.5-15B-Thinker: Mid-training is all you need Authors: Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, Masoud Hashemi, Rishabh Maheshwary, et al. Affiliation: SLAM Lab, ServiceNow Published in: arXiv, October 2025 Link to Paper: https://arxiv.org/abs/2...
2025-10-08
arXiv 2025
Large Language Models

| Multimodal AI

| Efficient AI Training
Read more[Apriel-1.5-15B-Thinker] Smart Training, Not Bigger Models

12 3