Search: Search and AI controls

Paper page - T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

…Geng , , , , Abstract Token- and Turn-level Policy Optimization (T²PO) addresses multi-turn RL instability by controlling exploration at fine-grained levels through uncertainty monitoring and dynamic resampling. AI-generated summary Recent progress…

May 5, 2026

Paper page - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

…unified framework that decomposes rollout processes into generation, filtering, control, and replay stages, enabling systematic evaluation and improvement across reasoning tasks. AI-generated summary Reinforcement learning (RL) has become a central post…

May 6, 2026

Paper page - AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval

…AI-generated summary Analog circuit design relies heavily on reusing existing intellectual property (IP) , yet searching across heterogeneous representations such as SPICE netlists , schematics , and functional descriptions remains challenging. Existing methods are…

May 4, 2026

Followed topics

Search

Paper page - T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Paper page - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Paper page - AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval

Paper page - Healthcare AI GYM for Medical Agents

Paper page - AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents

Paper page - RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

Paper page - LLM Agents Already Know When to Call Tools -- Even Without Reasoning

Paper page - Hallucinations Undermine Trust; Metacognition is a Way Forward

Paper page - Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

Paper page - Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents