Articles

1 articles available matching "Interpretability"

Sort by:

Categories:

Biology

Medicine

Biotechnology

Genetics

Neuroscience

Psychology

Artificial Intelligence

Technology

Climate & Environment

Energy & Sustainability

Writing Styles:

Explain Like I'm 5

Comedy

Movie Buff

Sci-Fi Narrator

Academic Lite

Storyteller

News Reporter

Podcast Host

Artificial Intelligence

Anthropic's Assistant Axis: How LLM Persona Drift Causes Harmful AI Behavior

Researchers at Anthropic and Oxford identified a linear 'Assistant Axis' in LLM activation space that governs persona stability. Activation capping al...

Academic Lite

5 min

AI SafetyActivation SteeringLLM Persona Drift+2

Artificial Intelligence

Anthropic's Assistant Axis: How LLM Persona Drift Causes Harmful AI Behavior

Researchers at Anthropic and Oxford identified a linear 'Assistant Axis' in LLM activation space that governs persona stability. Activation capping al...

Academic Lite

5 min

AI SafetyActivation SteeringLLM Persona Drift+2