Index of /images

Name	Last modified	Size
Parent Directory		-
Youngbok-Hong.jpg	2025-11-07 21:01	61K
When-Meanings-Meet-Investigating-the-Emergence-and-Quality-of-Shared-Concept-Spaces-during-Multilingual-Language-Model-Training.png	2026-06-11 10:43	72K
When-and-How-Does-CLIP-Enable-Domain-and-Compositional-Generalization.png	2026-06-11 10:43	96K
What-needs-to-go-right-for-an-induction-head-A-mechanistic-study-of-in-context-learning-circuits-and-their-formation.png	2026-06-11 10:43	90K
Understanding-How-CodeLLMs-MisPredict-Types-with-Activation-Steering.png	2026-06-11 10:43	145K
Triggers-Hijack-Language-Circuits-A-Mechanistic-Analysis-of-Backdoor-Behaviors-in-Large-Language-Models.png	2026-06-11 10:43	16K
Transformer-See-Transformer-Do-Copying-as-an-Intermediate-Step-in-Learning-Analogical-Reasoning.png	2026-06-11 10:43	244K
Token-Erasure-as-a-Footprint-of-Implicit-Vocabulary-Items-in-LLMs.png	2026-06-11 10:43	9.1K
Timothy-Beal.jpg	2025-11-07 21:01	736K
Thomas-Dietterich.jpg	2025-11-07 21:01	1.0M
The-Truthfulness-Spectrum-Hypothesis.png	2026-06-11 10:43	113K
The-Quest-for-the-Right-Mediator-Surveying-Mechanistic-Interpretability-for-NLP-Through-the-Lens-of-Causal-Mediation-Analysis.png	2026-06-11 10:43	191K
The-Geometry-of-Refusal-in-Large-Language-Models-Concept-Cones-and-Representational-Independence.png	2026-06-11 10:43	178K
The-Dual-Route-Model-of-Induction.png	2026-06-11 10:43	18K
The-Curious-Case-of-Factual-Mis-Alignment-between-LLMs-Short-and-Long-Form-Answers.png	2026-06-11 10:43	130K
TDHook-A-Lightweight-Framework-for-Interpretability.png	2026-06-11 10:43	36K
SymTorch-A-Framework-for-Symbolic-Distillation-of-Deep-Neural-Networks.png	2026-06-11 10:43	111K
Superposition-as-Lossy-Compression-Measure-with-Sparse-Autoencoders-and-Connect-to-Adversarial-Vulnerability.png	2026-06-11 10:43	66K
Structured-In-Context-Task-Representations.png	2026-06-11 10:43	124K
Steven-Piantadoso.png	2025-05-16 22:08	2.3M
Steven-Piantadosi.jpg.JPG	2025-05-16 22:08	8.6M
Steering-Large-Language-Models-for-Machine-Translation-Personalization.png	2026-06-11 10:43	129K
Steering-Fine-Tuning-Generalization-with-Targeted-Concept-Ablation.png	2025-05-16 22:08	261K
Sparse-Autoencoders-Reveal-Temporal-Difference-Learning-in-Large-Language-Models.png	2026-06-11 10:43	103K
Sparse-Autoencoders-for-Sequential-Recommendation-Models-Interpretation-and-Flexible-Control.png	2026-06-11 10:43	375K
Signatures-of-human-like-processing-in-Transformer-forward-passes.png	2026-06-11 10:43	32K
Separating-Tongue-From-Thought-Activation-Patching.png	2025-05-16 22:08	212K
Separating-Tongue-from-Thought-Activation-Patching-Reveals-Language-Agnostic-Concept-Representations-in-Transformers.png	2026-06-11 10:43	273K
Securing-External-Deeper-than-black-box-GPAI-Evaluations.png	2026-06-11 10:43	83K
Sarah-Wiegreffe.jpeg	2025-11-07 21:01	1.3M
Robustly-identifying-concepts-introduced-during-chat-fine-tuning-using-crosscoders.png	2026-06-11 10:43	62K
reward-lens-A-Mechanistic-Interpretability-Library-for-Reward-Models.png	2026-06-11 10:43	49K
Representation-Shattering-in-Transformers.png	2025-05-16 22:08	151K
Representation-Shattering-in-Transformers-A-Synthetic-Study-with-Knowledge-Editing.png	2026-06-11 10:43	108K
pyvene-A-Library-for-Understanding-and-Improving-PyTorch-Models-via-Interventions.png	2026-06-11 10:43	125K
PyHealth-20-A-Comprehensive-Open-Source-Toolkit-for-Accessible-and-Reproducible-Clinical-Deep-Learning.png	2026-06-11 10:43	406K
Punctuation-and-Predicates-in-Language-Models.png	2026-06-11 10:43	98K
Provable-Low-Frequency-Bias-of-In-Context-Learning-of-Representations.png	2026-06-11 10:43	110K
Prisma-An-Open-Source-Toolkit-for-Mechanistic-Interpretability-in-Vision-and-Video.png	2026-06-11 10:43	41K
Prem-Trivedi.jpg	2025-05-16 22:08	85K
Polo-Chau.jpg	2025-11-07 21:01	86K
pitun.png	2025-05-16 22:08	15K
pit.png	2025-05-16 22:08	14K
Penzai-Treescope-A-Toolkit-for-Interpreting-Visualizing-and-Editing-Models-As-Data.png	2026-06-11 10:43	193K
Patches-of-Nonlinearity-Instruction-Vectors-in-Large-Language-Models.png	2026-06-11 10:43	79K
Patch-Explorer-Interpreting-Diffusion-Models-through-Interaction.png	2026-06-11 10:43	293K
Overcoming-Sparsity-Artifacts-in-Crosscoders-to-Interpret-Chat-Tuning.png	2026-06-11 10:43	53K
NSF_NDIF_color.png	2025-05-16 22:08	151K
nsf.png	2025-05-16 22:08	47K
northeastern.svg	2025-05-16 22:08	4.3K
northeastern-red-square.png	2025-05-16 22:08	22K
nnterp-A-Standardized-Interface-for-Mechanistic-Interpretability-of-Transformers.png	2026-06-11 10:43	106K
nnsight-png.png	2026-06-11 10:43	7.6K
New_Venture_Fund.png	2025-11-07 21:01	72K
newamerica.png	2025-05-16 22:08	33K
NDIF_system.png	2025-05-16 22:08	831K
NDIF_color.png	2025-05-16 22:08	64K
NDIF_Acr_color.png	2025-05-16 22:08	43K
ndif-workshop-1.jpg	2025-05-16 22:08	1.8M
ndif-png.png	2026-06-11 10:43	22K
ndif-fellowship.jpg	2025-05-16 22:08	161K
ncsa.png	2025-05-16 22:08	20K
nairr-pilot-logo.svg	2026-06-11 10:43	1.5K
Multi-property-Steering-of-Large-Language-Models-with-Dynamic-Activation-Composition.png	2026-06-11 10:43	69K
Model-Medicine-A-Clinical-Framework-for-Understanding-Diagnosing-and-Treating-AI-Models.png	2026-06-11 10:43	402K
michael.jpg	2025-09-29 23:45	168K
Michael-Simeone.png	2025-05-16 22:08	152K
Measuring-Mechanistic-Independence-Can-Bias-Be-Removed-Without-Erasing-Demographics.png	2026-06-11 10:43	102K
Mathematical-Modeling-of-Common-Pool-Resources-A-Comprehensive-Review-of-Bioeconomics-Strategic-Interaction-and-Complex-Adaptive-Systems.png	2026-06-11 10:43	186K
Locating-and-Editing-Factual-Associations-in-Mamba.png	2026-06-11 10:43	61K
Localized-Cultural-Knowledge-is-Conserved-and-Controllable-in-Large-Language-Models.png	2026-06-11 10:43	55K
LLMs-Process-Lists-With-General-Filter-Heads.png	2026-06-11 10:43	103K
Learning-State-Tracking-from-Code-Using-Linear-RNNs.png	2026-06-11 10:43	41K
Learning-a-Generative-Meta-Model-of-LLM-Activations.png	2026-06-11 10:43	99K
Large-Language-Models-Share-Representations-of-Latent-Grammatical-Concepts-Across-Typologically-Diverse-Languages.png	2026-06-11 10:43	45K
Large-Language-Models-Share-Representations-Latent.png	2025-05-16 22:08	191K
Language Models Use Trigonometry to Do Addition.png	2025-05-16 22:08	305K
Language-Models-Use-Trigonometry-to-Do-Addition.png	2026-06-11 10:43	20K
Language-Models-use-Lookbacks-to-Track-Beliefs.png	2026-06-11 10:43	35K
Language-Models-Represent-Beliefs-of-Self-and-Others.png	2026-06-11 10:43	94K
LangFIR-Discovering-Sparse-Language-Specific-Features-from-Monolingual-Data-for-Language-Steering.png	2026-06-11 10:43	60K
Kelsey-Badger.jpg	2025-05-16 22:08	71K
Katina-Michael.jpg	2025-05-16 22:08	33K
Katie-Cumiskey.jpg	2025-05-16 22:08	3.2M
Jonelle-Bradshaw.jpg.jpeg	2025-11-07 21:01	1.2M
jon.jpeg	2025-05-16 22:08	29K
Jailbreak-transferability-emerges-from-shared-representations.png	2026-06-11 10:43	89K
Jailbreak-Strength-and-Model-Similarity-Predict-Transferability.png	2026-06-11 10:43	89K
jaden.jpeg	2025-05-16 22:08	34K
Interpreto-An-Explainability-Library-for-Transformers.png	2026-06-11 10:43	129K
Interplm-Discovering-Interpretable-Features-in-Protein-LMs.png	2025-05-16 22:08	1.7M
InterPLM-Discovering-Interpretable-Features-in-Protein-Language-Models-via-Sparse-Autoencoders.png	2026-06-11 10:43	259K
Insights-into-a-radiology-specialised-multimodal-large-language-model-with-sparse-autoencoders.png	2026-06-11 10:43	293K
Inference-Time-Decomposition-of-Activations-ITDA-A-Scalable-Approach-to-Interpreting-Large-Language-Models.png	2026-06-11 10:43	139K
Incremental-Sentence-Processing-Mechanisms.png	2025-05-16 22:08	395K
Incremental-Sentence-Processing-Mechanisms-in-Autoregressive-Transformer-Language-Models.png	2026-06-11 10:43	89K
In-Which-Areas-of-Technical-AI-Safety-Could-Geopolitical-Rivals-Cooperate.png	2026-06-11 10:43	34K
In-Context-Learning-Without-Copying.png	2026-06-11 10:43	20K
In-Context-Algebra.png	2026-06-11 10:43	96K
If-open-source-is-to-win-it-must-go-public.png	2026-06-11 10:43	120K
ICLR-In-Context-Learning-of-Representations.png	2026-06-11 10:43	97K
How-Open-Must-Language-Models-be-to-Enable-Reliable-Scientific-Inference.png	2026-06-11 10:43	116K
How-do-llms-persuade-linear-probes-can-uncover-persuasion-dynamics-in-multi-turn-conversations.png	2026-06-11 10:43	60K
How-do-Llamas-process-multilingual-text-A-latent-exploration-through-activation-patching.png	2026-06-11 10:43	34K
Hierarchical-Latent-Structures-in-Data-Generation-Process-Unify-Mechanistic-Phenomena-across-Scale.png	2026-06-11 10:43	32K
Hidden-Pieces-An-Analysis-of-Linear-Probes.png	2025-05-16 22:08	332K
Hidden-Pieces-An-Analysis-of-Linear-Probes-for-GPT-Representation-Edits.png	2026-06-11 10:43	76K
Heman-Shakeri.png	2025-11-07 21:01	439K
Gabriele-Sarti.jpg	2026-06-11 10:43	16K
From-Prompts-to-Patches-A-Vocabulary-for-Bridging-Interpretability-and-Interaction.png	2026-06-11 10:43	9.8K
From-Directions-to-Cones-Exploring-Multidimensional-Representations-of-Propositional-Facts-in-LLMs.png	2026-06-11 10:43	135K
Friends-and-Grandmothers-in-Silico-Localizing-Entity-Cells-in-Language-Models.png	2026-06-11 10:43	316K
Fluid-Representations-in-Reasoning-Models.png	2026-06-11 10:43	76K
Fine-Grained-Analysis-of-Shared-Syntactic-Mechanisms-in-Language-Models.png	2026-06-11 10:43	80K
Exploring-the-Limits-of-Probes-for-Latent-Representation-Edits-in-GPT-Models.png	2026-06-11 10:43	98K
Explaining-the-Explainer-Understanding-the-Inner-Workings-of-Transformer-based-Symbolic-Regression-Models.png	2026-06-11 10:43	57K
Explaining-Neural-Networks-with-Reasons.png	2026-06-11 10:43	28K
Evidence-of-Learned-Look-Ahead-in-a-Chess-Playing-Neural-Network.png	2026-06-11 10:43	169K
Even-Heads-Fix-Odd-Errors-Mechanistic-Discovery-and-Surgical-Repair-in-Transformer-Attention.png	2026-06-11 10:43	130K
Evaluating-Open-Source-Sparse-Autoencoders-on-Disentangling-Factual-Knowledge-in-GPT-2-Small.png	2026-06-11 10:43	89K
emma.jpg	2025-05-16 22:08	458K
Emergence-of-Hierarchical-Emotion-Representations.png	2025-05-16 22:08	314K
Emergence-of-Hierarchical-Emotion-Organization-in-Large-Language-Models.png	2026-06-11 10:43	67K
Elucidating-Mechanisms-of-Demographic-Bias-in-LLMs-for-Healthcare.png	2026-06-11 10:43	64K
eDIF-A-European-Deep-Inference-Fabric-for-Remote-Interpretability-of-LLM.png	2026-06-11 10:43	189K
DreamReader-An-Interpretability-Toolkit-for-Text-to-Image-Models.png	2026-06-11 10:43	108K
Do-Transformers-Use-their-Depth-Adaptively-Evidence-from-a-Relational-Reasoning-Task.png	2026-06-11 10:43	164K
Do-Natural-Language-Descriptions-of-Model-Activations-Convey-Privileged-Information.png	2026-06-11 10:43	25K
Do-Language-Models-Use-Their-Depth-Efficiently.png	2026-06-11 10:43	35K
Disentangling-Recall-and-Reasoning-in-Transformer-Models-through-Layer-wise-Attention-and-Activation-Analysis.png	2026-06-11 10:43	72K
Disentangling-meaning-from-language-in-LLM-based-machine-translation.png	2026-06-11 10:43	26K
Discovering-Forbidden-Topics-in-Language-Models.png	2026-06-11 10:43	166K
DFWe-Efficient-Knowledge-Distillation-of-Fine-tuned-Whisper-Encoder-for-Speech-Emotion-Recognition.png	2026-06-11 10:43	117K
DeltaProduct-Improving-State-Tracking-in-Linear-RNNs-via-Householder-Products.png	2026-06-11 10:43	30K
Decomposing-Theory-of-Mind-How-Emotional-Processing-Mediates-ToM-Abilities-in-LLMs.png	2026-06-11 10:43	83K
david.jpeg	2025-05-16 22:08	27K
Counting-Hypothesis-Potential-Mechanism-of-In-Context-Learning.png	2026-06-11 10:43	761K
Constructive-Circuit-Amplification-Improving-Math-Reasoning-in-LLMs-via-Targeted-Sub-Network-Updates.png	2026-06-11 10:43	70K
Competition-dynamics-shape-algorithmic-phases-of-in-context-learning.png	2026-06-11 10:43	161K
Compassionate-AI-Design-Governance-and-Use.png	2026-06-11 10:43	183K
Comgra-A-Tool-for-Analyzing-and-Debugging-Neural-Networks.png	2026-06-11 10:43	83K
Circuit-Tracer-A-New-Library-for-Finding-Feature-Circuits.png	2026-06-11 10:43	242K
carla.jpeg	2025-05-16 22:08	23K
Can-you-map-it-to-English-The-Role-of-Cross-Lingual-Alignment-in-the-Multilingual-Performance-of-LLMs.png	2026-06-11 10:43	50K
Can-SAEs-reveal-and-mitigate-racial-biases-of-LLMs-in-healthcare.png	2026-06-11 10:43	66K
byron.jpeg	2025-05-16 22:08	24K
Brett-Bode.jpg	2025-05-16 22:08	7.0M
Brett-Bode-Crop.png	2025-05-16 22:08	2.0M
BlueGlass-A-Framework-for-Composite-AI-Safety.png	2026-06-11 10:43	112K
Black-Box-Access-is-Insufficient-for-Rigorous-AI-Audits.png	2026-06-11 10:43	69K
Benchmarking-Mental-State-Representations-in-Language-Models.png	2025-05-16 22:08	198K
Back-Attention-Understanding-and-Enhancing-Multi-Hop-Reasoning-in-Large-Language-Models.png	2026-06-11 10:43	6.0K
Aurojit-Panda.png	2025-05-16 22:08	638K
arjun.jpeg	2025-05-16 22:08	33K
apple-touch-icon.png	2025-05-16 22:08	38K
Annotating-the-Chain-of-Thought-A-Behavior-Labeled-Dataset-for-AI-Safety.png	2026-06-11 10:43	58K
Alexander-Rush.jpg.jpeg	2025-05-16 22:08	22K
adam.jpg	2025-09-29 23:45	119K
ADAG-Automatically-Describing-Attribution-Graphs.png	2026-06-11 10:43	90K
Activation-Steering-via-Generative-Causal-Mediation.png	2026-06-11 10:43	232K
Activation-space-interventions-can-be-transferred-between-large-language-models.png	2026-06-11 10:43	35K
Abhinav-Bhatele.jpg	2025-11-07 21:01	348K
A-survey-on-mechanistic-interpretability-for-multi-modal-foundation-models.png	2026-06-11 10:43	149K
A-Primer-on-the-Inner-Workings-of-Transformer-based-Language-Models.png	2026-06-11 10:43	95K
A-Generative-Benchmark-Creation-Framework.png	2025-05-16 22:08	79K
A-generative-benchmark-creation-framework-for-detecting-common-data-table-versions.png	2026-06-11 10:43	14K