P1_RC_GGL: prueba estricta de cierre de dinámica galáctica y lente débil (curvas de rotación + GGL)
Marco de gravedad media de EFT frente a la línea base NFW mínima de materia oscura fría (DM)
Consulta el informe de evaluación original:
1. ChatGPT: https://chatgpt.com/share/6a00cd62-6e34-83eb-b165-6ec09e3519cc
2. Gemini: https://gemini.google.com/share/773ec96d75a0
3. Grok: https://grok.com/share/bGVnYWN5LWNvcHk_c0b4fa65-0e86-4adb-9b58-5617d616dc04
4. Qwen: https://chat.qwen.ai/s/22ab9336-671f-420a-a7fa-43e24774bb2a?fev=0.2.46
5. DeepSeek: https://chat.deepseek.com/share/tj6k7hb5owtoldg2bm
0 Resumen ejecutivo
Este informe es una edición de archivo de calidad publicable depositada en Zenodo. Proporciona una cadena integrada y auditable que cubre los datos, el registro de modelos, la comparación justa, la prueba de cierre y los materiales de reproducibilidad. El Apéndice B (P1A) funciona como suplemento de robustez. Se centra en pruebas de esfuerzo con una “línea base DM más estándar + una sistemática clave de lente”, utilizadas para evaluar la sensibilidad de las conclusiones principales ante una modelización DM más realista y el tratamiento de sistemáticas de lente.
Conclusiones centrales (cuatro enunciados directamente citables; véase la Sección 2.4):
(1) En el ajuste de curvas de rotación (RC), la familia EFT supera de forma significativa a DM_RAZOR bajo todas las combinaciones de núcleo/prior; una mejora típica es Δlog𝓛_RC ≈ 10^3 (véase la Tabla S1a).
(2) En la prueba de cierre RC→GGL, EFT muestra una transferibilidad más fuerte entre sondas: la fuerza de cierre Δlog𝓛_closure (True−Perm) es significativamente mayor que la de DM_RAZOR, y la diferencia es robusta frente a barridos de shrinkage de covarianza, R_min y σ_int (véanse la Fig. S3 y la Tabla S1b).
(3) En el ajuste conjunto (RC+GGL), EFT conserva una ventaja estable; bajo el control negativo que rompe el mapeo compartido, esta ventaja colapsa, lo que respalda la interpretación de que el “efecto de gravedad media” procede del mapeo compartido y no de un ajuste accidental (véase la Fig. S4).
(4) Sin aumentar sustancialmente la dimensionalidad, el Apéndice B (P1A) somete el lado DM a pruebas de esfuerzo con módulos de línea base DM más estándar y un parámetro nuisance clave de sistemáticas de lente. Estas mejoras no eliminan la ventaja de cierre de EFT (véanse la Tabla B1 y la Fig. B1).
Disponibilidad de datos y código: informe Concept DOI 10.5281/zenodo.18526334; paquete completo de reproducción Concept DOI 10.5281/zenodo.18526286. Las etiquetas correspondientes al Apéndice B (P1A) son run_tag=20260213_151233, closure_tag=20260213_161731 y joint_tag=20260213_195428.
1 Resumen
Realizamos una comparación cuantitativa y reproducible de dos marcos teóricos bajo los mismos datos y el mismo protocolo estadístico: el modelo de “corrección de gravedad media” propuesto por la Teoría del filamento de energía (Energy Filament Theory, EFT; distinta de la abreviatura común de effective field theory), y un modelo de línea base de halos NFW de materia oscura fría (DM_RAZOR). DM_RAZOR se elige deliberadamente como una “línea base DM mínima”: un halo NFW con relación c–M fija (sin dispersión halo-a-halo), que sirve como control auditable y reproducible. También debe subrayarse que este artículo trata EFT como una parametrización fenomenológica, de tipo MOND, de campo efectivo/respuesta efectiva para pruebas bajo un protocolo estadístico unificado, y no como una derivación de sus primeros principios microscópicos dentro de este trabajo.
Los datos constan de 2.295 puntos de velocidad de curvas de rotación SPARC (RC), preprocesados y agrupados de forma uniforme (104 galaxias, 20 bins RC), junto con la densidad superficial excedente ΔΣ(R) de lente débil galaxia-galaxia KiDS-1000 (GGL) (4 bins de masa estelar × 15 puntos R por bin, 60 puntos en total, usando la covarianza completa).
Ejecutamos secuencialmente inferencia RC-only, una prueba de cierre RC→GGL, inferencia GGL-only e inferencia conjunta RC+GGL, usando auditorías de consistencia para garantizar que cada valor numérico citado sea trazable. Bajo un registro estricto de parámetros y restricciones de mapeo compartido (DM: 20 parámetros log M200_bin; EFT: 20 parámetros log V0_bin + 1 log ℓ global), la familia EFT supera de forma significativa a DM_RAZOR en el ajuste conjunto: ΔlogL_total = 1155–1337 respecto a DM_RAZOR. Más importante aún, la prueba de cierre muestra que el posterior RC tiene poder predictivo no trivial para GGL: la fuerza de cierre de EFT es ΔlogL_closure = 172–281, superior al 127 de DM_RAZOR. Cuando la agrupación RC-bin→GGL-bin se aleatoriza, la señal de cierre colapsa a 6–23, lo que confirma que la señal no es un accidente estadístico ni un artefacto de implementación. En los barridos sistemáticos de σ_int, R_min y shrinkage de covarianza, la ventaja relativa de EFT sigue siendo positiva y estable en magnitud. Para responder a preocupaciones comunes de que la “línea base DM es demasiado débil” o que “las sistemáticas se confunden con física”, el Apéndice B (P1A) proporciona una prueba de esfuerzo de línea base DM más estándar, aunque todavía de baja dimensión y auditable, que incluye dispersión c–M jerárquica + prior, un proxy de core de un parámetro, el parámetro de lente m y el modelo combinado DM_STD. Bajo el mismo protocolo de cierre, estas mejoras no eliminan la ventaja de cierre de EFT (véanse la Tabla B1/Fig. B1).
Palabras clave: curvas de rotación; lente débil galaxia-galaxia; prueba de cierre; EFT; materia oscura fría; inferencia bayesiana
2 Introducción y panorámica de resultados
Las curvas de rotación (RC) y la lente débil galaxia-galaxia (GGL) son dos sondas gravitacionales complementarias: las RC restringen el potencial dinámico y la relación de aceleración radial (RAR) en el plano del disco, mientras que GGL mide la distribución de masa proyectada y la respuesta gravitacional a escala de halo. Para cualquier teoría candidata, la cuestión clave no es si puede ajustar por separado ambos conjuntos de datos, sino si puede explicarlos de forma consistente bajo el mismo mapeo entre datos y las mismas restricciones compartidas.
En consecuencia, este artículo adopta la “prueba de cierre” como protocolo estadístico central: primero se usa el posterior RC-only para predecir GGL hacia adelante y después se compara con un control negativo en el que el mapeo RC-bin→GGL-bin se permuta/aleatoriza. Esto evalúa la transferibilidad predictiva entre datos y descarta señales falsas causadas por sesgos de implementación o ajustes accidentales.
Posicionamiento teórico y alcance: este artículo no intenta presentar una derivación microscópica de primeros principios de EFT (Teoría del filamento de energía), ni una formulación relativista completa. En cambio, tratamos EFT como una parametrización de baja dimensión, de tipo MOND, de campo efectivo/respuesta efectiva (descrita por un núcleo f(x) y una escala global ℓ), y probamos su consistencia entre datos y su poder predictivo transferible mediante la prueba de cierre RC→GGL bajo un registro estricto de parámetros.
Programa de investigación y declaración de alcance: este artículo forma parte de un programa continuo de recuperación observacional de la serie P. En los datos existentes a escala de galaxias buscamos dos posibles contribuciones efectivas de fondo: (i) un “suelo de gravedad media” describible mediante una respuesta gravitacional media tras coarse-graining, y (ii) un “suelo estocástico/de ruido” asociado a fluctuaciones de procesos microscópicos. En este artículo (P1), nos centramos únicamente en el primero: sin introducir hipótesis alguna sobre mecanismos microscópicos de producción, usamos la prueba de cierre RC→GGL para recuperar indicios observacionales de un suelo de gravedad media y compararlo con una línea base DM auditable bajo un protocolo de control unificado. Como imagen física heurística, si existen grados de libertad de vida corta, su decaimiento/aniquilación puede convertir masa en reposo en energía-momento transportada por otros grados de libertad, lo que en el nivel efectivo corresponde de forma natural a una descomposición “contribución media + contribución fluctuante”; sin embargo, este artículo no modela cuantitativamente esa imagen microscópica.
Para evitar una sobreinterpretación, los límites de alcance de este artículo son los siguientes:
• Lo que hace este artículo: bajo restricciones estrictas de registro de parámetros y mapeo compartido, usa pruebas de cierre para medir la transferibilidad predictiva entre datos y realiza una comparación reproducible entre la respuesta de gravedad media de EFT y una línea base DM.
• Lo que este artículo no hace: no discute mecanismos microscópicos de producción, abundancias/vidas medias ni restricciones cosmológicas; no modela el término estocástico correspondiente al “suelo de ruido”.
• Lo que este artículo no afirma: no pretende derrocar la materia oscura; P1 no entrega un veredicto final sobre si existe un “suelo”, sino que informa evidencia de etapa: dentro del dominio de medición robusto seleccionado aquí, los datos favorecen modelos que incluyen una respuesta gravitacional media.
Al mismo tiempo, dejamos claro que DM_RAZOR representa solo una línea base NFW mínima y auditable (c–M fija y sin dispersión; sin contracción adiabática, core por feedback, no esfericidad ni términos ambientales). Por tanto, la conclusión principal del texto queda estrictamente limitada a esta afirmación: bajo la línea base mínima y las restricciones estrictas de registro de parámetros/mapeo, EFT muestra una consistencia entre datos más fuerte. Para responder a la pregunta común de si una línea base ΛCDM más estándar y una modelización de sistemáticas de lente clave cambiarían sustancialmente la conclusión, reunimos en el Apéndice B mejoras DM más estándar, aunque todavía de baja dimensión y auditables, y un nuisance del lado de lente (P1A: prueba de esfuerzo de estandarización de la línea base DM), manteniendo exactamente el mismo mapeo compartido y el mismo protocolo de prueba de cierre que en el texto principal (véanse la Tabla B1/Fig. B1).
2.1 Tablas S1a–S1b: resumen de métricas clave (estricto)
La Tabla S1a informa las métricas principales de comparación para el ajuste conjunto (RC+GGL): logL, ΔlogL, AICc y BIC. La Tabla S1b informa métricas de prueba de cierre y barridos de robustez: cierre, control negativo shuffle y rangos de barrido σ_int / R_min / cov-shrink. Todos los valores proceden de la tabla maestra estricta de resumen Tab_Z1_master_summary y pueden rastrearse elemento por elemento en el paquete de archivo de la versión.
Tabla S1a | Métricas principales de comparación del ajuste conjunto (RC+GGL, estricto).
Modelo (workspace) | Núcleo W | k | logL_total conjunto (best) | ΔlogL_total vs DM | AICc | BIC |
DM_RAZOR | none | 20 | -16927.763 | 0.0 | 33895.885 | 34010.811 |
EFT_BIN | none | 21 | -15590.552 | 1337.21 | 31223.501 | 31344.155 |
EFT_WEXP | exponential | 21 | -15668.83 | 1258.932 | 31380.057 | 31500.711 |
EFT_WYUK | yukawa | 21 | -15772.936 | 1154.827 | 31588.268 | 31708.922 |
EFT_WPOW | powerlaw_tail | 21 | -15633.321 | 1294.442 | 31309.038 | 31429.692 |
Tabla S1b | Métricas de cierre y robustez (estricto).
Modelo (workspace) | ΔlogL de cierre (true-perm) | ΔlogL tras shuffle del control negativo | Rango ΔlogL del barrido σ_int | Rango ΔlogL del barrido R_min | Rango ΔlogL del barrido cov-shrink |
DM_RAZOR | 126.678 | 22.725 | — | — | — |
EFT_BIN | 231.611 | 14.984 | 459–1548 | 1243–1289 | 1337–1351 |
EFT_WEXP | 171.977 | 6.04 | 408–1471 | 1169–1207 | 1259–1277 |
EFT_WYUK | 179.808 | 14.688 | 380–1341 | 1065–1099 | 1155–1166 |
EFT_WPOW | 280.513 | 6.672 | 457–1500 | 1203–1247 | 1294–1308 |
2.2 Fig. S3: fuerza de cierre (RC-only → GGL predicho)
La fuerza de cierre se define como ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩: sobre muestras posteriores RC-only, se predice GGL hacia adelante y se compara con un control negativo en el que el mapeo RC-bin→GGL-bin se permuta.
Fig. S3 | Fuerza de cierre (mayor es mejor): ventaja de log-verosimilitud media de la predicción RC-only → GGL.
2.3 Fig. S4: comparación principal del ajuste conjunto (RC+GGL)
La ventaja del ajuste conjunto se define como ΔlogL_total ≡ logL_total(model) − logL_total(DM_RAZOR). Bajo los mismos datos, el mismo mapeo y una escala de parámetros casi idéntica, la familia EFT alcanza una log-verosimilitud conjunta significativamente mayor.
Fig. S4 | Ventaja del ajuste conjunto (mayor es mejor): mejor logL_total de RC+GGL relativo a DM_RAZOR.
2.4 Cuatro conclusiones (directamente citables)
(1) En un análisis conjunto unificado de las curvas de rotación SPARC y la lente débil KiDS-1000, el modelo de marco de gravedad media de EFT supera sistemáticamente a DM_RAZOR bajo un protocolo de control estricto: ΔlogL_total = 1155–1337 respecto a DM_RAZOR.
(2) La prueba de cierre RC→GGL muestra una consistencia predictiva más fuerte para EFT: ΔlogL_closure = 172–281, frente a 127 para DM_RAZOR. Cuando la agrupación RC-bin→GGL-bin se aleatoriza, la señal de cierre colapsa a 6–23, lo que indica que la señal depende del mapeo correcto entre datos y no de un ajuste accidental.
(3) Los barridos sistemáticos de σ_int, R_min y shrinkage de covarianza no cambian el signo ni la escala de “EFT supera a DM_RAZOR”, lo que indica que la conclusión es robusta frente a perturbaciones sistemáticas comunes.
(4) Bajo el mismo protocolo de cierre, el Apéndice B (P1A) fortalece la línea base DM de una forma “estandarizada y auditable”: conserva tres mejoras de un parámetro (SCAT/AC/FB) y añade dispersión c–M jerárquica + prior, un proxy de core de un parámetro y una calibración de cizalla m del lado de lente (junto con su modelo combinado DM_STD). Los resultados muestran que solo la rama feedback/core aporta una pequeña mejora neta en la fuerza de cierre (122.21→129.45, ΔΔlogL_closure≈+7.25); las demás mejoras contribuyen de forma insignificante o negativa a la fuerza de cierre. Por tanto, la conclusión principal no depende de que DM_RAZOR sea una línea base excesivamente débil.
3 Datos y preprocesamiento
Este estudio usa dos conjuntos de datos públicos. Dentro del flujo de ingeniería, la descarga, la verificación de checksums (sha256) y el preprocesamiento se completan con scripts trazables. Para garantizar una comparación justa entre modelos, todos los workspaces (EFT_BIN / EFT_WEXP / EFT_WYUK / EFT_WPOW / DM_RAZOR) comparten exactamente los mismos productos de datos y mapeos de bins.
3.1 Curvas de rotación (RC, SPARC)
Los datos RC proceden de los archivos Rotmod_LTG de la base de datos SPARC (175 archivos rotmod). Tras el preprocesamiento, la muestra de modelización incluye 104 galaxias y 2.295 puntos de datos (r, V_obs), divididos en 20 bins RC según masa estelar y criterios relacionados. Cada punto de datos contiene radio r (kpc), velocidad observada V_obs (km/s), error observacional σ_obs y velocidades de los componentes gas/disco/bulbo (V_gas, V_disk, V_bul).
3.2 Lente débil (GGL, KiDS-1000 / Brouwer+2021)
Los datos GGL usan la densidad superficial excedente ΔΣ(R) de la Fig. 3 de Brouwer et al. (2021), basada en KiDS-1000 (4 bins de masa estelar, 15 puntos R por bin), junto con la covarianza completa proporcionada. En el flujo de ingeniería, la covarianza original en formato largo se reconstruye como una matriz de 15×15 para cada bin, y las auditorías Stage-B verifican su razonabilidad dimensional y numérica.
3.3 Mapeo RC-bin → GGL-bin y tamaño total de muestra
Los 4 bins de masa GGL y los 20 bins RC se conectan mediante un mapeo fijo: cada bin GGL corresponde a 5 bins RC, y las contribuciones de los bins RC se ponderan por el número de galaxias. Este mapeo se mantiene fijo en todos los modelos y es la restricción central para una comparación justa en las pruebas de cierre y el ajuste conjunto. El conjunto de datos conjunto final contiene n_total = 2355 puntos (RC=2295, GGL=60).
4 Modelos y métodos estadísticos
4.1 Especificación matemática mínima de EFT y DM (auditable/comprobable)
Esta sección proporciona la especificación matemática mínima que se corresponde directamente con la implementación.
(a) Modelo de curvas de rotación (RC)
Para cada punto de datos RC (r, V_obs, σ_obs), usamos superposición de componentes: V_mod²(r) = V_bar²(r) + V_extra²(r). Aquí V_bar²(r) = V_gas²(r) + Υ_d·V_disk²(r) + Υ_b·V_bul²(r). Los resultados principales de este artículo adoptan Υ_d = Υ_b = 0.5, en consonancia con las recomendaciones empíricas de SPARC y útil para reducir grados de libertad innecesarios.
(b) Corrección de gravedad media de EFT (EFT)
El término extra de EFT se parametriza en forma de “velocidad media al cuadrado”: V_extra²(r) = V0_bin² · f(r/ℓ). Aquí V0_bin es el parámetro de amplitud para cada bin RC (20 parámetros), ℓ es una escala global (1 parámetro), y f(x) es una función de forma de núcleo adimensional. Las formas de núcleo comparadas en este artículo (ninguna introduce grados de libertad continuos adicionales) son:
- none: f(x)=x/(1+x)
- exponential: f(x)=1−exp(−x)
- yukawa: f(x)=1−exp(−x)·(1+0.5x)
- powerlaw_tail: f(x)=1−(1+x)^(−1/2)
- (control opcional) gaussian: f(x)=erf(x/√2) (no incluido en el conjunto principal de conclusiones)
Motivación física (extendida): EFT interpreta la respuesta gravitacional extra a escala galáctica como una respuesta efectiva obtenida al coarse-grain/promediar en escala acciones más microscópicas sobre escalas finitas. En este artículo no asumimos ningún mecanismo microscópico específico; en cambio, usamos una parametrización mínima y auditable para una comparación controlada y pruebas bajo un protocolo estadístico unificado.
Por intuición, el término extra puede escribirse en forma de aceleración: a_extra(r)=V_extra²(r)/r=(V0_bin²/r)·f(r/ℓ). Cuando r≫ℓ, f→1 y V_extra→V0_bin, lo que produce una contribución extra de velocidad aproximadamente plana en la región externa. Cuando r≪ℓ y f(x)≈x, puede introducirse una escala de aceleración característica a0,bin≈V0_bin²/ℓ (hasta un factor O(1) de la función de núcleo), proporcionando una intuición de tipo MOND para la escala de transición interior-exterior.
La familia discreta de núcleos utilizada aquí (none/exponential/yukawa/powerlaw_tail) puede verse como proxies de baja dimensión para distintas “pendientes iniciales / velocidades de transición / colas de largo alcance” (por ejemplo, apantallamiento de tipo Yukawa frente a una respuesta de cola más larga). Se usan para pruebas de esfuerzo de robustez, no para agotar el espacio de modelos. En el componente de lente débil construimos una masa y densidad efectivas de envolvente a partir de V_avg(r) y luego las proyectamos para obtener ΔΣ(R). Esta densidad efectiva debe entenderse como una descripción efectiva del potencial de lente bajo las hipótesis de simetría esférica y mapeo de campo débil (los detalles completos se trasladan al Apéndice A).
Todas las formas de núcleo anteriores satisfacen f(x)→1 cuando x→∞ (es decir, saturación V_extra²→V0²), mientras que dan crecimiento lineal o sublineal para x≪1: por ejemplo, exponential: f≈x; yukawa: f≈0.5x; powerlaw_tail: f≈0.5x. Por tanto, las distintas formas de núcleo presentan diferencias observables en la “pendiente inicial” de pequeño radio, la velocidad de transición y la cola externa, y pueden distinguirse mediante las pruebas conjuntas RC+GGL y de cierre.
La predicción de EFT para la lente débil ΔΣ(R) se obtiene infiriendo masa y densidad de envolvente a partir de V_avg(r), seguidas de integrales de proyección: M_enc(r)=r·V_avg²(r)/G, ρ(r)=(1/4πr²)·dM_enc/dr, Σ(R)=2∫_R^∞ ρ(r)·r/√(r²−R²) dr, y ΔΣ(R)=Σ̄(<R)−Σ(R). La implementación numérica usa una malla logarítmica y la refina adaptativamente en casos excepcionales para garantizar estabilidad y reproducibilidad.
(c) DM_RAZOR: línea base de halo NFW de materia oscura fría
Al mismo tiempo, dejamos claro que DM_RAZOR representa solo una línea base NFW mínima y auditable (c–M fija y sin dispersión; sin contracción adiabática, core por feedback, no esfericidad ni términos ambientales). Para reducir el riesgo de una “línea base strawman”, este artículo no afirma que tales efectos no existan. En cambio, los incorpora en el Apéndice B (P1A) como pruebas de esfuerzo de baja dimensión y auditables, incluyendo tratamiento jerárquico de la dispersión c–M, un proxy de core y un nuisance de calibración de cizalla del lado de lente.
4.2 Registro de modelos y comparación justa (parámetros compartidos = definición de cierre)
El número de parámetros en el conjunto principal de comparación es: DM_RAZOR k=20; familia EFT k=21 (el parámetro adicional es el log ℓ global). Todos los modelos comparten los mismos datos RC, los mismos datos GGL y la misma covarianza, el mismo mapeo RC-bin→GGL-bin, los mismos términos bariónicos y las mismas conversiones de unidades. Además, la forma de núcleo (none / exponential / yukawa / powerlaw_tail) es una elección discreta y no introduce ningún parámetro continuo adicional, lo que impide obtener ventaja por “un grado de libertad extra”.
4.3 Verosimilitud, priors y muestreador
La verosimilitud RC es gaussiana diagonal: σ_eff² = σ_obs² + σ_int². Los resultados principales fijan σ_int=5 km/s, y Run-5 barre σ_int. La verosimilitud GGL usa una gaussiana de covarianza completa para cada bin: logL_GGL = Σ_b log 𝒩(ΔΣ_obs^b | ΔΣ_mod^b, C_b). El objetivo conjunto es logpost(θ)=logprior(θ)+logL_RC(θ)+logL_GGL(θ). Los priors codifican principalmente fronteras físicamente factibles (restricciones de intervalo sobre log ℓ, log V0 y log M200); cuando se habilitan Υ y σ_int libres, se usan priors débilmente informativos (véanse la implementación y la configuración del paquete de publicación para detalles).
El muestreador usa una caminata aleatoria Metropolis por bloques adaptativos: cada paso actualiza solo un subbloque aleatorio del espacio de parámetros para mejorar la tasa de aceptación en alta dimensión, y el tamaño de paso se adapta ligeramente mediante la tasa de aceptación por ventanas (tasa de aceptación objetivo alrededor de 0.25). Los resultados principales usan modo rápido (ajustes como n_steps=800), y cada workspace produce trazas, residuos y gráficos PPC para auditorías manuales y por script.
4.4 Prueba de cierre y control negativo (definición)
La prueba de cierre (Run-2) comprueba si el posterior RC-only puede predecir GGL sin reajustar GGL. En concreto, genera hacia adelante ΔΣ(R) para 4 bins GGL a partir de muestras posteriores RC-only y calcula logL_true con la covarianza completa; después permuta aleatoriamente el mapeo de grupos RC-bin→GGL-bin para obtener logL_perm. La fuerza de cierre se define como ΔlogL_closure≡⟨logL_true⟩−⟨logL_perm⟩. Además, Run-10 reagrupa aleatoriamente los 20 bins RC en 4×5 (shuffle) y recalcula el cierre, comprobando hasta qué punto la señal de cierre depende del mapeo correcto.
5 Resultados principales e interpretación
5.1 Resultados principales del ajuste conjunto (RC+GGL)
El mejor logL_total del ajuste conjunto y la ventaja relativa ΔlogL_total (respecto a DM_RAZOR) se muestran en la Tabla S1a y la Fig. S4. En el conjunto principal de comparación, EFT_BIN tiene la mayor ventaja conjunta (ΔlogL_total=1337.210), mientras que las demás formas de núcleo EFT también conservan ventajas significativas (1154.827–1294.442). Bajo criterios de información (AICc/BIC), la familia EFT también supera significativamente a DM_RAZOR, lo que indica que la ventaja no se debe a un sesgo por el número de parámetros.
Nota: la contribución principal a ΔlogL_total≈1337 procede del término RC (ΔlogL_RC≈1065 en la descomposición conjunta, alrededor del 80%). Esto puede entenderse como una mejora modesta de aproximadamente Δχ²≈0.90 por punto a lo largo de N=2295 puntos de datos RC, que se acumula naturalmente hasta una ventaja de orden 10^3 bajo una verosimilitud gaussiana diagonal. Al mismo tiempo, GGL y la prueba de cierre proporcionan restricciones independientes entre conjuntos de datos, y la clasificación se mantiene estable bajo las pruebas de esfuerzo de σ_int, R_min y cov-shrink (véanse la Sección 6 y la Tabla S1b).
5.2 Resultados de la prueba de cierre (RC-only → GGL)
La magnitud clave de la prueba de cierre, ΔlogL_closure, se informa en la Tabla S1b y la Fig. S3. La familia EFT presenta fuerzas de cierre de 171.977–280.513, superiores al 126.678 de DM_RAZOR. Esto significa que, sin permitir grados de libertad adicionales entre datos, las muestras posteriores obtenidas por EFT a partir de los datos RC tienen un poder predictivo transferible más fuerte para los datos GGL.
El control negativo respalda además la relevancia física de la señal de cierre: cuando la agrupación RC-bin→GGL-bin se aleatoriza, la fuerza de cierre de EFT cae a 6–15 (con pequeñas diferencias entre núcleos), mientras que la fuerza de cierre de referencia alcanza 172–281. Este “colapso de señal” descarta ventajas falsas causadas por implementación numérica, errores de unidades o manejo inadecuado de la covarianza.
Fig. R1 | Control negativo: tras la agrupación shuffle, la señal de cierre cae de forma significativa (graficado a partir de métricas Tab_Z1).
5.3 Significado y límites de los resultados
La conclusión de este estudio es que “bajo este conjunto de datos y este protocolo, la corrección de gravedad media de EFT supera a la línea base DM_RAZOR probada”. Debe enfatizarse que el lado DM usa solo una línea base NFW mínima con una relación c(M) fija, sin formación de core, no esfericidad, términos ambientales ni modelos más complejos de conexión galaxia–halo. Por tanto, este manuscrito no afirma excluir todas las familias de modelos DM. En cambio, proporciona una línea base de control reproducible, centrada en la prueba de cierre, para evaluar si RC y GGL pueden explicarse de forma consistente mediante los mismos parámetros y mapeos entre datos.
Para abordar esta preocupación común, completamos un proyecto de extensión independiente, P1A (véase el Apéndice B). Sin cambiar el mapeo compartido RC-bin→GGL-bin ni el marco de auditoría, fortalece la línea base DM de una manera “estandarizada y auditable”: además de tres mejoras de un parámetro (SCAT/AC/FB), añade (i) dispersión c–M jerárquica + prior masa–concentración (DM_HIER_CMSCAT), (ii) un proxy de core de feedback bariónico de un parámetro (DM_CORE1P), y (iii) un nuisance de calibración de cizalla m del lado de lente débil (DM_RAZOR_M), e informa un modelo combinado DM_STD; EFT_BIN se conserva como referencia de control.
• DM_RAZOR_SCAT (dispersión c–M) — introduce el parámetro de dispersión de concentración halo-a-halo σ_logc para comprobar si una c(M) fija subestima sistemáticamente el poder explicativo de DM;
• DM_RAZOR_AC (contracción adiabática) — usa un único parámetro α_AC para interpolar continuamente entre “sin contracción” y “contracción estándar”, capturando con coste mínimo la tendencia de los bariones a contraer el halo interior;
• DM_RAZOR_FB (feedback/core) — usa una escala de core (por ejemplo, log r_core) para describir cómo la formación de core interno suprime las curvas de rotación, manteniendo al mismo tiempo la aproximación NFW en escalas de lente débil.
El scoreboard cuantitativo de P1A se proporciona en el Apéndice B, Tabla B1 / Fig. B1 (generado automáticamente a partir de Tab_S1_P1A_scoreboard). En la métrica de cierre, DM_RAZOR_FB aporta una pequeña mejora neta (122.21→129.45, +7.25), mientras que las demás mejoras contribuyen de forma insignificante o negativa a la fuerza de cierre. En el ajuste conjunto, añadir un prior jerárquico de dispersión c–M (DM_HIER_CMSCAT) o el modelo combinado (DM_STD) puede mejorar sustancialmente el logL conjunto, pero no mejora la fuerza de cierre, lo que sugiere que añade principalmente flexibilidad de ajuste conjunto y no transferibilidad entre sondas. Por tanto, la conclusión central del texto principal debe leerse así: bajo restricciones estrictas de mapeo compartido y prueba de cierre, la ventaja de consistencia entre datos de EFT no procede de elegir una “línea base demasiado débil” en el lado DM. El paquete de publicación P1A correspondiente al Apéndice B (tablas/figuras suplementarias y full_fit_runpack) se incluirá como archivos adicionales bajo el mismo Concept DOI de Zenodo que el full_fit_runpack de este artículo: https://doi.org/10.5281/zenodo.18526286.https://doi.org/10.5281/zenodo.18526286
6 Experimentos de robustez y control
6.1 Barrido de σ_int (Run-5)
Barremos sistemáticamente la dispersión intrínseca RC σ_int y repetimos la inferencia conjunta para cada σ_int, calculando ΔlogL_total respecto a DM_RAZOR. Los valores mínimo/máximo de ΔlogL_total para cada modelo a lo largo del rango de barrido se informan en la Tabla S1b.
Fig. R2 | Rango de ΔlogL_total bajo el barrido σ_int (mayor es mejor).
6.2 Barrido de R_min (Run-6)
Para comprobar el impacto de sistemáticas en datos de la región central (como movimiento no circular, resolución y modelización bariónica insuficiente), aplicamos cortes de umbral R_min a RC y repetimos la inferencia conjunta. La ventaja de la familia EFT sigue siendo positiva y estable en escala bajo el barrido R_min.
Fig. R3 | Rango de ΔlogL_total bajo el barrido R_min (mayor es mejor).
6.3 Barrido cov-shrink (Run-7)
Para comprobar la incertidumbre en la covarianza GGL, aplicamos shrinkage a la matriz de covarianza de cada bin de masa: C_α=(1−α)C+α·diag(C), y barremos α. Los resultados muestran que la ventaja de la familia EFT es insensible a este tratamiento.
Fig. R4 | Rango de ΔlogL_total bajo el barrido cov-shrink (mayor es mejor).
6.4 Escalera de ablación (Run-8)
Dentro de EFT_BIN realizamos ablaciones anidadas: desde un modelo mínimo (sin parámetros libres), pasando por versiones que conservan solo un pequeño número de grados de libertad, hasta llegar al modelo completo de amplitud en 20 bins + escala global. AICc/BIC muestran que el modelo EFT_BIN completo es fuertemente requerido por los datos.
Fig. R5 | Escalera de ablación de EFT_BIN (AICc; menor es mejor).
6.5 Predicción holdout (Run-9)
Ejecutamos además una prueba leave-one-bin-out (LOO): entre los 4 bins de masa GGL, se retiene un bin cada vez; la inferencia se rehace usando los bins restantes (y todos los RC), y la log-verosimilitud de prueba se evalúa después sobre el bin retenido. Las métricas resumidas se dan en la tabla suplementaria Tab_R3_leave_one_bin_out (un producto de Run-9; los patrones de ruta de archivo se enumeran en la lista de productos clave de la Sección 8.2). La familia EFT sigue siendo claramente superior a DM_RAZOR incluso en el peor caso retenido.
Fig. R6 | LOO: distribución de log-verosimilitud para el bin retenido (a partir de productos Run-9).
6.6 Control negativo: shuffle de RC-bin (Run-10)
Run-10 reagrupa aleatoriamente los 20 bins RC en 4×5 y recalcula el cierre manteniendo sin cambios el posterior RC-only. Los resultados muestran que, en comparación con el mapeo original, el shuffle reduce significativamente tanto la media de cierre logL_true como ΔlogL_closure (véanse la Tabla S1b y la Fig. R1), apoyando además la interpretabilidad de la señal de cierre.
Fig. R7 | Control negativo: el mapeo shuffle causa una caída clara de la media de cierre logL_true (a partir de productos Run-10).
7 Trazabilidad y auditoría de consistencia (procedencia)
Todos los valores numéricos citados en este artículo pueden rastrearse elemento por elemento en las tablas de resumen estrictas y los registros de auditoría del archivo de publicación. Para mantener más legible el texto principal, la cadena completa de procedencia (lista de etiquetas, tablas de auditoría, lista de checksums y método de verificación) se ha trasladado al Apéndice A.
8 Reproducibilidad y archivo Zenodo
Declaración de disponibilidad de datos y código: los datos de curvas de rotación SPARC y los datos de lente débil KiDS-1000 usados en este artículo son conjuntos de datos públicos. El informe de calidad publicable se ha archivado en Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526334), y el paquete completo de reproducción se ha archivado en Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526286). Los pasos detallados de ejecución, el entorno de dependencias, el inventario de archivo y la información de verificación hash se proporcionan en el Apéndice A; el diseño, las etiquetas de ejecución y las salidas de la prueba de esfuerzo de estandarización de la línea base DM (P1A) se proporcionan en el Apéndice B.
Bajo el mismo Concept DOI del paquete completo de reproducción (https://doi.org/10.5281/zenodo.18526286), proporcionamos dos puntos de entrada reproducibles por caso de uso:
• P1 (texto principal) full_fit_runpack: reproduce los análisis RC-only / cierre / conjunto y los barridos de robustez para EFT frente a DM_RAZOR, y genera activos del texto principal, incluidas las Tablas S1a/S1b y las Figs. S3/S4;
• P1A (Apéndice B) full_fit_runpack: reproduce la prueba de esfuerzo de estandarización de la línea base DM (SCAT/AC/FB + prior jerárquico de dispersión c–M + core1p + lente m + DM_STD, incluido el control EFT_BIN), y genera la Tabla B1 y la Fig. B1 del Apéndice.
Las tablas/figuras suplementarias y el full_fit_runpack de P1A se incluirán como archivos adicionales bajo el mismo Concept DOI para mantener un único punto de entrada de archivo.
9 Agradecimientos y declaraciones
9.1 Agradecimientos
Agradecemos a los equipos de SPARC y KiDS-1000 por proporcionar datos y documentación públicos, así como a los participantes en el flujo de reconstrucción y auditoría de este proyecto.
9.2 Contribuciones del autor
Guanglin Tu fue responsable de la propuesta conceptual, el diseño del estudio, la implementación de ingeniería, la curación de datos, el análisis formal, la implementación y auditoría del flujo de reproducibilidad, y la redacción del manuscrito.
9.3 Financiación
Autofinanciado por el autor, Guanglin Tu (sin financiación externa / sin número de subvención).
9.4 Intereses contrapuestos
El autor, Guanglin Tu, está afiliado al “EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (China)”; no se declaran otros intereses contrapuestos.
9.5 Asistencia de IA
OpenAI GPT-5.2 Pro y Gemini 3 Pro se usaron para pulido lingüístico, edición estructural y organización del flujo de reproducibilidad. No se usaron para generar ni modificar datos, resultados, figuras, tablas o código, ni para generar citas. El autor asume plena responsabilidad por el contenido y la exactitud de las citas de todo el manuscrito.
10 Referencias
- Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.
- Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.
- Wright, C. O., & Brainerd, T. G. (2000). Gravitational Lensing by Navarro–Frenk–White Halos. The Astrophysical Journal, 534, 34–40.
- Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493. DOI: https://doi.org/10.1086/304888
- Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374. DOI: https://doi.org/10.1093/mnras/stu742
- Blumenthal, G. R., Faber, S. M., Flores, R., & Primack, J. R. (1986). Contraction of dark matter galactic halos due to baryonic infall. Astrophysical Journal, 301, 27. DOI: https://doi.org/10.1086/163867
- Di Cintio, A., Brook, C. B., Dutton, A. A., et al. (2014). A mass-dependent density profile for dark matter haloes including the influence of galaxy formation. Monthly Notices of the Royal Astronomical Society, 441, 2986–2995. DOI: https://doi.org/10.1093/mnras/stu729
- Read, J. I., Agertz, O., & Collins, M. L. M. (2016). Dark matter cores all the way down. Monthly Notices of the Royal Astronomical Society, 459, 2573–2590. DOI: https://doi.org/10.1093/mnras/stw713
- Energy Filament Theory. Zenodo (open science repository) DOI: https://doi.org/10.5281/zenodo.18517411
Apéndice A: detalles de trazabilidad y reproducibilidad
Este apéndice resume información de archivo a largo plazo para trazabilidad y reproducibilidad, incluidas etiquetas de ejecución, resultados de auditoría, inventarios de archivo y puntos clave de verificación, de modo que los lectores puedan comprobar y reproducir el trabajo según sea necesario.
A.1 Detalles de trazabilidad y auditoría
Para garantizar trazabilidad a largo plazo, este proyecto usa etiquetas con marca temporal para cada ejecución y salida, y conserva los productos históricos sin sobrescribirlos. Los valores centrales citados en este manuscrito proceden de la compilación estricta (compile_tag=20260205_035929) y han pasado las siguientes auditorías de consistencia:
• Todas las tablas de nivel de etapa llevan run_tag y etiquetas de etapa; el script de compilación estricta selecciona fuentes canónicas de tablas “completas y consistentes” desde report/tables.
• Los valores en Tab_Z1_master_summary y Tab_Z2_conclusion_highlights se comparan elemento por elemento con las tablas canónicas seleccionadas.
• Durante la generación de PDF, se realiza una auditoría de etiquetas sobre “etiquetas de tablas/figuras referenciadas” para garantizar que no se mezclen productos obsoletos.
Etiquetas clave (para localizar todos los productos intermedios): run_tag=20260204_122515; closure_tag=20260204_124721; joint_tag=20260204_152714; sigma_sweep_tag=20260204_161852; rmin_sweep_tag=20260204_195247; covshrink_tag=20260204_203219; ablation_tag=20260204_214642; LOO_tag=20260204_224827; negctrl_tag=20260204_234528; strict_compile_tag=20260205_035929; release_tag=20260205_112442.
Resultado de auditoría de consistencia: Tab_AUDIT_checks_strict informa pass=9, fail=0, skip=0 (véase el paquete de publicación para detalles).
A.2 Pasos de ejecución de reproducibilidad e inventario de archivo
Este estudio adopta un sistema de reproducibilidad compuesto por “informe de calidad publicable + suplemento de tablas/figuras + paquete de ejecución totalmente reejecutable”. Los lectores pueden consultar directamente el suplemento Tables & Figures para verificar todos los activos de tablas/figuras citados en el artículo; para reproducir desde cero los valores numéricos y la cadena de auditoría, pueden usar el full_fit_runpack para descargar los datos y reejecutar el flujo completo. Una vez completado, el script integrado de comparación con tablas de referencia del paquete puede usarse para verificar la consistencia de valores de tabla.
A.2.1 Inicio rápido de reproducción (RUN_FULL, Windows PowerShell)
Esta sección ofrece una ruta de reproducción más corta (Windows PowerShell). Para comprobaciones rápidas, se recomienda a los lectores consultar directamente el suplemento Tables & Figures y verificar elemento por elemento las tablas y figuras citadas. Para reproducción de extremo a extremo y generación de todas las tablas, figuras y productos de auditoría, use full_fit_runpack: siga el README/ONE_PAGE_REPRO_CHECKLIST del paquete para ejecutar verify_checksums.ps1 y RUN_FULL.ps1 (se recomienda Mode=full).
Entrada de archivo Zenodo (Concept DOI): https://doi.org/10.5281/zenodo.18526286.
Etiquetas de cadena principal de este artículo: run_tag=20260204_122515; strict compile_tag=20260205_035929; release_tag=20260205_112442.
A.2.2 Materiales de archivo y puntos clave de verificación (paquetes y comprobaciones)
El archivo Zenodo proporciona tres categorías complementarias de materiales: (1) informe de calidad publicable (este artículo, v1.1; incluido el Apéndice B: prueba de esfuerzo de estandarización de la línea base DM P1A); (2) suplemento Tables & Figures (tablas y figuras suplementarias que cubren todos los activos de tablas/figuras citados en este artículo, correspondientes por separado a P1 y P1A); y (3) full_fit_runpack (paquete completo de reproducción: descarga datos desde cero y reejecuta el flujo completo, correspondiente por separado a P1 y P1A). Los elementos (1)–(2) apoyan la lectura rápida y la verificación independiente; el elemento (3) proporciona reproducibilidad completa de extremo a extremo.
Categoría de material | Nombre de archivo (ejemplo) | Uso y posicionamiento (orden de uso recomendado) |
Informe de calidad publicable (chino e inglés) | P1_RC_GGL_report_EN_PUBLICATION_V1_1.pdf | Informe completo archivado en Zenodo; el texto principal ofrece las conclusiones centrales y la auditoría de robustez, y el Apéndice B presenta P1A (prueba de esfuerzo de estandarización de la línea base DM). |
Tables & Figures Supplement (P1) | P1_RC_GGL_supplement_figs_tables_V1_1.zip | Todas las tablas (CSV) y figuras (PNG) citadas en el texto principal, incluidos scripts de generación y archivos de etiquetas. |
Tables & Figures Supplement (P1A) | P1A_supplement_figs_tables_v1.zip | Todas las tablas y figuras citadas en el Apéndice B (P1A), incluidas Tab_S1_P1A_scoreboard y Fig_S1_P1A_scoreboard. |
full_fit_runpack (P1) | P1_RC_GGL_full_fit_runpack_v1_1.zip | Reproducción completa de extremo a extremo: descarga datos desde cero y vuelve a ejecutar RC-only/closure/joint y los barridos de robustez. |
full_fit_runpack (P1A) | P1A_RC_GGL_full_fit_runpack_v1.zip | Reproducción completa de extremo a extremo (Apéndice B): vuelve a ejecutar DM 7+1 + DM_STD (incluido el control EFT_BIN) y genera los activos del apéndice; el paquete contiene un script de comparación con tablas de referencia para verificar la consistencia de valores de tabla. |
Recomendación de citación: al citar este artículo o los materiales de reproducibilidad asociados, cite el Concept DOI de Zenodo (https://doi.org/10.5281/zenodo.18526334).
Los productos clave que deberían aparecer y ser comparables tras la reproducción incluyen:
- report/tables/Tab_D_closure_summary__20260204_122515__*.csv (resumen de cierre)
- report/tables/Tab_F_joint_summary__20260204_122515__*.csv (resumen de ajuste conjunto)
- report/tables/Tab_G_joint_sigma_sweep__20260204_122515__*.csv (barrido σ_int)
- report/tables/Tab_H_joint_rmin_sweep__20260204_122515__*.csv (barrido R_min)
- report/tables/Tab_I_joint_covshrink_sweep__20260204_122515__*.csv (barrido cov-shrink)
- report/tables/Tab_R2_ablation_ladder__20260204_122515__*.csv (ablación)
- report/tables/Tab_R3_leave_one_bin_out__20260204_122515__*.csv (LOO)
- report/tables/Tab_R4_negctrl_rcbin_shuffle__20260204_122515__*.csv (control negativo)
- report/final/Tab_Z1_master_summary__20260204_122515__20260205_035929.csv (tabla maestra estricta; corresponde a las Tablas S1a/S1b y los valores del texto principal)
- report/final/P1_RC_GGL_final_bundle__20260204_122515__20260205_035929.pdf (paquete PDF de calidad publicable; puede usarse para lectura rápida y citación)
Apéndice B: P1A—Prueba de esfuerzo de estandarización de la línea base DM (DM 7+1 + DM_STD; con control EFT)
Este apéndice documenta un proyecto de extensión (P1A) para “pruebas de esfuerzo de estandarización de la línea base DM” coherente con el protocolo de cierre del texto principal. Su función es actualizar la línea base mínima DM_RAZOR usada en el texto principal (NFW + c–M fija, sin dispersión / sin contracción / sin core) hacia un conjunto de líneas base DM más cercano a la práctica astrofísica y más resistente a críticas comunes, sin introducir un gran número de grados de libertad y sin cambiar el mapeo compartido RC-bin→GGL-bin ni el marco de auditoría. P1A cubre, y es un superconjunto de, la prueba de esfuerzo anterior de tres ramas: conserva SCAT/AC/FB y añade dispersión c–M jerárquica + prior, un proxy de core de un parámetro y un nuisance de calibración de cizalla m del lado de lente; también proporciona el modelo combinado DM_STD. EFT_BIN se conserva como referencia de control.
Nota suplementaria: las fuerzas de cierre y valores relacionados del Apéndice B (P1A) usan un presupuesto Monte Carlo mayor (por ejemplo, ndraw=400, nperm=24) que el presupuesto rápido usado en el texto principal para cubrir toda la familia de núcleos EFT (por ejemplo, ndraw=60, nperm=12). Por tanto, los valores absolutos pueden mostrar una deriva de muestreo de nivel O(10). Sin embargo, las comparaciones modelo a modelo dentro del mismo presupuesto/tabla son justas, y el signo y la escala de la ventaja permanecen estables entre presupuestos.
B.1 Propósito y posicionamiento (por qué P1A y por qué como apéndice)
P1A no intenta agotar todas las posibles elecciones de modelización de halos ΛCDM (como no esfericidad, dependencia ambiental, conexiones galaxia–halo complejas o física bariónica de alta dimensión). En cambio, P1A sigue un principio “de baja dimensión, auditable y reproducible”: cada módulo de mejora introduce solo ≤1 parámetro efectivo clave y sigue sujeto a las tres restricciones duras de este artículo:
(i) Registro de parámetros: todo parámetro nuevo debe registrarse explícitamente e informarse junto con criterios de información (AICc/BIC);
(ii) Mapeo compartido: se sigue usando el mismo mapa de agrupación RC-bin→GGL-bin; no se permite “ajustar el mapeo” por separado para un solo conjunto de datos;
(iii) Prueba de cierre: toda mejora debe mostrar una ganancia genuina en predicción transferida RC→GGL, no solo un mejor ajuste RC-only.
B.2 DM 7+1 + DM_STD: definiciones de módulos, parámetros y entrada en el posterior conjunto
Como runpack independiente, P1A proporciona 8 workspaces DM (DM 7+1) más 1 control EFT: partiendo de DM_RAZOR como línea base, construye tres mejoras heredadas de un parámetro (DM_RAZOR_SCAT / DM_RAZOR_AC / DM_RAZOR_FB), añade tres módulos defensivos más estándar (DM_HIER_CMSCAT / DM_CORE1P / DM_RAZOR_M), y después proporciona el modelo combinado DM_STD. El objetivo compartido de estos módulos es cubrir las tres críticas más comunes aumentando la dimensionalidad lo menos posible: (a) cómo entran la dispersión c–M y los priors en un modelo jerárquico; (b) si el efecto principal del feedback bariónico puede capturarse con un proxy de core de un parámetro; y (c) si sistemáticas clave del lado de lente podrían confundirse con una señal física.
Workspace | dm_model | Nuevo(s) parámetro(s) (≤1) | Motivación física (central) | Principio de implementación (audit-friendly) |
|---|---|---|---|---|
DM_RAZOR | NFW (fixed c–M, no scatter) | — | Línea base de halo ΛCDM mínima y auditable; usada como control estricto frente a EFT | Mapeo compartido fijo; registro de parámetros estricto; como baseline, se usa solo para comparación relativa |
DM_RAZOR_SCAT | NFW + c–M scatter (legacy) | σ_logc | La relación c–M presenta dispersión; se aproxima con una dispersión log-normal de un parámetro | ≤1 nuevo parámetro; se mantiene el mapeo compartido; la ganancia de cierre es el criterio de aceptación |
DM_RAZOR_AC | NFW + Adiabatic Contraction (legacy) | α_AC | La caída bariónica puede inducir contracción adiabática del halo; se aproxima mediante una intensidad de un parámetro | ≤1 nuevo parámetro; no cambia el mapeo; se informan cambios AICc/BIC y ganancia de cierre |
DM_RAZOR_FB | NFW + feedback core (legacy) | log r_core | El feedback puede formar un core en la región interna; se aproxima con una escala de core de un parámetro | ≤1 nuevo parámetro; mismo criterio para cierre/control negativo; la mejora RC-only no es el único objetivo |
DM_HIER_CMSCAT | Hierarchical c–M scatter + prior | σ_logc (hier) | Jerarquización más estándar c_i∼logN(c(M_i),σ_logc); afecta simultáneamente al posterior conjunto RC y GGL | Prior explícito; marginalización de c_i latentes; mantiene baja dimensión y auditabilidad |
DM_CORE1P | 1‑parameter core proxy (coreNFW/DC14‑inspired) | log r_core | Usa un proxy de core de un parámetro para el efecto principal del feedback bariónico, evitando detalles de formación estelar de alta dimensión | Cita literatura estándar; ≤1 nuevo parámetro; vinculado a la prueba de cierre |
DM_RAZOR_M | NFW + lensing shear‑calibration nuisance | m_shear (GGL) | Absorbe la sistemática clave del lado de lente débil como parámetro efectivo, reduciendo el riesgo de “tomar sistemáticas por física” | Nuisance contabilizado explícitamente; no se permite influencia inversa sobre RC; prima la robustez de cierre |
DM_STD | Standardized DM baseline (HIER_CMSCAT + CORE1P + m) | σ_logc + log r_core (+ m_shear) | Integra simultáneamente las tres críticas más comunes en una línea base estándar todavía de baja dimensión | Registro de parámetros + criterios de información informados juntos; cierre como métrica principal; control defensivo DM más fuerte |
Nota: los nombres de parámetros anteriores siguen la implementación de ingeniería (por ejemplo, σ_logc, α_AC, log r_core y m_shear). El foco de diseño de P1A es “hacer algo más fuerte la línea base DM manteniéndola auditable”, no convertir el lado DM en un ajustador de alta dimensión incontrolable. En particular, DM_HIER_CMSCAT introduce la dispersión c–M de forma jerárquica: a la concentración c_i de cada halo se le asigna una dispersión log-normal alrededor de c(M_i), restringida por el σ_logc global y el prior c(M); esta estructura jerárquica afecta al posterior conjunto tanto de RC como de GGL.
B.3 Protocolo estadístico y convenciones de productos coherentes con el texto principal
P1A reutiliza todos los productos de datos, el mapeo compartido y el marco de auditoría del texto principal. El orden de ejecución y las convenciones de productos permanecen consistentes:
(1) Run‑1: inferencia RC-only (salidas posterior_samples.npz y metrics.json);
(2) Run‑2: prueba de cierre RC→GGL (salidas closure_summary.json y la línea base permutada);
(3) Run‑3: ajuste conjunto RC+GGL (salida joint_summary.json).
Todos los números citados proceden de la tabla compilada automáticamente (Tab_S1_P1A_scoreboard) y pueden comprobarse tras reejecutar el flujo P1A completo usando el script de comparación con tablas de referencia integrado en P1A full_fit_runpack.
B.4 Resultados principales, puntos de entrada de tablas/figuras y plan de archivo (mismo DOI)
Esta sección presenta las conclusiones cuantitativas centrales de P1A. La Tabla B1 resume métricas clave para RC-only, cierre RC→GGL y ajuste conjunto RC+GGL (los paréntesis dan diferencias respecto a la línea base DM_RAZOR). La fuerza de cierre se define como ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩ (mayor es mejor). La Fig. B1 visualiza el mismo scoreboard. Los puntos principales son los siguientes:
• Entre las tres ramas heredadas, solo DM_RAZOR_FB (feedback/core) ofrece una pequeña mejora neta en fuerza de cierre: 122.21→129.45 (+7.25); SCAT y AC no aportan mejora neta;
• Los nuevos DM_HIER_CMSCAT y DM_RAZOR_M tienen efectos muy pequeños (~0) sobre la fuerza de cierre, y DM_CORE1P tampoco muestra una mejora neta significativa;
• El modelo combinado DM_STD puede mejorar sustancialmente el logL conjunto (más cerca del óptimo de ajuste conjunto), pero su fuerza de cierre disminuye, lo que sugiere que su ganancia procede principalmente de la flexibilidad del ajuste conjunto y no de la transferibilidad entre sondas;
• Como control, EFT_BIN todavía conserva una ventaja clara tanto en fuerza de cierre como en ajuste conjunto. Por tanto, la conclusión principal es robusta ante la introducción de una “línea base DM más fuerte + nuisance de lente”.
Para comparación directa con los resultados del texto principal, las Tablas S1a–S1b resumen la comparación estricta entre la familia EFT y DM_RAZOR: los modelos EFT mejoran el ajuste conjunto en ΔlogL_total≈1155–1337 respecto a DM_RAZOR y alcanzan ΔlogL_closure=172–281 en la prueba de cierre. P1A solo crea un “control más difícil” del lado DM; su propósito es reducir preocupaciones como “línea base strawman” o “sistemáticas como física”, no reemplazar la comparación principal.
Tabla B1 | Scoreboard P1A (mayor es mejor; los paréntesis indican diferencias respecto a la línea base DM_RAZOR).
Rama de modelo (workspace) | Δk | RC-only best logL_RC (Δ) | Fuerza de cierre ΔlogL_closure (Δ) | Joint best logL_total (Δ) |
DM_RAZOR | 0 | -15702.654 (+0.000) | 122.205 (+0.000) | -27347.068 (+0.000) |
DM_RAZOR_SCAT | 1 | -15702.294 (+0.361) | 121.236 (-0.969) | -23153.311 (+4193.758) |
DM_RAZOR_AC | 1 | -15703.689 (-1.035) | 121.531 (-0.674) | -23982.557 (+3364.511) |
DM_RAZOR_FB | 1 | -15496.046 (+206.609) | 129.454 (+7.249) | -27478.531 (-131.463) |
DM_HIER_CMSCAT | 1 | -15702.644 (+0.010) | 121.978 (-0.227) | -23153.160 (+4193.908) |
DM_CORE1P | 1 | -15723.158 (-20.504) | 122.056 (-0.149) | -27336.258 (+10.810) |
DM_RAZOR_M | 0 (+m) | -15702.654 (+0.000) | 122.205 (+0.000) | -27340.451 (+6.617) |
DM_STD | 2 (+m) | -15832.203 (-129.549) | 105.690 (-16.515) | -22984.445 (+4362.623) |
EFT_BIN | 1 | -14631.537 (+1071.117) | 204.620 (+82.415) | -19001.142 (+8345.926) |
Fig. B1 | Scoreboard P1A: ΔlogL de cierre y conjunto respecto a la línea base (mayor es mejor).
Etiquetas de ejemplo para el conjunto de ejecuciones completadas correspondiente a este apéndice (usadas para localizar productos intermedios y tablas/figuras de P1A):
P1A run_tag = 20260213_151233; P1A closure_tag = 20260213_161731; P1A joint_tag = 20260213_195428.
B.5 Citación sugerida (nota de citación del apéndice)
Cuando los lectores necesiten citar la “prueba de esfuerzo de estandarización de la línea base DM” además de las conclusiones principales del artículo, se recomienda citar la conclusión principal junto con la siguiente nota: “See Appendix B (P1A) for standardized DM-baseline stress tests (legacy SCAT/AC/FB + hierarchical c–M scatter prior + core proxy + lensing shear-calibration nuisance), under the same closure protocol.”