Lectura del informe P1 — De las curvas de rotación a la lente gravitatoria débil: cómo comprobar la respuesta gravitatoria media de la teoría del filamento de energía (Energy Filament Theory, EFT)

← Experimento

Versión divulgativa basada en «P1_RC_GGL: prueba estricta de cierre entre dinámica galáctica y lente gravitatoria débil (v1.1)»

Informe original del autor: Guanglin Tu | Base de versión: P1 v1.1 | Naturaleza del texto: nota explicativa para el público / artículo no revisado por pares
Archivos relacionados: DOI del informe 10.5281/zenodo.18526334 | DOI del paquete de reproducción 10.5281/zenodo.18526286

Nota de lectura

Este es un texto explicativo, no otro informe académico. Se basa en el informe P1 original, conserva las figuras y tablas clave y añade, en cada paso importante, una explicación pública de «qué significa esto».

Este texto solo interpreta las conclusiones que P1 obtiene bajo sus conjuntos de datos, su registro de parámetros y su protocolo estadístico: en la prueba conjunta de curvas de rotación galáctica (RC) y lente gravitatoria débil galaxia-galaxia (GGL), el modelo de respuesta gravitatoria media de EFT aventaja claramente a la línea de base mínima DM_RAZOR probada aquí.

Este texto no interpreta P1 como una conclusión de «refutación de la materia oscura». P1 es solo el primer paso de los experimentos de la serie P: prueba el plano observable de la «base gravitatoria media» de EFT, no la totalidad de la teoría EFT.

0 | Entender P1 en cinco minutos: ¿qué se está poniendo a prueba?

P1 puede entenderse como un experimento de verificación cruzada entre sondas. No se limita a preguntar si un modelo ajusta un conjunto de datos; coloca en el mismo banco de auditoría dos lecturas gravitatorias muy distintas: las curvas de rotación (RC) leen la dinámica dentro de los discos galácticos, mientras que la lente gravitatoria débil galaxia-galaxia (GGL) lee la respuesta gravitatoria proyectada a escalas mayores.

Las RC funcionan como un «velocímetro»: indican a qué velocidad giran el gas y las estrellas a distintos radios dentro del disco galáctico.
La GGL se parece a una «báscula gravitatoria»: a partir de la ligera curvatura que las galaxias de primer plano imponen a la luz de fondo, infiere la distribución media de gravedad o masa alrededor de las galaxias a escalas mayores.
La pregunta central de P1 es esta: ¿puede un mismo modelo aprender una regularidad a partir de las RC y trasladarla después a la GGL sin perder coherencia?

La frase central de P1

P1 eleva el umbral de comparación desde «¿ajusta bien por separado?» hasta «¿puede cerrar entre sondas?». Que un modelo funcione bien con la correspondencia correcta y que la señal colapse al permutar la correspondencia indica que es más probable que haya captado una estructura gravitatoria compartida entre RC y GGL.

Tabla 0 | Cifras clave de P1 y lectura para el público general

Indicador	Lectura en P1 / P1A	Cómo entenderlo como lector general
Ajuste conjunto ΔlogL_total	En la comparación principal, EFT supera a DM_RAZOR por 1155–1337	Diferencia total de puntuación al combinar ambos conjuntos de datos; cuanto mayor, mejor es la explicación global.
Intensidad de cierre ΔlogL_closure	En la comparación principal, EFT obtiene 172–281 y DM_RAZOR 127	Capacidad de predecir GGL tras inferir solo con RC; cuanto mayor, más «autocoherente entre sondas».
Control negativo por permutación	Tras permutar RC-bin→GGL-bin, la señal de cierre de EFT cae a 6–23	Si se rompe la correspondencia correcta, la ventaja debe desaparecer; cuanto más clara sea la desaparición, mejor se descartan señales espurias.
Prueba de estrés P1A con múltiples DM	DM 7+1 + DM_STD, manteniendo EFT_BIN como control	P1A no se limita al DM_RAZOR mínimo; introduce varias ramas DM de baja dimensión y auditables en el mismo protocolo de cierre.

1 | Por qué hacer P1: dónde se atasca hoy la cosmología a escala galáctica

El problema a escala galáctica lleva mucho tiempo siendo difícil porque la necesidad de «gravedad o masa adicional» no es solo un fenómeno de curvas de rotación. Muchas observaciones muestran un vínculo muy estrecho entre la materia bariónica visible de las galaxias y las lecturas reales de dinámica o de lente. Para la vía de la materia oscura, esto significa que los halos oscuros, la retroalimentación bariónica, la historia de formación de las galaxias y los errores sistemáticos de observación deben coordinarse con enorme precisión. Para las vías gravitatorias sin materia oscura, significa que un modelo no puede limitarse a verse bien en RC: también debe sostenerse en lente gravitatoria débil, en leyes de escala poblacional y en controles negativos.

Esa es precisamente la motivación de P1. No parte de «la materia oscura está equivocada» ni de «EFT tiene que ser correcta», sino que pone bajo prueba una proposición comprobable: si la respuesta gravitatoria media de EFT deja, en el cierre entre sondas RC→GGL, una señal reproducible y transferible.

Contexto bibliográfico externo: por qué importa la ventana RC+GGL

La relación de aceleración radial (RAR) propuesta por McGaugh, Lelli y Schombert en 2016 muestra una correlación estrecha, con muy poca dispersión, entre la aceleración observada trazada por las curvas de rotación y la aceleración predicha por la materia bariónica. Esto convierte el acoplamiento bariones–respuesta gravitatoria en un problema ineludible para cualquier teoría a escala galáctica.

Brouwer et al. (2021) usaron la lente gravitatoria débil KiDS-1000 para extender la RAR a aceleraciones más bajas y radios mayores, comparando MOND, la gravedad emergente de Verlinde y modelos LambdaCDM; también señalaron que las diferencias entre galaxias tempranas y tardías, los halos de gas y la conexión galaxia–halo siguen siendo problemas explicativos clave.

Mistele et al. (2024) utilizaron además la lente gravitatoria débil para inferir curvas de velocidad circular de galaxias aisladas, informando que no presentan una caída clara a escalas de cientos de kpc e incluso de alrededor de 1 Mpc, y que son compatibles con la BTFR. Esto muestra que la lente gravitatoria débil se está convirtiendo en una lectura externa importante para comprobar la respuesta gravitatoria a escala galáctica.

Por eso, el valor de P1 no está en ser «el primero en discutir RC y GGL juntos», sino en situarlos dentro de un protocolo auditable compuesto por una correspondencia fija, un registro de parámetros, un cierre solo-RC→GGL, un control negativo por permutación y una prueba de estrés P1A con múltiples modelos DM.

2 | Qué significa EFT en P1: no es teoría efectiva de campos

Aquí EFT significa teoría del filamento de energía (Energy Filament Theory), no la teoría efectiva de campos habitual en física. En el informe técnico P1, el uso de EFT es muy contenido: no compite como teoría final completa, sino que se reduce primero a una parametrización observable, ajustable y refutable de la «respuesta gravitatoria media».

Dicho de forma sencilla: P1 no empieza discutiendo todo el origen microscópico de una gravedad adicional ni intenta demostrar de una vez toda la EFT. Solo plantea una pregunta más estrecha y más dura: si existe a escala galáctica algún tipo de respuesta gravitatoria adicional media, ¿puede explicar primero las RC y después trasladarse para predecir la GGL?

¿Qué parte de EFT captura P1?

P1 captura la «base gravitatoria media» (mean gravity floor): una contribución media estadísticamente estable y transferible entre muestras.

P1 no trata todavía la «base estocástica o de ruido»: términos aleatorios, diferencias individuales o dispersión adicional que podrían proceder de procesos de fluctuación más microscópicos.

P1 tampoco discute el mecanismo microscópico completo, las abundancias, las vidas medias ni las restricciones cosmológicas globales. Es el primer paso de los experimentos de la serie P, no un veredicto final.

3 | El plan de la serie P: por qué empezar por la «base media»

La serie P puede entenderse como el plan de recuperación observacional de EFT. No despliega todas las proposiciones a la vez, sino que separa primero la pieza más fácil de comprobar con datos públicos. La estrategia de P1 consiste en probar antes el término medio: si la respuesta gravitatoria media ni siquiera logra cerrar de RC a GGL, la discusión de términos de ruido o mecanismos microscópicos más complejos carece de una entrada sólida.

Tabla 1 | Posicionamiento por capas de la serie P

Nivel	Pregunta que se formula	Lugar dentro de P1
P1	¿Puede la respuesta gravitatoria media cerrar de RC a GGL?	Pregunta principal del informe actual
P1A	Si se refuerza el lado DM, ¿sigue siendo estable la conclusión?	Apéndice B: prueba de estrés DM 7+1 + DM_STD
Serie P posterior	¿Puede extenderse a más datos, más sondas y sistemáticas más complejas?	Dirección del trabajo posterior
Problema más profundo	¿Cómo se conectan el término medio, los términos de ruido y los mecanismos microscópicos?	Fuera del alcance de las conclusiones de P1

4 | Qué datos se usan y qué nos dicen RC y GGL

4.1 Curvas de rotación RC: el «velocímetro» del disco galáctico

Las curvas de rotación registran a qué velocidad orbitan el gas y las estrellas alrededor del centro galáctico a distintos radios. Cuanto más rápido giran, mayor fuerza centrípeta se necesita en ese radio, es decir, mayor debe ser la gravedad efectiva. P1 utiliza la base de datos SPARC; tras el preprocesado, incluye 104 galaxias, 2295 puntos de velocidad y una división en 20 bins RC.

4.2 Lente débil GGL: una «báscula gravitatoria» a mayor escala

La lente gravitatoria débil galaxia-galaxia mide cómo las galaxias de primer plano curvan ligeramente la luz de las galaxias de fondo. Corresponde a la respuesta gravitatoria proyectada a mayor escala, en la escala del halo, y no depende de los detalles de la dinámica del gas galáctico. P1 usa los datos públicos de GGL de KiDS-1000 / Brouwer et al. 2021: 4 bins de masa estelar, 15 puntos radiales por bin, 60 puntos en total, con la covarianza completa.

4.3 Mapeo fijo: por qué es crucial pasar de 20 bins RC a 4 bins GGL

P1 conecta los 20 bins RC con los 4 bins GGL mediante una regla fija: cada bin GGL corresponde a 5 bins RC y se promedia con pesos basados en el número de galaxias. Esta correspondencia se mantiene igual para todos los modelos y actúa como una restricción dura para la prueba de cierre y la comparación justa.

¿Por qué no ajustar la correspondencia después?

Si se permitiera elegir a posteriori «qué bins RC corresponden a qué bins GGL», un modelo podría fabricar cierre ajustando las correspondencias. P1 bloquea de antemano la correspondencia 20→4 y la rompe deliberadamente mediante un control negativo por permutación precisamente para comprobar si la señal de cierre depende de una correspondencia físicamente razonable.

5 | Modelos y método: qué compara realmente P1

5.1 Lado EFT: respuesta gravitatoria media de baja dimensión

El lado EFT utiliza un término adicional de velocidad de baja dimensión para describir la respuesta gravitatoria media: la forma del término adicional está controlada por una función núcleo adimensional f(r/ℓ), donde ℓ es una escala global, y la amplitud se da por bin RC. Los distintos núcleos representan pendientes iniciales, velocidades de transición y colas de largo alcance diferentes, y se usan como pruebas de estrés de robustez.

5.2 Lado DM: la comparación principal y el apéndice P1A deben leerse por separado

En la comparación principal del texto, DM_RAZOR es una línea de base NFW mínima y auditable: fija la relación c–M y no incluye dispersión halo a halo, contracción adiabática, núcleo por retroalimentación, no esfericidad ni términos ambientales. La ventaja de este diseño es que controla los grados de libertad y facilita la reproducción; su limitación es que no representa todos los modelos LambdaCDM ni todos los modelos de halos de materia oscura.

Por eso, en el Apéndice B (P1A), el lado DM se organiza como una serie de «pruebas de estrés estandarizadas»: sin cambiar la correspondencia compartida ni el protocolo de cierre, se incorporan gradualmente ramas de mejora de baja dimensión como SCAT, AC, FB, HIER_CMSCAT, CORE1P, parámetro m de lente y la línea de base combinada DM_STD, manteniendo EFT_BIN como control. P1A puede entenderse así: no se compara solo con una línea de base DM mínima, sino que se coloca un conjunto de mecanismos DM habituales y auditables con el mismo criterio de cierre.

Formulación precisa de la conclusión usada en este texto

Texto principal: la familia EFT supera claramente al DM_RAZOR mínimo en la comparación principal.

Apéndice B / P1A: bajo varias ramas de mejora DM de baja dimensión y auditables, junto con la prueba DM_STD, algunos ajustes conjuntos de DM mejoran, pero la intensidad de cierre no elimina la ventaja de EFT_BIN.

Por tanto, la formulación más prudente es: dentro del alcance de los datos, la correspondencia, el registro de parámetros y el protocolo de cierre de P1/P1A, la respuesta gravitatoria media de EFT muestra una coherencia entre datos más fuerte; eso no equivale a excluir todos los modelos de materia oscura.

5.3 Prueba de cierre: la lógica experimental más importante de P1

1. Ajustar solo con RC para obtener un conjunto de muestras posteriores solo-RC.

2. Sin permitir un reajuste con GGL, usar directamente el posterior de RC para predecir GGL.

3. Calcular con la covarianza completa la puntuación predictiva GGL bajo la correspondencia correcta, logL_true.

4. Permutar aleatoriamente la correspondencia RC-bin→GGL-bin y calcular el control negativo logL_perm.

5. Restar ambos valores para obtener la intensidad de cierre: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogía sencilla

La prueba de cierre se parece a un examen en dos aulas: el modelo aprende primero una regla en el aula RC y luego responde en el aula GGL. Si de verdad aprendió una regularidad compartida, y no un truco local, debería seguir respondiendo bien al cambiar de aula; si se baraja deliberadamente la correspondencia entre aulas, la ventaja debería desaparecer.

5.4 Antes de leer las tablas técnicas: cuatro entradas que conviene fijar

Tabla 5.4 | Ruta de lectura para el siguiente bloque de tablas técnicas en horizontal

Entrada	Qué mirar	Por qué importa
Tabla S1a	Puntuación total del ajuste conjunto RC+GGL	Responde a: «al mirar ambas bases de datos juntas, ¿quién ofrece la explicación global más fuerte?».
Tabla S1b	Intensidad de cierre, permutación y barridos de robustez	Responde a: «lo aprendido en RC, ¿puede transferirse a GGL?».
Tabla B0	Definición de varias ramas de mejora DM en P1A	Evita simplificar P1 como «solo se compara con el DM_RAZOR mínimo».
Tabla B1	Marcador de cierre y ajuste conjunto de P1A	Comprueba si la ventaja de cierre desaparece tras reforzar DM.

Nota de maquetación

Las páginas siguientes pasan a orientación horizontal para conservar completas las tablas anchas del informe original, sin eliminar columnas ni comprimirlas hasta hacerlas ilegibles. La explicación del cuerpo del texto ya ofrece primero una lectura para el público general; las tablas técnicas horizontales están pensadas para quienes necesitan comprobar cifras y ramas de modelo.

Figura 0.1 | La prueba de cierre de P1 en una sola imagen

Nota: la cadena superior es la «prueba de cierre» (ajuste solo con RC → predicción de GGL con el posterior de RC); la cadena inferior es el «ajuste conjunto» (RC+GGL puntúan juntos). A la derecha se compara la correspondencia real con la correspondencia permutada para obtener la intensidad de cierre ΔlogL.

6 | Tablas técnicas clave: tablas principales del informe original y tablas P1A

Tabla S1a | Indicadores principales de comparación en el ajuste conjunto (RC+GGL, Strict; conservados del informe original)

Modelo (workspace)	Núcleo W	k	logL_total conjunto (best)	ΔlogL_total vs DM	AICc	BIC
DM_RAZOR	none	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	none	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	exponential	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

Tabla S1b | Indicadores de cierre y robustez (Strict; conservados del informe original)

Modelo (workspace)	ΔlogL de cierre (true-perm)	ΔlogL tras permutación de control negativo	Rango de ΔlogL en barrido σ_int	Rango de ΔlogL en barrido R_min	Rango de ΔlogL en barrido cov-shrink
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

Tabla B0 | Definición de las ramas de mejora DM en P1A (conservada del Apéndice B del informe original)

Espacio de trabajo	modelo_DM	Parámetros nuevos (≤1)	Motivación física (núcleo)	Principio de implementación (audit-friendly)
DM_RAZOR	NFW (fixed c–M, no scatter)	—	Línea de base de halo LambdaCDM mínima y auditable; usada como contraste estricto frente a EFT	Mapeo compartido fijo; registro de parámetros estricto; línea de base usada solo para comparación relativa
DM_RAZOR_SCAT	NFW + dispersión c–M (heredada)	σ_logc	La relación c–M presenta dispersión; se aproxima con un scatter log-normal de un parámetro	≤1 parámetro nuevo; se mantiene la correspondencia compartida; el aumento de cierre es el criterio de aceptación
DM_RAZOR_AC	NFW + contracción adiabática (heredada)	α_AC	La caída de bariones puede inducir contracción adiabática del halo; se aproxima con una intensidad de un parámetro	≤1 parámetro nuevo; la correspondencia no cambia; se informan cambios AICc/BIC y aumento de cierre
DM_RAZOR_FB	NFW + núcleo por retroalimentación (heredada)	log r_core	La retroalimentación puede formar un núcleo en la región interna; se aproxima con una escala de núcleo de un parámetro	≤1 parámetro nuevo; cierre y control negativo con el mismo criterio; la mejora solo-RC no es el único objetivo
DM_HIER_CMSCAT	Hierarchical c–M scatter + prior	σ_logc(hier)	Jerarquización más estándar c_i∼logN(c(M_i),σ_logc); afecta simultáneamente al posterior conjunto de RC y GGL	Prior explícito; marginalización de c_i latentes; se mantiene baja dimensión y auditabilidad
DM_CORE1P	Proxy de núcleo de 1 parámetro (inspirado en coreNFW/DC14)	log r_core	Usa un proxy de núcleo de un parámetro para el efecto principal de la retroalimentación bariónica, evitando detalles de formación estelar de alta dimensión	Referencias estándar; ≤1 parámetro nuevo; vinculado a la prueba de cierre
DM_RAZOR_M	NFW + nuisance de calibración de cizalla de lente	m_shear(GGL)	Absorbe una sistemática clave del extremo de lente gravitatoria débil mediante un parámetro efectivo, reduciendo el riesgo de confundir una sistemática con física	Nuisance contabilizado explícitamente; no se permite influencia inversa sobre RC; los resultados priorizan la robustez del cierre
DM_STD	Línea de base DM estandarizada (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	Incorpora simultáneamente las tres objeciones más habituales en una línea de base estándar que sigue siendo de baja dimensión	Registro de parámetros y criterios de información informados juntos; el cierre es el indicador principal; se usa como contraste DM defensivo más fuerte

Tabla B1 | Marcador P1A (cuanto mayor, mejor; conservado del Apéndice B del informe original)

Rama de modelo (workspace)	Δk	solo-RC best logL_RC (Δ)	Intensidad de cierre ΔlogL_closure (Δ)	Mejor logL_total conjunto (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

Cómo leer la tabla B1 (marcador P1A)

• Δk: nuevos grados de libertad (un valor mayor indica un modelo más complejo; más complejo no significa mejor).

• Mire sobre todo dos columnas: intensidad de cierre ΔlogL_closure(Δ) (cuanto mayor, más «autocoherencia de transferencia») y Mejor logL_total conjunto(Δ) (puntuación total del ajuste conjunto).

• El (Δ) entre paréntesis indica la diferencia respecto a DM_RAZOR, para facilitar la comparación directa.

• La pregunta principal de esta tabla es si la ventaja de cierre desaparece cuando la línea de base DM se «refuerza razonablemente».

• Pista de lectura: DM_STD mejora de forma clara la puntuación conjunta, pero su intensidad de cierre disminuye; EFT_BIN sigue manteniendo una intensidad de cierre más alta.

Resumen en una frase: dentro de este conjunto de mejoras DM de baja dimensión y auditables, mejorar el ajuste conjunto no produce automáticamente un cierre más fuerte; el cierre, es decir, la transferibilidad, sigue siendo el criterio clave.

7 | Cómo leer los resultados principales

7.1 Ajuste conjunto: al mirar ambas bases de datos juntas, la comparación principal favorece a EFT

La tabla S1a y la figura S4 muestran que, con los mismos datos, la misma correspondencia compartida y un tamaño de parámetros aproximadamente comparable, la familia EFT alcanza frente a DM_RAZOR un ΔlogL_total conjunto de 1155–1337. Para el público general, esto puede leerse así: bajo la misma regla de puntuación aplicada a los datos RC y GGL en conjunto, los modelos EFT de la comparación principal obtienen una puntuación total más alta.

7.2 Prueba de cierre: lo que P1 quiere subrayar es la «transferibilidad»

Una intensidad de cierre alta indica que el modelo, usando solo los parámetros inferidos a partir de RC y sin volver a mirar GGL, predice mejor la GGL. En el informe P1, el ΔlogL_closure de EFT es 172–281, mientras que DM_RAZOR obtiene 127. Este resultado es más importante que decir «cada uno ajusta bien lo suyo», porque restringe la libertad del modelo sobre el segundo conjunto de datos.

7.3 Control negativo: por qué el «colapso de la señal» es una buena noticia

Cuando P1 baraja aleatoriamente la correspondencia entre grupos RC-bin→GGL-bin, la señal de cierre de EFT cae al orden de 6–23. Para un lector no técnico, este paso equivale a un «control antitrampas»: si la ventaja de cierre se debiera solo al código, las unidades, la covarianza o una casualidad del ajuste, la correspondencia permutada podría conservar la ventaja. Pero el resultado real es que la ventaja colapsa, lo que indica que depende de la correspondencia correcta.

Figura S3 | Intensidad de cierre (cuanto mayor, mejor): ventaja media de log-verosimilitud en la predicción solo-RC → GGL.

Cómo leer esta figura

Esta figura es el núcleo de P1. Cuanto más alta es la barra, mejor se transfiere a GGL la información que el modelo aprendió de RC.

La familia EFT queda en conjunto por encima de DM_RAZOR, lo que indica que, en el experimento «aprender primero RC y predecir después GGL», el cierre entre sondas de EFT es más fuerte.

Figura S4 | Ventaja del ajuste conjunto (cuanto mayor, mejor): mejor logL_total de RC+GGL frente a DM_RAZOR.

Cómo leer esta figura

Esta figura muestra la puntuación total tras combinar RC y GGL.

Toda la familia EFT queda claramente por encima de 0, lo que indica que la ventaja de EFT en la comparación principal no es un fenómeno local de un único punto, sino el rendimiento global del análisis conjunto.

Figura R1 | Control negativo: tras permutar los grupos, la señal de cierre disminuye de forma marcada.

Cómo leer esta figura

Esta figura muestra que, al permutar la relación correcta de bins RC↔GGL, la señal de cierre cae de forma marcada.

Esto hace que el resultado de P1 se parezca más a una coherencia real en la correspondencia entre datos que a una coincidencia numérica obtenible con cualquier correspondencia.

8 | Robustez y controles: cómo evita P1 ser «solo un ajuste bonito»

La objeción más fácil contra un informe técnico es esta: ¿la ventaja procede de una elección de ruido, de datos de la región central, de un tratamiento de la covarianza o de sobreajuste? P1 responde con varias familias de pruebas de estrés.

Tabla 2 | Cómo leer la robustez y los controles negativos de P1

Prueba	Qué duda intenta descartar	Lectura
Barrido σ_int	Si existe dispersión desconocida adicional en RC, ¿la conclusión sigue siendo estable?	Tras relajar los errores de RC, el orden de EFT y la escala de su ventaja se mantienen estables.
Barrido R_min	Si no se confía plenamente en la región central de las galaxias, ¿la conclusión sigue siendo estable?	Tras recortar la región central, EFT mantiene una ventaja positiva.
Barrido cov-shrink	Si la estimación de covarianza de GGL es incierta, ¿la conclusión sigue siendo estable?	Al contraer la covarianza hacia una matriz diagonal, la ventaja apenas cambia.
Escalera de ablación	¿EFT se apoya en una complejidad innecesaria para forzar el ajuste?	El EFT_BIN completo muestra necesidad bajo los criterios de información.
Predicción LOO dejando fuera	¿El modelo solo explica los datos que ya ha visto?	Al dejar fuera bins GGL, todavía muestra una capacidad de generalización fuerte.
RC-bin permutación	¿El cierre procede de una correspondencia real?	Al permutar los grupos, el cierre disminuye, lo que apoya la dependencia de la correspondencia.

Figura R2 | Rango de ΔlogL_total bajo el barrido de σ_int (cuanto mayor, mejor).

Cómo leer esta figura

Comprueba si la ventaja de EFT se mantiene cuando cambia la dispersión intrínseca de RC.

Figura R3 | Rango de ΔlogL_total bajo el barrido de R_min (cuanto mayor, mejor).

Cómo leer esta figura

Comprueba si la ventaja de EFT sigue estable tras recortar las regiones centrales complejas.

Figura R4 | Rango de ΔlogL_total bajo el barrido cov-shrink (cuanto mayor, mejor).

Cómo leer esta figura

Comprueba si el orden es sensible a cambios en el tratamiento de la covarianza de lente gravitatoria débil.

Figura R5 | Escalera de ablación de EFT_BIN (AICc, cuanto menor, mejor).

Cómo leer esta figura

Comprueba si EFT_BIN completo es necesario para explicar los datos y no solo añade parámetros inútiles.

Figura R6 | LOO: distribución de log-verosimilitud al dejar fuera un bin.

Cómo leer esta figura

Comprueba si el modelo conserva rendimiento predictivo en bins GGL no vistos.

Figura R7 | Control negativo: la correspondencia permutada reduce claramente la media de logL_true de cierre.

Cómo leer esta figura

Muestra además, desde el punto de vista de la media de logL_true, que el cierre depende de la correspondencia correcta entre datos.

9 | P1A: por qué «varios modelos DM en el apéndice» es una corrección clave

Esta sección no responde a «¿EFT solo ganó frente a un DM_RAZOR mínimo?», sino a una pregunta más concreta: si reforzamos la línea de base DM dentro de un rango de baja dimensión, reproducible y con registro de parámetros claro (P1A), ¿cambian las conclusiones de la prueba de cierre y del ajuste conjunto? En otras palabras, P1A busca reducir la objeción de «solo elegiste una línea de base DM demasiado débil» y desplazar la discusión hacia «si, bajo un conjunto auditable de mejoras DM, siguen existiendo diferencias en el rendimiento de cierre».

El diseño de P1A no pretende agotar todas las posibilidades de modelado de halos LambdaCDM ni convertir el lado DM en un ajustador de alta dimensión imposible de auditar. Elige mejoras de baja dimensión, reproducibles y con registro de parámetros claro: dispersión de concentración, contracción adiabática, núcleo por retroalimentación, prior jerárquico de dispersión c–M, proxy de núcleo de un parámetro, nuisance de calibración de cizalla de lente gravitatoria débil y la combinación DM_STD.

Lectura principal de P1A

Entre las tres ramas heredadas, solo retroalimentación/núcleo aporta una pequeña mejora neta a la intensidad de cierre; SCAT y AC no generan una mejora neta de cierre.

DM_HIER_CMSCAT, DM_RAZOR_M y DM_CORE1P tienen poco efecto sobre la intensidad de cierre o no muestran una mejora neta significativa.

DM_STD puede mejorar de forma importante el joint logL, pero su intensidad de cierre disminuye; esto sugiere que mejora sobre todo la flexibilidad del ajuste conjunto, no la capacidad predictiva transferida RC→GGL.

EFT_BIN sigue manteniendo en la tabla B1 de P1A una mayor intensidad de cierre y una ventaja de ajuste conjunto; por tanto, la afirmación central de P1 no debe simplificarse como «solo ganó al DM_RAZOR mínimo».

Figura B1 | Marcador P1A: ΔlogL de cierre y conjunto frente a la línea de base (cuanto mayor, mejor).

Cómo leer esta figura

Esta figura muestra el rendimiento de varias ramas de mejora DM frente a la línea de base.

Su significado no es «excluir todos los DM», sino mostrar que, dentro del rango de mejoras DM de baja dimensión y auditables elegido por P1A, reforzar DM no elimina la ventaja de cierre de EFT_BIN.

10 | El significado del experimento P1: por qué merece la pena hacerlo

10.1 Significado metodológico: situar el «cierre entre sondas» por encima del «ajuste de una sola sonda»

Las teorías a escala galáctica suelen atascarse en una disputa: si un modelo puede ajustar un determinado conjunto de curvas de rotación. P1 eleva la pregunta un nivel: los parámetros aprendidos de RC, ¿pueden predecir la lente gravitatoria débil sin reajustar GGL? Así, P1 deja de ser una «competición de ajustes» y se convierte en una «prueba de predicción transferida».

10.2 Significado de transparencia: tratar la cadena verificable como parte del resultado

Una contribución importante de P1 es publicar juntos los datos, tablas y figuras, etiquetas de ejecución, controles negativos, paquete de reproducción y cadena de auditoría. Esto importa tanto a quienes lo apoyan como a quienes lo critican: la discusión puede volver al mismo conjunto de datos públicos, la misma correspondencia, los mismos scripts y los mismos indicadores, en lugar de comparar solo consignas.

10.3 Significado físico: una prueba de estrés fuerte para la vía de «gravedad sin materia oscura»

En la vía de la gravedad sin materia oscura, muchos modelos pueden explicar parte de las curvas de rotación o de la RAR; lo más difícil es pasar también la lectura de lente gravitatoria débil y mostrar, bajo controles negativos, que la señal depende de la correspondencia correcta. El significado de P1 está en colocar la respuesta gravitatoria media de EFT dentro de un protocolo parecido a un «examen externo»: RC es el campo de entrenamiento, GGL el campo de transferencia y permutación el campo antitrampas.

10.4 ¿Es este un experimento importante para el campo de la gravedad sin materia oscura?

Dicho con cautela: si el procesamiento de datos, el paquete de reproducción y el protocolo de cierre de P1 se mantienen tras una revisión externa, puede considerarse un experimento RC+GGL de cierre digno de atención dentro de la gravedad sin materia oscura o de las teorías de gravedad modificada. Su importancia no reside en una frase como «derribar la materia oscura», sino en ofrecer un criterio entre sondas que puede reproducirse, cuestionarse y ampliarse.

¿Existen ya marcos de predicción RC+GGL con un cierre igual de alto?

Existen marcos y tradiciones observacionales relevantes: MOND/RAR organiza bien muchos fenómenos de curvas de rotación, y el trabajo de RAR con lente gravitatoria débil KiDS-1000 también comparó MOND, la gravedad emergente de Verlinde y modelos LambdaCDM. LambdaCDM, por su parte, puede explicar parte de los fenómenos de lente gravitatoria débil y dinámica mediante la conexión galaxia–halo, halos de gas y modelado de retroalimentación.

Pero la afirmación precisa de P1 no es «ningún otro marco puede explicar RC+GGL», sino esta: bajo el protocolo público propio de P1 —correspondencia fija, cierre solo-RC→GGL, control negativo por permutación, registro de parámetros y prueba de estrés P1A con múltiples DM— EFT informa de un rendimiento de cierre más fuerte.

Dicho de otro modo, lo más valioso para la verificación externa es que P1 propone un protocolo de comparación concreto y reproducible. El siguiente paso que merece hacerse es comprobar si MOND/RAR, LambdaCDM/HOD, simulaciones hidrodinámicas u otros marcos de gravedad modificada alcanzan puntuaciones de cierre iguales o superiores bajo el mismo protocolo.

11 | Qué puede concluir P1 y qué no puede concluir

Tabla 3 | Límites de las conclusiones de P1

Puede concluirse	Bajo los datos RC+GGL, la correspondencia fija y el protocolo de comparación principal de P1, la familia EFT muestra mayor ajuste conjunto e intensidad de cierre que el DM_RAZOR mínimo.
Puede concluirse	Dentro del rango de mejoras DM de baja dimensión y auditables de P1A, varias mejoras DM no eliminan la ventaja de cierre de EFT_BIN.
Puede concluirse	El control negativo por permutación muestra que la señal de cierre depende de la correspondencia correcta entre datos, y no aparece con cualquier correspondencia arbitraria.
No puede concluirse	No puede decirse que P1 haya refutado todos los modelos de materia oscura. P1A sigue sin agotar modelos no esféricos, dependencias ambientales, conexiones galaxia–halo complejas, retroalimentación de alta dimensión ni simulaciones cosmológicas completas.
No puede concluirse	No puede decirse que la teoría EFT completa haya quedado demostrada desde primeros principios. P1 solo prueba la capa fenomenológica de la respuesta gravitatoria media.
No puede concluirse	No puede decirse que se hayan descartado todas las sistemáticas. P1 solo aporta evidencia de robustez dentro de las pruebas de estrés y el alcance de auditoría enumerados.

12 | Preguntas frecuentes: las dudas más probables del lector general

Pregunta 1: ¿Esto quiere decir que «la materia oscura no existe»?

No. Las conclusiones de P1 deben limitarse a los datos, el protocolo y los modelos de comparación de este trabajo. P1A va más allá del DM_RAZOR mínimo, pero sigue sin representar todos los modelos posibles de materia oscura.

Pregunta 2: ¿Esto quiere decir que «EFT ya está demostrada»?

Tampoco. P1 prueba EFT como una parametrización de respuesta gravitatoria media y muestra un rendimiento más fuerte en el cierre RC→GGL; el mecanismo microscópico y la teoría completa no son conclusiones de P1.

Pregunta 3: ¿Por qué no hablar directamente de valores de significación σ?

P1 utiliza puntuaciones de verosimilitud unificadas, criterios de información y diferencias de cierre. ΔlogL es una ventaja relativa bajo la misma regla de puntuación; no equivale a un único valor σ.

Pregunta 4: ¿Por qué permutar RC-bin→GGL-bin?

Es un control negativo. Una señal real entre sondas debe depender de la correspondencia correcta; si siguiera siendo igual de fuerte tras permutarlo, eso sugeriría una posible desviación de implementación o una señal estadística espuria.

Pregunta 5: ¿Cuál debería ser el siguiente paso de P1?

Extender el mismo protocolo a más datos, más comparadores DM, sistemáticas más complejas y más marcos de gravedad modificada; sobre todo, permitir que equipos externos lo repliquen bajo el mismo indicador de cierre.

13 | Pequeño glosario

Tabla 4 | Pequeño glosario

Término	Explicación en una frase
Curvas de rotación (RC)	Relación radio–velocidad dentro del disco galáctico, usada para inferir la gravedad efectiva en el plano del disco.
Lente débil (GGL)	Mide la distribución media de gravedad o masa alrededor de galaxias de primer plano mediante la distorsión estadística de las formas de galaxias de fondo.
Prueba de cierre	Usar el posterior de RC para predecir GGL y compararlo con el control negativo de correspondencia permutada.
Control negativo	Romper deliberadamente una estructura clave para ver si la señal desaparece; se usa para descartar señales espurias.
Halo NFW	Perfil de densidad de halo de materia oscura usado habitualmente en modelos de materia oscura fría.
Relación c–M	Relación entre la concentración c y la masa M de un halo de materia oscura; permitir o no dispersión afecta a la flexibilidad del modelo.
DM_STD	Rama estandarizada de prueba de estrés DM en P1A, que combina varias mejoras DM de baja dimensión y un nuisance de lente.
ΔlogL	Diferencia de log-verosimilitud entre dos modelos bajo la misma regla de puntuación; un valor positivo indica que el primero es mejor.
Covarianza	Descripción matricial de las correlaciones entre puntos de datos; los datos de lente gravitatoria débil suelen requerir la covarianza completa.

14 | Ruta de lectura recomendada y entradas de cita

1. Lea primero las secciones 0–2 para fijar la pregunta de P1 y la posición contenida de EFT dentro de P1.

2. Después mire las figuras S3 y S4 y las tablas S1a/S1b para entender la intensidad de cierre, el ajuste conjunto y el control negativo.

3. Si le preocupa si «la línea de base DM es demasiado débil», vaya directamente a la sección 9 y a la tabla B1 / figura B1.

4. Para una revisión técnica, vuelva al informe técnico P1 v1.1, al Tables & Figures Supplement y al full_fit_runpack.

Entradas principales de archivo

Informe técnico P1 (nivel de publicación, Concept DOI): 10.5281/zenodo.18526334

Paquete completo de reproducción P1 (Concept DOI): 10.5281/zenodo.18526286

Base de conocimiento estructurada de EFT (opcional, Concept DOI): 10.5281/zenodo.18853200

Nota de licencia: el informe técnico usa CC BY-NC-ND 4.0; el paquete completo de reproducción usa CC BY 4.0 (según el informe técnico y los archivos de Zenodo).

15 | Referencias y contexto externo

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.

0 | Entender P1 en cinco minutos: ¿qué se está poniendo a prueba?

1 | Por qué hacer P1: dónde se atasca hoy la cosmología a escala galáctica

2 | Qué significa EFT en P1: no es teoría efectiva de campos

3 | El plan de la serie P: por qué empezar por la «base media»

4 | Qué datos se usan y qué nos dicen RC y GGL

4.1 Curvas de rotación RC: el «velocímetro» del disco galáctico

4.2 Lente débil GGL: una «báscula gravitatoria» a mayor escala

4.3 Mapeo fijo: por qué es crucial pasar de 20 bins RC a 4 bins GGL

5 | Modelos y método: qué compara realmente P1

5.1 Lado EFT: respuesta gravitatoria media de baja dimensión

5.2 Lado DM: la comparación principal y el apéndice P1A deben leerse por separado

5.3 Prueba de cierre: la lógica experimental más importante de P1

5.4 Antes de leer las tablas técnicas: cuatro entradas que conviene fijar

6 | Tablas técnicas clave: tablas principales del informe original y tablas P1A

122.205 (+0.000)

121.236 (-0.969)

121.531 (-0.674)

129.454 (+7.249)

121.978 (-0.227)

122.056 (-0.149)

122.205 (+0.000)

105.690 (-16.515)

204.620 (+82.415)

7 | Cómo leer los resultados principales

7.2 Prueba de cierre: lo que P1 quiere subrayar es la «transferibilidad»

7.3 Control negativo: por qué el «colapso de la señal» es una buena noticia

8 | Robustez y controles: cómo evita P1 ser «solo un ajuste bonito»

9 | P1A: por qué «varios modelos DM en el apéndice» es una corrección clave

10 | El significado del experimento P1: por qué merece la pena hacerlo

10.2 Significado de transparencia: tratar la cadena verificable como parte del resultado

10.4 ¿Es este un experimento importante para el campo de la gravedad sin materia oscura?

11 | Qué puede concluir P1 y qué no puede concluir

12 | Preguntas frecuentes: las dudas más probables del lector general

13 | Pequeño glosario

14 | Ruta de lectura recomendada y entradas de cita

15 | Referencias y contexto externo