Hacia una teoría consistente de campos y partículas (I)

November 11, 2017

La noción de que las partículas son entidades embebidas en un espacio ambiente es lógicamente problemática. Esa es quizá la razón por la cual las teorías de cuerdas, así como otras teorías de “entidades en un ambiente”, han fracasado en crear un modelo del universo a la vez consistente y predictivo.

En la imagen que voy a presentar, ciertos objetos unidimensionales aparecen, no como entidades embebidas en un espacio ambiente, sino como subvariedades 1-dimensionales que surgen de un argumento geométrico de cobordismo hacia dentro (la partícula elemental). Los campos en esta subvariedad satisfacen la ecuación de Laplace en dimensión 1, como se infiere de una interpretación razonada del 2º teorema de Noether, y son los candidatos naturales a definir o cartografiar el espacio-tiempo mismo cuando se considera su prolongación analítica al plano complejo. También formularé hipótesis simplificadoras que impedirán que el argumento del cobordismo interior nos conduzca a una regresión infinita.

Toda esta construcción conceptual puede clarificarse en términos matemáticos precisos únicamente si consideramos coordenadas polares, que son más apropiadas que las cartesianas cuando se trata de evidenciar la información importante en toda teoría de campos.

En lo que se refiere a los campos de gauge y sus fuentes, como veremos, habrán de interpretarse únicamente como cartas locales para cartografiar la estructura del campo total:

El intento de extender la validez de lo que solamente son cartas locales, para incluir todos los puntos de la variedad única (ambiente/partícula) da lugar a una redundancia que es origen de todos los problemas de renormalización, disparidad de escalas en la renormalización del campo escalar, y en último término, de un exceso al contar los grados de libertad conducente a un valor sorprendentemente grande de la constante cosmológica.

La naturaleza del campo gravitacional, por el contrario, se comprende con argumentos geométricos análogos a los anteriores, pero revertidos hacia horizontes cosmológicos, hacia el exterior de la partícula elemental. La gravedad sólo tiene sentido como una fuerza exterior, de origen entrópico, lo cual cuadra con ideas anteriores bien conocidas (‘t Hooft, 1993; Susskind, 1995Maldacena, 1997Bousso, 2002; Verlinde, 2010.)

¿Quiere esto decir que es inconsistente considerar campos gravitatorios en distancias de rango terrestre? No. Quiere decir que, si así lo hacemos, tiene que estar justificado en la posibilidad de despreciar todos los campos de gauge (compensación de cargas para EM, confinamiento para QCD o carácter masivo de los bosones en SU(2)). Lo que se suele llamar “teoremas de bosones débiles”. Y en cualquier caso, cualquier resolución en campos no podrá ser extendida a todo el espacio tiempo, porque estamos utilizando cartas ilícitas para tal tipo de cuestiones.

Sí, en la interpretación que voy a presentar, la gravedad entrópica es en gran medida una necesidad lógica. No me puedo entretener aquí en defender la teoría de Verlinde, que sin duda tiene sus limitaciones. Baste decir que los argumentos basados en interferometría de neutrones (Motl, 2010) se desmontan fácilmente considerando la simple observación anterior (que la gravedad sólo tiene sentido en último término hacia fuera) y añadiendo que la entropía de BH astrofísica (Bekenstein, 1973, Bardeen, Carter, Hawking, 1974, Hawking, 1975) no da una medida de toda la entropía relevante en cualquier sistema físico, como parece implicar el principio holográfico, sino solamente un límite, como veremos. Una manera simple de decir lo mismo es que el principio holográfico debe extenderse para incluir todos los sectores gauge más la gravitación, ateniéndose estos a una jerarquía en capas de la entropía total que requiere un examen cuidadoso escala a escala, y en el que la gravitación es el último haz de líneas de campo a cardinalizar, y siempre hacia fuera.

Pero el paradigma es más general: Todos los grados de libertad de la radiación son entrópicos respecto a sus grados de libertad fuente.

Como la gravitación tiene como fuente cualquier acumulación local de energía, todos los grados de libertad gravitatorios son entrópicos respecto a algún otro campo que determina un T_{\mu\nu} de energía momento interior a la región que se considera como fuente de ese campo gravitatorio.

Respecto a la variedad ambiente

Lo único que sabemos acerca de la variedad en la que vivimos es que nuestro universo parece 4-dimensional desde donde nosotros estamos. ¿Y dónde estamos?: Siempre estamos en la proximidad, mayor o menor, de una partícula o un cúmulo (cluster) de ellas; y siempre la observamos dentro de un horizonte cosmológico que constituye la esfera del cielo y que puede visualizarse como una 2-esfera en el infinito, hacia donde escapan nuestras líneas de campo totales que no hayan sido atrapadas en regiones finitas señalando fuentes de campo, polares o axiales.

Vamos a adoptar una forma simple de extender la estructura geométrica a partir de ahí que no tiene por qué ser la única lógicamente consistente, y es que:

La dimensionalidad puede ampliarse hacia fuera en embebimientos de n-esferas y disminuirse hacia dentro con al menos un embebimiento n-1-hiperbólico respecto a la n-esfera exterior

Utilizaré esto más adelante y lo explicaré mejor más adelante. Seguimos.

Respecto a las entidades

Las observaciones anteriores sobre campos como cartas locales sugieren considerar la partícula cargada como nada más que un punto focal de las líneas de campo, que en principio podría no ser más que un espejismo. Utilizaré esta palabra con cierta libertad, y tengo que confiar en que los lectores no interpreten en ello más de lo necesario. Para mí:

Un espejismo óntico es cualquier peculiaridad geométrica o topológica cuyo referente último no se puede resolver, pues se presenta como un par de referencias mutuas

Es decir, a diferencia del concepto usual, no asumimos que existe entidad alguna de la que el espejismo es una imagen especular. Las partículas que nuestro moderno formalismo considera como fermiones, carecen en principio de un referente exento de ambigüedad, encontrándose en la teoría únicamente como referencias mutuas. En otras palabras, una partícula “ve” a otra partícula análoga como un punto, pero esto podría ser producto de las cartas locales naturales para definir la interacción, quedando en último término vacante, o no referido en absoluto, concepto último alguno de tal entidad.

También usaré:

Un espejismo de las ecuaciones de campo es cualquier solución, término matemático, parametrización, etc., que puede eliminarse mediante una transformación o redefinición validada por el grupo de simetrías pasivas de mi teoría de campo

El espejismo de los monopolos magnéticos

La noción de que tanto cargas y corrientes como campos o fuentes son, ya sea de carácter “eléctrico” o “magnético” es lógicamente problemática. De hecho, la noción siquiera de que existe una posible distinción entre cargas y sus corrientes, o entre campos de gauge y sus fuentes es asimismo problemática:

Toda teoría fundamental debe ser expresada en términos de sus conceptos invariantes

Esta es una lección que Einstein nos enseñó, o así debería haber sido, y que aparentemente no hemos sido capaces de asimilar junto con sus consecuencias, durante décadas.

Los conceptos invariantes de las ecuaciones de Maxwell no son “eléctrico” y “magnético”, sino campo polar (P) y campo axial (A).

Principio I-A (EM):

Es imposible decidir sin ambigüedad si un centro de corriente es un axión (dipolo) eléctrico o un axión (dipolo) magnético

Principio I-P (EM):

Es imposible decidir sin ambigüedad si un centro de carga es un polo (monopolo) eléctrico o un polo (monopolo) magnético

Para asegurar el cumplimiento estricto de los dos principios previos, es necesario modificar las leyes de Coulomb y Biot-Savart (resp. de Lorentz) que definen las fuerzas comunmente llamada “electromagnética” con el siguiente:

Principio II-A (EM):

Es imposible decidir sin ambigüedad a cuál de las combinaciones reales uniparamétricas siguientes es proporcional la fuerza entre dos centros de corriente axiales:

 \left( e^{i\theta} \boldsymbol{j}_e +e^{-i\theta} \boldsymbol{j}_m \right)^* \cdot \left(e^{i\theta} \boldsymbol{j}_e +e^{-i\theta} \boldsymbol{j}_m \right)

Principio II-P (EM):

Es imposible decidir sin ambigüedad a cuál de las combinaciones reales uniparamétricas siguientes es proporcional la fuerza entre dos centros de carga de campo monopolar:

 \left( e^{i\theta} q_e +e^{-i\theta} q_m \right)^* \left(e^{i\theta} q_e +e^{-i\theta} q_m \right)

donde \theta es un parámetro real, q_e es la carga eléctrica y q_m es la carga magnética en las ecuaciones de Maxwell completamente simétricas bajo transformaciones de dualidad:

\nabla \cdot \boldsymbol{E} = \rho_e

-\nabla \wedge \boldsymbol{E} = \frac{\partial \boldsymbol{B}}{\partial t} +\boldsymbol{j}_m

\nabla \cdot \boldsymbol{B} = \rho_m

\nabla \wedge \boldsymbol{B} = \frac{\partial \boldsymbol{E}}{\partial t} +\boldsymbol{j}_e

Observación: Si no introdujéramos el ppio. II en sus formas A y P, estaríamos en el mismo círculo vicioso en que está la física de campos actual, buscando monopolos, axiones, etc., que supondré inexistentes, no porque sean imposibles, sino porque la teoría realmente no los requiere. Son simplemente, o bien espejismos de las ecuaciones de campo, o las partículas que ya conocemos. Este principio equivale a redefinir la ecuación de la fuerza de Lorentz (generalización de las leyes de Coulomb y de Biot-Savart) a:

\boldsymbol{F} = q_m\left( \boldsymbol{E}+\boldsymbol{v} \wedge \boldsymbol{B} \right) + q_e\left( \boldsymbol{B}-\boldsymbol{v} \wedge \boldsymbol{E} \right)

De acuerdo con la simetría dual que la propia teoría nos está sugiriendo. Es decir, si la propia teoría trata en pie de igualdad cargas eléctricas y magnéticas, no voy a ser yo quien rompa esa simetría declarando una distinción que no está en las ecuaciones de campo, imponiéndola yo en las interacciones entre partículas. Con posterioridad quizá consideremos generalizaciones de la ley de Lorentz tal como la acabo de expresar.

Estas son algunas de las bonificaciones que se obtienen casi inmediatamente en el contexto de la teoría que propongo:

  • Trivialidad del vacío en QFT
  • Valor casi nulo para la constante cosmológica e interpretación entrópica de su desviación de este valor
  • Límite de gran N de las teorías de campos (‘t Hooft, 1974)
  • Ausencia de monopolos y axiones
  • Explicación del espejismo de la inercia (principio de Mach)
  • Entropía de Bekenstein-Hawking
  • Espejismo óntico de las partículas fuente (fermiones)
  • Interacciones como únicos elementos entizables
  • Explicación trivial del confinamiento en SU\left(3\right) QCD desde U\left(3\right)

Energía del vacío o constante cosmológica

Como necesito mucho espacio para explicar todas las ideas involucradas en la teoría que propongo, como no quiero dejar esta entrada sin ofrecer alguna de las respuestas que he presentado como “bonificaciones”, y como ya he explicado por qué no vemos monopolos ni axiones en el universo, aquí dejo este cálculo muy sencillo de por qué un número que debería valer 1, cuando lo calculamos con la teoría cuántica de campos, sale 10 elevado a 120 veces 1.

¿De dónde viene el escandaloso excedente al estimar el valor de la energía del vacío (constante cosmológica)?:

 \Lambda_{QFT}/\Lambda_{\textrm{obs}}=10^{120}

Número de veces en que el número de grados de libertad gauge excede al número de grados de libertad fuente en el sector EM (que suple al promedio para todos los sectores gauge):

 \frac{\#\left( \textrm{bosons} \right)}{\#\left( \textrm{fermions} \right)} = 10^{90}/10^{80}=10^{10}

Número de variables total de todos los sectores gauge:

Hay en total 3 sectores gauge, U\left(1\right)_\textrm{EW}, SU\left(2\right)_\textrm{L} y SU\left(3\right)_\textrm{QCD}. sus grados de libertad son, respectivamente, 1, 2^2-1=3 y 3^2-1=8. En total:

1+3+8=12

El overcounting (exceso de cardinal) será el exceso de grados de libertad gauge respecto a sus fuentes elevado al número de grados de libertad independientes de todos los sectores gauge. ¿Por qué?: Porque todos los modos de radiación son entrópicos respecto a sus fuentes. Esto da:

 \Lambda = \left( 10^{10}\right)^{12}=10^{120}

Este es el valor de la entropía de mi descripción. ¡La definición de entropía siempre requiere una descripción! Si yo estoy estudiando un gas ideal, yo, que soy responsable de las variables que defino, aseguro que puedo describirlo con un par de variables reales positivas P, V, por ejemplo. Entonces:

La entropía respecto a esa descripción me dice, a través de la temperatura, cuánto contribuyen energéticamente los grados de libertad que yo tengo integrados para dar crédito a una descripción biparamétrica de algo que en realidad tiene del orden de 10^{24} grados de libertad dinámicos.

La adecuación o no de tal descripción a la realidad física depende, obviamente, de mi habilidad como físico para describir el sistema con un número de variables adecuado y las correspondientes dependencias funcionales.

¿Qué valor debería tener? Pues quizá uno que excluya los modos de radiación, ya que estos son puramente entrópicos. Es decir:

1^{12} = 1=\Lambda_{\textrm{obs}}

Pues efectivamente la densidad de energía observada es de una unidad (protón) por metro a la cuarta.

En lenguaje llano: la radiación es entropía; los fermiones, por el contrario, son no entrópicos. ¿Por qué? Porque es donde tengo localizados mis objetos fuente, mis puntos focales fermiónicos, por muy espejismos que sean. Allá donde hay un fermión, hay un punto de reunión de selectones, que no son más que solitones escalares topológicos que dan un carácter óntico a las interacciones locales entre fermiones “espejismo”.

He mencionado el selectón al final de esta entrada, de una manera un tanto enigmática, y con esto concluyo por ahora. El selectón es un bosón escalar, topológico, que da carácter óntico a las interacciones entre fermiones. Su parecido al término “selectrón” no es casual, pues se comprenderá mejor en términos de supersimetría, que no es más que una parametrización conveniente para redefinir las hipersuperficies de mi problema (hasta dónde considero campo de gauge y hasta dónde campo fermiónico), es una simetría exacta de la Naturaleza, de carácter esencialmente pasivo (referencia redefinible, no transformación real) y no tiene que ver en absoluto con multipletes de partículas.

Advertisement

Las claves del caso Velintonia (1)

January 23, 2022

Gran estreno:

(1) Personajes

Yo que tú intentaría salvar el Ateneo de Madrid, que tiene todos sus bienes embargados. Luego, si eso, salvas otras cositas.

De sabios es rectificar

April 18, 2020

Si somos sinceros, reconoceremos que la estrategia que se viene aplicando en España contra la epidemia CoVid-19, aunque con las mejores intenciones y mereciendo toda nuestra paciencia y comprensión, no está resultando eficaz, y si bien hay que acatarla, tenemos perfecto derecho a expresar nuestras dudas sobre sus premisas. En el momento en que escribo esto, y para España, los casos confirmados se acercan a los 190.000 (segundos en el mundo). Estados Unidos, con una población que multiplica a la nuestra por 7 tiene un número de infectados sólo 3.68 veces mayor. Si estimamos la probabilidad de ser infectado para España, Estados Unidos, el Reino Unido, Francia e Italia (países todos con cifras escandalosamente altas de infectados, y algunos similares a España en idiosincrasia); otros con bajo nivel de restricciones como Holanda, Suecia, Noruega y Alemania (intermedio); y un grupo más al azar con Portugal, Grecia, Turquía y Rumanía; y los comparamos con España, tenemos que:

US = 0.52 EUK = 0.41 EFr = 0.52 EIt = 0.7 E
Probabilidades relativas de infección respecto a España (E) para Estados Unidos (US), el Reino Unido (UK), Francia (Fr) e Italia (It)
Nt = 0.43 ESw = 0.31 ENw = 0.63 EGr = 0.41 E
Probabilidades relativas de infección respecto a España (E) para Holanda (Nt), Suecia (Sw), Noruega (Nw) y Alemania (Gr)
Pt = 0.47 EHe = 0.52 ETk = 0.41 ERo = 0.1 E
Probabilidades relativas de infección respecto a España (E) para Portugal (Pt), Grecia (He), Turquía (Tk) y Rumanía (Ro)

Donde Nt, por ejemplo, indica la probabilidad de ser infectado en Holanda, estimada como el cociente del número de infectados confirmados dividido por la población total en 2019. Todas comparadas con la probabilidad de ser infectado en España (E). Los países que más proporción de infectados tienen (España e Italia) son los que primero y más exhaustivamente aplicaron un confinamiento estricto. Hay dos anomalías destacadas: Una es Rumanía, lo que podría deberse a la existencia de grandes poblaciones dispersas en áreas como el delta del Danubio o Transilvania (es sólo conjetura). Sorprendente en mi opinión es también el caso de Noruega, muy relajada en la aplicación del confinamiento y con una población considerablemente menor que la española.

Para una actualización de los datos:
(CoVid-19 Dashboard, Center for Systems Science en Engineering (CSEE) at Johns Hopkins University)

Algo que creo que sí se ve es que estamos perdiendo la batalla (tomando prestado el absurdo lenguaje bélico que tanto oímos últimamente). Aquí no se trata de minar la moral del enemigo ni de elevar la de la tropa, sino de combatir una cápsula de proteína que encierra una secuencia de ARN y que se replica a un ritmo vertiginoso cuando se le facilitan las condiciones. Un virus necesita un medio biológico adecuado para reproducirse con eficacia, y así lo está haciendo, como voy a intentar argumentar a continuación. En lugar de hacerlo en las oficinas y las aulas, lo está haciendo en los hogares.

Una vez que un virión (la forma viajera del virus) está en el aire, este “pedazo de ácido nucleico con mal carácter” (en palabras de Daniel Dennett) inicia una carrera contrarreloj hasta que encuentra otro organismo que infectar. Las enzimas (proteínas que activan reacciones biológicas) trabajan a velocidades de vértigo si se les proporciona un medio adecuado. Como ejemplo, una enzima típica en la glicólisis (conversión de glucosa de seis carbonos en dos moléculas de tres carbonos llamados piruvato, en el citoplasma, para iniciar la respiración celular en la mitocondria) cataliza 10⁸ reacciones moleculares por segundo. El único factor limitante de su velocidad de reacción es la difusión, es decir, su esparcimiento físico o enrarecimiento. Si un virus pudiera pedir, pediría una habitación llena de gente confinada, para poder instalarse en una célula, utilizar sus ribosomas para sintetizar su ARN-polimerasa y replicarse hasta que se le agoten los recursos.

Las consideraciones políticas me importan más bien poco. Los políticos me parecen profesionales de la ficción útil y el maquillaje de la realidad. Este Gobierno está siendo ineficaz, pero por lo que a mí respecta la oposición política ahora mismo está dando un espectáculo bochornoso, agravado ello por el hecho de que la lamentable situación de la sanidad pública es consecuencia directa de su gestión anterior. Mucho menos deseo arremeter contra médicos y auxiliares, que hacen lo que pueden y con grandes dosis de sacrificio, pero que en ocasiones hablan desde una posición de presunción de infalibilidad que resulta muy peligrosa. Aquí hay factores que requieren la participación de otras comunidades, de muchos profesionales de distintas especialidades que nos vemos/se ven afectados gravemente por esta crisis y, en un ámbito más técnico, científicos que entienden los fenómenos naturales de la propagación, las dinámicas de crecimiento, etc. Y tengo la sensación de que no están siendo consultados a ningún efecto.

Nadie tiene las claves para resolver esto, yo tampoco, y quien así lo diga, falta a la verdad, exagera o se equivoca gravemente. Lo que a mí me dicta el sentido común sería algo más en la línea de lo que intento esbozar a continuación:

  • Limitar y alternar (pero nunca prohibir) el carácter presencial de todas las actividades profesionales. Facilitar/supervisar el uso de mascarillas y guantes y el mantenimiento de la distancia de seguridad. Facilitar solución esterilizante/desinfectante en puntos de entrada/salida. Habilitar sábados y festivos si fuera necesario a cambio de días laborables.
  • Limitar el acceso al transporte público a la vez que incrementar la frecuencia de autobuses y trenes. Mascarilla/guantes; no más de N personas por vagón/vehículo. Ventilación continua de todas las unidades de transporte. Fomentar el desplazamiento al trabajo en bicicleta o andando (no al revés, que es lo que se está haciendo). Facilitar solución esterilizante/desinfectante cerca de los puntos de entrada/salida.
  • Permitir con carácter inmediato la práctica de deporte individual al aire libre. Sudar al aire libre esparce las concentraciones locales del virus, no las concentra. Es exactamente al revés de lo que estamos haciendo.
  • Practicar la ventilación continua de todos los edificios y prescindir de calefacción. El motivo análogo al último del punto anterior. Si tenemos frío, nos abrigamos.

En resumen de los puntos anteriores: Alternemos la presencia en lugares de intensa actividad colectiva, no la disminuyamos en unos (oficinas, aulas y centros comerciales) para concentrarla en otros (los hogares).

  • Mantener y reforzar como se está haciendo los aspectos educativos: Lavado frecuente y a conciencia de manos, uso de mascarillas y guantes, limpieza a altas temperaturas de los elementos más en contacto con manos, boca, nariz y oídos, frecuente ingesta de líquidos y alimentos purificantes (jengibre, ajo, limón,…) o que favorecen la sudoración y la desintoxicación celular.
  • Levantar, a lo menos tardar, el despropósito del confinamiento extremo a medida que se vayan garantizando las condiciones anteriores.

Como digo: El confinamiento extremo desplaza las zonas de contagio de un lugar a otro, no las neutraliza. ¿Tiene sentido lo que estoy diciendo?

Las razones (científicas) tal como las veo: La expansión de la población de viriones no es como la propagación del calor. No satisface un modelo de difusión, ni de difusión con fuentes o focos; satisface un modelo de crecimiento localmente exponencial en cualquier celda de confinamiento en que lo hayamos detenido cuando se empezó a propagar. La difusión es un mecanismo limitador, no propagador, de la actividad enzimática (Graham Walker, curso de Biología General, MIT, año 2003, lección 5). Y en enero y febrero se propagó muy eficazmente con la manifestación del 8M y los Carnavales.

He intentado explicar lo más claramente posible lo que yo veo. Como he comprobado numerosas veces que los expertos a veces se equivocan (5 médicos uno detrás de otro me diagnosticaron una hipertrofia ventricular o un soplo que sólo una tecnología óptica descartó), me permito dudar en ocasiones de los expertos. Los expertos también se equivocan, especialmente en condiciones en que trabajan bajo presión. Y en cualquier caso, hay otros expertos en otros sitios que están diciendo y haciendo otras cosas con mejores resultados. Es sólo en ese sentido en el que me atrevo a ofrecer una opinión divergente. Y dicho esto, me retiro a mi confinamiento reconcentrado, repleto de exhalaciones cargadas de viriones, cómodamente instalados en microgotitas acuosas con deshechos biológicos en disolución.

Towards a consistent theory of fields and particles (part I)

November 11, 2017

The notion that particles are entities embedded in an ambient space is logically flawed. That may be the reason why string theories, as well as other entities-in-an-ambient-space models have failed to produce a consistent and predictive model of the universe.

In the picture that I am going to present, certain stringy objects appear, not as objects embedded in an ambient space, but as 1-dimensional submanifolds arising from a geometric argument of cobordism towards the inside (the elementary particle). The fields in this sub-manifod satisfy Laplace’s equation in dimension 1, as inferred from a reasoned interpretation of Noether’s 2nd theorem, and they are natural candidates to define or chart space-time itself when you consider their analytic continuation to the complex plane. I will also formulate simplifying hypotheses that will prevent the cobordism argument leading us to an infinite regression.

The whole construction is only clarified in precise mathematical terms if we consider polar coordinates, which are more adequate than Cartesian ones to reveal the important information that any field theory carries with it.

As to gauge fields and their sources, as we will see, they will have to be interpreted only as  local charts to map the structure of the total field:

The attempt to extend the validity of what is nothing but local charts, to include all points of one single manifold (ambient/particle) gives rise to a redundancy that is at the origin of all renormalisation problems, disparity of scales in the renormalisation of the scalar field, and ultimately, an excess counting of the degrees of freedom that leads to a surprisingly large value for the cosmological constant.

The nature of the gravitational field, on the contrary, is better understood from similar geometric arguments, but reversed towards cosmological horizons, towards the outside of the elementary particle. Gravity only makes sense as an outside force, of entropic origin, which sits well with well-known previous ideas (‘t Hooft, 1993; Susskind, 1995Maldacena, 1997Bousso, 2002; Verlinde, 2010.)

Does this mean that it is inconsistent to consider gravitational fields up to Earth-size scales? No. It means that, if we do that, the treatment has to be justified upon the possibility of neglecting all gauge fields (charge compensation for EM, confinement for QCD or massive character of the bosons in SU(2)). All contained in so-called “soft-boson theorems”. And, in any case, no matter what resolution in fields we propose, it can never be extended to include the whole of space-time, because we are using illegal charts for dealing with such questions.

Yes, in the view I am going to present, entropic gravity is very much a logical necessity.  I cannot get involved here in defending Verlinde’s theory, which no doubt has its limitations. Suffice it to say that arguments based on neutron interferometry (Motl, 2010) are easily answered by simply considering the previous observation (that gravity only makes sense ultimately towards the outside) and adding that BH entropy of astrophysical origin (Bekenstein, 1973, Bardeen, Carter, Hawking, 1974, Hawking, 1975) does not give a measure of all the relevant entropy for any physical system, as the holographic principle seems to imply, but only a limit, as we will see. A simple way of saying the same is that the holographic principle must be extended to include all gauge sectors plus gravitation, all conforming to a hierarchy in layers of the total entropy requiring a careful, scale by scale, analysis in which gravitation is the last bundle of field lines to be cardinalised, and always towards the outside.

But the paradigm is more general: All radiation degrees of freedom are entropic with respect to their source degrees of freedom.

As gravity has at its source any local clustering of energy, all the gravitational degrees of freedom are entropic with respect to some other fields determining an energy-momentum T_{\mu\nu} interior to the region that is considered as a source for this gravitational field.

About the ambient manifold

The only thing we know about the manifold we live in is that our universe looks 4-dimensional from where we stand. And, where do we stand?: We always stand in the proximity, further or closer, of either a particle or a cluster of them; and we always observe it from inside a cosmological horizon that makes up the sphere of the sky and can be visualised as a 2-sphere at spatial infinity, out towards which our field lines, not having been trapped in finite regions signaling the presence of field sources, polar or axial, are.

We are going to adopt a simple form to extend the geometric structure from there on, which does not have to be the only one logically consistent, and it is,

The dimension can be increased towards the outside in n-sphere embeddings and decreased towards the inside with at least one n-1-hyperbolic embedding with respect to its exterior n-sphere

I will use this later and I will explain it better later. We go on.

About entities

The previous observations about fields as local charts suggest to consider the charged particle as nothing more than a focal point of the field lines, which in principle could be nothing but a mirage. I will use this word with some leeway, and I have to trust the readers not to interpret anything beyond what is necessary. To me:

An ontic mirage is any geometric o topologic peculiarity whose ultimate referent cannot be solved, as it is presented as a pair of mutual references

Namely, and in contrast with the usual concept, we do not assume that any entity exists of which the mirage is a mirror image. Particles that our modern formalism considers as fermions lack in principle any unambiguous referent, finding themselves in the theory only as mutual references. In other words, a particle “sees” another analogous particle as a point, but that could be the product of the natural local charts to define the interaction, any possible concept of an entity remaining vacant, or not referred at all.

I will also use:

mirage of the field equations is any solution, mathematical term, parametrisation, etc., that can be eliminated by means of a transformation or re-definition validated by the passive symmetry group of my field theory

The mirage of magnetic monopoles

The notion that charges, currents, fields or sources are “electric” or “magnetic” in character is logically flawed. In fact, the notion itself that there is a possible distinction between charges and their currents, or between gauge fields and their sources, is logically flawed too:

Any fundamental theory must be expressed in terms of its invariant concepts

That is a lesson that Einstein taught us, or should have, and apparently we haven not been able to take to heart for decades.

The invariant concepts in Maxwell’s equations are not “electric” nor “magnetic”, but polar field (P) and axial field (A).

Principle I-A (EM):

It is impossible to decide without ambiguity whether a centre of current is an electric axion (dipole) or a magnetic axion (dipole)

Principle I-P (EM):

It is impossible to decide without ambiguity whether a centre of charge is an electric pole (monopole) or a magnetic pole (monopole)

In order to ensure the rigorous compliance of both previous principles, it is necessary to modify Coulomb’s and Biot-Savart’s laws (resp. Lorentz’s) that define the so-called electromagnetic forces with the following:

Principle II-A (EM):

It is impossible to decide without ambiguity which of the following real, uniparametric combinations the force between two axial centres of current is proportional to:

 \left( e^{i\theta} \boldsymbol{j}_e +e^{-i\theta} \boldsymbol{j}_m \right)^* \cdot \left(e^{i\theta} \boldsymbol{j}_e +e^{-i\theta} \boldsymbol{j}_m \right)

Principle II-P (EM):

It is impossible to decide without ambiguity which of the following real, uniparametric combinations the force between two polar centres of charge is proportional to:

 \left( e^{i\theta} q_e +e^{-i\theta} q_m \right)^* \left(e^{i\theta} q_e +e^{-i\theta} q_m \right)

where \theta is a real parameter, q_e is the electric charge and q_m is the magnetic charge in the fully duality symmetric Maxwell equations:

\nabla \cdot \boldsymbol{E} = \rho_e

-\nabla \wedge \boldsymbol{E} = \frac{\partial \boldsymbol{B}}{\partial t} +\boldsymbol{j}_m

\nabla \cdot \boldsymbol{B} = \rho_m

\nabla \wedge \boldsymbol{B} = \frac{\partial \boldsymbol{E}}{\partial t} +\boldsymbol{j}_e

Observation: If we did not introduce principle II in both its A and P forms, we would be in the same vicious circle that modern field theory is, looking for monopoles, axions, etc., that I will assume inexistent, not because their are impossible, but only because the theory does not really require them. They are simply either mirages of the field equations or the particles we already know. This principle is tantamount to redefining the Lorentz force law (generalisation of Coulomb’s and Biot-Savart laws) to:

\boldsymbol{F} = q_m\left( \boldsymbol{E}+\boldsymbol{v} \wedge \boldsymbol{B} \right) + q_e\left( \boldsymbol{B}-\boldsymbol{v} \wedge \boldsymbol{E} \right)

According to the dual symmetry that the theory itself is suggesting us. That is, if the theory itself treats electric and magnetic charges on an equal footing, it is not for me to say that this symmetry be broken by declaring a distinction that is not in the field equations, and so imposing it myself in the prescription for the interaction between particles. Afterwards we may consider generalisations of Lorentz’s law such as I have written it down.

These are some of the bonuses that are almost immediately produced in the context of the theory I am proposing:

  • Vacuum triviality in QFT
  • Almost zero cosmological constant and entropic interpretation of the non-zero value
  • Large N limit of field theories (‘t Hooft, 1974)
  • Absence of monopoles and axions
  • The illusion of inertia (Mach’s principle)
  • Bekenstein-Hawking entropy
  • Ontic mirage of source particles (fermions)
  • Interactions as only beable objects
  • Trivial explanation of confinement for SU\left(3\right) QCD viewed from U\left(3\right)

Vacuum Energy or cosmological constant

As I need quite some space to explain all the ideas involved in the theory I am proposing, as I do not want to leave this entry without offering some of the answers that I have presented as “bonuses,” and as I have already explained why we cannot see any monopoles or axions in the universe, I leave here this very simple calculation of why a number that should be 1, when we estimate it with quantum field theory, it gives 10 raised to the power of 120 times 1.

Where does this excess come from?

\Delta\Lambda=10^{120}

Number of times that the number of gauge degrees of freedom exceeds the number of source degrees of freedom in the EM sector (that plays the role of average for all gauge sectors):

10^{90}/10^{80}=10^{10}

Total number of variables for all gauge sectors:

There is a total of 3 gauge sectors, U\left( 1 \right), SU\left(2\right) y SU\left(3\right). Their degrees of freedom are, respectively, 1, 2^2-1=3 and 3^2-1=8. In total:

1+3+8=12

The overcounting (excess cardinal) will be the excess gauge degrees of freedom with respect to their sources raised to the number of independent degrees of freedom for all gauge sectors. Why?: Because all radiation modes are entropic with respect to their sources. This gives,

\Delta\Lambda=\left( 10^{10}\right)^{12}=10^{120}

This is the value of the entropy of my description. The definition of entropy always requires a description! If I am studying an ideal gas, it is I who is responsible for any variables I may define, make assurances that I can describe it with just a pair of real positive variables, e.g., P, V. Then,

The entropy with respect to that description tells me, through the temperature, how much do the degrees of freedom that I have integrated over, contribute energetically to give credit to a biparametric description of something that actually has about the order of 10^{24} dynamical degrees of freedom.

The adequacy or not of such a description of physical reality rests, of course, on me; and my ability as a physicist to describe the system with an adequate set of variables and the corresponding functional dependences.

What value should it have? Maybe one that excludes the radiation modes, as there are purely entropic. That is:

1^{12} = 1=\Lambda_{\textrm{obs}}

As actually the observed energy density is of one unit (proton) per metre to the fourth.

In plain language: Radiation is entropy; fermions, on the contrary, are non-entropic. Why? Because that’s where I have my source points placed, my fermionic focal points, no matter how much of a mirage they are. Wherever there is a fermion, there is a rendevouz of selectons, which are nothing but scalar topological solitons giving an ontic character to the local interactions between “mirage” fermions.

I have just mentioned the selecton at the end of this entry, in a somewhat enigmatic way, and with this I have to conclude for now. The selecton is a topological, scalar boson, giving ontic character to the interactions between fermions. Its similarity to the term selectron is not arbitrary, as it will be better understood in terms of supersymmetry, which is to be nothing but a useful parametrisation to redefine any hypersurfaces relevant to my problem (from where to where do I consider the chart to be gauge and from where to where fermionic), it is an exact symmetry of Nature, of essentially passive character (redefinible reference, rather than real transformation), and has nothing whatsoever to do with particle multiplets.

Completing Quantum Mechanics

September 1, 2015

1. An almost century-old problem

Back to business with the question of quantum mechanical completeness. My take on the story hasn’t changed in more than fifteen years. I have to insist:

1A. It is a problem
1B. It is unsolved (debatable perhaps…)

A problem it is. That should be clear, if only because of the dozen-odd theories trying to solve it: the orthodox, by Von Neumann; De Broglie-Bohm’s; the transactional; the many-world, by Everett; consistent histories (inspired by the former), the “gravitational”… The panel of physics popes having busied themselves with it includes the likes of Weinberg, ‘t Hooft, Gell-Mann, or Penrose. Although many still shrug their shoulders and say, “what problem?”

The reasons are more that socio-scientific. The traditional picture due to V. Neumann for measurements, as opposed to the more fundamental quantum evolution, is that we sometimes have state sums, \left|a_1\right\rangle +\left|a_2\right\rangle, each carrying the potentiality of one result among two possible (a_1, a_2) for a given property A. And when we check which result is verified, and the record produces “result a_1“, we must update the state to,

\left|a_1\right\rangle +\left|a_2\right\rangle \rightarrow \frac{1}{\left\Vert \left|a_1\right\rangle \right\Vert }\left|a_1\right\rangle

Namely, we must kill the “unregistered amplitude”, \left|a_2\right\rangle, and resize the outgoing state dividing by the square root of its probability. This is necessary in order to update the statistics, but it violates linearity (proporcionality between the outgoing state and the incoming one). But if we drop this demand:

\left|a_1\right\rangle +\left|a_2\right\rangle {\rightarrow} \left|a_1\right\rangle

we ruin unitarity (conservation of probability.) Thus the question is: either unitarity or linearity; we can’t have both.

Looks like a recipe for chicken rather than a physical law…

As to the explanations based on the density matrix, I already said they ignore the question of records.

This is not a matter of words. Nowadays both theory and experiment have developed to a point where it has become possible (1): to erase a quantum measurement and (2): to measure counter-factually. It is thus necessary for both components of the quantum state to survive dynamically. The unregistered amplitudes (as \left|a_2\right\rangle in our example) must keep evolving if they are to give rise to the overall wave front in case we conduct a quantum erasing during the subsequent evolution; or if a detector is placed along a trajectory destined to have an “empty” amplitude in it, in a counter-factual measurement like those occurring for an Elitzur-Vaidman bomb tester. These considerations make the following conclusion inescapable:

The current status of experimentation confirms that V. Neumann’s postulate has been ruled out, as unregistered amplitudes are shown to have physical consequences.

2. One doesn’t need a New York Times revolution

There exist elements in the theory unequivocally pointing towards the solution. These are the key points:

2A. Gauge invariance \rightarrow Gauge indeterminacy

2B. Topological evolution \equiv Evolution without local degrees of freedom

These elements have been elucidated in the theory for some time now, but nobody has related them to the question of completeness to the best of my knowledge. The explanation, necessarily brief and provisional, is:

2A: Only by means of gauge invariance one can explain quantum indeterminism; and only having established this correspondence and having understood its implications, one may be able to complete quantum mechanics through dynamical variables of a topological character.

Dirac, 1964, Lectures on Quantum Mechanics; page 17:

This provides a difference of the generalized Hamiltonian method from what one is familiar with in elementary dynamics. We have arbitrary functions of the time occurring in the general solution of the equations of motion with given initial conditions. These arbitrary functions of the time must mean that we are using a mathematical framework containing arbitrary features, for example, a coordinate system which we can choose in some arbitrary way, or the gauge in electrodynamics. As a result of this arbitrariness in the mathematical framework, the dynamical variables at future times are not completely determined by the initial dynamical variables, and this shows itself up through arbitrary functions appearing in the general solution.

2B: Topological evolution is evolution without propagation, as the number of constraints exactly equals the number of degrees of freedom (field amplitudes).

And this is all I can read from cards 2A and 2B.

3. But hasn’t it been proved that it is impossible to complete quantum mechanics?

No. Theorems concerning hidden variables seem to imply either a non-local realism or else the traditional non-realism, etc. At the end of the day, they all leave the question untouched. They are affected, either from false premises (whenever I check that A_1 is -1, I’m also checking that A_2 is +1″, in CHSHB, also known as “Bell’s theorem”), or from insufficient conclusions (see 3A). Here I have to postpone details for an upcoming entry, but suffice it to say so far that the key lies in the context. It is well known that Bell’s inequalities are violated by quantum mechanics. This only happens because one assumes that measurement output \sigma_{z}=+1 for particle 1 is tantamount to having measured \sigma_{z}=-1 for particle 2. Suppose, though, that at particle 2’s location someone’s measuring \sigma_{x} instead of \sigma_{z}. Then such assertion is no longer true. The result I’m telling you in advance is that, when one takes into account the interaction Hamiltonian on particle 2, the expected values for \sigma_{z} (that, mind you, hasn’t been measured), change instantly (in a completely local way) at 2. Any experimental verification (like those by Aspect et al.) of the validity of quantum probabilities is incapable of telling what would have happened had I measured something else. When one includes this, purely quantum, Hamiltonian description, the result is CHSHB are satisfied, so quantum mechanics does not violate them anymore. Unfortunately I have to postpone that discussion.

3A. Exact correlations at a distance are not physical actions, but functional dependences \Rightarrow The impossibility proofs concerning any completion of quantum mechanics based on exact correlations (GHZ) are thus inconclusive, as they are equivalent to the (trivial) preliminary lemma in Bell’s theorem (“spin up” for particle (1) implies “spin down” for particle (2), with zero dispersion for the sum and non-zero dispersion for each of the terms in the sum). This is a functional dependence between compatible variables. They could hardly produce anything other than perfect correlation, as they are respective functions of each other. I already proved this point for GHZ.

3B. Non-exact correlations at a distance are not physical actions either, but functional dependences between non-commuting variables \Rightarrow.

Besides, the demonstrations of impossibility of completion for quantum mechanics based on non-exact correlations (CHSHB theorem) are inconclusive because they ignore how the context (see 3C) affects the quantum state, when they assume that the exact correlations referred to in 3A are still valid, when they actually do not hold anymore (information about the value of variable B at point 2, external to the causal cone of point 1, is no longer valid at point 1, in the sense of implying that, provided B takes value +1 at point 2, then it takes value -1 at point 1, if what is being done at point 1 is measuring A with \left[A,B\right]\neq0).

3C. The context thus completely changes the nature of the experimental question itself: The measuring interaction automatically suspends the validity of the correlations at a distance for variables incompatible with those that are being measured. That is because, provided at point (2) someone’s measuring component x of spin, then they are destroying the profile of the quantum state corresponding to component z (or any other incompatible with x). In other words: The physicist who is measuring the z component of spin for particle (1) has no right to assert that component z of spin for particle (2) is the opposite, if what’s going on at (2) out of reach of his causal influence is a measurement of an incompatible component.

3D. The notion that any hidden-variable model has the obligation to express the results of measurements as pre-existing properties of the system can seem natural, and it may have been held by Einstein, but it is ultimately too strong and must be discarded. When this demand is formulated in general (without appealing to quantum mechanics), it could be named prejudice of ad infinitum separability between system and environment. When it is formulated from the quantum formalism, it is always based on an erroneous notion known as  eigenvalue realism: Eigenvalues are not properties of a system, it is the interaction term that selects them. In this sense, real eigenvalues of Hermitian operators (observables) that a naive examination of the quantum formalism seems to elevate to the category of properties of a system (say, ontological attributes), are really properties of the interaction between a system and its physical environment, which can be relevant or not, depending on the evolution of both.

The notion of context first appeared paper by Bohr answering to the famous EPR and with the same title. When I measure, I set strong condition or even determine what I’m going to obtain.

3E. Theorems of the ontological kind (in particular, the Bell-Kochen-Specker or BKS) “find observables” (or rather prove the existence, as the theorem is not constructive) which, while being mutually compatible, cannot be determined by any pre-existing variables. This line of enquiry is based on the concept of value definiteness, brought up by V. Neumann. In actuality, these so-called BKS “observables”, although they are Hermitian operators, and while they are embedded in the linear span of the spin subspace, are not themselves spin observables, and as a consequence they are devoid of physical content. The proof is so simple that one cannot help but feel puzzled that nobody, to my knowledge, has appealed to it so far. Those interested can follow the argument below.

XXX. Only for experts:


Read the rest of this entry »

Completar la mecánica cuántica

August 27, 2015

1. Un problema casi centenario

Vuelvo al ataque con la cuestión de la completitud de la mecánica cuántica. Mi opinión, desde luego, no ha cambiado en más de quince años. Tengo que insistir brevemente en que:

1A. Es un problema
1B. Está sin resolver (algo más discutible…)

Que es un problema estaría claro ya por la docena de teorías que intentan resolverlo: la ortodoxa, de Von Neumann; la de De Broglie-Bohm; la transaccional; la de universos que se bifurcan, de Everett; la de las historias consistentes (inspirada en la anterior), la “gravitatoria”… El grupo los que lo han abordado incluye a popes como Weinberg, ‘t Hooft, Gell-Mann o Penrose. Aunque muchos se encogen de hombros y dicen: “¿qué problema?”.

Los motivos son más que sociocientíficos. La imagen tradicional de V. Neumann para la medición, en contraposición a la más fundamental evolución cuántica, es que a veces tengo estados suma, \left|a_1\right\rangle +\left|a_2\right\rangle, cada uno portador de la posibilidad de un resultado entre dos posibles (a_1, a_2) para una cierta propiedad A. Y que cuando mido qué resultado se verifica, y el registro da “resultado a_1“, debo actualizar el estado a:

\left|a_1\right\rangle +\left|a_2\right\rangle \rightarrow \frac{1}{\left\Vert \left|a_1\right\rangle \right\Vert }\left|a_1\right\rangle

Es decir, debo omitir la “amplitud no registrada”, \left|a_2\right\rangle, y redimensionar el estado saliente dividiendo por la raíz cuadrada de su probabilidad. Esto es necesario para actualizar la estadística, pero rompe la linealidad (proporcionalidad entre el estado saliente y el entrante). Pero si lo eliminamos como requisito:

\left|a_1\right\rangle +\left|a_2\right\rangle {\rightarrow} \left|a_1\right\rangle

perdemos precisamente por ese motivo la unitariedad (conservación de la probabilidad). Luego la cuestión es: unitariedad o linealidad; no podemos salvar las dos a la vez.

Parece una receta para preparar el pollo, más que una ley física…

En cuanto a las explicaciones basadas en la matriz densidad, ya dije que omiten la cuestión de los registros.

Esta no es una cuestión de palabras. Hoy día tanto la teoría como el experimento han avanzado hasta un punto en que es posible (1): el borrado de una medición cuántica y (2): la medición contrafactual. Es por tanto necesario que sobrevivan dinámicamente ambas componentes del estado cuántico. Las amplitudes no registradas (como la \left|a_2\right\rangle de nuestro ejemplo) deben seguir evolucionando para conformar la envolvente de la onda si se procediera a un borrado cuántico en la evolución posterior; o si se ubica el detector en una trayectoria destinada a la amplitud “vacía” en una medición contrafactual como la del detector de bombas de Elitzur y Vaidman. Estas consideraciones hacen inescapable la siguiente conclusión:

El estado actual de la experimentación confirma que el postulado de V. Neumann está refutado, pues las amplitudes sin registro tienen consecuencias físicas.

2. No se necesita una revolución para el New York Times

Existen elementos en la teoría que apuntan de forma inequívoca hacia la solución. Estas son las claves:

2A. Invariancia de gauge \rightarrow Indeterminación de gauge

2B. Evolución topológica \equiv Evolución sin grados de libertad locales

Estos elementos están presentes en la teoría desde hace mucho, pero nadie los ha relacionado con la cuestión de la completitud de la mecánica cuántica o con el indeterminismo cuántico. La explicación, necesariamente provisional y breve, es:

2A: Solo mediante la invariancia de gauge se puede explicar el indeterminismo cuántico; y solo habiendo hecho esta correspondencia y habiendo comprendido sus implicaciones, puede completarse la mecánica cuántica mediante variables dinámicas de carácter topológico.

Dirac, 1964, Lectures on Quantum Mechanics; pág. 17:

Esto proporciona una diferencia entre el formalismo hamiltoniano generalizado respecto a lo que nos es familiar en dinámica elemental. Tenemos funciones arbitrarias del tiempo que aparecen en la solución general de las ecuaciones del movimiento con condiciones iniciales dadas. Estas funciones arbitrarias del tiempo deben significar que estamos usando un esquema matemático que contiene aspectos arbitrarios, por ejemplo, un sistema de coordenadas que podemos elegir de forma arbitraria, o el gauge en electrodinámica. Como resultado de esta arbitrariedad en el esquema matemático, las variables dinámicas en el futuro no están completamente determinadas por los valores iniciales de las mismas, y esto se muestra a través de la aparición de dichas funciones arbitrarias en la solución general.

2B: La evolución topológica es una evolución sin propagación, porque el número de ligaduras es exactamente igual al número de grados de libertad (amplitudes de campo).

Y esto es todo lo que puedo leer de momento en las tarjetas 2A y 2B.

3. Pero ¿no está demostrado que es imposible completar la mecánica cuántica?

No. Los teoremas de imposibilidad de variables ocultas, que parecen implicar o bien un realismo no local o bien el no realismo tradicional, etc., al final dejan la cuestión intacta. Todos están afectados, o bien de premisas falsas (“siempre que compruebo que A_1 es -1, estoy comprobando que A_2 es +1″, en CHSHB, también llamado “teorema de Bell”), o de conclusiones insuficientes (véase 3A). Aquí tendré que dejar las precisiones para una entrada posterior, pero adelanto que la clave de la cuestión es el contexto. Es bien sabido que las desigualdades de Bell son violadas por la mecánica cuántica. Eso sólo ocurre porque uno asume que la medición \sigma_{z}=+1 para la partícula 1 es lo mismo que haber medido que \sigma_{z}=-1 para la partícula 2. Si donde está la partícula 2 estoy midiendo \sigma_{x} en lugar de \sigma_{z}, tal aseveración ya no es cierta. El resultado que adelanto es que, cuando uno incluye el hamiltoniano de interacción sobre la partícula 2, los valores esperados de \sigma_{z} (que no se ha medido, recordémoslo), cambian instantáneamente (de forma totalmente local) en 2. Cualquier comprobación experimental (como las de Aspect et al.) de la validez de las probabilidades cuánticas es incapaz de dilucidar lo que habría pasado si yo hubiera medido otra cosa. Cuando uno incluye esta descripción hamiltoniana, puramente cuántica, el resultado es que se satisfacen las desigualdades de CHSHB, con lo que la mecánica cuántica ya no las viola. Desgraciadamente tengo que posponer esa discusión.

3A. Las correlaciones exactas a distancia no son acciones físicas, sino dependencias funcionales \Rightarrow Las demostraciones de imposibilidad de compleción de la mecánica cuántica basadas en correlaciones exactas (GHZ) son inconcluyentes, porque equivalen al lema previo (trivial) del teorema de Bell (“espín arriba” en partícula (1) implica “espín abajo” en partícula (2), con dispersión nula para la suma y dispersiones no nulas para cada uno de los sumandos). Esta es una dependencia funcional entre variables compatibles. Malamente podrían dar valores no correlacionados, si dependen funcionalmente unos de otros. Ya demostré este punto para el GHZ.

3B. Las correlaciones no exactas a distancia tampoco son acciones físicas, sino dependencias funcionales entre variables que no conmutan \Rightarrow.

Además, las demostraciones de imposibilidad de compleción de la mecánica cuántica basadas en correlaciones no exactas (el teorema CHSHB) son inconcluyentes, porque ignoran cómo el contexto (véase 3C) altera el estado cuántico, al suponer todavía válidas las correlaciones exactas apuntadas en 3A, cuando en realidad ya no lo son (la información sobre el valor de la variable B en el punto 2, exterior al cono causal del punto 1, ya no es vigente en el punto 1, en el sentido de implicar que si B vale +1 en el punto 2, entonces B vale -1 en el punto 1, si lo que estamos haciendo en 1 es medir A con \left[A,B\right]\neq0).

3C. El contexto cambia la naturaleza de la propia pregunta experimental: La interacción de la medición aborta automáticamente la validez de las correlaciones a distancia para variables incompatibles con la que se está midiendo. Eso es porque si en el punto (2) estoy midiendo la componente x del espín, estoy destruyendo el perfil del estado en la componente z (y cualquier otra incompatible la x). En otras palabras: El físico que mide la componente z del espín para la partícula (1) no tiene derecho a afirmar que la componente z del espín para la partícula (2) es la opuesta, si lo que está ocurriendo en (2) fuera de su alcance causal es una medición de una componente incompatible.

3D. La noción de que cualquier modelo de variables ocultas tiene la obligación de expresar los resultados de las mediciones como propiedades preexistentes del sistema, puede parecer natural, y puede haberla sostenido Einstein, pero es excesiva en último término y debe descartarse. Cuando esta exigencia se hace en general (sin aludir a la mecánica cuántica), podría llamarse prejuicio de la separabilidad ad infinitum sistema-entorno. Cuando dicha exigencia se hace desde el formalismo cuántico, se basa siempre en una noción errónea que se conoce como realismo de los autovalores: Los autovalores no son propiedades del sistema, es el término de interacción de la medición el que los elige. En este sentido, los autovalores reales de los operadores autoadjuntos (observables) que un examen ingenuo del formalismo cuántico parece propugnar como propiedades del sistema (atributos ontológicos, digamos), son en realidad propiedades de la interacción del sistema con su entorno físico, que pueden ser relevantes o no, según sea la evolución de ambos.

La noción de contexto apareció por primera vez en un artículo de Bohr respondiendo al famoso EPR y con idéntico título. Cuando mido, condiciono o incluso determino lo que voy a medir.

3E. Los teoremas de tipo ontológico (para ser más concreto, el teorema de Bell-Kochen-Specker) “encuentran” (demuestran la existencia, pues el teorema no es constructivo) unos “observables” que, siendo compatibles, no pueden tener autovalores predefinidos que los determinen. Toda esta línea de investigación se basa en el concepto de definitud de valores, que nace con Von Neumann. En realidad, estos “observables” BKS, siendo operadores autoadjuntos, y aunque están embebidos en la envolvente lineal del subespacio del espín, no son en sí mismos observables de espín, por lo tanto carecen de sentido físico. La demostración es tan sencilla que produce asombro que nadie, hasta donde yo sé, la haya puesto de manifiesto. Por si alguien está interesado, puede leer las líneas que siguen.

XXX. Solo para expertos:


Read the rest of this entry »

¿Electrones fusilli, tagliatelle o fettuccine?

November 7, 2014

En mi última entrada sobre el método de Hamilton para sistemas con ligaduras me he dejado algunas cosas pendientes: La derivación general que di no es del todo correcta, aunque el método funciona, como se ve claramente en el ejemplo. En cuanto tenga tiempo añadiré las explicaciones.

Ahora quería añadir unos comentarios sobre ciertos estados cuánticos “exóticos” que han ido apareciendo en la literatura en los últimos años generando cierta sorpresa. Estos estados se refieren fundamentalmente a los fotones, pero argumentos muy parecidos son válidos presumiblemente para partículas que satisfacen la ecuación de Schrödinger, ya que la aproximación paraxial de la óptica es formalmente una ecuación de Schrödinger. Estos estados exóticos se conocen como paquetes de Laguerre-Gauss, Hermite-Gauss, etc.

Básicamente de lo que se trata es de que existen estados cuánticos que representan posibles modos de evolución de partículas propagándose libremente en una dirección y con un momento angular orbital empaquetado en el haz, identificable con un movimiento orbital en las direcciones perpendiculares a la dirección de movimiento libre. Así, la componente z , digamos, es un paquete gaussiano en evolución libre, mientras que las componentes x  e y  (el factor correspondiente de la función de onda), se representan por un polinomio de Laguerre o de Hermite, por ejemplo. Esto es paradójico, porque se nos ha enseñado que la evolución libre siempre conduce a paquetes que se ensanchan o dispersan, y sin embargo estos estados parecen transportar un movimiento confinado, orbital, en su evolución.

La razón de que encontremos paradójico esto es que la propagación libre se enseña mal en los libros de mecánica cuántica. Intentaré explicarlo. El procedimiento habitual de construcción axiomática de la mecánica cuántica se basa en Von Neumann, y dice que existen conjuntos completos de observables compatibles. Una vez identificados estos observables compatibles que expanden cualquier estado y contienen toda la información estadística posible del estado, se utilizan para representar la evolución de un estado cuántico arbitrario. En el caso del momento lineal, existen tres operadores compatibles (que conmutan dos a dos), \left(\hbar/i\right)\partial/\partial x\overset{{\scriptstyle \textrm{def}}}{=}P_{x} , \left(\hbar/i\right)\partial/\partial y\overset{{\scriptstyle \textrm{def}}}{=}P_{y} , \left(\hbar/i\right)\partial/\partial z\overset{{\scriptstyle \textrm{def}}}{=}P_{z} .

Esto presupone que en un laboratorio es factible garantizar que una partícula libre es autoestado de P_{z} , y de P_{x} , y de P_{y} . Esto no es así: Lo primero es que tiene que ser un autoestado de P_{z} , donde z  es la dirección de filtrado elegida, pero no necesariamente de P_{y}  y de P_{x} . De hecho, los diafragmas y colimadores, ranuras, etc., utilizados son esencialmente obstáculos físicos condicionantes en las coordenadas de posición x  e y , y por tanto representables por funciones potenciales “de obstáculo” V_{i}\left(x,y\right) , habrán producido un perfil en \left(x,y\right)  que ni es un paquete en propagación libre ni tiene por qué serlo.

Por tanto lo natural es decir que una partícula libre con un momento lineal seleccionado es un autoestado de P_{z} , donde z  es la dirección de filtrado elegida y que, en principio, no tenemos absolutamente ni idea de qué es en P_{x}  y P_{y} . La gente habitualmente no ve esto, porque en general considera que la distinción entre medidas filtrantes o no es una cursilería o erudición innecesaria, cuando en realidad es absolutamente crucial. Pasemos inmediatamente a relajar el aserto “no tenemos absolutamente ni idea”, porque lo cierto es que se puede postular cómo es el estado de p_{x}  y p_{y}  de manera muy natural.

Si al cabo de un tiempo característico de relajación la partícula es efectivamente libre, podemos afirmar que es un autoestado del hamiltoniano libre (energía cinética):

H=-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)

Añadamos la exigencia de que ha de ser un autoestado de la dirección de filtrado del momento lineal. Tenemos:

-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)\psi=\frac{p_{z}^{2}}{2m}\psi

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

Esto es equivalente a:

\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}\right)\psi=0

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

Por tanto el estado que representa a una partícula con propagación libre y determinada en p_{z} , quizá no más general, pero sí suficientemente general, es una función armónica en x, y   multiplicado por un autoestado de P_{z} .

Fusilli, tagliatelle o fettuccine electrons?

November 7, 2014

In my last entry on Hamilton’s method for systems with constraints I left some unfinished work: The general derivation that I gave is not completely correct; although the method does work, as one can see clearly in the example. As soon as I have some time I will add the explanations.

Now I want to add some comments on certain “exotic” quantum states that keep on appearing in the literature over the last years giving rise to a certatin amount of surprise. These states are basically attached to photons, but very similar arguments are presumably valid for particles satisfying the Schrödinger equation, as the paraxial approximation of optics is  formally equivalent to a Schrödinger equation.

These states are known as Laguerre-Gaussian, Hermite-Gaussian, etc. Basically it consists in the existence of quantum states representing possible evolution modes for particles freely  propagating along one direction and with an orbital angular momentum packaged within the beam, identifyable with an orbital motion in the direction perpendicular to the one of free motion. Thus, the z component, say, is a free-propagating Gaussian packet, while the x and y components (the factor corresponding to the wave function, that is), are  represented by, e.g., a Laguerre or Hermite polynomial. This is paradoxical because we have been taught that free evolution always leads to dispersive or spreading wave packets, and yet these states seem to be carrying along a confined, orbital motion in their evolution.

The reason that we find this paradoxical is that free propagation is incorrectly accounted for in quantum mechanics books. I will try to explain this. The usual procedure of axiomatically  building quantum mechanics is based on Von Neumann, and it tells us that there are complete sets of compatible observables. Once these compatible observables expanding any state  and containing all the possible statistical information on the state are identified, they are instrumental to represent the evolution of an arbitrary quantum state. In the case of linear  momentum, there are three compatible operators (commuting in pairs), \left(\hbar/i\right)\partial/\partial x\overset{{\scriptstyle \textrm{def}}}{=}P_{x}\left(\hbar/i\right)\partial/\partial y\overset{{\scriptstyle \textrm{def}}}{=}P_{y}, \left(\hbar/i\right)\partial/\partial z\overset{{\scriptstyle \textrm{def}}} {=}P_{z}.

This assumes that, in a laboratory, it is feasible to guarantee for a free particle to be an eigenstate of P_{z}, and P_{x}, and P_{y}. That’s not the way it works: First, it has to be an eigenstate of P_{z}, where z is the filtering direction chosen, but not necessarily of P_{y} and P_{x}. In fact. diaphragms and collimators, slits, etc., that are used are essentially physical obstacles conditioning in position coordinates x and y, and consequently representable by “obstacle potential functions” V_{i}\left(x,y\right), so they will have produced a certain \left(x,y\right) profile that neither is a free-propagating packet nor does it have to be.

Thus the natural thing to say is that a free particle with a selected linear momentum is an eigenstate of P_{z}, where z is the chosen direction of filtering,  and that in principle we haven’t the slightest idea what it is in P_{x} and P_{y}. People generally do not see this, because in general they consider that the distinction between filtering or non-filtering state preparations are a nicety or unnecessary erudition, when actually it is absolutely crucial. Let us go directly to the relaxation of the  statement “we haven’t the slightest idea”, as the truth is we can postulate how the state in p_{x} and p_{y} looks like in a very natural way.

If after a certain relaxation time the particle is indeed free, we can posit that it must be an eigenstate of the free Hamiltonian (kinetic energy),

H=-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)

We add now the demand that it be an eigenstate of the filtered linear momentum in the chosen direction. We have,

-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)\psi=\frac{p_{z}^{2}}{2m}\psi

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

This amounts to,

\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}\right)\psi=0

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

 

Thus the state that represents a particle free-propagating with momentum determined in p_{z}, perhaps not the most general one, but definitely general enough, is a function that is harmonic in x, y multiplied by an eigenstate of P_{z}.

Variables… y constantes que varían

October 5, 2014

Una importante motivación en este blog es reflexionar sobre temas bien conocidos de física teórica, buscando alternativas a los caminos más frecuentados, ofreciendo especulaciones, técnicas, y todo lo que pueda dar una nueva perspectiva sin inventar dimensiones ocultas o universos invisibles, sino ciñéndome a métodos a los que, creo, les queda jugo por exprimir.

En los libros de mecánica analítica encontrarás la técnica de los multiplicadores de Lagrange para la resolución de ligaduras. También está la de Hamilton y los corchetes de Poisson. Quizá recordéis una limitación de ambos, Hamilton y Poisson, cuando se encuentra uno con ligaduras. Tras pensar intermitente pero cabezonamente sobre esta cuestión he dado con una manera de vencer esta limitación. Aquí la expongo y la someto a cualquiera que quiera hacer observaciones, objeciones, ampliaciones, u ojalá, contarme su utilidad. Mi objetivo último es su aplicación en el formalismo cuántico, pero si alguien le encuentra utilidad (o alguna limitación que a mí no se me ocurre) estudiando cojinetes mecánicos, pues bienvenido sea.

La ortodoxia dice: no existe un método de los multiplicadores de Lagrange en la formulación de Hamilton de la mecánica. Demostraré que sí existe tal método, aparte del propuesto por Dirac en los años 60. Pero antes hay que dar unas cuantas vueltas a la cuestión para ver que nuestros ancestros intelectuales tiraron la toalla demasiado pronto. Explicaré brevemente qué son el método de Lagrange, el de Hamilton y el de Poisson.

 

Método de Lagrange

Coordenadas generalizadas: q_{1},\cdots,q_{n}. Es el conjunto de parámetros (funciones del tiempo q_{i}\left(t\right)) que especifican una configuración (posición) del sistema.

Acción:

S=\int dtL\left(q,\dot{q}\right)\qquad\textrm{(A)}

La formulación de Lagrange de la mecánica dice que la acción es estacionaria (no varía en primer orden de los parámetros infinitesimales de variación) bajo transformaciones infinitesimales (pequeños cambios arbitrarios en las coordenadas y velocidades). Si uno varía (A) bajo cambios pequeños y arbitrarios q\mapsto q+\delta q, q\mapsto\dot{q}+\delta\dot{q} que no dependen del tiempo y se anulan en los límites de integración, encuentra:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(EL)}

que se llaman ecuaciones de Euler-Lagrange, equivalentes a las de Newton. L se llama función de Lagrange o lagrangiano, y a todos los efectos es la energía cinética menos la potencial.

 

Método de Hamilton

El método de Hamilton se basa en un cambio de variables y la introducción del llamado hamiltoniano del sistema, H, que comienza su vida como una función auxiliar y acaba convirtiéndose en protagonista de la física:

q,\dot{q}\longmapsto q,p_{q}\qquad\textrm{(h.i)}

p_{q}=\frac{\partial L}{\partial\dot{q}}\qquad\textrm{(h.ii)}

H=\sum_{q}p_{q}\dot{q}-L\qquad\textrm{(h.iii)}

Hay que entender que \dot{q}=\dot{q}\left(q,p\right) y por tanto L=L\left(q,\dot{q}\left(q,p\right)\right). Pero hacer estas sustituciones para demostrar las ecuaciones de Hamilton es el camino equivocado. La demostración sencilla está, p. ej., en la Wikipedia y se basa en usar diferenciales:

dH=\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)

dL=\sum_{q}\left(\frac{\partial L}{\partial q}dq+\frac{\partial L}{\partial\dot{q}}d\dot{q}\right)=

=\sum_{q}\frac{\partial L}{\partial q}dq+\sum_{q}p_{q}d\dot{q}=\sum_{q}\frac{\partial L}{\partial q}dq+d\left(\sum_{q}p_{q}\dot{q}\right)-\sum_{q}\dot{q}dp_{q}\Rightarrow

d\left(\sum_{q}p_{q}\dot{q}-L\right)=dH=\sum_{q}\dot{q}dp_{q}-\sum_{q}\frac{\partial L}{\partial q}dq\Rightarrow

\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)=\sum_{q}\left(\dot{q}dp_{q}-\frac{\partial L}{\partial q}dq\right)

 Las famosas ecuaciones de Hamilton son, pues:

\frac{\partial H}{\partial q}=-\dot{p}_{q}\qquad\textrm{(H.i)}

\frac{\partial H}{\partial p_{q}}=\dot{q}\qquad\textrm{(H.ii)}

 

El corchete (o paréntesis) de Poisson

El corchete de Poisson es una técnica refinada para expresar lo mismo con unas ecuaciones que demuestran la simetría entre las posiciones y los momentos en mecánica. Tienen un significado geométrico muy profundo, que es precioso, con corolarios como que todo movimiento con unas \left(q,p\right) dadas tiene un movimiento “dual” con las correspondientes \left(Q,P\right), con Q=p y P=-q. Pero desgraciadamente tenemos que omitir estas delicatessen físicomatemáticas.

\left\{ A,B\right\} _{P}=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial B}{\partial p_{q}}-\frac{\partial B}{\partial q}\frac{\partial A}{\partial p_{q}}\right)

 Usando (H.i) y (H.ii):

\dot{A}=\sum_{q}\left(\frac{\partial A}{\partial q}\dot{q}+\frac{\partial A}{\partial p_{q}}\dot{p}_{q}\right)+\frac{\partial A}{\partial t}=

=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial H}{\partial p_{q}}-\frac{\partial A}{\partial p_{q}}\frac{\partial H}{\partial q}\right)+\frac{\partial A}{\partial t}=\left\{ A,H\right\} _{P}+\frac{\partial A}{\partial t}

Así que derivar una función dinámica (que no depende explícitamente del tiempo) respecto al tiempo equivale a “corchetearla” con el hamiltoniano.

Ligaduras

Las ligaduras son constricciones mecánicas, condiciones que hacen que no todas las coordenadas sean independientes.  En el caso más general, se expresan mediante ecuaciones o quizá desigualdades. Hay muchos tipos, con nombres estrambóticos: holónomas, esclerónomas, reónomas… Me interesan aquellas que pueden expresarse con:

Ecuaciones de ligadura: Q\left(q,\dot{q}\right)=0, comoquiera que se llamen.

 

Método de los multiplicadores de Lagrange

Ecuación de ligadura:

Q=0

Nuevo lagrangiano:

L\mapsto L'=L+\lambda Q

Ecuaciones de Euler-Lagrange para el sistema con ligadura:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(i)}

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=0\qquad\textrm{(ii)}

 Como \partial L'/\partial\dot{\lambda}=0 y \partial L'/\partial\lambda=Q, queda:

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(L.i)}

Q=0\qquad\textrm{(L.ii)}

Lo que aparece a la derecha multiplicando a \lambda en las ecuaciones (L.i) son las fuerzas de ligadura. La componente \left(d/dt\right)\left(\partial Q/\partial\dot{q}_{a}\right)-\partial Q/\partial q_{a} es la componente de la fuerza de ligadura en la dirección correspondiente a la coordenada generalizada q_{a}; y la ecuación (L.ii) es precisamente la ecuación de ligadura. Un método más pedestre de resolver el problema (alternativo al anterior) es utilizar las ecuaciones de ligadura para reducir el número de variables, hacer un cambio de variables que reduzca la dimensión del problema:

r_{b}=r_{b}\left(q_{1},\cdots q_{n}\right)

y con las nuevas variables r_{1},\cdots,r_{m}, con m<n, plantear el problema variacional y llegar a las ecuaciones “reducidas” directamente:

\frac{d}{dt}\frac{\partial L_{R}}{\partial\dot{r}}-\frac{\partial L_{R}}{\partial r}=0\qquad\textrm{(iii)}

donde L_{R} es L_{R}\left(r\left(q,\dot{q}\right),\dot{r}\left(q,\dot{q}\right)\right)=L\left(q,\dot{q}\right).

Pero la ventaja que ofrece el método de los multiplicadores de Lagrange es que permite obtener las fuerzas de ligadura. Esto puede ser conveniente en ingeniería, donde las fuerzas constrictivas interesan, porque los materiales no mantienen una ecuación de constricción indefinidamente, sino que sufren fatiga y deformaciones plásticas, con lo que cambian lentamente su condición. También presumiblemente tienen interés en mecánica cuántica, ya que es lógico pensar que si las ligaduras se han producido dinámicamente, los sistemas correspondientes sufran fluctuaciones cuánticas en torno a la condición de ligadura.

 

Problemas con las ligaduras

Cuando uno tiene ligaduras, dicen los tratados clásicos, no puede usar el método de Hamilton. Veamos por qué. Describir una ligadura obliga a ampliar el espacio de configuración al incluir una “variable” \lambda, y lo de las comillas es porque en realidad es constante. Habría que ser un mago para describir un sistema con menos grados de libertad introduciendo más grados de libertad. Aunque una constante no es que digamos un grado de libertad típico, considerarla como tal, sólo a efectos de introducir variaciones infinitesimales de la misma, nos permite derivar la ecuación de ligadura como una ecuación de Euler-Lagrange más. Es la ecuación (ii), que recupera la condición Q=0. El problema con Hamilton es que hay que introducir un momento generalizado asociado p_{\lambda} a la coordenada ficticia \lambda, que al ser nulo por definición, no puedo aplicarle transformaciones infinitesimales. (Dirac resuelve esto introduciendo la condición p_{\lambda}=0 como ligadura y procediendo iterativamente con el corchete de Poisson, añadiendo sucesivos multiplicadores de Lagrange y cruzando los dedos para que a un grado bajo de iteración ¡el corchete de Poisson de la ligadura con el hamiltoniano se anule idénticamente!) Metodológicamente hablando esto es lo siguiente a rezar. Lo deseable sería una manera de introducir esta variable de momento canónico para deducir que se anula como consecuencia de las ecuaciones de evolución. Veamos cómo es esto posible.

 

Primera idea (fallida):

 

L\mapsto L'=L+\lambda\dot{\lambda}+\lambda Q

La idea es sumar una derivada total respecto al tiempo de una función cualquiera de nuestra “variable dinámica” \lambda. Si hacemos esto, las ecuaciones de evolución no cambian:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=\frac{d}{dt}\frac{\partial}{\partial\dot{q}}\left(L+\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial q}\left(L+\lambda\dot{\lambda}+\lambda Q\right)=

=\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)=0

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=\frac{d}{dt}\frac{\partial}{\partial\dot{\lambda}}\left(\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial\lambda}\left(\lambda\dot{\lambda}+\lambda Q\right)=\dot{\lambda}-\dot{\lambda}-Q=-Q=0

que se reduce a:

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(ELC.i)}

Q=0\qquad\textrm{(ELC.ii)}

Hasta ahora, todo bien. La fuerza de ligadura aparece en el término de la derecha “conectada” al problema mediante la constante \lambda.

La ecuación variacional para \lambda no es otra que la ecuación de ligadura. El problema es que, si queremos traducir esto a lenguaje hamiltoniano, hemos definido un momento canónico p_{\lambda} que es:

p_{\lambda}=\frac{\partial L'}{\partial\dot{\lambda}}=\lambda

Esto no es cero idénticamente, pero desde luego no es consistente considerarlo como una variable analíticamente independiente de \lambda. De hecho, el problema surge todavía antes, cuando intentamos despejar las velocidades en función de los momentos. Recuérdese que H\left(q,p_{q}\right) sólo tiene sentido cuando puedo despejar las velocidades en función de coordenadas y momentos. Como \dot{\lambda} ha desaparecido en la relación que define el momento canónico asociado, no es posible despejar. Es por ello que a veces se afirma, sin grandes explicaciones al respecto (véase, p. ej., la Wikipedia) que no es posible utilizar una relación lineal en \dot{\lambda} para estos parámetros auxiliares. ¿Por qué? Esta es la razón.

 

Con el fin de explicar mi método, necesito recordar qué es una derivada variacional. No hay prácticamente ningún libro (al menos ninguno de los más conocidos) en teoría de campos que utilice la definición más general de derivada variacional. Aunque los físicos ignoran alegremente esta definición más general, estoy seguro de que a los matemáticos que conocen bien el análisis variacional les es familiar. Si un lagrangiano depende de un orden arbitrariamente alto de derivación: L=L\left(q,\dot{q},\ddot{q},\cdots\right)

la derivada variacional es:

\frac{\delta L}{\delta q}=\frac{\partial L}{\partial q}-\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}+\frac{d^{2}}{dt^{2}}\frac{\partial L}{\partial\ddot{q}}-\cdots=

=\sum_{n=0}^{\infty}\left(-1\right)^{n}\frac{d^{n}}{dt^{n}}\frac{\partial L}{\partial q^{\left(n\right)}}

Las ecuaciones de Euler-Lagrange en este caso se generalizan a:

\frac{\delta L}{\delta q}=0\qquad\textrm{(G.EL})

que parece simple, pero en general es infinitamente más complicado, y será importante en orden 2.

 

En nuestro caso hay varias:

Trabas

1) En un sistema genérico con ligaduras dependientes de la velocidad, expresar las \dot{q} como funciones de las p_{q} puede ser complicado o imposible.

2) f no puede ser lineal en \dot{\lambda}, de otra forma \partial/\partial\dot{\lambda} eliminará \dot{\lambda} y no podremos expresar \dot{\lambda} como función de p_{\lambda}

3) ¿No debería depender de \dot{p}_{\lambda}?

 

A la traba 1) es mejor acostumbrarse y esperar lo mejor; la traba 2) se resuelve sin más que observarla y escribir una f de 2º orden; y la traba 3) es demasiado pesimista o en realidad aparente: de hecho, la he incluido para preparar al lector al que le pueda sorprender una dependencia en \dot{p}_{\lambda} que en realidad es, no sólo consistente, sino necesaria: Son las ecuaciones del movimiento las que no deberían depender de \ddot{\lambda} (o \dot{p}_{\lambda}); como veremos, el hamiltoniano puede depender de \dot{p}_{\lambda} y todo funciona. En efecto, debe depender de \dot{p}_{\lambda} para que desaparezca el término en \dot{p}_{\lambda} en las ecuaciones de Hamilton.

 

Pero la verdadera traba es:

4) El momento canónico (de \lambda) ya no es una función lineal de las velocidades, sino que ¡depende de la aceleración!

La solución se muestra a continuación.

 

La idea corregida

 

Estos son los pasos:

1) Se generaliza el método de Lagrange incluyendo la derivada total respecto al tiempo de una función apropiada de \lambda. Esta función de \lambda deberá depender al menos de la derivada 2ª de \lambda respecto al tiempo:

L\mapsto L''=L+\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)+\lambda Q

2) Se generaliza la definición de la derivada variacional respecto a \lambda a una dependencia en órdenes superiores al primero en derivación temporal. Nos bastará con orden 2:

\frac{\delta L''}{\delta\lambda}=\frac{\partial L''}{\partial\lambda}-\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}+\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}

3) Se generaliza la definición del momento canónico asociado a la coordenada \lambda de forma completamente paralela a la extensión que hemos hecho de la derivada variacional. Si:

\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)=\frac{\partial f}{\partial\lambda}\dot{\lambda}+\frac{\partial f}{\partial\dot{\lambda}}\ddot{\lambda}

entonces:

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}=

=\frac{\partial f}{\partial\lambda}+\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}\dot{\lambda}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}-\left(\dot{\lambda}\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}\right)=\frac{\partial f}{\partial\lambda}

 Ver que el sistema así extendido cumple exactamente las mismas ecuaciones de Euler-Lagrange que el anteriormente definido no es difícil. Como

sólo hemos añadido una derivada total, las ecuaciones son las mismas, (ELC.i) y (ELC.ii). Lo más interesante es ver que el formalismo de Hamilton sigue su curso:

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+\frac{\partial L''}{\partial\dot{q}}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}+\frac{\partial L''}{\partial t}dt

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}+\frac{\partial H''}{\partial t}dt

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}

Euler-Lagrange:

\frac{\partial L''}{\partial q}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{q}}=\dot{p}_{q}

\frac{\partial L''}{\partial\lambda}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}=\dot{p}_{\lambda}

Supongamos que no hay dependencia explícita en el tiempo (para simplificar):

\frac{\partial L''}{\partial t}=\frac{\partial H''}{\partial t}=0

La demostración que sigue es un poco tediosa; si te aburre pasa directamente al ejemplo que hay a continuación para convencerte de que todo funciona. La prueba es completamente paralela a la deducción que he dado de las ecs. de Hamilton a partir de las de Euler-Lagrange. De:

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+p_{q}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}

no es difícil probar que:

dH''=\sum_{q}\dot{q}dp_{q}+\dot{\lambda}dp_{\lambda}-\sum_{q}\frac{\partial L''}{\partial q}dq-\frac{\partial L''}{\partial\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)

Igualando esto a:

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

obtenemos:

\sum_{q}\left(\dot{q}dp_{q}-\dot{p}_{q}dq\right)+\dot{\lambda}dp_{\lambda}-\dot{p}_{\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)=

=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

Es decir, se satisfacen las ecs. de Hamilton:

\frac{\partial H''}{\partial q}=-\dot{p}_{q}\qquad\textrm{(HE.i)}

\frac{\partial H''}{\partial p_{q}}=\dot{q}\qquad\textrm{(HE.ii)}

\frac{\partial H''}{\partial\lambda}=-\dot{p}_{\lambda}\qquad\textrm{(HE.iii)}

\frac{\partial H}{\partial p_{\lambda}}=\dot{\lambda}\qquad\textrm{(HE.iv)}

\frac{\partial L''}{\partial\ddot{\lambda}}=0\qquad\textrm{(HE.v)}

Lo más importante, con mucho, de las ecuaciones anteriores, es que el momento canónico p_{\lambda} no es cero ni una simple función de las coordenadas \lambda. Su anulación se deduce después, como consecuencia de las ecuaciones de evolución, con lo cual es una variable independiente y el sistema se puede investir de una estructura hamiltoniana.

 

Ejemplo

L=\frac{1}{2}m_{1}\dot{q_{1}}^{2}+\frac{1}{2}m_{1}\dot{q_{1}}^{2}-V\left(q_{1},q_{2}\right)

Q\left(q_{1},q_{2}\right)=0

El hamiltoniano es:

H''=p_{q_{1}}\dot{q}_{1}+p_{q_{2}}\dot{q}_{2}+p_{\lambda}\dot{\lambda}-L''=

=p_{q_{1}}\frac{p_{q_{1}}}{m_{1}}+p_{q_{2}}\frac{p_{q_{2}}}{m_{2}}+p_{\lambda}^{2}-\frac{p_{q_{1}}^{2}}{2m_{1}}-\frac{p_{q_{2}}^{2}}{2m_{2}}-p_{\lambda}^{2}-\lambda\dot{p}_{\lambda}-\lambda Q+V=

=\frac{p_{q_{1}}^{2}}{2m_{1}}+\frac{p_{q_{2}}^{2}}{2m_{2}}-\lambda\dot{p}_{\lambda}-\lambda Q+V

El 1\textsuperscript{er} par de ecs. de Hamilton para las q es de la forma (\partial_{q}H''=-\lambda\partial_{\dot{q}}Q+\partial_{q}V):

-\lambda\frac{\partial Q}{\partial\dot{q_{i}}}+\frac{\partial V}{\partial q_{i}}=-\dot{p}_{q_{i}},\: i=1,2

que coincide con:

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}_{i}}-\frac{\partial L}{\partial q_{i}}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}_{i}}-\frac{\partial Q}{\partial q_{i}}\right)=0\Rightarrow\dot{p}_{q_{i}}+\frac{\partial V}{\partial q_{i}}-\lambda\frac{\partial Q}{\partial q_{i}}=0

Y el 2º (\partial_{p_{q}}H''=p_{q}/m):

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2

Las de las \lambda, a continuación. 1ª (\partial_{\lambda}H''=-\dot{p}_{\lambda}-Q):

-\dot{p}_{\lambda}-Q=-\dot{p}_{\lambda}

2ª (\partial_{p_{\lambda}}H''=0):

0=\dot{\lambda}

Reagrupando todas las ecuaciones de Hamilton para el sistema ligado, tenemos:

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial\dot{q}_{i}}-\frac{\partial V}{\partial q_{i}},\: i=1,2\qquad\textrm{(E.i)}

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2\qquad\textrm{(E.ii)}

Q=0\qquad\textrm{(E.iii)}

\dot{\lambda}=0\qquad\textrm{(E.iv)}

 

¿Y los corchetes de Poisson?

¿Funciona todo esto con los corchetes de Poisson? Sí que funciona. Veámoslo. Recuérdese que, desde el principio, las ecuaciones que hay

que recuperar son (E.i)-(E.iv). Omitimos ahora el molesto índice i de q_{i} (las dos q satisfacen ecs. análogas):

\dot{q}=\left\{ q,H''\right\} _{P}=\left\{ q,\frac{p_{q}^{2}}{2m}\right\} _{P}=2\frac{1}{2m}\left\{ q,p_{q}\right\} _{P}p_{q}=\frac{p_{q}}{m}

\dot{p}_{\lambda}=\left\{ p_{\lambda},H''\right\} _{P}=\left\{ p_{\lambda},-\lambda\dot{p}_{\lambda}\right\} _{P}-\left\{ p_{\lambda},\lambda Q\right\} _{P}=\dot{p}_{\lambda}+Q\Rightarrow Q=0

\dot{\lambda}=\left\{ \lambda,H''\right\} _{P}=\left\{ \lambda,-\lambda\dot{p}_{\lambda}\right\} _{P}+\left\{ \lambda,-\lambda Q\right\} _{P}=-\lambda\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P} es cero porque:

\left\{ \lambda,p_{\lambda}\right\} _{P}=1\Rightarrow\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}+\left\{ \dot{\lambda},p_{\lambda}\right\} _{P}=\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

La última ecuación es:

\dot{p}_{q}=\left\{ p_{q},H''\right\} _{P}=\left\{ p_{q},\frac{p_{q}^{2}}{2m}\right\} _{P}+\left\{ p_{q},-\lambda Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=

=-\lambda\left\{ p_{q},Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=\lambda\frac{\partial Q}{\partial q}-\frac{\partial V}{\partial q}

 

En conclusión:

m_{i}\dot{q}_{i}=p_{q_{i}}

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial q_{i}}-\frac{\partial V}{\partial q_{i}}

Q=0

\dot{\lambda}=0

 

Conclusión: Sí puede usarse el método de Hamilton para sistemas con ligaduras. El precio a pagar es generalizar la derivada variacional respecto al multiplicador de Lagrange a órdenes superiores de derivación temporal y extender análogamente la definición del momento canónico asociado.

Variables… and Varying Constants

October 3, 2014

An important motivation for this blog is to reflect upon well-known topics in theoretical physics, searching for alternatives to the trodden paths, offering speculations, techniques, and anything that can give a new perspective without inventing hidden dimensions or invisible universes, but sticking instead to methods that, so I think, have some leftover juice to squash.

In analytical mechanics textbooks you’ll find the Lagrange-multipliers technique for solving constrained dynamical systems. There’s also Hamilton’s formulation of mechanics, as well as Poisson brackets. You may remember a limitation of both methods, Hamilton and Poisson, when dealing with constraints. After thinking intermittently but stubbornly over this question I’ve come up with a way of overcoming that limitation. I show it here and submit it to anybody who cares to make observations, objections, expansions; or hopefully, tell me they’ve found it useful. My ultimate goal is its application in the quantum formalism, but if anybody finds any benefit (or limitation that has escaped me) for systems of mechanical rollers, that’s welcome too.

Orthodoxy says: There is no method of Lagrange multipliers in Hamilton’s formulation of mechanics. I will prove that there is such a method, besides the one proposed by Dirac in the 60’s. But before that I’ll have to turn the question around a couple of times to see that our ancestors perhaps gave up too soon. I’ll briefly explain what are the methods of Lagrange, Hamilton and Poisson.

 

Lagrange’s Method

Generalised coordinates: q_{1},\cdots,q_{n}. It is the set of parameters (functions of time q_{i}\left(t\right)) that specify a configuration (position) of the system.

Action:

S=\int dtL\left(q,\dot{q}\right)\qquad\textrm{(A)}

Lagrange’s formulation of mechanics tells us that the action is stationary (doesn’t change at 1\textsuperscript{st} order in the variation parameters) under infinitesimal transformations (small arbitrary changes in coordinates and velocities). If one varies (A) under small arbitrary changes q\mapsto q+\delta q, q\mapsto\dot{q}+\delta\dot{q}, that are also time-independent and vanish at the limits of integration, one finds,

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(EL)}

named Euler-Lagrange equations, and equivalent to Newton’s. L is called Lagrange’s function or Lagrangian, and for all we care it’s just the kinetic minus the potential energy.

 

Hamilton’s Method

Hamilton’s method is based on a change of variables plus the introduction of H, called the system’s Hamiltonian, that starts life as an auxiliary function and ends up claiming center stage in physics:

q,\dot{q}\longmapsto q,p_{q}\qquad\textrm{(h.i)}

p_{q}=\frac{\partial L}{\partial\dot{q}}\qquad\textrm{(h.ii)}

H=\sum_{q}p_{q}\dot{q}-L\qquad\textrm{(h.iii)}

It must be understood that \dot{q}=\dot{q}\left(q,p\right) and therefore L=L\left(q,\dot{q}\left(q,p\right)\right). But making these substitutions in order to prove Hamilton’s eqs. is the wrong way. The easy proof can be found, e. g., on Wikipedia and is based on differentials:

dH=\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)

dL=\sum_{q}\left(\frac{\partial L}{\partial q}dq+\frac{\partial L}{\partial\dot{q}}d\dot{q}\right)=

=\sum_{q}\frac{\partial L}{\partial q}dq+\sum_{q}p_{q}d\dot{q}=\sum_{q}\frac{\partial L}{\partial q}dq+d\left(\sum_{q}p_{q}\dot{q}\right)-\sum_{q}\dot{q}dp_{q}\Rightarrow

d\left(\sum_{q}p_{q}\dot{q}-L\right)=dH=\sum_{q}\dot{q}dp_{q}-\sum_{q}\frac{\partial L}{\partial q}dq\Rightarrow

\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)=\sum_{q}\left(\dot{q}dp_{q}-\frac{\partial L}{\partial q}dq\right)

Hamilton’s equations are thus,

\frac{\partial H}{\partial q}=-\dot{p}_{q}\qquad\textrm{(H.i)}

\frac{\partial H}{\partial p_{q}}=\dot{q}\qquad\textrm{(H.ii)}

 

Poisson’s Bracket

Poisson’s bracket is a refined technique used to express the same with equations that make manifest the symmetry between positions and momenta in mechanics. They have a very profound geometric meaning, which is beautiful, with corollaries such as: For every motion with a certain \left(q,p\right) there is a “dual” one with the corresponding \left(Q,P\right), and Q=p; P=-q. But unfortunately we have to ignore these mathematical-physics delicatessen.

\left\{ A,B\right\} _{P}=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial B}{\partial p_{q}}-\frac{\partial B}{\partial q}\frac{\partial A}{\partial p_{q}}\right)

Using (H.i) and (H.ii):

\dot{A}=\sum_{q}\left(\frac{\partial A}{\partial q}\dot{q}+\frac{\partial A}{\partial p_{q}}\dot{p}_{q}\right)+\frac{\partial A}{\partial t}=

=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial H}{\partial p_{q}}-\frac{\partial A}{\partial p_{q}}\frac{\partial H}{\partial q}\right)+\frac{\partial A}{\partial t}=\left\{ A,H\right\} _{P}+\frac{\partial A}{\partial t}

So differentiating a dynamical function (that doesn’t depend explicitly on time) with respect to time is equivalent to “bracketing” it with the Hamiltonian.

 

Constraints

Constraints are mechanical limitations, conditions that make the coordinates mutually dependent.  In the more general instance, they are expressed by means of equations, or perhaps inequalities. There are many kinds, with resounding names like holonomic, schleronomic, rheonomic… I’m interested in those that can be written as:

Constraint equations: Q\left(q,\dot{q}\right)=0, however they are named.

 

Method of Lagrange multipliers

Constraint equation:

Q=0

New Lagrangian:

L\mapsto L'=L+\lambda Q

Euler-Lagrange equations for the system with constraints:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(i)}

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=0\qquad\textrm{(ii)}

As \partial L'/\partial\dot{\lambda}=0 y \partial L'/\partial\lambda=Q, this gives,

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(L.i)}

Q=0\qquad\textrm{(L.ii)}

What occurs on the right multiplying \lambda in eqs. (L.i) are the forces of constraint. The component \left(d/dt\right)\left(\partial Q/\partial\dot{q}_{a}\right)-\partial Q/\partial q_{a} is the component of the force of constraint along the direction corresponding to generalised coordinate q_{a}; and eq. (L.ii) is precisely the constraint equation. A more pedestrian method of solving the problem (alternative to the previous one) is to use the constraint equations in order to reduce the number of variables, and then make the change of variables reducing the dimension of the problem:

r_{b}=r_{b}\left(q_{1},\cdots q_{n}\right)

and with the new variables r_{1},\cdots,r_{m}, with m<n, set up the variational problem and obtain the reduced equations directly:

\frac{d}{dt}\frac{\partial L_{R}}{\partial\dot{r}}-\frac{\partial L_{R}}{\partial r}=0\qquad\textrm{(iii)}

where L_{R} is L_{R}\left(r\left(q,\dot{q}\right),\dot{r}\left(q,\dot{q}\right)\right)=L\left(q,\dot{q}\right).

But the advantage of the method of Lagrange multipliers is that it allows us to obtain the forces of constraint. This can be useful in engineering, where forces of constraint are of interest, because materials do not satisfy an equation of constraint indefinitely, but, on the contrary, they suffer from mechanical fatigue and plastic deformations, so they slowly change their condition. Presumably also they are of interest in quantum mechanics as, provided they have been produced dynamically, the corresponding systems will undergo quantum fluctuations around the condition of constraint.

 

Problems with constraints

When one has constraints, classical treatises go, one cannot use Hamilton’s method. Let’s see why. Describing a constraint forces us to expand

the configuration space by including a “variable” \lambda, and the reason for the quotation marks is because it’s really a constant.

You have to be a magician if you’re going to describe correctly a system with less degrees of freedom by introducing more degrees of freedom. Although a constant is no typical degree of freedom, considering it as such only to the effect of applying infinitesimal variations to it, allows us to deduce the equation of constraint as another Euler-Lagrange equation. It is equation (ii), recovering condition Q=0. The problem with Hamilton is that we need to introduce an associated canonical momentum p_{\lambda} for fictitious coordinate \lambda which, being zero by definition, does not allow for infinitesimal variations. (Dirac solved this by introducing condition p_{\lambda}=0 as a constraint and proceeding to repeatedly use Poisson’s bracket, adding successive Lagrange multipliers while crossing your fingers so that, at a low order of iteration, Poisson-bracketing each constraint with the expanded Hamiltonian gives zero identically!) Methodologically speaking this is next to praying. What we wish is to have a way of introducing this momentum variable only to find later that it vanishes as a consequence of the evolution equations. Let’s see how is this possible.

 

First Idea (Fail):

 

L\mapsto L'=L+\lambda\dot{\lambda}+\lambda Q

The idea is adding a total time derivative of an otherwise arbitrary function of our “dynamical variable” \lambda. If we do that,

the evolution equations are unchanged:

 

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=\frac{d}{dt}\frac{\partial}{\partial\dot{q}}\left(L+\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial q}\left(L+\lambda\dot{\lambda}+\lambda Q\right)=

=\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)=0

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=\frac{d}{dt}\frac{\partial}{\partial\dot{\lambda}}\left(\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial \lambda}\left(\lambda\dot{\lambda}+\lambda Q\right)=\dot{\lambda}-\dot{\lambda}-Q=-Q=0

which reduces to,

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=

=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(ELC.i)}

Q=0\qquad\textrm{(ELC.ii)}

So far, so good. Constraint force happens on the RHS “connected” to the problem via the constant \lambda. The variational equation for \lambda is no other than the constraint equation. The problem is that, if we want to translate this to Hamiltonian language, we have defined a canonical momentum p_{\lambda} being,

p_{\lambda}=\frac{\partial L'}{\partial\dot{\lambda}}=\lambda

This does not vanish identically, though there is no doubt that it cannot be considered as a variable analytically independent from \lambda. In fact, the problem arises even before, when we try to express the velocities as functions of the momenta. Remember H\left(q,p_{q}\right) only makes sense when we can express the velocities in terms of both coordinates and momenta. As \dot{\lambda} has disappeared in the relation that defines the associated canonical momentum, it is not possible to solve. That’s why sometimes you find the observation, without much explanation, (see, e. g., Wikipedia) that it is not possible to use a relation that is linear in \dot{\lambda} for these auxiliary parameters. Why? That’s why.

 

In order to present my method, it is convenient to recall what a variational derivative is. There is practically no book (not at least the best known) in field theory that uses this more general definition of variational derivative. Although physicists in general are blissfully ignorant of this more general definition, I’m sure mathematicians who are well versed in variational calculus are familiar with it. If a Lagrangian depends on an arbitrarily high order of derivatives; L=L\left(q,\dot{q},\ddot{q},\cdots\right) the variational derivative is:

\frac{\delta L}{\delta q}=\frac{\partial L}{\partial q}-\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}+\frac{d^{2}}{dt^{2}}\frac{\partial L}{\partial\ddot{q}}-\cdots=\sum_{n=0}^{\infty}\left(-1\right)^{n}\frac{d^{n}}{dt^{n}}\frac{\partial L}{\partial q^{\left(n\right)}}

The Euler-Lagrange equations for this case generalise to,

\frac{\delta L}{\delta q}=0\qquad\textrm{(G.EL})

which looks simple, but is actually infinitely more complicated, and will be important only to order 2.

 

In our case of interest there are several:

Glitches

1) In a generic system, with both constraints and potential being velocity-dependent, it may be difficult, if not impossible, to express the \dot{q}‘s as functions of the p_{q}‘s

2) f cannot be linear in \dot{\lambda}, otherwise \partial/\partial\dot{\lambda} will kill \dot{\lambda} and we won’t be able to express \dot{\lambda} as a function of p_{\lambda}

3) Should f be independent of \dot{p}_{\lambda}?

Glitch 1) we just have to live with and hope for the best; glitch 2) is solved by observing it and writing a 2\textsuperscript{nd}-order f; and glitch 3) is too pessimistic or only apparent: In fact, I have included it only to prepare the reader who might be surprised by a dependence on \dot{p}_{\lambda}; which, in reality, is not only consistent, but necessary: It is the equations of motion that should not depend on \ddot{\lambda} (o \dot{p}_{\lambda}); as we will see, the Hamiltonian can depend on \dot{p}_{\lambda} and everything goes through. Actually, it must depend on \dot{p}_{\lambda} for the term in \dot{p}_{\lambda} to disappear from the Hamilton equations.

But the real glitch is:

4) The canonical momentum p_{\lambda} is no longer a linear function of the velocities, but it depends on the accelerations! How does that work if p_{\lambda}=\partial L/\partial\dot{\lambda}?

The solution of this is shown next.

 

The idea corrected

These are the steps:

1) Generalise Lagrange’s method by including a total time derivative with the appropriate function f\left(\lambda\right). This function of \lambda must depend at least on a 2\textsuperscript{nd}-order derivative by the time:

L\mapsto L''=L+\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)+\lambda Q

2) Generalise the definition of the variational derivative by \lambda to a dependence in higher orders of time derivation. Order 2 will suffice:

\frac{\delta L''}{\delta\lambda}=\frac{\partial L''}{\partial\lambda}-\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}+\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}

3) Generalise the definition of the canonical momentum associated to coordinate \lambda in a way that completely parallels the extension we have practised on the variational derivative. If,

\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)=\frac{\partial f}{\partial\lambda}\dot{\lambda}+\frac{\partial f}{\partial\dot{\lambda}}\ddot{\lambda}

then,

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}=

=\frac{\partial f}{\partial\lambda}+\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}\dot{\lambda}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}-\left(\dot{\lambda}\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}\right)=\frac{\partial f}{\partial\lambda}

Checking that the system so extended satisfies exactly the same Euler-Lagrange equations is easy: as we have only added a total derivative, equations (ELC.i) and (ELC.ii) are the same. The interesting part is prove that the Hamilton formalism goes through:

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+\frac{\partial L''}{\partial\dot{q}}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}+\frac{\partial L''}{\partial t}dt

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}+\frac{\partial H''}{\partial t}dt

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}

 

Euler-Lagrange:

\frac{\partial L''}{\partial q}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{q}}=\dot{p}_{q}

\frac{\partial L''}{\partial\lambda}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}=\dot{p}_{\lambda}

Suppose there is no explicit time dependence (only to simplify):

\frac{\partial L''}{\partial t}=\frac{\partial H''}{\partial t}=0

The proof that goes next is somewhat tedious; if you are bored, go directly to the example next in order to convince yourself that everything really works. The proof completely parallels the deduction I gave of the Hamilton eqs. from the Euler-Lagrange ones. From,

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+p_{q}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}

it’s not hard to prove,

dH''=\sum_{q}\dot{q}dp_{q}+\dot{\lambda}dp_{\lambda}-\sum_{q}\frac{\partial L''}{\partial q}dq-\frac{\partial L''}{\partial\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)

Equating this to,

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

we obtain,

\sum_{q}\left(\dot{q}dp_{q}-\dot{p}_{q}dq\right)+\dot{\lambda}dp_{\lambda}-\dot{p}_{\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)=

=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

That is, Hamilton’s eqs. are satisfied:

\frac{\partial H''}{\partial q}=-\dot{p}_{q}\qquad\textrm{(HE.i)}

\frac{\partial H''}{\partial p_{q}}=\dot{q}\qquad\textrm{(HE.ii)}

\frac{\partial H''}{\partial\lambda}=-\dot{p}_{\lambda}\qquad\textrm{(HE.iii)}

\frac{\partial H}{\partial p_{\lambda}}=\dot{\lambda}\qquad\textrm{(HE.iv)}

\frac{\partial L''}{\partial\ddot{\lambda}}=0\qquad\textrm{(HE.v)}

The most important part by far on the previous equations is that the canonical momentum p_{\lambda} is not identically zero, neither it is a simple function of \lambda coordinates. Its vanishing is deduced later, as a consequence of the evolution equations, so that it is an independent variable and the system can be endowed with a Hamiltonian structure.

 

Example

L=\frac{1}{2}m_{1}\dot{q_{1}}^{2}+\frac{1}{2}m_{1}\dot{q_{1}}^{2}-V\left(q_{1},q_{2}\right)

Q\left(q_{1},q_{2}\right)=0

The Hamiltonian is,

H''=p_{q_{1}}\dot{q}_{1}+p_{q_{2}}\dot{q}_{2}+p_{\lambda}\dot{\lambda}-L''=

=p_{q_{1}}\frac{p_{q_{1}}}{m_{1}}+p_{q_{2}}\frac{p_{q_{2}}}{m_{2}}+p_{\lambda}^{2}-\frac{p_{q_{1}}^{2}}{2m_{1}}-\frac{p_{q_{2}}^{2}}{2m_{2}}-p_{\lambda}^{2}-\lambda\dot{p}_{\lambda}-\lambda Q+V=

=\frac{p_{q_{1}}^{2}}{2m_{1}}+\frac{p_{q_{2}}^{2}}{2m_{2}}-\lambda\dot{p}_{\lambda}-\lambda Q+V

The 1\textsuperscript{st} pair of Hamilton eqs. for the q‘s is of the form (\partial_{q}H''=-\lambda\partial_{\dot{q}}Q+\partial_{q}V):

-\lambda\frac{\partial Q}{\partial\dot{q_{i}}}+\frac{\partial V}{\partial q_{i}}=-\dot{p}_{q_{i}},\: i=1,2

coinciding with,

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}_{i}}-\frac{\partial L}{\partial q_{i}}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}_{i}}-\frac{\partial Q}{\partial q_{i}}\right)=0\Rightarrow\dot{p}_{q_{i}}+\frac{\partial V}{\partial q_{i}}-\lambda\frac{\partial Q}{\partial q_{i}}=0

And the 2\textsuperscript{nd} (\partial_{p_{q}}H''=p_{q}/m):

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2

Those for \lambda, next. 1\textsuperscript{st} (\partial_{\lambda}H''=-\dot{p}_{\lambda}-Q):

-\dot{p}_{\lambda}-Q=-\dot{p}_{\lambda}

2\textsuperscript{nd}(\partial_{p_{\lambda}}H''=0):

0=\dot{\lambda}

Regrouping all Hamilton eqs. for the constrained system, we have,

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial q_{i}}-\frac{\partial V}{\partial q_{i}},\: i=1,2\qquad\textrm{(E.i)}

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2\qquad\textrm{(E.ii)}

Q=0\qquad\textrm{(E.iii)}

\dot{\lambda}=0\qquad\textrm{(E.iv)}

 

What About the Poisson Brackets?

Does all of this work for Poisson brackets? Yes, it does. Let’s see how. Remember that, from the beginning, the equations to be recovered are (E.i)-(E.iv). We omit now the bothersome index i in q_{i} (both q‘s satisfy analogous equations):

 

\dot{q}=\left\{ q,H''\right\} _{P}=\left\{ q,\frac{p_{q}^{2}}{2m}\right\} _{P}=2\frac{1}{2m}\left\{ q,p_{q}\right\} _{P}p_{q}=\frac{p_{q}}{m}

\dot{p}_{\lambda}=\left\{ p_{\lambda},H''\right\} _{P}=\left\{ p_{\lambda},-\lambda\dot{p}_{\lambda}\right\} _{P}-\left\{ p_{\lambda},\lambda Q\right\} _{P}=\dot{p}_{\lambda}+Q\Rightarrow Q=0

\dot{\lambda}=\left\{ \lambda,H''\right\} _{P}=\left\{ \lambda,-\lambda\dot{p}_{\lambda}\right\} _{P}+\left\{ \lambda,-\lambda Q\right\} _{P}=-\lambda\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P} is zero because:

\left\{ \lambda,p_{\lambda}\right\} _{P}=1\Rightarrow\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}+\left\{ \dot{\lambda},p_{\lambda}\right\} _{P}=\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

The last equation is,

\dot{p}_{q}=\left\{ p_{q},H''\right\} _{P}=\left\{ p_{q},\frac{p_{q}^{2}}{2m}\right\} _{P}+\left\{ p_{q},-\lambda Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=

=-\lambda\left\{ p_{q},Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=\lambda\frac{\partial Q}{\partial q}-\frac{\partial V}{\partial q}

Consequently:

m_{i}\dot{q}_{i}=p_{q_{i}}

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial q_{i}}-\frac{\partial V}{\partial q_{i}}

Q=0

\dot{\lambda}=0

 

Conclusion: Hamilton’s method for systems with constraints can be used. The price to pay is generalising the variational derivative with respect to the Lagrange multiplier to higher orders of time derivation and extending in close analogy the definition of the associated canonical momentum.