Completing Quantum Mechanics

September 1, 2015

1. An almost century-old problem

Back to business with the question of quantum mechanical completeness. Mi take on the story hasn’t changed in more than fifteen years. I have to insist:

1A. It is a problem
1B. It is unsolved (debatable perhaps…)

A problem it is. That should be clear, if only because of the dozen-odd theories trying to solve it: the orthodox, by Von Neumann; De Broglie-Bohm’s; the transactional; the many-world, by Everett; consistent histories (inspired by the former), the “gravitational”… The panel of physics popes having busied themselves with it includes the likes of Weinberg, ‘t Hooft, Gell-Mann, or Penrose. Although many still shrug their shoulders and say, “what problem?”

The reasons are more that socio-scientific. The traditional picture due to V. Neumann for measurements, as opposed to the more fundamental quantum evolution, is that we sometimes have state sums, \left|a_1\right\rangle +\left|a_2\right\rangle, each carrying the potentiality of one result among two possible (a_1, a_2) for a given property A. And when we check which result is verified, and the record produces “result a_1“, we must update the state to,

\left|a_1\right\rangle +\left|a_2\right\rangle \rightarrow \frac{1}{\left\Vert \left|a_1\right\rangle \right\Vert }\left|a_1\right\rangle

Namely, we must kill the “unregistered amplitude”, \left|a_2\right\rangle, and resize the outgoing state dividing by the square root of its probability. This is necessary in order to update the statistics, but it violates linearity (proporcionality between the outgoing state and the incoming one). But if we drop this demand:

\left|a_1\right\rangle +\left|a_2\right\rangle {\rightarrow} \left|a_1\right\rangle

we ruin unitarity (conservation of probability.) Thus the question is: either unitarity or linearity; we can’t have both.

Looks like a recipe for chicken rather than a physical law…

As to the explanations based on the density matrix, I already said they ignore the question of records.

This is not a matter of words. Nowadays both theory and experiment have developed to a point where it has become possible (1): to erase a quantum measurement and (2): to measure counter-factually. It is thus necessary for both components of the quantum state to survive dynamically. The unregistered amplitudes (as \left|a_2\right\rangle in our example) must keep evolving if they are to give rise to the overall wave front in case we conduct a quantum erasing during the subsequent evolution; or if a detector is placed along a trajectory destined to have an “empty” amplitude in it, in a counter-factual measurement like those occurring for an Elitzur-Vaidman bomb tester. These considerations make the following conclusion inescapable:

The current status of experimentation confirms that V. Neumann’s postulate has been ruled out, as unregistered amplitudes are shown to have physical consequences.

2. One doesn’t need a New York Times revolution

There exist elements in the theory unequivocally pointing towards the solution. These are the key points:

2A. Gauge invariance \rightarrow Gauge indeterminacy

2B. Topological evolution \equiv Evolution without local degrees of freedom

These elements have been elucidated in the theory for some time now, but nobody has related them to the question of completeness to the best of my knowledge. The explanation, necessarily brief and provisional, is:

2A: Only by means of gauge invariance one can explain quantum indeterminism; and only having established this correspondence and having understood its implications, one may be able to complete quantum mechanics through dynamical variables of a topological character.

Dirac, 1964, Lectures on Quantum Mechanics; page 17:

This provides a difference of the generalized Hamiltonian method from what one is familiar with in elementary dynamics. We have arbitrary functions of the time occurring in the general solution of the equations of motion with given initial conditions. These arbitrary functions of the time must mean that we are using a mathematical framework containing arbitrary features, for example, a coordinate system which we can choose in some arbitrary way, or the gauge in electrodynamics. As a result of this arbitrariness in the mathematical framework, the dynamical variables at future times are not completely determined by the initial dynamical variables, and this shows itself up through arbitrary functions appearing in the general solution.

2B: Topological evolution is evolution without propagation, as the number of constraints exactly equals the number of degrees of freedom (field amplitudes).

And this is all I can read from cards 2A and 2B.

3. But hasn’t it been proved that it is impossible to complete quantum mechanics?

No. Theorems concerning hidden variables seem to imply either a non-local realism or else the traditional non-realism, etc. At the end of the day, they all leave the question untouched. They are affected, either from false premises (whenever I check that A_1 is -1, I’m also checking that A_2 is +1″, in CHSHB, also known as “Bell’s theorem”), or from insufficient conclusions (see 3A). Here I have to postpone details for an upcoming entry, but suffice it to say so far that the key lies in the context. It is well known that Bell’s inequalities are violated by quantum mechanics. This only happens because one assumes that measurement output \sigma_{z}=+1 for particle 1 is tantamount to having measured \sigma_{z}=-1 for particle 2. Suppose, though, that at particle 2’s location someone’s measuring \sigma_{x} instead of \sigma_{z}. Then such assertion is no longer true. The result I’m telling you in advance is that, when one takes into account the interaction Hamiltonian on particle 2, the expected values for \sigma_{z} (that, mind you, hasn’t been measured), change instantly (in a completely local way) at 2. Any experimental verification (like those by Aspect et al.) of the validity of quantum probabilities is incapable of telling what would have happened had I measured something else. When one includes this, purely quantum, Hamiltonian description, the result is CHSHB are satisfied, so quantum mechanics does not violate them anymore. Unfortunately I have to postpone that discussion.

3A. Exact correlations at a distance are not physical actions, but functional dependences \Rightarrow The impossibility proofs concerning any completion of quantum mechanics based on exact correlations (GHZ) are thus inconclusive, as they are equivalent to the (trivial) preliminary lemma in Bell’s theorem (“spin up” for particle (1) implies “spin down” for particle (2), with zero dispersion for the sum and non-zero dispersion for each of the terms in the sum). This is a functional dependence between compatible variables. They could hardly produce anything other than perfect correlation, as they are respective functions of each other. I already proved this point for GHZ.

3B. Non-exact correlations at a distance are not physical actions either, but functional dependences between non-commuting variables \Rightarrow.

Besides, the demonstrations of impossibility of completion for quantum mechanics based on non-exact correlations (CHSHB theorem) are inconclusive because they ignore how the context (see 3C) affects the quantum state, when they assume that the exact correlations referred to in 3A are still valid, when they actually do not hold anymore (information about the value of variable B at point 2, external to the causal cone of point 1, is no longer valid at point 1, in the sense of implying that, provided B takes value +1 at point 2, then it takes value -1 at point 1, if what is being done at point 1 is measuring A with \left[A,B\right]\neq0).

3C. The context thus completely changes the nature of the experimental question itself: The measuring interaction automatically suspends the validity of the correlations at a distance for variables incompatible with those that are being measured. That is because, provided at point (2) someone’s measuring component x of spin, then they are destroying the profile of the quantum state corresponding to component z (or any other incompatible with x). In other words: The physicist who is measuring the z component of spin for particle (1) has no right to assert that component z of spin for particle (2) is the opposite, if what’s going on at (2) out of reach of his causal influence is a measurement of an incompatible component.

3D. The notion that any hidden-variable model has the obligation to express the results of measurements as pre-existing properties of the system can seem natural, and it may have been held by Einstein, but it is ultimately too strong and must be discarded. When this demand is formulated in general (without appealing to quantum mechanics), it could be named prejudice of ad infinitum separability between system and environment. When it is formulated from the quantum formalism, it is always based on an erroneous notion known as  eigenvalue realism: Eigenvalues are not properties of a system, it is the interaction term that selects them. In this sense, real eigenvalues of Hermitian operators (observables) that a naive examination of the quantum formalism seems to elevate to the category of properties of a system (say, ontological attributes), are really properties of the interaction between a system and its physical environment, which can be relevant or not, depending on the evolution of both.

The notion of context first appeared paper by Bohr answering to the famous EPR and with the same title. When I measure, I set strong condition or even determine what I’m going to obtain.

3E. Theorems of the ontological kind (in particular, the Bell-Kochen-Specker or BKS) “find observables” (or rather prove the existence, as the theorem is not constructive) which, while being mutually compatible, cannot be determined by any pre-existing variables. This line of enquiry is based on the concept of value definiteness, brought up by V. Neumann. In actuality, these so-called BKS “observables”, although they are Hermitian operators, and while they are embedded in the linear span of the spin subspace, are not themselves spin observables, and as a consequence they are devoid of physical content. The proof is so simple that one cannot help but feel puzzled that nobody, to my knowledge, has appealed to it so far. Those interested can follow the argument below.

XXX. Only for experts:


Read the rest of this entry »

Completar la mecánica cuántica

August 27, 2015

1. Un problema casi centenario

Vuelvo al ataque con la cuestión de la completitud de la mecánica cuántica. Mi opinión, desde luego, no ha cambiado en más de quince años. Tengo que insistir brevemente en que:

1A. Es un problema
1B. Está sin resolver (algo más discutible…)

Que es un problema estaría claro ya por la docena de teorías que intentan resolverlo: la ortodoxa, de Von Neumann; la de De Broglie-Bohm; la transaccional; la de universos que se bifurcan, de Everett; la de las historias consistentes (inspirada en la anterior), la “gravitatoria”… El grupo los que lo han abordado incluye a popes como Weinberg, ‘t Hooft, Gell-Mann o Penrose. Aunque muchos se encogen de hombros y dicen: “¿qué problema?”.

Los motivos son más que sociocientíficos. La imagen tradicional de V. Neumann para la medición, en contraposición a la más fundamental evolución cuántica, es que a veces tengo estados suma, \left|a_1\right\rangle +\left|a_2\right\rangle, cada uno portador de la posibilidad de un resultado entre dos posibles (a_1, a_2) para una cierta propiedad A. Y que cuando mido qué resultado se verifica, y el registro da “resultado a_1“, debo actualizar el estado a:

\left|a_1\right\rangle +\left|a_2\right\rangle \rightarrow \frac{1}{\left\Vert \left|a_1\right\rangle \right\Vert }\left|a_1\right\rangle

Es decir, debo omitir la “amplitud no registrada”, \left|a_2\right\rangle, y redimensionar el estado saliente dividiendo por la raíz cuadrada de su probabilidad. Esto es necesario para actualizar la estadística, pero rompe la linealidad (proporcionalidad entre el estado saliente y el entrante). Pero si lo eliminamos como requisito:

\left|a_1\right\rangle +\left|a_2\right\rangle {\rightarrow} \left|a_1\right\rangle

perdemos precisamente por ese motivo la unitariedad (conservación de la probabilidad). Luego la cuestión es: unitariedad o linealidad; no podemos salvar las dos a la vez.

Parece una receta para preparar el pollo, más que una ley física…

En cuanto a las explicaciones basadas en la matriz densidad, ya dije que omiten la cuestión de los registros.

Esta no es una cuestión de palabras. Hoy día tanto la teoría como el experimento han avanzado hasta un punto en que es posible (1): el borrado de una medición cuántica y (2): la medición contrafactual. Es por tanto necesario que sobrevivan dinámicamente ambas componentes del estado cuántico. Las amplitudes no registradas (como la \left|a_2\right\rangle de nuestro ejemplo) deben seguir evolucionando para conformar la envolvente de la onda si se procediera a un borrado cuántico en la evolución posterior; o si se ubica el detector en una trayectoria destinada a la amplitud “vacía” en una medición contrafactual como la del detector de bombas de Elitzur y Vaidman. Estas consideraciones hacen inescapable la siguiente conclusión:

El estado actual de la experimentación confirma que el postulado de V. Neumann está refutado, pues las amplitudes sin registro tienen consecuencias físicas.

2. No se necesita una revolución para el New York Times

Existen elementos en la teoría que apuntan de forma inequívoca hacia la solución. Estas son las claves:

2A. Invariancia de gauge \rightarrow Indeterminación de gauge

2B. Evolución topológica \equiv Evolución sin grados de libertad locales

Estos elementos están presentes en la teoría desde hace mucho, pero nadie los ha relacionado con la cuestión de la completitud de la mecánica cuántica o con el indeterminismo cuántico. La explicación, necesariamente provisional y breve, es:

2A: Solo mediante la invariancia de gauge se puede explicar el indeterminismo cuántico; y solo habiendo hecho esta correspondencia y habiendo comprendido sus implicaciones, puede completarse la mecánica cuántica mediante variables dinámicas de carácter topológico.

Dirac, 1964, Lectures on Quantum Mechanics; pág. 17:

Esto proporciona una diferencia entre el formalismo hamiltoniano generalizado respecto a lo que nos es familiar en dinámica elemental. Tenemos funciones arbitrarias del tiempo que aparecen en la solución general de las ecuaciones del movimiento con condiciones iniciales dadas. Estas funciones arbitrarias del tiempo deben significar que estamos usando un esquema matemático que contiene aspectos arbitrarios, por ejemplo, un sistema de coordenadas que podemos elegir de forma arbitraria, o el gauge en electrodinámica. Como resultado de esta arbitrariedad en el esquema matemático, las variables dinámicas en el futuro no están completamente determinadas por los valores iniciales de las mismas, y esto se muestra a través de la aparición de dichas funciones arbitrarias en la solución general.

2B: La evolución topológica es una evolución sin propagación, porque el número de ligaduras es exactamente igual al número de grados de libertad (amplitudes de campo).

Y esto es todo lo que puedo leer de momento en las tarjetas 2A y 2B.

3. Pero ¿no está demostrado que es imposible completar la mecánica cuántica?

No. Los teoremas de imposibilidad de variables ocultas, que parecen implicar o bien un realismo no local o bien el no realismo tradicional, etc., al final dejan la cuestión intacta. Todos están afectados, o bien de premisas falsas (“siempre que compruebo que A_1 es -1, estoy comprobando que A_2 es +1″, en CHSHB, también llamado “teorema de Bell”), o de conclusiones insuficientes (véase 3A). Aquí tendré que dejar las precisiones para una entrada posterior, pero adelanto que la clave de la cuestión es el contexto. Es bien sabido que las desigualdades de Bell son violadas por la mecánica cuántica. Eso sólo ocurre porque uno asume que la medición \sigma_{z}=+1 para la partícula 1 es lo mismo que haber medido que \sigma_{z}=-1 para la partícula 2. Si donde está la partícula 2 estoy midiendo \sigma_{x} en lugar de \sigma_{z}, tal aseveración ya no es cierta. El resultado que adelanto es que, cuando uno incluye el hamiltoniano de interacción sobre la partícula 2, los valores esperados de \sigma_{z} (que no se ha medido, recordémoslo), cambian instantáneamente (de forma totalmente local) en 2. Cualquier comprobación experimental (como las de Aspect et al.) de la validez de las probabilidades cuánticas es incapaz de dilucidar lo que habría pasado si yo hubiera medido otra cosa. Cuando uno incluye esta descripción hamiltoniana, puramente cuántica, el resultado es que se satisfacen las desigualdades de CHSHB, con lo que la mecánica cuántica ya no las viola. Desgraciadamente tengo que posponer esa discusión.

3A. Las correlaciones exactas a distancia no son acciones físicas, sino dependencias funcionales \Rightarrow Las demostraciones de imposibilidad de compleción de la mecánica cuántica basadas en correlaciones exactas (GHZ) son inconcluyentes, porque equivalen al lema previo (trivial) del teorema de Bell (“espín arriba” en partícula (1) implica “espín abajo” en partícula (2), con dispersión nula para la suma y dispersiones no nulas para cada uno de los sumandos). Esta es una dependencia funcional entre variables compatibles. Malamente podrían dar valores no correlacionados, si dependen funcionalmente unos de otros. Ya demostré este punto para el GHZ.

3B. Las correlaciones no exactas a distancia tampoco son acciones físicas, sino dependencias funcionales entre variables que no conmutan \Rightarrow.

Además, las demostraciones de imposibilidad de compleción de la mecánica cuántica basadas en correlaciones no exactas (el teorema CHSHB) son inconcluyentes, porque ignoran cómo el contexto (véase 3C) altera el estado cuántico, al suponer todavía válidas las correlaciones exactas apuntadas en 3A, cuando en realidad ya no lo son (la información sobre el valor de la variable B en el punto 2, exterior al cono causal del punto 1, ya no es vigente en el punto 1, en el sentido de implicar que si B vale +1 en el punto 2, entonces B vale -1 en el punto 1, si lo que estamos haciendo en 1 es medir A con \left[A,B\right]\neq0).

3C. El contexto cambia la naturaleza de la propia pregunta experimental: La interacción de la medición aborta automáticamente la validez de las correlaciones a distancia para variables incompatibles con la que se está midiendo. Eso es porque si en el punto (2) estoy midiendo la componente x del espín, estoy destruyendo el perfil del estado en la componente z (y cualquier otra incompatible la x). En otras palabras: El físico que mide la componente z del espín para la partícula (1) no tiene derecho a afirmar que la componente z del espín para la partícula (2) es la opuesta, si lo que está ocurriendo en (2) fuera de su alcance causal es una medición de una componente incompatible.

3D. La noción de que cualquier modelo de variables ocultas tiene la obligación de expresar los resultados de las mediciones como propiedades preexistentes del sistema, puede parecer natural, y puede haberla sostenido Einstein, pero es excesiva en último término y debe descartarse. Cuando esta exigencia se hace en general (sin aludir a la mecánica cuántica), podría llamarse prejuicio de la separabilidad ad infinitum sistema-entorno. Cuando dicha exigencia se hace desde el formalismo cuántico, se basa siempre en una noción errónea que se conoce como realismo de los autovalores: Los autovalores no son propiedades del sistema, es el término de interacción de la medición el que los elige. En este sentido, los autovalores reales de los operadores autoadjuntos (observables) que un examen ingenuo del formalismo cuántico parece propugnar como propiedades del sistema (atributos ontológicos, digamos), son en realidad propiedades de la interacción del sistema con su entorno físico, que pueden ser relevantes o no, según sea la evolución de ambos.

La noción de contexto apareció por primera vez en un artículo de Bohr respondiendo al famoso EPR y con idéntico título. Cuando mido, condiciono o incluso determino lo que voy a medir.

3E. Los teoremas de tipo ontológico (para ser más concreto, el teorema de Bell-Kochen-Specker) “encuentran” (demuestran la existencia, pues el teorema no es constructivo) unos “observables” que, siendo compatibles, no pueden tener autovalores predefinidos que los determinen. Toda esta línea de investigación se basa en el concepto de definitud de valores, que nace con Von Neumann. En realidad, estos “observables” BKS, siendo operadores autoadjuntos, y aunque están embebidos en la envolvente lineal del subespacio del espín, no son en sí mismos observables de espín, por lo tanto carecen de sentido físico. La demostración es tan sencilla que produce asombro que nadie, hasta donde yo sé, la haya puesto de manifiesto. Por si alguien está interesado, puede leer las líneas que siguen.

XXX. Solo para expertos:


Read the rest of this entry »

¿Electrones fusilli, tagliatelle o fettuccine?

November 7, 2014

En mi última entrada sobre el método de Hamilton para sistemas con ligaduras me he dejado algunas cosas pendientes: La derivación general que di no es del todo correcta, aunque el método funciona, como se ve claramente en el ejemplo. En cuanto tenga tiempo añadiré las explicaciones.

Ahora quería añadir unos comentarios sobre ciertos estados cuánticos “exóticos” que han ido apareciendo en la literatura en los últimos años generando cierta sorpresa. Estos estados se refieren fundamentalmente a los fotones, pero argumentos muy parecidos son válidos presumiblemente para partículas que satisfacen la ecuación de Schrödinger, ya que la aproximación paraxial de la óptica es formalmente una ecuación de Schrödinger. Estos estados exóticos se conocen como paquetes de Laguerre-Gauss, Hermite-Gauss, etc.

Básicamente de lo que se trata es de que existen estados cuánticos que representan posibles modos de evolución de partículas propagándose libremente en una dirección y con un momento angular orbital empaquetado en el haz, identificable con un movimiento orbital en las direcciones perpendiculares a la dirección de movimiento libre. Así, la componente z , digamos, es un paquete gaussiano en evolución libre, mientras que las componentes x  e y  (el factor correspondiente de la función de onda), se representan por un polinomio de Laguerre o de Hermite, por ejemplo. Esto es paradójico, porque se nos ha enseñado que la evolución libre siempre conduce a paquetes que se ensanchan o dispersan, y sin embargo estos estados parecen transportar un movimiento confinado, orbital, en su evolución.

La razón de que encontremos paradójico esto es que la propagación libre se enseña mal en los libros de mecánica cuántica. Intentaré explicarlo. El procedimiento habitual de construcción axiomática de la mecánica cuántica se basa en Von Neumann, y dice que existen conjuntos completos de observables compatibles. Una vez identificados estos observables compatibles que expanden cualquier estado y contienen toda la información estadística posible del estado, se utilizan para representar la evolución de un estado cuántico arbitrario. En el caso del momento lineal, existen tres operadores compatibles (que conmutan dos a dos), \left(\hbar/i\right)\partial/\partial x\overset{{\scriptstyle \textrm{def}}}{=}P_{x} , \left(\hbar/i\right)\partial/\partial y\overset{{\scriptstyle \textrm{def}}}{=}P_{y} , \left(\hbar/i\right)\partial/\partial z\overset{{\scriptstyle \textrm{def}}}{=}P_{z} .

Esto presupone que en un laboratorio es factible garantizar que una partícula libre es autoestado de P_{z} , y de P_{x} , y de P_{y} . Esto no es así: Lo primero es que tiene que ser un autoestado de P_{z} , donde z  es la dirección de filtrado elegida, pero no necesariamente de P_{y}  y de P_{x} . De hecho, los diafragmas y colimadores, ranuras, etc., utilizados son esencialmente obstáculos físicos condicionantes en las coordenadas de posición x  e y , y por tanto representables por funciones potenciales “de obstáculo” V_{i}\left(x,y\right) , habrán producido un perfil en \left(x,y\right)  que ni es un paquete en propagación libre ni tiene por qué serlo.

Por tanto lo natural es decir que una partícula libre con un momento lineal seleccionado es un autoestado de P_{z} , donde z  es la dirección de filtrado elegida y que, en principio, no tenemos absolutamente ni idea de qué es en P_{x}  y P_{y} . La gente habitualmente no ve esto, porque en general considera que la distinción entre medidas filtrantes o no es una cursilería o erudición innecesaria, cuando en realidad es absolutamente crucial. Pasemos inmediatamente a relajar el aserto “no tenemos absolutamente ni idea”, porque lo cierto es que se puede postular cómo es el estado de p_{x}  y p_{y}  de manera muy natural.

Si al cabo de un tiempo característico de relajación la partícula es efectivamente libre, podemos afirmar que es un autoestado del hamiltoniano libre (energía cinética):

H=-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)

Añadamos la exigencia de que ha de ser un autoestado de la dirección de filtrado del momento lineal. Tenemos:

-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)\psi=\frac{p_{z}^{2}}{2m}\psi

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

Esto es equivalente a:

\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}\right)\psi=0

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

Por tanto el estado que representa a una partícula con propagación libre y determinada en p_{z} , quizá no más general, pero sí suficientemente general, es una función armónica en x, y   multiplicado por un autoestado de P_{z} .

Fusilli, tagliatelle o fettuccine electrons?

November 7, 2014

In my last entry on Hamilton’s method for systems with constraints I left some unfinished work: The general derivation that I gave is not completely correct; although the method does work, as one can see clearly in the example. As soon as I have some time I will add the explanations.

Now I want to add some comments on certain “exotic” quantum states that keep on appearing in the literature over the last years giving rise to a certatin amount of surprise. These states are basically attached to photons, but very similar arguments are presumably valid for particles satisfying the Schrödinger equation, as the paraxial approximation of optics is  formally equivalent to a Schrödinger equation.

These states are known as Laguerre-Gaussian, Hermite-Gaussian, etc. Basically it consists in the existence of quantum states representing possible evolution modes for particles freely  propagating along one direction and with an orbital angular momentum packaged within the beam, identifyable with an orbital motion in the direction perpendicular to the one of free motion. Thus, the z component, say, is a free-propagating Gaussian packet, while the x and y components (the factor corresponding to the wave function, that is), are  represented by, e.g., a Laguerre or Hermite polynomial. This is paradoxical because we have been taught that free evolution always leads to dispersive or spreading wave packets, and yet these states seem to be carrying along a confined, orbital motion in their evolution.

The reason that we find this paradoxical is that free propagation is incorrectly accounted for in quantum mechanics books. I will try to explain this. The usual procedure of axiomatically  building quantum mechanics is based on Von Neumann, and it tells us that there are complete sets of compatible observables. Once these compatible observables expanding any state  and containing all the possible statistical information on the state are identified, they are instrumental to represent the evolution of an arbitrary quantum state. In the case of linear  momentum, there are three compatible operators (commuting in pairs), \left(\hbar/i\right)\partial/\partial x\overset{{\scriptstyle \textrm{def}}}{=}P_{x}\left(\hbar/i\right)\partial/\partial y\overset{{\scriptstyle \textrm{def}}}{=}P_{y}, \left(\hbar/i\right)\partial/\partial z\overset{{\scriptstyle \textrm{def}}} {=}P_{z}.

This assumes that, in a laboratory, it is feasible to guarantee for a free particle to be an eigenstate of P_{z}, and P_{x}, and P_{y}. That’s not the way it works: First, it has to be an eigenstate of P_{z}, where z is the filtering direction chosen, but not necessarily of P_{y} and P_{x}. In fact. diaphragms and collimators, slits, etc., that are used are essentially physical obstacles conditioning in position coordinates x and y, and consequently representable by “obstacle potential functions” V_{i}\left(x,y\right), so they will have produced a certain \left(x,y\right) profile that neither is a free-propagating packet nor does it have to be.

Thus the natural thing to say is that a free particle with a selected linear momentum is an eigenstate of P_{z}, where z is the chosen direction of filtering,  and that in principle we haven’t the slightest idea what it is in P_{x} and P_{y}. People generally do not see this, because in general they consider that the distinction between filtering or non-filtering state preparations are a nicety or unnecessary erudition, when actually it is absolutely crucial. Let us go directly to the relaxation of the  statement “we haven’t the slightest idea”, as the truth is we can postulate how the state in p_{x} and p_{y} looks like in a very natural way.

If after a certain relaxation time the particle is indeed free, we can posit that it must be an eigenstate of the free Hamiltonian (kinetic energy),

H=-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)

We add now the demand that it be an eigenstate of the filtered linear momentum in the chosen direction. We have,

-\frac{\hbar^{2}}{2m}\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}+\frac{\partial^{2}}{\partial z^{2}}\right)\psi=\frac{p_{z}^{2}}{2m}\psi

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

This amounts to,

\left(\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}\right)\psi=0

\frac{\hbar}{i}\frac{\partial}{\partial z}\psi=p_{z}\psi

 

Thus the state that represents a particle free-propagating with momentum determined in p_{z}, perhaps not the most general one, but definitely general enough, is a function that is harmonic in x, y multiplied by an eigenstate of P_{z}.

Variables… y constantes que varían

October 5, 2014

Una importante motivación en este blog es reflexionar sobre temas bien conocidos de física teórica, buscando alternativas a los caminos más frecuentados, ofreciendo especulaciones, técnicas, y todo lo que pueda dar una nueva perspectiva sin inventar dimensiones ocultas o universos invisibles, sino ciñéndome a métodos a los que, creo, les queda jugo por exprimir.

En los libros de mecánica analítica encontrarás la técnica de los multiplicadores de Lagrange para la resolución de ligaduras. También está la de Hamilton y los corchetes de Poisson. Quizá recordéis una limitación de ambos, Hamilton y Poisson, cuando se encuentra uno con ligaduras. Tras pensar intermitente pero cabezonamente sobre esta cuestión he dado con una manera de vencer esta limitación. Aquí la expongo y la someto a cualquiera que quiera hacer observaciones, objeciones, ampliaciones, u ojalá, contarme su utilidad. Mi objetivo último es su aplicación en el formalismo cuántico, pero si alguien le encuentra utilidad (o alguna limitación que a mí no se me ocurre) estudiando cojinetes mecánicos, pues bienvenido sea.

La ortodoxia dice: no existe un método de los multiplicadores de Lagrange en la formulación de Hamilton de la mecánica. Demostraré que sí existe tal método, aparte del propuesto por Dirac en los años 60. Pero antes hay que dar unas cuantas vueltas a la cuestión para ver que nuestros ancestros intelectuales tiraron la toalla demasiado pronto. Explicaré brevemente qué son el método de Lagrange, el de Hamilton y el de Poisson.

 

Método de Lagrange

Coordenadas generalizadas: q_{1},\cdots,q_{n}. Es el conjunto de parámetros (funciones del tiempo q_{i}\left(t\right)) que especifican una configuración (posición) del sistema.

Acción:

S=\int dtL\left(q,\dot{q}\right)\qquad\textrm{(A)}

La formulación de Lagrange de la mecánica dice que la acción es estacionaria (no varía en primer orden de los parámetros infinitesimales de variación) bajo transformaciones infinitesimales (pequeños cambios arbitrarios en las coordenadas y velocidades). Si uno varía (A) bajo cambios pequeños y arbitrarios q\mapsto q+\delta q, q\mapsto\dot{q}+\delta\dot{q} que no dependen del tiempo y se anulan en los límites de integración, encuentra:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(EL)}

que se llaman ecuaciones de Euler-Lagrange, equivalentes a las de Newton. L se llama función de Lagrange o lagrangiano, y a todos los efectos es la energía cinética menos la potencial.

 

Método de Hamilton

El método de Hamilton se basa en un cambio de variables y la introducción del llamado hamiltoniano del sistema, H, que comienza su vida como una función auxiliar y acaba convirtiéndose en protagonista de la física:

q,\dot{q}\longmapsto q,p_{q}\qquad\textrm{(h.i)}

p_{q}=\frac{\partial L}{\partial\dot{q}}\qquad\textrm{(h.ii)}

H=\sum_{q}p_{q}\dot{q}-L\qquad\textrm{(h.iii)}

Hay que entender que \dot{q}=\dot{q}\left(q,p\right) y por tanto L=L\left(q,\dot{q}\left(q,p\right)\right). Pero hacer estas sustituciones para demostrar las ecuaciones de Hamilton es el camino equivocado. La demostración sencilla está, p. ej., en la Wikipedia y se basa en usar diferenciales:

dH=\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)

dL=\sum_{q}\left(\frac{\partial L}{\partial q}dq+\frac{\partial L}{\partial\dot{q}}d\dot{q}\right)=

=\sum_{q}\frac{\partial L}{\partial q}dq+\sum_{q}p_{q}d\dot{q}=\sum_{q}\frac{\partial L}{\partial q}dq+d\left(\sum_{q}p_{q}\dot{q}\right)-\sum_{q}\dot{q}dp_{q}\Rightarrow

d\left(\sum_{q}p_{q}\dot{q}-L\right)=dH=\sum_{q}\dot{q}dp_{q}-\sum_{q}\frac{\partial L}{\partial q}dq\Rightarrow

\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)=\sum_{q}\left(\dot{q}dp_{q}-\frac{\partial L}{\partial q}dq\right)

 Las famosas ecuaciones de Hamilton son, pues:

\frac{\partial H}{\partial q}=-\dot{p}_{q}\qquad\textrm{(H.i)}

\frac{\partial H}{\partial p_{q}}=\dot{q}\qquad\textrm{(H.ii)}

 

El corchete (o paréntesis) de Poisson

El corchete de Poisson es una técnica refinada para expresar lo mismo con unas ecuaciones que demuestran la simetría entre las posiciones y los momentos en mecánica. Tienen un significado geométrico muy profundo, que es precioso, con corolarios como que todo movimiento con unas \left(q,p\right) dadas tiene un movimiento “dual” con las correspondientes \left(Q,P\right), con Q=p y P=-q. Pero desgraciadamente tenemos que omitir estas delicatessen físicomatemáticas.

\left\{ A,B\right\} _{P}=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial B}{\partial p_{q}}-\frac{\partial B}{\partial q}\frac{\partial A}{\partial p_{q}}\right)

 Usando (H.i) y (H.ii):

\dot{A}=\sum_{q}\left(\frac{\partial A}{\partial q}\dot{q}+\frac{\partial A}{\partial p_{q}}\dot{p}_{q}\right)+\frac{\partial A}{\partial t}=

=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial H}{\partial p_{q}}-\frac{\partial A}{\partial p_{q}}\frac{\partial H}{\partial q}\right)+\frac{\partial A}{\partial t}=\left\{ A,H\right\} _{P}+\frac{\partial A}{\partial t}

Así que derivar una función dinámica (que no depende explícitamente del tiempo) respecto al tiempo equivale a “corchetearla” con el hamiltoniano.

Ligaduras

Las ligaduras son constricciones mecánicas, condiciones que hacen que no todas las coordenadas sean independientes.  En el caso más general, se expresan mediante ecuaciones o quizá desigualdades. Hay muchos tipos, con nombres estrambóticos: holónomas, esclerónomas, reónomas… Me interesan aquellas que pueden expresarse con:

Ecuaciones de ligadura: Q\left(q,\dot{q}\right)=0, comoquiera que se llamen.

 

Método de los multiplicadores de Lagrange

Ecuación de ligadura:

Q=0

Nuevo lagrangiano:

L\mapsto L'=L+\lambda Q

Ecuaciones de Euler-Lagrange para el sistema con ligadura:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(i)}

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=0\qquad\textrm{(ii)}

 Como \partial L'/\partial\dot{\lambda}=0 y \partial L'/\partial\lambda=Q, queda:

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(L.i)}

Q=0\qquad\textrm{(L.ii)}

Lo que aparece a la derecha multiplicando a \lambda en las ecuaciones (L.i) son las fuerzas de ligadura. La componente \left(d/dt\right)\left(\partial Q/\partial\dot{q}_{a}\right)-\partial Q/\partial q_{a} es la componente de la fuerza de ligadura en la dirección correspondiente a la coordenada generalizada q_{a}; y la ecuación (L.ii) es precisamente la ecuación de ligadura. Un método más pedestre de resolver el problema (alternativo al anterior) es utilizar las ecuaciones de ligadura para reducir el número de variables, hacer un cambio de variables que reduzca la dimensión del problema:

r_{b}=r_{b}\left(q_{1},\cdots q_{n}\right)

y con las nuevas variables r_{1},\cdots,r_{m}, con m<n, plantear el problema variacional y llegar a las ecuaciones “reducidas” directamente:

\frac{d}{dt}\frac{\partial L_{R}}{\partial\dot{r}}-\frac{\partial L_{R}}{\partial r}=0\qquad\textrm{(iii)}

donde L_{R} es L_{R}\left(r\left(q,\dot{q}\right),\dot{r}\left(q,\dot{q}\right)\right)=L\left(q,\dot{q}\right).

Pero la ventaja que ofrece el método de los multiplicadores de Lagrange es que permite obtener las fuerzas de ligadura. Esto puede ser conveniente en ingeniería, donde las fuerzas constrictivas interesan, porque los materiales no mantienen una ecuación de constricción indefinidamente, sino que sufren fatiga y deformaciones plásticas, con lo que cambian lentamente su condición. También presumiblemente tienen interés en mecánica cuántica, ya que es lógico pensar que si las ligaduras se han producido dinámicamente, los sistemas correspondientes sufran fluctuaciones cuánticas en torno a la condición de ligadura.

 

Problemas con las ligaduras

Cuando uno tiene ligaduras, dicen los tratados clásicos, no puede usar el método de Hamilton. Veamos por qué. Describir una ligadura obliga a ampliar el espacio de configuración al incluir una “variable” \lambda, y lo de las comillas es porque en realidad es constante. Habría que ser un mago para describir un sistema con menos grados de libertad introduciendo más grados de libertad. Aunque una constante no es que digamos un grado de libertad típico, considerarla como tal, sólo a efectos de introducir variaciones infinitesimales de la misma, nos permite derivar la ecuación de ligadura como una ecuación de Euler-Lagrange más. Es la ecuación (ii), que recupera la condición Q=0. El problema con Hamilton es que hay que introducir un momento generalizado asociado p_{\lambda} a la coordenada ficticia \lambda, que al ser nulo por definición, no puedo aplicarle transformaciones infinitesimales. (Dirac resuelve esto introduciendo la condición p_{\lambda}=0 como ligadura y procediendo iterativamente con el corchete de Poisson, añadiendo sucesivos multiplicadores de Lagrange y cruzando los dedos para que a un grado bajo de iteración ¡el corchete de Poisson de la ligadura con el hamiltoniano se anule idénticamente!) Metodológicamente hablando esto es lo siguiente a rezar. Lo deseable sería una manera de introducir esta variable de momento canónico para deducir que se anula como consecuencia de las ecuaciones de evolución. Veamos cómo es esto posible.

 

Primera idea (fallida):

 

L\mapsto L'=L+\lambda\dot{\lambda}+\lambda Q

La idea es sumar una derivada total respecto al tiempo de una función cualquiera de nuestra “variable dinámica” \lambda. Si hacemos esto, las ecuaciones de evolución no cambian:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=\frac{d}{dt}\frac{\partial}{\partial\dot{q}}\left(L+\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial q}\left(L+\lambda\dot{\lambda}+\lambda Q\right)=

=\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)=0

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=\frac{d}{dt}\frac{\partial}{\partial\dot{\lambda}}\left(\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial\lambda}\left(\lambda\dot{\lambda}+\lambda Q\right)=\dot{\lambda}-\dot{\lambda}-Q=-Q=0

que se reduce a:

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(ELC.i)}

Q=0\qquad\textrm{(ELC.ii)}

Hasta ahora, todo bien. La fuerza de ligadura aparece en el término de la derecha “conectada” al problema mediante la constante \lambda.

La ecuación variacional para \lambda no es otra que la ecuación de ligadura. El problema es que, si queremos traducir esto a lenguaje hamiltoniano, hemos definido un momento canónico p_{\lambda} que es:

p_{\lambda}=\frac{\partial L'}{\partial\dot{\lambda}}=\lambda

Esto no es cero idénticamente, pero desde luego no es consistente considerarlo como una variable analíticamente independiente de \lambda. De hecho, el problema surge todavía antes, cuando intentamos despejar las velocidades en función de los momentos. Recuérdese que H\left(q,p_{q}\right) sólo tiene sentido cuando puedo despejar las velocidades en función de coordenadas y momentos. Como \dot{\lambda} ha desaparecido en la relación que define el momento canónico asociado, no es posible despejar. Es por ello que a veces se afirma, sin grandes explicaciones al respecto (véase, p. ej., la Wikipedia) que no es posible utilizar una relación lineal en \dot{\lambda} para estos parámetros auxiliares. ¿Por qué? Esta es la razón.

 

Con el fin de explicar mi método, necesito recordar qué es una derivada variacional. No hay prácticamente ningún libro (al menos ninguno de los más conocidos) en teoría de campos que utilice la definición más general de derivada variacional. Aunque los físicos ignoran alegremente esta definición más general, estoy seguro de que a los matemáticos que conocen bien el análisis variacional les es familiar. Si un lagrangiano depende de un orden arbitrariamente alto de derivación: L=L\left(q,\dot{q},\ddot{q},\cdots\right)

la derivada variacional es:

\frac{\delta L}{\delta q}=\frac{\partial L}{\partial q}-\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}+\frac{d^{2}}{dt^{2}}\frac{\partial L}{\partial\ddot{q}}-\cdots=

=\sum_{n=0}^{\infty}\left(-1\right)^{n}\frac{d^{n}}{dt^{n}}\frac{\partial L}{\partial q^{\left(n\right)}}

Las ecuaciones de Euler-Lagrange en este caso se generalizan a:

\frac{\delta L}{\delta q}=0\qquad\textrm{(G.EL})

que parece simple, pero en general es infinitamente más complicado, y será importante en orden 2.

 

En nuestro caso hay varias:

Trabas

1) En un sistema genérico con ligaduras dependientes de la velocidad, expresar las \dot{q} como funciones de las p_{q} puede ser complicado o imposible.

2) f no puede ser lineal en \dot{\lambda}, de otra forma \partial/\partial\dot{\lambda} eliminará \dot{\lambda} y no podremos expresar \dot{\lambda} como función de p_{\lambda}

3) ¿No debería depender de \dot{p}_{\lambda}?

 

A la traba 1) es mejor acostumbrarse y esperar lo mejor; la traba 2) se resuelve sin más que observarla y escribir una f de 2º orden; y la traba 3) es demasiado pesimista o en realidad aparente: de hecho, la he incluido para preparar al lector al que le pueda sorprender una dependencia en \dot{p}_{\lambda} que en realidad es, no sólo consistente, sino necesaria: Son las ecuaciones del movimiento las que no deberían depender de \ddot{\lambda} (o \dot{p}_{\lambda}); como veremos, el hamiltoniano puede depender de \dot{p}_{\lambda} y todo funciona. En efecto, debe depender de \dot{p}_{\lambda} para que desaparezca el término en \dot{p}_{\lambda} en las ecuaciones de Hamilton.

 

Pero la verdadera traba es:

4) El momento canónico (de \lambda) ya no es una función lineal de las velocidades, sino que ¡depende de la aceleración!

La solución se muestra a continuación.

 

La idea corregida

 

Estos son los pasos:

1) Se generaliza el método de Lagrange incluyendo la derivada total respecto al tiempo de una función apropiada de \lambda. Esta función de \lambda deberá depender al menos de la derivada 2ª de \lambda respecto al tiempo:

L\mapsto L''=L+\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)+\lambda Q

2) Se generaliza la definición de la derivada variacional respecto a \lambda a una dependencia en órdenes superiores al primero en derivación temporal. Nos bastará con orden 2:

\frac{\delta L''}{\delta\lambda}=\frac{\partial L''}{\partial\lambda}-\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}+\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}

3) Se generaliza la definición del momento canónico asociado a la coordenada \lambda de forma completamente paralela a la extensión que hemos hecho de la derivada variacional. Si:

\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)=\frac{\partial f}{\partial\lambda}\dot{\lambda}+\frac{\partial f}{\partial\dot{\lambda}}\ddot{\lambda}

entonces:

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}=

=\frac{\partial f}{\partial\lambda}+\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}\dot{\lambda}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}-\left(\dot{\lambda}\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}\right)=\frac{\partial f}{\partial\lambda}

 Ver que el sistema así extendido cumple exactamente las mismas ecuaciones de Euler-Lagrange que el anteriormente definido no es difícil. Como

sólo hemos añadido una derivada total, las ecuaciones son las mismas, (ELC.i) y (ELC.ii). Lo más interesante es ver que el formalismo de Hamilton sigue su curso:

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+\frac{\partial L''}{\partial\dot{q}}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}+\frac{\partial L''}{\partial t}dt

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}+\frac{\partial H''}{\partial t}dt

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}

Euler-Lagrange:

\frac{\partial L''}{\partial q}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{q}}=\dot{p}_{q}

\frac{\partial L''}{\partial\lambda}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}=\dot{p}_{\lambda}

Supongamos que no hay dependencia explícita en el tiempo (para simplificar):

\frac{\partial L''}{\partial t}=\frac{\partial H''}{\partial t}=0

La demostración que sigue es un poco tediosa; si te aburre pasa directamente al ejemplo que hay a continuación para convencerte de que todo funciona. La prueba es completamente paralela a la deducción que he dado de las ecs. de Hamilton a partir de las de Euler-Lagrange. De:

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+p_{q}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}

no es difícil probar que:

dH''=\sum_{q}\dot{q}dp_{q}+\dot{\lambda}dp_{\lambda}-\sum_{q}\frac{\partial L''}{\partial q}dq-\frac{\partial L''}{\partial\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)

Igualando esto a:

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

obtenemos:

\sum_{q}\left(\dot{q}dp_{q}-\dot{p}_{q}dq\right)+\dot{\lambda}dp_{\lambda}-\dot{p}_{\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)=

=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

Es decir, se satisfacen las ecs. de Hamilton:

\frac{\partial H''}{\partial q}=-\dot{p}_{q}\qquad\textrm{(HE.i)}

\frac{\partial H''}{\partial p_{q}}=\dot{q}\qquad\textrm{(HE.ii)}

\frac{\partial H''}{\partial\lambda}=-\dot{p}_{\lambda}\qquad\textrm{(HE.iii)}

\frac{\partial H}{\partial p_{\lambda}}=\dot{\lambda}\qquad\textrm{(HE.iv)}

\frac{\partial L''}{\partial\ddot{\lambda}}=0\qquad\textrm{(HE.v)}

Lo más importante, con mucho, de las ecuaciones anteriores, es que el momento canónico p_{\lambda} no es cero ni una simple función de las coordenadas \lambda. Su anulación se deduce después, como consecuencia de las ecuaciones de evolución, con lo cual es una variable independiente y el sistema se puede investir de una estructura hamiltoniana.

 

Ejemplo

L=\frac{1}{2}m_{1}\dot{q_{1}}^{2}+\frac{1}{2}m_{1}\dot{q_{1}}^{2}-V\left(q_{1},q_{2}\right)

Q\left(q_{1},q_{2}\right)=0

El hamiltoniano es:

H''=p_{q_{1}}\dot{q}_{1}+p_{q_{2}}\dot{q}_{2}+p_{\lambda}\dot{\lambda}-L''=

=p_{q_{1}}\frac{p_{q_{1}}}{m_{1}}+p_{q_{2}}\frac{p_{q_{2}}}{m_{2}}+p_{\lambda}^{2}-\frac{p_{q_{1}}^{2}}{2m_{1}}-\frac{p_{q_{2}}^{2}}{2m_{2}}-p_{\lambda}^{2}-\lambda\dot{p}_{\lambda}-\lambda Q+V=

=\frac{p_{q_{1}}^{2}}{2m_{1}}+\frac{p_{q_{2}}^{2}}{2m_{2}}-\lambda\dot{p}_{\lambda}-\lambda Q+V

El 1\textsuperscript{er} par de ecs. de Hamilton para las q es de la forma (\partial_{q}H''=-\lambda\partial_{\dot{q}}Q+\partial_{q}V):

-\lambda\frac{\partial Q}{\partial\dot{q_{i}}}+\frac{\partial V}{\partial q_{i}}=-\dot{p}_{q_{i}},\: i=1,2

que coincide con:

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}_{i}}-\frac{\partial L}{\partial q_{i}}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}_{i}}-\frac{\partial Q}{\partial q_{i}}\right)=0\Rightarrow\dot{p}_{q_{i}}+\frac{\partial V}{\partial q_{i}}-\lambda\frac{\partial Q}{\partial q_{i}}=0

Y el 2º (\partial_{p_{q}}H''=p_{q}/m):

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2

Las de las \lambda, a continuación. 1ª (\partial_{\lambda}H''=-\dot{p}_{\lambda}-Q):

-\dot{p}_{\lambda}-Q=-\dot{p}_{\lambda}

2ª (\partial_{p_{\lambda}}H''=0):

0=\dot{\lambda}

Reagrupando todas las ecuaciones de Hamilton para el sistema ligado, tenemos:

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial\dot{q}_{i}}-\frac{\partial V}{\partial q_{i}},\: i=1,2\qquad\textrm{(E.i)}

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2\qquad\textrm{(E.ii)}

Q=0\qquad\textrm{(E.iii)}

\dot{\lambda}=0\qquad\textrm{(E.iv)}

 

¿Y los corchetes de Poisson?

¿Funciona todo esto con los corchetes de Poisson? Sí que funciona. Veámoslo. Recuérdese que, desde el principio, las ecuaciones que hay

que recuperar son (E.i)-(E.iv). Omitimos ahora el molesto índice i de q_{i} (las dos q satisfacen ecs. análogas):

\dot{q}=\left\{ q,H''\right\} _{P}=\left\{ q,\frac{p_{q}^{2}}{2m}\right\} _{P}=2\frac{1}{2m}\left\{ q,p_{q}\right\} _{P}p_{q}=\frac{p_{q}}{m}

\dot{p}_{\lambda}=\left\{ p_{\lambda},H''\right\} _{P}=\left\{ p_{\lambda},-\lambda\dot{p}_{\lambda}\right\} _{P}-\left\{ p_{\lambda},\lambda Q\right\} _{P}=\dot{p}_{\lambda}+Q\Rightarrow Q=0

\dot{\lambda}=\left\{ \lambda,H''\right\} _{P}=\left\{ \lambda,-\lambda\dot{p}_{\lambda}\right\} _{P}+\left\{ \lambda,-\lambda Q\right\} _{P}=-\lambda\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P} es cero porque:

\left\{ \lambda,p_{\lambda}\right\} _{P}=1\Rightarrow\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}+\left\{ \dot{\lambda},p_{\lambda}\right\} _{P}=\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

La última ecuación es:

\dot{p}_{q}=\left\{ p_{q},H''\right\} _{P}=\left\{ p_{q},\frac{p_{q}^{2}}{2m}\right\} _{P}+\left\{ p_{q},-\lambda Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=

=-\lambda\left\{ p_{q},Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=\lambda\frac{\partial Q}{\partial q}-\frac{\partial V}{\partial q}

 

En conclusión:

m_{i}\dot{q}_{i}=p_{q_{i}}

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial q_{i}}-\frac{\partial V}{\partial q_{i}}

Q=0

\dot{\lambda}=0

 

Conclusión: Sí puede usarse el método de Hamilton para sistemas con ligaduras. El precio a pagar es generalizar la derivada variacional respecto al multiplicador de Lagrange a órdenes superiores de derivación temporal y extender análogamente la definición del momento canónico asociado.

Variables… and Varying Constants

October 3, 2014

An important motivation for this blog is to reflect upon well-known topics in theoretical physics, searching for alternatives to the trodden paths, offering speculations, techniques, and anything that can give a new perspective without inventing hidden dimensions or invisible universes, but sticking instead to methods that, so I think, have some leftover juice to squash.

In analytical mechanics textbooks you’ll find the Lagrange-multipliers technique for solving constrained dynamical systems. There’s also Hamilton’s formulation of mechanics, as well as Poisson brackets. You may remember a limitation of both methods, Hamilton and Poisson, when dealing with constraints. After thinking intermittently but stubbornly over this question I’ve come up with a way of overcoming that limitation. I show it here and submit it to anybody who cares to make observations, objections, expansions; or hopefully, tell me they’ve found it useful. My ultimate goal is its application in the quantum formalism, but if anybody finds any benefit (or limitation that has escaped me) for systems of mechanical rollers, that’s welcome too.

Orthodoxy says: There is no method of Lagrange multipliers in Hamilton’s formulation of mechanics. I will prove that there is such a method, besides the one proposed by Dirac in the 60’s. But before that I’ll have to turn the question around a couple of times to see that our ancestors perhaps gave up too soon. I’ll briefly explain what are the methods of Lagrange, Hamilton and Poisson.

 

Lagrange’s Method

Generalised coordinates: q_{1},\cdots,q_{n}. It is the set of parameters (functions of time q_{i}\left(t\right)) that specify a configuration (position) of the system.

Action:

S=\int dtL\left(q,\dot{q}\right)\qquad\textrm{(A)}

Lagrange’s formulation of mechanics tells us that the action is stationary (doesn’t change at 1\textsuperscript{st} order in the variation parameters) under infinitesimal transformations (small arbitrary changes in coordinates and velocities). If one varies (A) under small arbitrary changes q\mapsto q+\delta q, q\mapsto\dot{q}+\delta\dot{q}, that are also time-independent and vanish at the limits of integration, one finds,

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(EL)}

named Euler-Lagrange equations, and equivalent to Newton’s. L is called Lagrange’s function or Lagrangian, and for all we care it’s just the kinetic minus the potential energy.

 

Hamilton’s Method

Hamilton’s method is based on a change of variables plus the introduction of H, called the system’s Hamiltonian, that starts life as an auxiliary function and ends up claiming center stage in physics:

q,\dot{q}\longmapsto q,p_{q}\qquad\textrm{(h.i)}

p_{q}=\frac{\partial L}{\partial\dot{q}}\qquad\textrm{(h.ii)}

H=\sum_{q}p_{q}\dot{q}-L\qquad\textrm{(h.iii)}

It must be understood that \dot{q}=\dot{q}\left(q,p\right) and therefore L=L\left(q,\dot{q}\left(q,p\right)\right). But making these substitutions in order to prove Hamilton’s eqs. is the wrong way. The easy proof can be found, e. g., on Wikipedia and is based on differentials:

dH=\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)

dL=\sum_{q}\left(\frac{\partial L}{\partial q}dq+\frac{\partial L}{\partial\dot{q}}d\dot{q}\right)=

=\sum_{q}\frac{\partial L}{\partial q}dq+\sum_{q}p_{q}d\dot{q}=\sum_{q}\frac{\partial L}{\partial q}dq+d\left(\sum_{q}p_{q}\dot{q}\right)-\sum_{q}\dot{q}dp_{q}\Rightarrow

d\left(\sum_{q}p_{q}\dot{q}-L\right)=dH=\sum_{q}\dot{q}dp_{q}-\sum_{q}\frac{\partial L}{\partial q}dq\Rightarrow

\sum_{q}\left(\frac{\partial H}{\partial q}dq+\frac{\partial H}{\partial p_{q}}dp_{q}\right)=\sum_{q}\left(\dot{q}dp_{q}-\frac{\partial L}{\partial q}dq\right)

Hamilton’s equations are thus,

\frac{\partial H}{\partial q}=-\dot{p}_{q}\qquad\textrm{(H.i)}

\frac{\partial H}{\partial p_{q}}=\dot{q}\qquad\textrm{(H.ii)}

 

Poisson’s Bracket

Poisson’s bracket is a refined technique used to express the same with equations that make manifest the symmetry between positions and momenta in mechanics. They have a very profound geometric meaning, which is beautiful, with corollaries such as: For every motion with a certain \left(q,p\right) there is a “dual” one with the corresponding \left(Q,P\right), and Q=p; P=-q. But unfortunately we have to ignore these mathematical-physics delicatessen.

\left\{ A,B\right\} _{P}=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial B}{\partial p_{q}}-\frac{\partial B}{\partial q}\frac{\partial A}{\partial p_{q}}\right)

Using (H.i) and (H.ii):

\dot{A}=\sum_{q}\left(\frac{\partial A}{\partial q}\dot{q}+\frac{\partial A}{\partial p_{q}}\dot{p}_{q}\right)+\frac{\partial A}{\partial t}=

=\sum_{q}\left(\frac{\partial A}{\partial q}\frac{\partial H}{\partial p_{q}}-\frac{\partial A}{\partial p_{q}}\frac{\partial H}{\partial q}\right)+\frac{\partial A}{\partial t}=\left\{ A,H\right\} _{P}+\frac{\partial A}{\partial t}

So differentiating a dynamical function (that doesn’t depend explicitly on time) with respect to time is equivalent to “bracketing” it with the Hamiltonian.

 

Constraints

Constraints are mechanical limitations, conditions that make the coordinates mutually dependent.  In the more general instance, they are expressed by means of equations, or perhaps inequalities. There are many kinds, with resounding names like holonomic, schleronomic, rheonomic… I’m interested in those that can be written as:

Constraint equations: Q\left(q,\dot{q}\right)=0, however they are named.

 

Method of Lagrange multipliers

Constraint equation:

Q=0

New Lagrangian:

L\mapsto L'=L+\lambda Q

Euler-Lagrange equations for the system with constraints:

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=0\qquad\textrm{(i)}

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=0\qquad\textrm{(ii)}

As \partial L'/\partial\dot{\lambda}=0 y \partial L'/\partial\lambda=Q, this gives,

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(L.i)}

Q=0\qquad\textrm{(L.ii)}

What occurs on the right multiplying \lambda in eqs. (L.i) are the forces of constraint. The component \left(d/dt\right)\left(\partial Q/\partial\dot{q}_{a}\right)-\partial Q/\partial q_{a} is the component of the force of constraint along the direction corresponding to generalised coordinate q_{a}; and eq. (L.ii) is precisely the constraint equation. A more pedestrian method of solving the problem (alternative to the previous one) is to use the constraint equations in order to reduce the number of variables, and then make the change of variables reducing the dimension of the problem:

r_{b}=r_{b}\left(q_{1},\cdots q_{n}\right)

and with the new variables r_{1},\cdots,r_{m}, with m<n, set up the variational problem and obtain the reduced equations directly:

\frac{d}{dt}\frac{\partial L_{R}}{\partial\dot{r}}-\frac{\partial L_{R}}{\partial r}=0\qquad\textrm{(iii)}

where L_{R} is L_{R}\left(r\left(q,\dot{q}\right),\dot{r}\left(q,\dot{q}\right)\right)=L\left(q,\dot{q}\right).

But the advantage of the method of Lagrange multipliers is that it allows us to obtain the forces of constraint. This can be useful in engineering, where forces of constraint are of interest, because materials do not satisfy an equation of constraint indefinitely, but, on the contrary, they suffer from mechanical fatigue and plastic deformations, so they slowly change their condition. Presumably also they are of interest in quantum mechanics as, provided they have been produced dynamically, the corresponding systems will undergo quantum fluctuations around the condition of constraint.

 

Problems with constraints

When one has constraints, classical treatises go, one cannot use Hamilton’s method. Let’s see why. Describing a constraint forces us to expand

the configuration space by including a “variable” \lambda, and the reason for the quotation marks is because it’s really a constant.

You have to be a magician if you’re going to describe correctly a system with less degrees of freedom by introducing more degrees of freedom. Although a constant is no typical degree of freedom, considering it as such only to the effect of applying infinitesimal variations to it, allows us to deduce the equation of constraint as another Euler-Lagrange equation. It is equation (ii), recovering condition Q=0. The problem with Hamilton is that we need to introduce an associated canonical momentum p_{\lambda} for fictitious coordinate \lambda which, being zero by definition, does not allow for infinitesimal variations. (Dirac solved this by introducing condition p_{\lambda}=0 as a constraint and proceeding to repeatedly use Poisson’s bracket, adding successive Lagrange multipliers while crossing your fingers so that, at a low order of iteration, Poisson-bracketing each constraint with the expanded Hamiltonian gives zero identically!) Methodologically speaking this is next to praying. What we wish is to have a way of introducing this momentum variable only to find later that it vanishes as a consequence of the evolution equations. Let’s see how is this possible.

 

First Idea (Fail):

 

L\mapsto L'=L+\lambda\dot{\lambda}+\lambda Q

The idea is adding a total time derivative of an otherwise arbitrary function of our “dynamical variable” \lambda. If we do that,

the evolution equations are unchanged:

 

\frac{d}{dt}\frac{\partial L'}{\partial\dot{q}}-\frac{\partial L'}{\partial q}=\frac{d}{dt}\frac{\partial}{\partial\dot{q}}\left(L+\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial q}\left(L+\lambda\dot{\lambda}+\lambda Q\right)=

=\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)=0

\frac{d}{dt}\frac{\partial L'}{\partial\dot{\lambda}}-\frac{\partial L'}{\partial\lambda}=\frac{d}{dt}\frac{\partial}{\partial\dot{\lambda}}\left(\lambda\dot{\lambda}+\lambda Q\right)-\frac{\partial}{\partial \lambda}\left(\lambda\dot{\lambda}+\lambda Q\right)=\dot{\lambda}-\dot{\lambda}-Q=-Q=0

which reduces to,

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=

=-\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}}-\frac{\partial Q}{\partial q}\right)\qquad\textrm{(ELC.i)}

Q=0\qquad\textrm{(ELC.ii)}

So far, so good. Constraint force happens on the RHS “connected” to the problem via the constant \lambda. The variational equation for \lambda is no other than the constraint equation. The problem is that, if we want to translate this to Hamiltonian language, we have defined a canonical momentum p_{\lambda} being,

p_{\lambda}=\frac{\partial L'}{\partial\dot{\lambda}}=\lambda

This does not vanish identically, though there is no doubt that it cannot be considered as a variable analytically independent from \lambda. In fact, the problem arises even before, when we try to express the velocities as functions of the momenta. Remember H\left(q,p_{q}\right) only makes sense when we can express the velocities in terms of both coordinates and momenta. As \dot{\lambda} has disappeared in the relation that defines the associated canonical momentum, it is not possible to solve. That’s why sometimes you find the observation, without much explanation, (see, e. g., Wikipedia) that it is not possible to use a relation that is linear in \dot{\lambda} for these auxiliary parameters. Why? That’s why.

 

In order to present my method, it is convenient to recall what a variational derivative is. There is practically no book (not at least the best known) in field theory that uses this more general definition of variational derivative. Although physicists in general are blissfully ignorant of this more general definition, I’m sure mathematicians who are well versed in variational calculus are familiar with it. If a Lagrangian depends on an arbitrarily high order of derivatives; L=L\left(q,\dot{q},\ddot{q},\cdots\right) the variational derivative is:

\frac{\delta L}{\delta q}=\frac{\partial L}{\partial q}-\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}+\frac{d^{2}}{dt^{2}}\frac{\partial L}{\partial\ddot{q}}-\cdots=\sum_{n=0}^{\infty}\left(-1\right)^{n}\frac{d^{n}}{dt^{n}}\frac{\partial L}{\partial q^{\left(n\right)}}

The Euler-Lagrange equations for this case generalise to,

\frac{\delta L}{\delta q}=0\qquad\textrm{(G.EL})

which looks simple, but is actually infinitely more complicated, and will be important only to order 2.

 

In our case of interest there are several:

Glitches

1) In a generic system, with both constraints and potential being velocity-dependent, it may be difficult, if not impossible, to express the \dot{q}‘s as functions of the p_{q}‘s

2) f cannot be linear in \dot{\lambda}, otherwise \partial/\partial\dot{\lambda} will kill \dot{\lambda} and we won’t be able to express \dot{\lambda} as a function of p_{\lambda}

3) Should f be independent of \dot{p}_{\lambda}?

Glitch 1) we just have to live with and hope for the best; glitch 2) is solved by observing it and writing a 2\textsuperscript{nd}-order f; and glitch 3) is too pessimistic or only apparent: In fact, I have included it only to prepare the reader who might be surprised by a dependence on \dot{p}_{\lambda}; which, in reality, is not only consistent, but necessary: It is the equations of motion that should not depend on \ddot{\lambda} (o \dot{p}_{\lambda}); as we will see, the Hamiltonian can depend on \dot{p}_{\lambda} and everything goes through. Actually, it must depend on \dot{p}_{\lambda} for the term in \dot{p}_{\lambda} to disappear from the Hamilton equations.

But the real glitch is:

4) The canonical momentum p_{\lambda} is no longer a linear function of the velocities, but it depends on the accelerations! How does that work if p_{\lambda}=\partial L/\partial\dot{\lambda}?

The solution of this is shown next.

 

The idea corrected

These are the steps:

1) Generalise Lagrange’s method by including a total time derivative with the appropriate function f\left(\lambda\right). This function of \lambda must depend at least on a 2\textsuperscript{nd}-order derivative by the time:

L\mapsto L''=L+\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)+\lambda Q

2) Generalise the definition of the variational derivative by \lambda to a dependence in higher orders of time derivation. Order 2 will suffice:

\frac{\delta L''}{\delta\lambda}=\frac{\partial L''}{\partial\lambda}-\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}+\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}

3) Generalise the definition of the canonical momentum associated to coordinate \lambda in a way that completely parallels the extension we have practised on the variational derivative. If,

\frac{d}{dt}f\left(\lambda,\dot{\lambda}\right)=\frac{\partial f}{\partial\lambda}\dot{\lambda}+\frac{\partial f}{\partial\dot{\lambda}}\ddot{\lambda}

then,

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}=

=\frac{\partial f}{\partial\lambda}+\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}\dot{\lambda}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}-\left(\dot{\lambda}\frac{\partial^{2}f}{\partial\lambda\partial\dot{\lambda}}+\ddot{\lambda}\frac{\partial^{2}f}{\partial\dot{\lambda}^{2}}\right)=\frac{\partial f}{\partial\lambda}

Checking that the system so extended satisfies exactly the same Euler-Lagrange equations is easy: as we have only added a total derivative, equations (ELC.i) and (ELC.ii) are the same. The interesting part is prove that the Hamilton formalism goes through:

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+\frac{\partial L''}{\partial\dot{q}}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}+\frac{\partial L''}{\partial t}dt

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}+\frac{\partial H''}{\partial t}dt

p_{\lambda}=\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d}{dt}\frac{\partial L''}{\partial\ddot{\lambda}}

 

Euler-Lagrange:

\frac{\partial L''}{\partial q}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{q}}=\dot{p}_{q}

\frac{\partial L''}{\partial\lambda}=\frac{d}{dt}\frac{\partial L''}{\partial\dot{\lambda}}-\frac{d^{2}}{dt^{2}}\frac{\partial L''}{\partial\ddot{\lambda}}=\dot{p}_{\lambda}

Suppose there is no explicit time dependence (only to simplify):

\frac{\partial L''}{\partial t}=\frac{\partial H''}{\partial t}=0

The proof that goes next is somewhat tedious; if you are bored, go directly to the example next in order to convince yourself that everything really works. The proof completely parallels the deduction I gave of the Hamilton eqs. from the Euler-Lagrange ones. From,

dL''=\sum_{q}\left(\frac{\partial L''}{\partial q}dq+p_{q}d\dot{q}\right)+\frac{\partial L''}{\partial\lambda}d\lambda+\frac{\partial L''}{\partial\dot{\lambda}}d\dot{\lambda}+\frac{\partial L''}{\partial\ddot{\lambda}}d\ddot{\lambda}

it’s not hard to prove,

dH''=\sum_{q}\dot{q}dp_{q}+\dot{\lambda}dp_{\lambda}-\sum_{q}\frac{\partial L''}{\partial q}dq-\frac{\partial L''}{\partial\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)

Equating this to,

dH''=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

we obtain,

\sum_{q}\left(\dot{q}dp_{q}-\dot{p}_{q}dq\right)+\dot{\lambda}dp_{\lambda}-\dot{p}_{\lambda}d\lambda-\frac{d}{dt}\left(\frac{\partial L''}{\partial\ddot{\lambda}}d\dot{\lambda}\right)=

=\sum_{q}\left(\frac{\partial H''}{\partial q}dq+\frac{\partial H''}{\partial p_{q}}dp_{q}\right)+\frac{\partial H''}{\partial\lambda}d\lambda+\frac{\partial H''}{\partial p_{\lambda}}dp_{\lambda}

That is, Hamilton’s eqs. are satisfied:

\frac{\partial H''}{\partial q}=-\dot{p}_{q}\qquad\textrm{(HE.i)}

\frac{\partial H''}{\partial p_{q}}=\dot{q}\qquad\textrm{(HE.ii)}

\frac{\partial H''}{\partial\lambda}=-\dot{p}_{\lambda}\qquad\textrm{(HE.iii)}

\frac{\partial H}{\partial p_{\lambda}}=\dot{\lambda}\qquad\textrm{(HE.iv)}

\frac{\partial L''}{\partial\ddot{\lambda}}=0\qquad\textrm{(HE.v)}

The most important part by far on the previous equations is that the canonical momentum p_{\lambda} is not identically zero, neither it is a simple function of \lambda coordinates. Its vanishing is deduced later, as a consequence of the evolution equations, so that it is an independent variable and the system can be endowed with a Hamiltonian structure.

 

Example

L=\frac{1}{2}m_{1}\dot{q_{1}}^{2}+\frac{1}{2}m_{1}\dot{q_{1}}^{2}-V\left(q_{1},q_{2}\right)

Q\left(q_{1},q_{2}\right)=0

The Hamiltonian is,

H''=p_{q_{1}}\dot{q}_{1}+p_{q_{2}}\dot{q}_{2}+p_{\lambda}\dot{\lambda}-L''=

=p_{q_{1}}\frac{p_{q_{1}}}{m_{1}}+p_{q_{2}}\frac{p_{q_{2}}}{m_{2}}+p_{\lambda}^{2}-\frac{p_{q_{1}}^{2}}{2m_{1}}-\frac{p_{q_{2}}^{2}}{2m_{2}}-p_{\lambda}^{2}-\lambda\dot{p}_{\lambda}-\lambda Q+V=

=\frac{p_{q_{1}}^{2}}{2m_{1}}+\frac{p_{q_{2}}^{2}}{2m_{2}}-\lambda\dot{p}_{\lambda}-\lambda Q+V

The 1\textsuperscript{st} pair of Hamilton eqs. for the q‘s is of the form (\partial_{q}H''=-\lambda\partial_{\dot{q}}Q+\partial_{q}V):

-\lambda\frac{\partial Q}{\partial\dot{q_{i}}}+\frac{\partial V}{\partial q_{i}}=-\dot{p}_{q_{i}},\: i=1,2

coinciding with,

\frac{d}{dt}\frac{\partial L}{\partial\dot{q}_{i}}-\frac{\partial L}{\partial q_{i}}+\lambda\left(\frac{d}{dt}\frac{\partial Q}{\partial\dot{q}_{i}}-\frac{\partial Q}{\partial q_{i}}\right)=0\Rightarrow\dot{p}_{q_{i}}+\frac{\partial V}{\partial q_{i}}-\lambda\frac{\partial Q}{\partial q_{i}}=0

And the 2\textsuperscript{nd} (\partial_{p_{q}}H''=p_{q}/m):

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2

Those for \lambda, next. 1\textsuperscript{st} (\partial_{\lambda}H''=-\dot{p}_{\lambda}-Q):

-\dot{p}_{\lambda}-Q=-\dot{p}_{\lambda}

2\textsuperscript{nd}(\partial_{p_{\lambda}}H''=0):

0=\dot{\lambda}

Regrouping all Hamilton eqs. for the constrained system, we have,

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial q_{i}}-\frac{\partial V}{\partial q_{i}},\: i=1,2\qquad\textrm{(E.i)}

\frac{p_{q_{i}}}{m_{i}}=\dot{q}_{i},\: i=1,2\qquad\textrm{(E.ii)}

Q=0\qquad\textrm{(E.iii)}

\dot{\lambda}=0\qquad\textrm{(E.iv)}

 

What About the Poisson Brackets?

Does all of this work for Poisson brackets? Yes, it does. Let’s see how. Remember that, from the beginning, the equations to be recovered are (E.i)-(E.iv). We omit now the bothersome index i in q_{i} (both q‘s satisfy analogous equations):

 

\dot{q}=\left\{ q,H''\right\} _{P}=\left\{ q,\frac{p_{q}^{2}}{2m}\right\} _{P}=2\frac{1}{2m}\left\{ q,p_{q}\right\} _{P}p_{q}=\frac{p_{q}}{m}

\dot{p}_{\lambda}=\left\{ p_{\lambda},H''\right\} _{P}=\left\{ p_{\lambda},-\lambda\dot{p}_{\lambda}\right\} _{P}-\left\{ p_{\lambda},\lambda Q\right\} _{P}=\dot{p}_{\lambda}+Q\Rightarrow Q=0

\dot{\lambda}=\left\{ \lambda,H''\right\} _{P}=\left\{ \lambda,-\lambda\dot{p}_{\lambda}\right\} _{P}+\left\{ \lambda,-\lambda Q\right\} _{P}=-\lambda\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P} is zero because:

\left\{ \lambda,p_{\lambda}\right\} _{P}=1\Rightarrow\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}+\left\{ \dot{\lambda},p_{\lambda}\right\} _{P}=\left\{ \lambda,\dot{p}_{\lambda}\right\} _{P}=0

The last equation is,

\dot{p}_{q}=\left\{ p_{q},H''\right\} _{P}=\left\{ p_{q},\frac{p_{q}^{2}}{2m}\right\} _{P}+\left\{ p_{q},-\lambda Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=

=-\lambda\left\{ p_{q},Q\right\} _{P}+\left\{ p_{q},V\left(q\right)\right\} _{P}=\lambda\frac{\partial Q}{\partial q}-\frac{\partial V}{\partial q}

Consequently:

m_{i}\dot{q}_{i}=p_{q_{i}}

\dot{p}_{q_{i}}=\lambda\frac{\partial Q}{\partial q_{i}}-\frac{\partial V}{\partial q_{i}}

Q=0

\dot{\lambda}=0

 

Conclusion: Hamilton’s method for systems with constraints can be used. The price to pay is generalising the variational derivative with respect to the Lagrange multiplier to higher orders of time derivation and extending in close analogy the definition of the associated canonical momentum.

Uncertainty Principle for the Anti-commutator

July 7, 2013

Recently I’ve sent a paper to PRL which is now under appeal. It claims that anti-commutators generate further constraints to observable dispersion that have to be appended to those well known from the standard uncertainty principle for the commutator. Here’s the traditional statement in its general form:

\Delta_{\left|\psi\right\rangle }A\,\Delta_{\left|\psi\right\rangle }B\geq\frac{1}{2}\left|\left\langle \psi\left|i\left[A,B\right]\right|\psi\right\rangle \right|

Now, any pair of Hermitian operators obviously generate both a commutator and an anti-commutator. If one generalises the proof by Robertson by constructing,

x\left(\lambda\right)\overset{{\scriptstyle \textrm{def}}}{=}\left\Vert \left(A'+\lambda B'\right)\left|\psi\right\rangle \right\Vert ^{2}\geq0

with \lambda real, one gets,

\triangle_{\left|\psi\right\rangle }A\:\triangle_{\left|\psi\right\rangle }B\geq\frac{1}{2}\left|\left\langle AB+BA\right\rangle _{\left|\psi\right\rangle }-2\left\langle A\right\rangle _{\left|\psi\right\rangle }\left\langle B\right\rangle _{\left|\psi\right\rangle }\right|

The consequences are almost always immaterial, as the new constraint does not make uncertainty worse than that already implied in the commutator. But in my proposed paper I apply this to the spin singlet state, which is one of the interesting cases where the anti-commutator makes things significantly worse for determining the variables (more uncertainty). It is interesting to apply it to this case: Imagine you have a particle with a certain wave function in the localisation variable x and the corresponding probability density \left|\psi\left(x\right)\right|^2. Now consider the following pair of discrete localisation observables: E_1; E_2; E_1E_2=0; E_1+E_2=I. They trivially anticommute (in fact they also commute, they do not “connect”, as their product is identically zero!). Because they commute, the standard uncertainty principle leads to \Delta_{\left|\psi\right\rangle }E_1\,\Delta_{\left|\psi\right\rangle }E_2\geq 0, which is devoid of any content. But because they also anti-commute, the anti-commutator gives something very different,

\triangle_{\left|\psi\right\rangle }E_{1}\:\triangle_{\left|\psi\right\rangle }E_{2}\geq\left|\left\langle E_{1}\right\rangle _{\left|\psi\right\rangle }\left\langle E_{2}\right\rangle _{\left|\psi\right\rangle }\right|

which means that the dispersions of localising a particle inside and outside of a region can never improve the constraint given by the product of the “inside” and “ouside” probability. The worst-case scenario is when p\left(E_1\right)=p\left(E_2\right)=1/2, which is the maximum of \epsilon\,\left(1-\epsilon\right).

Una ilusión aprendida

May 15, 2013

La ciencia nos enseña en numerosas ocasiones que ciertos mecanismos que la Naturaleza utiliza resultan en la creación de una ilusión, de una ficción, que después es muy difícil disolver en nuestra mente. La evolución de las especies, por ejemplo, se produce porque una especie extiende su territorio, después las condiciones que favorecen su crecimiento se hacen menos favorables, y los territorios se contraen dejando “bolsas aisladas” de población que ya no tienen intercambio genético. Las condiciones locales y la accidentalidad de todos los fenómenos hacen que cuando las dos especies se vuelven a encontrar (si es que ocurre así), lo hagan ya como especies distintas. Este mecanismo, en el cual intervienen las leyes de la probabilidad (que es lo único en lo que consiste la adaptación, no en mejorar nada, sino en adaptar según condiciones locales) tiene como resultado generar una ilusión de diseño asombrosa.

Otro ejemplo curioso es el de la concepción intuitiva que nos formamos del espacio tiempo y que resulta en la ilusión de simultaneidad. Einstein, Lorentz y Poincaré se encargaron de demostrar que la simultaneidad carece de contenido físico objetivo.

Menciono estos dos ejemplos porque me parecen típicos en el siguiente aspecto: Una ley natural produce una ficción asombrosa que, una vez analizada, se demuestra eso; que era una pura ficción.

En mi opinión la mecánica cuántica produce una ficción, pero que es de una naturaleza muy diferente; se trata de la ficción de no localidad. La diferencia primordial es que para desarrollar esta ilusión uno tiene que estudiar mecánica cuántica, ¿no es peculiar esto?

Y hablando de ilusiones y ficciones, dejadme concebir otra ilusión (y un pequeño espacio para la autopromoción) y es que me publiquen en Reviews of Modern Physics mi penúltima reflexión cuántica. Se trata de convencer a alguien, clamando en el desierto, de que la no localidad cuántica es eso, puramente ficticia.

Este es el pre-print, si os interesa:

UPAC

GHZ exposed

August 4, 2012

In one of my previous quantum pet peeves I said that,

GHZM produces exact correlations for three compatible variables, so it remains within a context that Bell was very careful to set apart: the possibility that correlations come from the common origin of the composite system’s parts.

I’ve been thinking about this question for a while in these terms: What kind of observable is this GHZ? If, as I believe, it’s trivial, wouldn’t it be a function of some completely obvious observable which is in turn a function of some of the regular, classically interpretable integrals of motion, as energy, angular momentum, etc.? If that were the case, as I argued back then, the whole GHZ question would be but a monumental red herring, revealing nothing that a purely classical argument couln’t explain.

At first I was thinking about some kind of parity (although we must be careful with parity proper, as it is not a universally conserved quantity, and it is precisely spin-1/2 particles the ones that come in maximally parity-violating multiplets in the SM.) As we know, the GHZ observable (as modified by Mermin) is the product of the respective x components of spin for three spin-1/2 particles:

\sigma_x\otimes\sigma_x\otimes\sigma_x

This observable is identically -1 for the 3-particle system. Recall that the GHZ state is:

\left|\psi\right\rangle =\frac{1}{\sqrt{2}}\left(\left|\uparrow\uparrow\uparrow\right\rangle -\left|\downarrow\downarrow\downarrow\right\rangle \right)

It seems to suggest some kind of overall parity for the 3-particle system, right? The particles would have to somehow communicate at a distance (that’s the blind alley the classical thinking gets into, as the argument goes) the value of the  x projection of their spin in order for this “overall parity” to yield -1 in every occurrence with zero disperssion.

Wrong guess!: The GHZ observable is a trivial function of the overall spin angular momentum of the 3-particle system. Let’s check. But first, let’s announce:

Lemma:

\sigma_{x}^{\left(1\right)}\sigma_{x}^{\left(2\right)}\sigma_{x}^{\left(3\right)}=\frac{1}{6}\left(\sigma_{x}^{\left(1\right)}+\sigma_{x}^{\left(2\right)}+\sigma_{x}^{\left(3\right)}\right)^{3}-\frac{7}{6}\left(\sigma_{x}^{\left(1\right)}+\sigma_{x}^{\left(2\right)}+\sigma_{x}^{\left(3\right)}\right)\label{eq:GHZMidentity}

Where we have used the abridged notation: \sigma_{x}^{\left(1\right)}\overset{\textrm{def}}{=}\sigma_x\otimes I \otimes I, etc.

Re-phrasing of lemma: The GHZ observable is a polynomial of the overall spin angular momentum: \sigma_{x}^{\left(1\right)}\sigma_{x}^{\left(2\right)}\sigma_{x}^{\left(3\right)}=p\left(S_x\right), with p a boring cubic polynomial.

Proof:

Let us call: A\overset{\textrm{def}}{=}\sigma_x\otimes I\otimes I ; B\overset{\textrm{def}}{=}I\otimes \sigma_x\otimes I; C\overset{\textrm{def}}{=}I\otimes I\otimes \sigma_x.

Expand now \left(A+B+C\right)^3 by means of Newton’s bynomial formula (keep in mind that A, B y C all commute),

\left(A+B+C\right)^3=A^3+B^3+C^3+3A^2B+3AB^2+3A^2C+

+3B^2C+3AC^2+3BC^2+6ABC

Noticing that A^2=B^2=C^2=I,

6ABC={S_x}^3-7S_x

Which is exactly what we set out to prove.

Moral (corollary, upshot): GHZ may seem to be measuring something misterious, some kind of invisible correlation between the particles. Not so!: It amounts to an observable that, although it’s not completely obvious, it’s not completely intricate either, and is a function of the system’s overall spin.

Observations

OBS_1: The proof is extremely simple. Quite another matter is to realise what it implies. I am perverted enough by experience to realise that for those who stick to the bitter end that quantum mechanics must be formulated as something essentially unintelligible, where indeterminism is posed axiomatically, instead of stemming from some reasonable or explanatory principle, this argument will seem opaque.

OBS_2 (This is a purely sociological observation): An argument like this would never be accepted within the scientific community. One thing is accepting that a certain guess (as could have happened with inflation, the Higgs; or it actually has been the case with the extra dimensions, etc.) has not been confirmed by observation (hard luck, what can I say; we’ll keep on guessing our best); and quite another thing is to make a spectacular step back: A problem that I declared solved has turned out to be not that settled. This requires a change of standing that would be impossible to assume with dignity.

My old song and dance: Trying to understand quantum mechanics with tangible, mathematically fashioned, logically consistent arguments, as free as possible from prejudices that could wash away with a simple change of focus. I wish myself luck.

El GHZ desenmascarado

August 4, 2012

En una de mis pataletas cuánticas anteriores (no sé cómo demonios traduciré esto al inglés para hacerlo más internacional) decía que:

GHZM reproduce correlaciones exactas para tres variables compatibles, y por tanto se queda dentro del contexto que Bell fue muy cuidadoso en discernir: posibilidad de que las correlaciones provengan del origen común de las partes del sistema compuesto.

Llevo tiempo pensando en esta cuestión en estos términos: ¿Qué tipo de observable es este GHZ? Si, como pienso, es trivial, ¿no será función de algún observable absolutamente obvio función de una de las integrales típicas clásicamente interpretables, como la energía, el momento angular, etc.? Si así fuera, como yo argumentaba entonces, toda la cuestión GHZ sería una monumental nube de humo que no revela nada que una argumentación puramente clásica no pueda explicar.

Al principio yo pensaba en algún tipo de paridad (aunque con la paridad hay que tener cuidado, ya que no es una cantidad conservada de forma universal, y precisamente las partículas de espín 1/2 vienen en en el ME en multipletes que violan máximamente la paridad). Como se sabe el observable GHZ (modificado por Mermin) es el producto de las componentes x respectivas del espín de tres partículas de espín 1/2:

\sigma_x\otimes\sigma_x\otimes\sigma_x

Este observable es idénticamente -1 para el conjunto de las tres partículas. Recuérdese que el estado GHZ es:

\left|\psi\right\rangle =\frac{1}{\sqrt{2}}\left(\left|\uparrow\uparrow\uparrow\right\rangle -\left|\downarrow\downarrow\downarrow\right\rangle \right)

Parece sugerir una especie de paridad conjunta del agregado de tres partículas, ¿verdad? De alguna manera las partículas se comunicarían a distancia (ese es el callejón sin salida al que pretende llevarse el razonamiento en términos clásicos) el valor de la proyección x de su espín para que esta “paridad” conjunta valiese -1 en todos los casos con dispersión cero.

¡Intuición incorrecta!: El observable GHZ es una función trivial del momento angular de espín total del sistema de tres partículas. Veámoslo. Pero para ello, primero anunciémoslo:

Lema:

\sigma_{x}^{\left(1\right)}\sigma_{x}^{\left(2\right)}\sigma_{x}^{\left(3\right)}=\frac{1}{6}\left(\sigma_{x}^{\left(1\right)}+\sigma_{x}^{\left(2\right)}+\sigma_{x}^{\left(3\right)}\right)^{3}-\frac{7}{6}\left(\sigma_{x}^{\left(1\right)}+\sigma_{x}^{\left(2\right)}+\sigma_{x}^{\left(3\right)}\right)\label{eq:GHZMidentity}

Donde se ha usado una notación resumida: \sigma_{x}^{\left(1\right)}\overset{\textrm{def}}{=}\sigma_x\otimes I \otimes I, etc.

Refraseo del lema: El observable GHZ es un polinomio del momento angular de espín total: \sigma_{x}^{\left(1\right)}\sigma_{x}^{\left(2\right)}\sigma_{x}^{\left(3\right)}=p\left(S_x\right), con p un vulgar polinomio cúbico.

Demostración:

Llamemos: A\overset{\textrm{def}}{=}\sigma_x\otimes I\otimes I ; B\overset{\textrm{def}}{=}I\otimes \sigma_x\otimes I; C\overset{\textrm{def}}{=}I\otimes I\otimes \sigma_x.

Desarrollemos \left(A+B+C\right)^3 usando el binomio de Newton (téngase presente que A, B y C conmutan):

\left(A+B+C\right)^3=A^3+B^3+C^3+3A^2B+3AB^2+3A^2C+

+3B^2C+3AC^2+3BC^2+6ABC

Observando que A^2=B^2=C^2=I:

6ABC={S_x}^3-7S_x

Que es exactamente lo que queríamos demostrar.

Moraleja (corolario, upshot): El GHZ parece estar midiendo algo misterioso, una especie de correlación invisible entre las partículas. ¡No tal!: Se trata de un observable no completamente obvio, pero tampoco extremadamente complejo que está dado por el espín total del sistema.

Observaciones

OBS_1: La demostración es extremadamente simple. Otra cuestión es darse cuenta de lo que esto implica. Estoy lo suficientemente maleado por la experiencia para darme cuenta de que si uno se aferra a que la mecánica cuántica debe formularse de una forma incomprensible, donde la indeterminación nos viene impuesta axiomáticamente, y no de forma razonada y demostrable, este argumento les va a resultar absolutamente opaco.

OBS_2 (Esta observación es puramente sociológica): Este argumento nunca sería aceptado en la comunidad científica. Una cosa es aceptar que una conjetura que uno ha hecho (como podría haber ocurrido con la inflación, el Higgs; o así ha sido con las dimensiones extra, etc.) no es confirmada por las observaciones (mala suerte, qué le vamos a hacer; seguiremos buscando); y otra muy distinta es dar un espectacular paso atrás: Un problema que yo afirmé resuelto, en realidad no lo estaba. Esto requiere un cambio de postura que a muchos se les haría imposible asumir con dignidad.

Yo sigo en lo mío: Intentar comprender la mecánica cuántica con argumentos lógicamente consistentes, tangibles, matemáticamente formulables y exentos de prejuicios que podrían caer con un simple cambio de enfoque. Me deseo suerte.