4 votos

Nociones de diferenciación matricial

Hay un par de estándar nociones de la matriz de derivados, por ejemplo,

  • Si f es una función definida en las entradas de una matriz de Una, entonces se puede hablar de la matriz de derivadas parciales de f.
  • Si las entradas de una matriz son todas las funciones de un escalar x, entonces tiene sentido hablar de la derivada de la matriz como la matriz de los derivados de las entradas.

En el segundo caso, tiene sentido hablar de derivadas de orden mayor, pero en el primer ejemplo la derivada proporciona una matriz a partir de una función escalar, así que tienes que masajear un poco para definir un orden superior derivadas (por ejemplo, la traza de la matriz resultante).

Me preguntaba qué otros conceptos de la matriz de diferenciación puede existir ahí fuera y, en particular, las nociones que permiten una mayor orden de la diferenciación. Yo también estoy interesado en cualquier conexiones entre las diversas formas de la matriz de derivados. Como esto está relacionado con un título de proyecto de investigación, yo soy su mayor parte en busca de respuestas que incluyen un mínimo de avanzada de la terminología, pero una discusión de cómo los conceptos más generales (por ejemplo, formas diferenciales, matriz de exponenciales, etc.) se refieren a la matriz de derivados también sería útil.

7voto

John Topley Puntos 58789

Hay otra interpretación de Eliseo pregunta que creo que aún no ha sido abordado: ¿Cómo, y en qué medida, se puede hacer el cálculo diferencial funcional con las expresiones de las matrices cuadradas? Por ejemplo, ¿cómo se diferencian $\exp(A)$, que se define para todas las matrices cuadradas $A$?

Hay una buena respuesta a esta pregunta para polinomios y una mejor respuesta para el seguimiento de un polinomio univariado. Ambos de estas buenas respuestas se extienden automáticamente a funciones analíticas $f(z)$ evaluados en matrices por medio de su serie de Taylor. (Que incluye, por supuesto, la exponenciación.) Me gusta escribir la respuesta en términos de diferenciales. El diferencial de matrices $A$, $B$, etc., es $dA$, $dB$, etc., que usted puede tomar para significar que las matrices no se especifican las funciones de algún parámetro ficticio $t$, e $dA$ que representa a la formal numerador de la matriz de valores derivado $dA/dt$.

En este formalismo, la regla de Leibniz aún se mantiene, siempre y cuando se recuerde que la multiplicación de matrices no es conmutativa: $d(AB) = (dA)B + A(dB)$. En efecto, las matrices realmente no necesita ser cuadrado. La suma regla es trivialmente. El poder negativo de la regla tiene una creatividad respuesta correcta: $d(A^{-1}) = A^{-1}(dA)A^{-1}$. Luego puede diferenciar exponenciación: $$d\exp(A) = dA + \frac{(dA)A + A(dA)}2 + \frac{(dA)A^2 + A(dA)A+A^2(dA)}6 + \cdots.$$ Como se puede ver en este ejemplo, se puede diferenciar una potencia de la serie, pero nada todo lo que un gran sucede porque $dA$ podría no conmuta con $A$. Sin embargo, si estás calculando la diferencia de $\mathrm{Tr}(f(A))$, algo muy bonito que pasa: Usted puede cíclicamente permutar cada término de la diferencian de alimentación de la serie para poner $dA$ al final. Así, se obtiene la fórmula muy agradable $$d\mathrm{Tr}(f(A)) = \mathrm{Tr}(f'(A)dA).$$ Sólo he derivados de esta fórmula al $A$ se encuentra en el radio de convergencia de la serie de Taylor de $f$. Sin embargo, por la continuidad se aplica en general al $f(A)$ $f'(A)$ están bien definidos. (Por ejemplo, si $A$ $dA$ son reales simétricas o Hermitian, entonces es suficiente para $f$ a existir como una función real y tiene una continua derivado cerca de los autovalores de a $A$.)

Más de derivados básicamente de la misma manera como primer derivados. De nuevo, usted debe tomar la $A$ a ser una función de un parámetro ficticio $t$. Para obtener la más simple de las expresiones para las derivadas mayores, usted debe asumir que el $A$ es una función lineal de $t$ (incluyendo una constante). A continuación, por ejemplo: $$d^2\exp(A) = (dA)^2 + \frac{(dA)^2A + (dA)A(dA) + A(dA)^2}3 + \cdots.$$ La traza de este se ve bien a primera, pero el término cuadrático en $A$ ambos $\mathrm{Tr}((dA)^2A^2)$$\mathrm{Tr}((A(dA))^2)$, y no creo que el resto del trazado serie de Taylor simplifica la forma en que lo hizo para la primera derivada.

Una observación final: Todo esto funciona mejor para las funciones de $f(x)$ que son de entera (en el sentido de análisis complejo, es decir, una infinita radio de convergencia). Una de las definiciones de una función es uno cuya serie de Taylor se desintegra superexponentially, y esto también es una buena condición para un no-conmutativa multivariante de series de Taylor, en el sentido de que se reunirán para cualquier matrices que se conecte.

5voto

Tom Au Puntos 4852

Ya que dice que está haciendo un proyecto de investigación de pregrado, creo que el siguiente documento, The Matrix Cookbook , podría ser útil para usted. Hay toda una sección dedicada a los cálculos de derivados de matriz. No hay matemáticas profundas, pero es una gran referencia.

2voto

liho1eye Puntos 81

Consulte el capítulo sobre derivados de matriz en "Some Eclectic Matrix Theory" por Kenneth S. Miller (1987, Robert E. Krieger Publishing Company). Tiene una elegante formulación que permite derivados de orden superior, etc., y maneja el caso df (X) / dX donde f (X) y X son matrices al hacer que el resultado también sea una matriz.

2voto

nicV Puntos 71

Para mí, la mejor manera de pensar acerca de la matriz de diferenciación es como un caso especial de la diferenciación real o complejo de espacios vectoriales. En esta respuesta, me quedo con espacios vectoriales reales, debido a que el complejo caso podría haber sutilezas no soy consciente de. La definición que voy a presentar no puede ser equivalente a la de definición estándar (dado por Harald Hanche-Olsen), pero creo que es al menos moralmente correcto, y me parece muy útil en la práctica. Correcciones para hacerlo más riguroso sería bienvenida!

[Edit: Harald Hanche-Olsen me ha permitido saber que si se le cae la linealidad y el acotamiento de la condición de mi definición, se obtiene la Gâteaux derivados. De ello se desprende que la derivada he definido es no equivalente al derivado del estándar, el Fréchet derivados, debido a que una función puede tener un lineal de Gâteaux derivado incluso si el Fréchet derivada no existe. Si el Fréchet derivada no existe, sin embargo, la Gâteaux derivado también existe, y es igual a la Fréchet derivados.]

Sin más preámbulos, vamos a $E$ ser un verdadero espacio vectorial, y deje $F$ ser un verdadero espacio de Banach. (En el primer ejemplo que usted ha mencionado, $E$ sería el conjunto de $n \times m$ matrices, y $F$ sería de reales. En el segundo ejemplo, $E$ sería de reales, y $F$ $n \times m$ matrices con una adecuada norma---tal vez el uniforme de la norma?) Queremos definir la derivada de una función $f \colon E \to F$. Para cada punto de $x \in E$, vamos a $df_x \colon E \to F$ ser la función

$$df_x(v) = \frac{d}{d\epsilon} f(x + \epsilon v)|_{\epsilon = 0},$$

donde $\epsilon$ es un número real. Si esta función existe y es lineal, se llama la derivada de $f$$x$. (En realidad, si $F$ es de dimensiones infinitas, también tenemos que exigir que se $df_x$ ser acotada. Si $F$ es finito-dimensional, cada lineal mapa en $F$ es acotado, por lo que no tiene que preocuparse acerca de esto. Véase la nota de pie de página para obtener más detalles.)

Me gusta esta definición porque pone de relieve el hecho de que $df_x(v)$ es la derivada direccional de $f$ a lo largo de $v$. Si quieres trabajar con derivadas parciales, usted puede recoger una base $e_{1}, e_{2}, e_{3} \ldots$ $E$ y definen $\partial_i f(x) = df_x(e_i)$. Se desprende de la linealidad de la condición de que

$$df_x(\beta_{1} e_{1} + \ldots + \beta_{n} e_{n}) = \beta_{1} \partial_{1} f(x) + \ldots + \beta_{n} \partial_{n} f(x).$$

Lo que por el aumento de los derivados? De nuevo, Harald Hanche-Olsen ha dado la definición estándar, y que la definición funcionará con cualquier definición de la derivada primera. Sin embargo, me da un poco de squitchy pensamiento acerca de la función anidada espacios como $B(E, B(E, B(E, F)))$. Me gustaría que hubiera una manera mejor! Intuitivamente, lo que quieres es que la segunda derivada sea algo como esto:

$$d^{2} f_{x}(v_{1}, v_{2}) = \frac{d}{d\epsilon_{1}} \frac{d}{d\epsilon_{2}} f(x + \epsilon_{1} v_{1} + \epsilon_{2} v_{2})|_{\epsilon_{1} = \epsilon_{2} = 0},$$

con, por supuesto, las condiciones de la existencia, bilinearity, y acotamiento. (Usted también podría tener que exige de manera explícita la simetría en los argumentos de $v_{1}$$v_{2}$.) Yo estaría muy interesado en saber si (o bajo qué condiciones), esta definición es equivalente a la norma! De hecho, yo podría incluso hacer una pregunta al respecto...


Nota de pie de página

Ser minucioso, que debo decir, como el derivado de la

$$\frac{d}{d\epsilon} f(x + \epsilon v)|_{\epsilon = 0}$$

se define! Es habitual que derivado de la introducción de análisis:

$$\frac{d}{d\epsilon} f(x + \epsilon v) |_{\epsilon = 0} = \lim_{\epsilon \to 0} \frac{1}{\epsilon}[f(x + \epsilon v) - f(x)].$$

La noción de un límite bien definido (aunque el límite es que no se garantiza que existe) porque $F$, siendo un espacio de Banach, se presenta una topología de su norma.

p.s. Lo siento por el Látex! Te juro que trabajan en la vista previa.

2voto

Flávio Amieiro Puntos 5872

En el primer caso, no hay ninguna dificultad en el trabajo con los más altos derivados. Todo lo que tienes es una función de $f$ $n^2$ variables $a_{ij}$, y usted puede formar y trabajar con derivados de tipo de $\partial^3f/\partial a_{12}\partial a_{23}\partial a_{34}$ con abandono imprudente. No dejes que el doble de los índices de preocupación.

Un enfoque más abstracto sería considerar la posibilidad de mapas entre dos finito dimensionales espacios, o más en general, los espacios de Banach. Si $f\colon E\to F$ es un mapa entre dos de tales espacios y$x\in E$$f'(x)$, si es que existe, es un delimitada lineal mapa, $f'(x)\in B(E,F)$, por lo que el$f(x+h)=f(x)+f'(x)h+o(\|h\|)$$h\in E$$\|h\|\to0$. Desea mayor deriviatives? Bien, $f'\colon E\to B(E,F)$, por lo que podemos emplear la definición de nuevo y obtener un doble derivado $f''(x)\in B(E,B(E,F))$. Y así sucesivamente. En realidad, $B(E,B(E,F))$ se identifica mejor con el espacio delimitado bilineal mapas de $E\times E\to F$, y la igualdad de la mezcla de las derivadas parciales se convierte en la simetría de $f''(x)$ en sus dos variables. Quería mantener esto simple, así que voy a mantener el tensor de productos fuera de él por ahora.

(Rápida adición: se me olvidó mencionar que, por supuesto, el espacio de $n\times n$ matrices pueden estar en cualquiera de los espacios $E$, $F$. También, si usted trabaja con finito de espacios dimensionales sólo usted puede eliminar la palabra "limitada" siempre que aparece más arriba).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: