Feeds:
Posts
Comentários

Archive for the ‘math.DS’ Category

O post (bem curto) de hoje traz os slides (disponiveis nesse link aqui) de uma palestra que eu farei hoje na UFRJ (em razao do seminario EDAI) a convite do meu amigo Jairo Bochi. De modo resumido, os slides discutem o uso (por V. Delecroix, P. Hubert e S. Lelievre) dos expoentes de Lyapunov do chamado cociclo de Kontsevich-Zorich no estudo das taxas de difusao de trajetorias no modelo do vento nas arvores de Ehrenfest (uma proposta de modelo para os chamados gases de Lorenz). Espero que voces gostem da leitura! Ate a proxima!

Read Full Post »

Para os interessados, os slides da minha palestra (sobre superfícies quadriculadas) no I Colóquio de Matemática da Região Nordeste estão disponíveis aqui.

Read Full Post »

Continuando a série de discussões “nostalgicas” (vide este post aqui) sobre temas interessantes vistos durante meu mestrado e doutorado no IMPA, falaremos hoje acerca da prova do teorema de Alhfors e Bers (também conhecido como a versão mensuravel do teorema da aplicação conforme de Riemann). A escolha deste topico tem duas razões:

  • este resultado é a pedra angular da chamada teoria de Teichmüller (a qual conta com inumeras aplicações em Analise, Geometria e Dinâmica Complexa);
  • a prova deste resultado fornecida abaixo (baseada no excelente livro “Teichmüller Theory, vol.1” de John Hubbard) mostra dois principios matematicos extremamente importantes: a técnica de complexificação de um problema envolvendo objetos analiticos reais e a redução de EDPs particulares em EDOs.

De fato, até pouco tempo atras, a unica prova que eu conhecia do teorema de Alhfors e Bers era a demonstração original (exposta no livro “Lectures on Quasiconformal Mappings” de L. Alhfors) baseada em uma analise refinada de uma EDP conhecida como “equação de Beltrami”. Enquanto que a prova original fornece mais informações ao fim do argumento, eu acredito que um resultado desse calibre deveria ter uma demonstração mais simples (mesmo sacrificando os fatos extras) para que possamos apreciar melhor o seu conteudo. Felizmente, por acaso, eu cruzei com o livro de John Hubbard onde uma prova simples é oferecida. Logicamente, os fatos técnicos obtidos por L. Ahlfors no curso de sua exposição certamente possuem varias aplicações (e por isso ela deve ser lida ao menos uma vez), mas essa prova mais simples possui as qualidades da brevidade e elegância, além dela se apoiar sobre dois principios fundamentais em Matematica (por isso ela é bem instrutiva).

Para fechar esta introdução, deixe-me lembrar que esses dois principios indicados acima (complexificação e redução de EDPs a EDOs) são ferramente uteis em diversos ramos da Matematica: por exemplo, a técnica de complexificação foi utilizada em dinâmica para entender a familia quadratica (a qual vista do ponto de vista real apresenta um comportamento intrincado, o qual so e propriamente apos uma complexificação levando ao conjunto de Mandelbrot) e a redução de EDPs a EDOs permite encontrar os chamados “solitons” para certas EDPs oriundas da Fisica.

Enunciado e motivação do teorema de Ahlfors e Bers

Durante os cursos de Analise Complexa normalmente encontramos (como um dos topicos do final da disciplina) o teorema da aplicação conforme de Riemann:

Teorema da aplicação conforme de Riemann. Seja U\subset\mathbb{C} um dominio aberto simplesmente conexo, U\neq\mathbb{C}. Então, existe uma aplicação biholomorfa f:U\to\mathbb{D} entre U e o disco unitario \mathbb{D}. Mais ainda, a aplicação f é “unica” no seguinte sentido: qualquer outro biholomorfismo g:U\to\mathbb{D} pode ser obtido de f por composição com uma transformação de Möbius h:\mathbb{D}\to\mathbb{D}, i.e., g=h\circ f.

Em outras palavras, este teorema de Riemann diz que o disco unitario \mathbb{D} é “moralmente” o unico dominio simplesmente conexo propriamente contido em \mathbb{C} (a menos de biholomorfismos).

Algum tempo mais tarde, vemos nos cursos de superficies de Riemann a seguinte “continuação” (altamente não trivial) do teorema da aplicação de Riemann:

Teorema de Uniformização de Riemann. Toda superficie de Riemann M simplesmente conexa é biholomorfa a um (e somente um) dos seguintes modelos:

  • a esfera de Riemann \overline{\mathbb{C}}:=\mathbb{C}\cup\{\infty\},
  • o plano complexo \mathbb{C} ou
  • o disco unitario \mathbb{D}.

Vagamente falando, uma prova (analitica) do teorema de uniformização (devida a Koebe e Poincaré) consiste em mostrar que uma superficie de Riemann M simplesmente conexa e biholomorficamente distinta de \overline{\mathbb{C}} e \mathbb{C} admite uma aplicação holomorfa injetiva M\to \mathbb{C} (i.e., M pode ser mergulhada dentro do plano complexo). Basicamente isso envolve argumentos intricados de analise de EDPs (em particular, o estudo de funções harmonicas, estimativas de Harnack, o principio de Perron para sub e super soluções, etc.).  Em seguida, o teorema de uniformização é obtido do teorema da aplicação conforme: com efeito, a imagem de M dentro de \mathbb{C} é um dominio aberto simplesmente conexo diferente de todo o plano, de modo que ele é biholomorfo ao disco unitario. Mais recentemente, uma prova utilizando o famoso fluxo de Ricci foi encontrada por X. Chen, P. Li e G. Tian.

O teorema de uniformização permite concluir que toda superficie de Riemann é o quociente de um dos três modelos acima por um subgrupo discreto de automorfismos. Entretanto, isso esta longe de responder todas as perguntas sobre todas as possiveis superficies de Riemann (a menos de isomorfismos). Com o intuito de estudar as diferentes estruturas superficies de Riemann dentro de uma mesma superficie topologica (i.e., o estudo do espaço de superficies de Riemann modulo biholormofismos [dito espaço de moduli]) naturalmente somos conduzidos ao conceito de aplicações quase-conformes:

Definição. Um homeomorfismo f:M\to N entre duas superficies de Riemann M e N é dito quase-conforme se ele possui derivadas parciais (no sentido das distribuições) em L^2 e, para algum 0\leq k< 1,  a seguinte relação é satisfeita em quase todo ponto:

\left|\frac{\partial f}{\partial \overline{z}}\right|\leq k \left|\frac{\partial f}{\partial z}\right|.

Neste caso, dizemos que f é K-quase-conforme com constante K=(1+k)/(1-k). A menor constante K para a qual a desigualdade acima vale é dita a constante de quasiconformalidade de f e denotada por K(f).

Observação. Pode-se ver que a relação acima mostra que a derivada de f envia elipses de excentricidade \leq K(f) em circulos. Em particular, quando a constante de quasiconformalidade K(f) é 1, vemos que a derivada de f envia circulos em circulos, ou seja , Df é uma aplicação conforme. Isso justifica a denominação “constante de quasiconformalidade” para K(f): quanto proximo de 1 for K(f), mais proximo de ser conforme (holomorfo) f sera.

Nesse ponto, estamos aptos para enunciar o teorema de Alhfors e Bers:

Teorema de Alhfors e Bers. Dados U\subset\mathbb{C} e \mu\in L^\infty (U) com \|\mu\|_{\infty}<1, podemos encontrar um homeomorfismo quase-conforme f:U\to\mathbb{C} tal que a equação de Beltrami é satisfeita:

\frac{\partial f}{\partial \overline{z}}=\mu\frac{\partial f}{\partial z}.

Mais ainda, f é unica modulo biholomorfismos: dada qualquer outra solução g:U\to\mathbb{C} da equação acima, existe \phi:f(U)\to\mathbb{C} função holomorfa injetiva tal que g=\phi\circ f.

Antes de entrar na prova deste resultado, vamos comentar sobre a importância deste teorema: como ja antecipamos, este teorema é a peça fundamental quando tentamos comparar duas superficies de Riemann distintas. De fato, logicamente que dada uma aplicação entre duas superficies de Riemann, temos \mu da equação de Beltrami. O teorema de Alhfors e Bers garante (apos algum esforço) que a “reciproca” é verdadeira: dado \mu em uma superficie de Riemann X, podemos “fabricar” uma outra superficie X_{\mu} e uma aplicação quaseconforme f_\mu:X\to X_\mu de maneira que a equação de Beltrami é satisfeita (e, mais ainda, f_\mu é unica a menos de composições com biholomorfismos). Dito de outro modo, este teorema fornece uma relação estreita entre superficies de Riemann e coeficientes de Beltrami \mu.

Agora, vamos passar para a prova deste teorema.

Prova do teorema de Ahlfors-Bers. A idéia é bem simples: ao invés de encarar uma EDP (a equação de Beltrami), veremos que ela pode ser transformada numa EDO (o qual é um objeto mais tratavel), ao menos no caso em que \mu é uma função analitica real. Mais precisamente, olhando para a variavel complexa z=(x,y), ao invés de olhar somente para x,y reais, pensaremos que x,y são também variaveis complexas (i.e., trocamos \mathbb{C} por \mathbb{C}^2). Sendo \mu analitica real, podemos usar sua expressão em série de potências para ver que \mu(x,y) fica bem definido mesmo quando x,y são complexos, de modo que a EDP inicial (a equação de Beltrami):

\frac{\partial f}{\partial \overline{z}}=\mu\frac{\partial f}{\partial z}

se torna a seguinte EDO em um aberto W de \mathbb{C}^2:

(1) (1-\mu(x,y))\frac{\partial f}{\partial x}+i(1+\mu(x,y))\frac{\partial f}{\partial y}=0.

O “truque” (devido a Gauss) é observar que toda solução da EDO acima é constante nas curvas dadas pela EDO:

(2) \frac{\partial y}{\partial x}=i\frac{1+\mu}{1-\mu}.

Dito de outro modo, a EDO acima da as curvas de nivel de f verificando a equação de Beltrami. Para fazer uma escolha de f (dentre as varias possiveis), iremos fixar a transversal \{x=x_0\} com respeito a soluções de (2) (por que essa linha complexa é realmente transversal? [exercicio]) e impor que f(x_0,y)=y (fazendo a extensão de f colocando o valor aquedado nas curvas integrais de (2) de acordo com o valor na transversal). Com isso, obtemos uma solução da equação de Beltrami tal que

\frac{\partial f}{\partial y}(x_0,y_0)=1

e, a fortiori, pela equação (1),

\frac{\partial f}{\partial x} = -i\frac{1+\mu(x_0,y_0)}{1-\mu(x_0,y_0)}.

Note que a expressão acima implica que \partial f/\partial x não é um numero real (porque sua parte imaginaria é -(1+|z|^2)/(|1-z|^2)\neq 0), de maneira que o teorema da função implicita diz que f define um difeomorfismo local entre W\cap \mathbb{R}^2 e \mathbb{C} perto de (x_0,y_0). Mais ainda, dada qualquer outra solução da equação de Beltrami g, escrevendo g(x_0,y):=h(y), segue que g=h\circ f. Isto prova o teorema de Alhfors e Bers no caso em que \mu é real analitica.

No caso geral, a prova é completada por um argumento padrão de regularização. Como o problema é local, suporemos que \mu\in L^\infty(\mathbb{D}) vive no disco unitario \mathbb{D}. Escolha \eta_\epsilon a sua familia (analitica real) preferida de aproximações da identidade (digamos \eta_\epsilon(z) = \frac{1}{\pi\epsilon^2} e^{-|z|^2/\epsilon^2}) e considere \mu_\epsilon = \eta_\epsilon*\mu. Note que \|\mu_\epsilon\|_{\infty}\leq \|\mu\|_{\infty}:=k<1 e \mu_\epsilon converge em L^1 para \mu. Por outro lado, as soluções f_\epsilon da equação de Beltrami

(3) \frac{\partial f_\epsilon}{\partial \overline{z}}=\mu_\epsilon\frac{\partial f}{\partial z}

fornecem aplicações injetivas f_\epsilon:\mathbb{D}\to\mathbb{C}. Denote por \mathbb{D}_\epsilon:= f_\epsilon(\mathbb{D}) a imagem de \mathbb{D} por f_\epsilon. Pelo teorema de uniformização (ou pelo teorema da aplicação conforme de Riemann ja que \mathbb{D}_\epsilon é um dominio simplesmente conexo distinto de \mathbb{C}), podemos compor f_\epsilon com uma aplicação conforme g_\epsilon: \mathbb{D}_\epsilon\to \mathbb{D} caso necessario e supor que a solução da equação de Beltrami  (3) verifica também f_\epsilon(0)=0.

Neste ponto, temos uma familia f_\epsilon de aplicações K-quase-conformes com K=(1+k)/(1-k) tais que f_\epsilon(0)=0.  Por um teorema de compacidade bem-conhecido (veja o corollary 4.4.3 do livro de J. Hubbard), podemos extrair uma subsequência convergente f_{\epsilon_n} (uniformemente em compactos) cujo limite é uma aplicação K-quase-conforme f. Mais ainda, as derivadas distribucionais de f_{\epsilon_n} convergem em L^2 para as derivadas de f. Colocando essa informação na equação (3) e passando ao limite, vemos que f satisfaz a equação:

\frac{\partial f}{\partial \overline{z}}=\mu\frac{\partial f}{\partial z}.

Aqui estamos utilizando o seguinte fato elementar (veja o lemma 4.6.3 do livro de J. Hubbard) com u_n=\frac{\partial f_{\epsilon_n}}{\partial \overline{z}}, u=\frac{\partial f}{\partial \overline{z}}, v_n=\frac{\partial f_{\epsilon_n}}{\partial z}, v=\frac{\partial f}{\partial z} e \mu_n=\mu_{\epsilon_n}:

Lema. Sejam u_n e v_n duas sequências em L^2_{loc} convergindo fracamente para u e v, e \mu_n uma sequência limitada em L^\infty convergindo em L^1 para \mu. Então, u_n = \mu_n v_n para todo n\in\mathbb{N} implica u=\mu v.

Com isso, a prova do teorema de Alhfors e Bers fica terminada. \square

Para finalizar este post, observaremos que este teorema pode ser generalizado para dimensões maiores (teorema de Newlander-Nirenberg). Entretanto, não o farei aqui pelo simples motivo de que a utilidade dessa generalização não é tão poderosa quanto o caso de dimensão 1 (complexa): com efeito, existe uma questão de integrabilidade a qual é automatica em dimensão 1 mas não-trivial em dimensão superior.

Read Full Post »

Oi! Estou passando para dizer duas coisas:

  • apesar de ja estar um bom tempo sem postar nada, eu não abandonei este blog: de fato, eu tenho 3 posts (os quais ainda estou escrevendo) que estão atrasados porque os assuntos tratados neles serão abordados em mini-cursos a serem dados em breve; como eu pretendo assistir estes cursos, acho melhor ‘atrasar’ um pouco a publicação dos posts para com isso ganhar mais clareza na hora de expor os resultados;
  • nessa semana eu postei no arXiv um paper junto com o Giovanni Forni (e fiz uma palestra na Universite Paris 13 sobre esse assunto, Villetaneuse) onde nos exibimos um novo exemplo de superficie de Riemann (de genero 4) tal que o cociclo de Kontsevich-Zorich sobre esta orbita é isométrico; quem estiver interessado em ver uma descrição geral com as motivações e um pouco mais de detalhes pode ver o meu post no meu outro blog em ingles.

Bem, sem mais para o momento, fico por aqui! Até ja!

Read Full Post »

Hoje iremos discutir a teoria ergodica do fluxo homogêneo A_s no espaço de lattices G(\mathbb{R})/G(\mathbb{Z}) conforme prometido no fim do post anterior. Para isso, vamos começar com algumas definições. Lembramos que na ultima seção do post anterior identificamos o grupo especial afim ASL_2(\mathbb{R}) com o seguinte subgrupo de SL_3(\mathbb{R})

G(\mathbb{R}):=\left\{\left(\begin{array}{ccc}a&b&x\\c&d&y\\ 0&0&1\end{array}\right) : ad-bc=1\right\}

o qual é o produto semi-direto G(\mathbb{R}) = SL_2(\mathbb{R})\ltimes V_2(\mathbb{R}) onde

SL_2(\mathbb{R})\simeq \left\{\left(\begin{array}{ccc}a&b&0\\c&d&0 \\ 0&0&1\end{array}\right)\right\} \textrm{ e } V_2(\mathbb{R})= \left\{\left(\begin{array}{ccc}1&0&x\\ 0&1&y\\ 0&0&1\end{array}\right)\right\}\simeq \mathbb{R}^2.

Além disso, identificamos o espaço de lattices E com G(\mathbb{R})/G(\mathbb{Z}) e definimos

(1) A_s:=\left(\begin{array}{ccc}s&0&0\\ 0&1/s&0 \\ 0&0&1\end{array}\right) \textrm{ e } U(t):=\left(\begin{array}{ccc}1&-2t& -t^2\\ 0&1&t \\ 0&0&1\end{array}\right).

Finalmente, nos concluimos que todas essas identificações reduziam nossa tarefa na prova do seguinte fato (enunciado como teorema 3 no post anterior):

Teorema 0. Para toda f\in C_0(E) vale

\int_0^1 f(A_s\cdot\sigma(t))dt\to\int_E f d\mu_E.

Como ja antecipamos, este resultado sera obtido de um teorema mais geral sobre equidistribuição de horociclos não-lineares. Para enunciar adequadamente este teorema, vamos introduzir a definição:

Definição 1. Uma seção horociclica (ou horociclo) é uma aplicação \sigma:\mathbb{R}\to G(\mathbb{R}) da forma

(2) \sigma(t) = \left(\begin{array}{ccc}1&t& x(t)\\ 0&1&y(t) \\ 0&0&1\end{array}\right)

tal que

\sigma(t+p_0) = \sigma(t)\gamma_0

para algum inteiro p_0\geq 1 e algum elemento \gamma_0\in G(\mathbb{Z}).

Observação 1. Dado um horociclo \sigma existe um inteiro minimal p\geq 1 tal que \sigma(t+p)=\sigma(t)\gamma para algum \gamma\in G(\mathbb{Z}). Este inteiro p é o periodo de \sigma em E=G(\mathbb{R})/G(\mathbb{Z}).

Observação 2. O nome horociclo tem a seguinte motivação: a projeção natural do espaço de lattices E para o espaço de redes B envia uma seção horociclica de E sobre um horociclo (usual) ao redor de um “cusp” de B.

Definição 2. Um horociclo \sigma é dito linear (sobre os racionais) sempre que para todo \alpha,\beta\in\mathbb{Q} tivermos

m\left(\{t\in[0,p]: x(t)=\alpha t+\beta\}\right)>0.

Caso contrario, o horociclo \sigma é dito não-linear.

Observação 3. O comportamento de y(t) não influencia na nossa definição de linearidade.

Observação 4. Um horociclo real-analitico \sigma é linear se e so se x(t)\equiv \alpha t+\beta para algum \alpha,\beta\in\mathbb{Q} ja que toda função real-analitica não-constante possui um conjunto discreto de zeros.

Comparando as equações (1), (2) e utilizando a observação 4, vemos que

\sigma(t):=U(-t/2) := \left(\begin{array}{ccc}1&t& -t^2/4\\ 0&1&-t/2 \\ 0&0&1\end{array}\right)

forma um horociclo não-linear com periodo p=2 e x(t)=-t^2/4. Portanto, o teorema 0 acima segue imediatamente do seguinte fato mais geral:

Teorema 1 (Equidistribuição de horociclos). Seja \sigma:\mathbb{R}\to G(\mathbb{R}) um horociclo não-linear de periodo p. Então, os circulos A_s\cdot\sigma ficam equidistribuidos em E, i.e.,

\lim\limits_{s\to\infty}\frac{1}{p}\int_0^p f(A_s\cdot\sigma(t)) dt = \int_E f(x) d\mu_E(x).

Observação 5. Os ingredientes importantes neste resultado são: a “parte linear” do horociclo ser uma matriz unipotente e o horociclo é não-linear. Com efeito, na prova do teorema 1 iremos usar o fato do horociclo ter parte linear unipotente para aplicar o teorema de Ratner de modo a reduzir a lei de distribuição \mu do horociclo para uma quantidade enumeravel de candidatos (dentre eles \mu_E). Em seguida usamos a não-linearidade para excluir todas as outras possibilidades.

Observação 6. A hipotese do horociclo ser não-linear é essencial: quando o horociclo é linear, o resultado do teorema 1 é falso! Voltaremos nesse ponto apos vermos a prova do teorema.

Com isso, dedicaremos o resto deste post para a demonstração do teorema 1. Para isso, vamos utilizar o seguinte esquema:

  • na proxima seção, revisaremos alguns fatos basicos sobre medidas invariantes e veremos algumas propriedades da medida \mu associada a lei de distribuição de A_s\cdot\sigma(t);
  • em seguida, usaremos o teorema de Ratner para mostrar que temos apenas uma quantidade enumeravel de possibilidades para a lei de distribuição \mu;
  • finalmente, na ultima seção utilizaremos a não-linearidade do horociclo \sigma para provar que a unica possibilidade para a lei de distribuição \mu é \mu=\mu_E, o que terminara a prova do teorema 1.

Agora passamos para a formalização desse programa.

A lei de distribuição de um ”loop”

Dado um ”loop” \sigma:\mathbb{R}/p\mathbb{Z}\to E, denotamos por m(\sigma) a probabilidade natural suportada na imagem de \sigma:

\int_E f dm(\sigma):= \frac{1}{p}\int_0^p f(\sigma(t)) dt

para f\in C_0(E).

Além disso, dado \sigma:\mathbb{R}/p\mathbb{Z}\to E um horociclo não-linear de periodo p, denotamos por \sigma_s:=A_s\cdot\sigma, de modo que o teorema 1 é equivalente ao seguinte resultado:

Teorema 2 (Equidistribuição de horociclos versão 2). Para todo horociclo não-linear \sigma vale

m(\sigma_s) = (A_s)_*m(\sigma)\to \mu_E quando s\to\infty.

Como de costume, aqui a convergência ocorre na topologia fraca-*. Pelo teorema de Banach-Alaoglu, sabemos que m(\sigma_s) possui uma subsequência convergente para uma medida \mu. Em particular, nossa tarefa consiste em mostrar que para tais subsequências sempre temos \mu=\mu_E.

Para isso, consideramos a aplicação D do espaço de lattices E para o espaço de redes B a qual associa para cada elemento g\in E a sua parte linear D(g)\in B, i.e.,

D\left(\begin{array}{ccc}a&b&x\\c&d&y\\ 0&0&1\end{array}\right) := \left(\begin{array}{ccc}a&b&0\\c&d&0\\ 0&0&1\end{array}\right).

Observe que a projeção da medida de Haar \mu_E de E por D é a me- dida de Haar \mu_B de B. Por isso, como um trabalho preliminar na direção de provar que \mu=\mu_E, vamos verificar que a projeção de \mu por D esta correta:

Proposição 1. Temos que D_*\mu=\mu_B.

Prova. A imagem H de D\circ\sigma é um horociclo (no sentido usual) do espaço B. Por outro lado, D envia as orbitas do “fluxo de Teichmuller” A_s (as quais são geodesicas) de E em geodesicas de B e D envia a medida m(\sigma) na medida de Haar \mu_H de H. Finalmente, um argumento simples mostra que o fluxo geodesico de B puxa H para longe das cuspides de B de maneira que H fica equidistribuida (para mais detalhes veja o theorem 2.4 de Elkies e McMullen). Juntando esses fatos, segue que

D_*\mu = \lim (A_s)_*\mu_H = \mu_B.

Isto termina a prova. \square

Observação 7. Uma consequência direta da proposição 1 é que \mu é uma probabilidade em E, i.e., \mu(E)=1. Em particular, a massa das probabilidades m(\sigma_s) é conservada na passagem ao limite. Essa é uma observação não-trivial porque o espaço E é não-compacto!

Como veremos mais tarde, para entrarmos no contexto do teorema de Ratner, precisamos saber que \mu é invariante por um subgrupo unipotente de SL_2(\mathbb{R}). Com esse intuito, introduzimos o grupo

N(t) := \left(\begin{array}{ccc}1&t&0 \\ 0&1&0 \\ 0&0&1\end{array}\right).

Note que este subgrupo unipotente aparece naturalmente em vista da formula D\circ\sigma(t) = N(t) sempre que \sigma(t) é um horociclo. O resultado preparatorio para ficarmos no contexto de Ratner é o seguinte:

Proposição 2. A probabilidade \mu é N(\mathbb{R})-invariante.

Prova. Fixamos \tau\in\mathbb{R}. Consideramos \sigma_s(t)=A_s\cdot\sigma(t) e \eta_s(t) = N_\tau\cdot\sigma_s(t) onde \sigma(t) é um horociclo. Temos que

\sigma_s(t) = \left(\begin{array}{ccc}s&st&sx(t) \\ 0&\frac{1}{s}&\frac{y(t)}{s} \\ 0&0&1\end{array}\right), \eta_s(t)=\left(\begin{array}{ccc}s&st+\frac{\tau}{s}&sx(t)+\frac{\tau y(t)}{s} \\ 0&\frac{1}{s}&\frac{y(t)}{s} \\ 0&0&1\end{array}\right).

Para comparar adequadamente \sigma_s(t) e \eta_s(t), fazemos uma mudança de variaveis para fazer com que as partes lineares fiquem iguais. Mais precisamente, definimos u=\tau/s^2 e consideramos

\rho_s(t):=\eta_s(t-u):=\left(\begin{array}{ccc}s&st&sx(t-u)+s^{-1}\tau y(t-u) \\ 0&1/s&y(t-u) \\ 0&0&1\end{array}\right).

Lembrando que m(\sigma_s)\to\mu, segue que

(3) m(\rho_s) = m(\eta_s)=(N_\tau)_*m(\sigma_s)\to (N_\tau)_*\mu.

Por outro lado, temos que D\circ\rho_s = D\circ\sigma_s, de modo que a distância entre \rho_s e \sigma_s é dada pela distância entre os vetores obtidos da terceira coluna dessas matrizes:

d(\rho_s,\sigma_s)=\left|\left(\begin{array}{c}sx(t-u)+\tau y(t-u)/s \\ y(t-u)/s \\1\end{array}\right) - \left(\begin{array}{c}sx(t)+\tau y(t)/s \\ y(t)/s \\ 1\end{array}\right)\right|

Em seguida, usamos o fato de x(t) ser Lipschitz, y(t) ser limitado e u=\tau/s^2 para obter que

|sx(t) - sx(t-u)|\leq s|x(t)-x(t-u)|\leq O(su)=O(1/s)

e

|y(t)/s - y(t-u)/s|\leq  (|y(t)|+|y(t-u)|)/s=O(1/s).

Portanto, vemos que d(\rho_s,\sigma_s)\to 0 quando s\to\infty. Em particular, segue que \lim m(\rho_s)=\lim m(\sigma_s)=\mu. Juntando isso com (3), obtemos

(N_\tau)_*\mu=\mu

o que encerra a demonstração. \square

Uma vez que ja temos a invariância de \mu pelo subgrupo unipotente N(\mathbb{R}), passaremos a discutir o teorema de Ratner.

Teorema de Ratner e a classificação de \mu

O teorema de Ratner pode ser enunciado assim:

Teorema de Ratner. Sejam \Gamma um subgrupo discreto de um grupo de Lie conexo G e N um subgrupo unipotente. Seja \nu uma probabilidade ergodica N-invariante em G/\Gamma e denote por J o maior subgrupo de G deixando \nu invariante. Então, existe x\in G/\Gamma tal que \nu(J\cdot x)=1. Além disso, \nu é a medida de Haar de J\cdot x e o suporte de \nu é J\cdot x (de modo que J\cdot x é fechado em G/\Gamma).

A importância do teorema de Ratner para o contexto do teorema de Elkies e McMullen fica evidente: sendo \mu invariante pelo subgrupo unipotente N, podemos classificar \mu listando todos os subgrupos fechados de E ja que o teorema de Ratner diz que \mu deve estar suportada na orbita de um tal subgrupo.

Logicamente o teorema de Ratner tem uma bela historia incluindo varias aplicações em ramos diversos da Matematica. Por isso, ficaria impossivel fazer jus a relevância desse teorema numa discussão breve, de modo que recomendamos o leitor interessado numa exposição profunda do assunto (incluindo algumas ideias da prova em casos particulares, motivação heuristica para a validade do enunciado acima e algumas aplicações) os posts publicados no blog do prof. Terence Tao (veja aqui um link para estes posts).

Em todo caso, nos iremos utilizar o teorema de Ratner do seguinte jeito. Denotando por F uma fibra de E\to B, observamos que F é um toro complexo \mathbb{C}/\Lambda. Para cada inteiro n\geq 1 definimos F[n]=\left(\frac{1}{n}\cdot\Lambda\right)/\Lambda\subset F os pontos de ordem n com respeito a estru- tura de grupo de F e denotamos E[n] o subfibrado de E com fibras F[n].

Definição 3. \bigcup E[n] é o conjunto de pontos de torção de E.

Em seguida introduzimos H(\mathbb{R})\subset G o subgrupo de translações horizontais, i.e., translações por vetores da forma (x,0)\in\mathbb{R}^2 e H(r,\varepsilon)\subset G o conjunto de translações por vetores (x,y) da forma |x|<r e |y|<\varepsilon.

O objetivo dessa seção é aplicar o teorema de Ratner para mostrar o seguinte resultado:

Teorema 4 (Classificação de \mu). Temos que \mu=\mu_E ou \mu(H(\mathbb{R})\cdot E[n])>0 para algum n\geq 1.

Infelizmente o teorema 4 não é uma consequência imediata do teorema de Ratner porque não sabemos que \mu é ergodica. Para contornar essa situação, aplicamos o teorema de desintegração ergodica para escrever \mu como uma combinação convexa (”unica”) de medidas ergodicas N(\mathbb{R})-invariantes:

\mu=\int\nu dP(\nu).

Observação 8. Usualmente o teorema de decomposição ergodica é enunciado em espaços compactos. No caso de E (um espaço não-compacto), aplicamos esse teorema para a compactificação com um ponto e restringimos para E.

Em seguida, para cada \nu probabilidade ergodica N(\mathbb{R})-invariante em E definimos

J(\nu):=\{g\in G(\mathbb{R}): g_*\nu=\nu\},

ou seja, J(\nu) é o maior subgrupo de G(\mathbb{R}) deixando \nu invariante. Observe que J(\nu) é fechado e N(\mathbb{R})\subset J(\nu).

Proposição 3. Para quase toda \nu na decomposição ergodica de \mu, temos

D_*\nu=\mu_B \quad \textrm{ e } \quad D(J(\nu))=SL_2(\mathbb{R}).

Prova. Da proposição 1 sabemos que \mu_B = D_*\mu = \int D_*\nu dP(\nu). Como a ação de N(\mathbb{R}) em (B,\mu_B) é ergodica (porque esta ação é o fluxo horociclico em B), segue que D_*\nu=\mu_B para quase toda \nu.

Por outro lado, pelo teorema de Ratner sabemos que \nu esta suportada em uma orbita J(\nu)\cdot x\subset E. Logo,

D(J(\nu))\cdot D(x) = D(J(\nu)\cdot x) = D(\textrm{supp}(\nu)) = \textrm{supp}(D_*\nu).

Como ja vimos que D_*\nu=\mu_B, obtemos

D(J(\nu))\cdot D(x)=\textrm{supp}(\mu_B)=B=SL_2(\mathbb{R})/SL_2(\mathbb{Z}).

Portanto, D(J(\nu))=SL_2(\mathbb{R}). Isso termina a prova. \square

Agora nos relembramos a seguinte proposição sobre ações de SL_2(\mathbb{R}):

Proposição 4. Toda ação afim de SL_2(\mathbb{R}) em \mathbb{R}^k possui pontos fixos.

Prova. Pelo truque unitario de Weyl, esta ação pode ser estendida para uma ação de SL_2(\mathbb{C}) em \mathbb{C}^k. Por outro lado, um ponto fixo p\in\mathbb{C}^k para o grupo compacto SU_2(\mathbb{C}) pode ser construido facilmente (p.ex., tomando a media). Como \mathbb{C}\cdot su_2(\mathbb{C})=sl_2(\mathbb{C}), o ponto p é fixado também pela ação de SL_2(\mathbb{C}) e, a fortiori, pela ação de SL_2(\mathbb{R}). Logo, a parte real de p é o ponto fixo de SL_2(\mathbb{R}) em \mathbb{R}^k desejado. \square

Proposição 5. Se H\subset G(\mathbb{R}) é um subgrupo com D(H)=SL_2(\mathbb{R}), então H=G(\mathbb{R}) ou H é conjugado a SL_2(\mathbb{R}).

Prova. Como D(H)=SL_2(\mathbb{R}), o nucleo K da aplicação D:H\to SL_2(\mathbb{R}) é um subgrupo SL_2(\mathbb{R})-invariante de V_2(\mathbb{R})\simeq \mathbb{R}^2 de modo que temos duas possibilidades:

  • K=V_2(\mathbb{R}): nesse caso, H=G(\mathbb{R});
  • K=\{e\}: nesse caso, temos uma ação afim D^{-1}:SL_2(\mathbb{R})\to H\subset G(\mathbb{R}) = ASL_2(\mathbb{R}) de SL_2(\mathbb{R}) em \mathbb{R}^2, a qual deve possuir um ponto fixo pela proposição 4; conjugando com um elemento adequado de V_2(\mathbb{R}), podemos assumir que este ponto fixo é a origem e H=SL_2(\mathbb{R}).

Isto termina a demonstração. \square

Corolario 1. J(\nu)=G(\mathbb{R}) ou J(\nu)=g\cdot SL_2(\mathbb{R})\cdot g^{-1} para alguma translação horizontal g\in H(\mathbb{R}).

Prova. Como \nu é N(\mathbb{R})-invariante sabemos que N(\mathbb{R})\subset J(\nu). Além disso, pela proposição 3 temos que D(J(\nu))=SL_2(\mathbb{R}). Logo, usando a proposição 5, segue que J(\nu)=G(\mathbb{R}) ou J(\nu)=g\cdot SL_2(\mathbb{R})\cdot g^{-1}. Isso conclui a demonstração. \square

Proposição 6. \nu=\mu_E ou \textrm{supp}(\nu)\subset g\cdot E[n] para algum n\geq 1 inteiro e g\in H(\mathbb{R}).

Prova. Do corolario anterior temos J(\nu)=G(\mathbb{R}) \textrm{ ou } g\cdot SL_2(\mathbb{R})\cdot g^{-1}. No primeiro caso vemos que \nu=\mu_E pela J(\nu)-invariância de \nu. No segundo caso, g^{-1}\textrm{supp}(\nu) = SL_2(\mathbb{R})\cdot x é uma SL_2(\mathbb{R})-orbita fechada em E. Como tais orbitas sempre estão contidas em E[n] para algum n\geq 1, isso encerra a demonstração. \square

Neste ponto, podemos finalizar esta seção dando a demonstração do teorema 4:

Prova do teorema 4. Escremos a decomposição ergodica de \mu como \mu = \int \nu dP(\nu). Pela proposição 6, quase toda componente ergodica \nu de \mu satisfaz: \nu = \mu_E ou \textrm{supp}(\nu)\subset H(\mathbb{R})\cdot E[n] para algum n. Portanto, podemos escrever \mu da seguinte forma:

\mu=a_0\mu_E + \sum\limits_{n=1}^{\infty}a_n\mu_n,

onde \sum\limits_{n=0}^{\infty}a_n=1 e \textrm{supp}(\mu_n)\subset H(\mathbb{R})\cdot E[n]. Em particular, se \mu\neq \mu_E então a_n\neq 0 para algum n\geq 1, donde \mu(H(\mathbb{R})\cdot E[n])>0. Isso termina a prova do teorema. \square

Tendo em vista a classificação de \mu fornecida pelo teorema 4, vemos que o teorema 2 de equidistribuição de horociclos não-lineares segue ao mostrarmos que \mu não enxerga os pontos de torção de E. Esse sera o conteudo da proxima seção.

Não-linearidade e pontos de torção

O teorema principal dessa seção é

Teorema 5. Dados \sigma um horociclo não-linear e \mu um ponto de acumulação das medidas m(A_s\cdot\sigma) (quando s\to\infty) temos

\mu(H(\mathbb{R})\cdot E[n])=0

para todo n\geq 1.

Prova. Dados \varepsilon>0 e r>0, defina

U=H(r,\varepsilon)\cdot E[n]

e

T_s=\{t\in [0,p]: \sigma_s(t)\in U\}.

Afirmamos que

(4) \limsup\limits_{s\to\infty} m(T_s)=O(\varepsilon).

Para computar m(T_s) sera conveniente passar para o recobrimento universal G=G(\mathbb{R}) de E = G/G(\mathbb{Z}). Começamos por notar que E[n] é coberto pela SL_2(\mathbb{R})-orbita de G[n]=\bigcup G[n]^{i,j} onde

G[n]^{i,j}=\left\{\left(\begin{array}{ccc}a&b&\frac{i}{n}a+\frac{j}{n}b \\ c&d& \frac{i}{n}c+\frac{j}{n}d\\ 0&0&1\end{array}\right): ad-bc=1\right\}.

Em particular os pontos de G[n] na mesma fibra de \sigma_s(t) são

\rho_s^{i,j}(t) = \left(\begin{array}{ccc}s&st&\frac{i}{n}s+\frac{j}{n}st \\ 0&s^{-1}& \frac{j}{n}s^{-1}\\ 0&0&1\end{array}\right).

Tomando a métrica Euclideana na terceira coluna das matrizes acima, vemos que T_s = \bigcup T_s^{i,j} onde

T_s^{i,j} = \left\{t: \left(\begin{array}{c}sx(t)\\s^{-1}y(t)\end{array}\right)- \left(\begin{array}{c}\frac{i}{n}s+\frac{j}{n}st\\s^{-1}\frac{j}{n}\end{array}\right)\in H(r,\varepsilon)\right\}.

Em particular, T_s^{i,j}\subset X_s^{i,j}\cap Y_s^{i,j} onde

X_s^{i,j} = \{t: |x(t)-\frac{i}{n}-\frac{j}{n}t|<r/s\}

e

Y_s^{i,j} = \{t: |y(t) - \frac{j}{n}|<\varepsilon s\}.

Neste ponto vamos usar a não-linearidade de \sigma para obter que o conjunto de t com x(t) = \frac{i}{n}+\frac{j}{n}t tem medida zero, de modo que, para cada i,j fixado, temos

(5) \lim\limits_{s\to\infty} m(X_s^{i,j}) = 0.

Por outro lado, utilizamos o fato de x(t) ser Lipschitz para estimar m(X_s^{i,j}) quando j é grande: mais precisamente, sempre que |j|>M:=2n\sup\limits_{0\leq t\leq p}|x'(t)|, o conjunto X_s^{i,j} é a pré-imagem de um intervalo de tamanho 1/s por uma aplicação com derivada da ordem de j/n. Logo,

(6) m(X_s^{i,j})=O(1/s|j|) para todo |j|>M.

Além disso, notamos que

(7) Y_s^{i,j}=\emptyset quando |j|\geq J_s:= n (s\varepsilon+ \sup\limits_{0\leq t\leq p}|y(t)|)

e

( 8 ) X_s^{i,j}=\emptyset quando |i|\geq I_s(j):= n(\frac{r}{s}+ |\frac{j}{n}|+ \sup\limits_{0\leq t\leq p}|x(t)|).

Finalmente, observamos que

(9) J_s = O(s\varepsilon) e I_s(j) = O(|j|+1) para s grande.

Com estes fatos em mãos, podemos estimar m(T_s) assim: por (7) e ( 8 ) segue que

(10) m(T_s)\leq \sum\limits_{|j|<J_s}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j}).

Agora dividimos a soma do lado direito em duas partes:

\sum\limits_{|j|<J_s}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j})\leq \sum\limits_{M<|j|<J_s}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j}) + \sum\limits_{|j|\leq M}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j})

Em seguida, notamos que a primeira soma é O(|J_s|\varepsilon/s)=O(\varepsilon^2) (porque (9) diz que |I_s| = O(|j|+1) e |J_s|=O(s\varepsilon)) e a segunda soma ocorre sobre um conjunto finito de indices i,j de maneira que (5) diz que esta soma tende a zero (quando s cresce). Portanto, juntando estas duas estimativas com (10) vemos que quando s é grande vale

m(T_s)=O(\varepsilon),

o que prova a estimativa (4) desejada.

Finalmente, lembramos que m_s(U) = m(T_s)/p, de modo que a estimativa (4) implica \mu(H(r,\varepsilon)\cdot E[n])=O(\varepsilon) para todo r,\varepsilon>0. Fazendo \varepsilon\to 0 e depois r\to\infty, segue que \mu(H(\mathbb{R})\cdot E[n])=0, o que finaliza a prova do teorema. \square

Com o teorema 5 ja provado, a tarefa de concluir a demonstração do teorema 2 (ou equivalentemente do teorema 1) fica facil. Com efeito esse é o conteudo da (curta) seção final abaixo.

Fim da prova do teorema 2

Dado \sigma um horociclo não-linear, consideramos um ponto de acu- mulação qualquer \mu de m(A_s\cdot\sigma) quando s\to\infty. Pelo teorema 5, \mu da massa zero para as translações horizontais dos pontos de torção \bigcup\limits_{n\geq 1} E[n] de E. Logo, o teorema 4 (de classificação) implica que \mu=\mu_E. Em outras palavras, temos que \mu_E é o unico ponto de acumulação da sequência m(A_s\cdot\sigma). Isto mostra que

m(A_s\cdot\sigma)\to\mu_E

o que encerra a prova do teorema 2.

Com isso, nossa apresentação da prova do teorema de Elkies e McMullen chega ao fim! Para fechar este post, fazemos a seguinte observação:

Observação 9. O teorema 2 de equidistribuição é optimal, i.e., ele nunca vale quando \sigma é linear: se x(t) = \frac{i}{n}+\frac{j}{n}t para um conjunto de medida positiva de t então \mu(E[n])>0 de modo que m(A_s\cdot\sigma) não pode convergir para \mu_E.

Read Full Post »

Continuando as discussões do post anterior, pretendemos utilizar a teoria ergodica de fluxos homogeneos (em particular os teoremas de Ratner) para entender os valores da função L ao longo dos latti- ces \Lambda_{s^2}(t) (na notação do post anterior). O resultado de teoria er- godica a ser invocado diz que a familia \{\Lambda_{s^2}(t): t\in [0,1]\} de circu- los de lattices fica equidistribuida no espaço de lattices E quando s\to\infty:

Teorema 1. Para toda f\in C_0(E) temos

\int_0^1 f(\Lambda_{s^2}(t)) dt\to \int_E f d\mu_E quando s\to\infty.

Por enquanto, assumiremos este teorema e veremos como deter- minar a distribuição assintotica F de \{\sqrt{n}\}.

Calculo de F assumindo o teorema 1

Relembre que o ultimo resultado provado no post anterior foi a proposição 1 segundo a qual o tamanho do conjunto de t\in [0,1] tais que L(\Lambda_{s^2}(t))\leq x é |\widetilde{I}_{s^2}(x)|+O(1/s). Juntando este fato com o teorema 1 acima, temos a seguinte consequência:

Proposição 1. Para x\in [0,\infty) temos

|\widetilde{I}_{s^2}(x)|\to \mu_E(\{\Lambda\in E: L(\Lambda)\leq x\} quando s\to\infty.

Prova. Considere E_x:=\{\Lambda\in E: L(\Lambda)\leq x\}. Com essa notação, o fato do tamanho do conjunto dos t\in [0,1] com L(\Lambda_{s^2}(t))\leq x verificar |\widetilde{I}_{s^2}(x)|+O(1/s) pode ser reescrito como:

\int_0^1\chi_{E_x}(\Lambda_{s^2}(t)) dt = |\widetilde{I}_{s^2}(x)|+O(1/s)

Isso reduz nossa tarefa a mostrar que \int_0^1\chi_{E_x}(\Lambda_{s^2}(t)) dt converge para \mu_E(E_x). Para isso, a idéia natural seria aplicar o teorema 1. Entretanto uma utilização direta desse teorema não é possivel porque a função caracteristica \chi_{E_x} não é continua. Um remédio simples para esse contra-tempo é aproximar (em L^1) \chi_{E_x} e 1-\chi_{E_x} por funções continuas em C_0(E) e aplicar o teorema 1. Com isso, a unica coisa que nos resta fazer é ver que tais aproximações exis- tem. Conforme sabemos dos cursos de analise, as funções \chi_{E_x} e \chi_{E-E_x} podem ser aproximadas por funções em C_0(E) sempre que \mu_E(\partial E_x)=0.

Resumindo, a prova da proposição terminara quando mostrarmos que \mu_E(\partial E_x)=0. Nesse sentido, começamos por convidar o leitor a verificar que L:E\to [0,\infty] é uma submersão para quase todos os pontos de E: mais precisamente, L deixa de ser submersão apenas nos lattices \Lambda contendo a origem (0,0) ou um ponto do lado horizontal w_2=1 do seu triângulo maximal \Delta_{c_-,c_+}. Em particular, para cada x, os pontos de E_x nos quais L deixa de ser submersão formam um fechado de \mu_E-medida zero. Logo, pelo teorema (de forma local) das submersões vemos que os conjuntos de nivel de L possuem \mu_E-medida zero e, a fortiori, segue que \mu_E(\partial E_x)=0, como afirmamos. Isto termina a prova. \square

Um corolario direto dessa proposição (e dos resultados obtidos no post anterior) é:

Proposição 2. Suponha que a distribuição assintotica F(\xi) de \{\sqrt{n}\} é continua. Então,

\lim\limits_{N\to\infty}|I_N(x)| = \lim\limits_{N\to\infty}|\widetilde{I}_N(x)| = \mu_E(\{\Lambda\in E: L(\Lambda)\leq x\})

para x\in [0,\infty). Mais ainda, esta convergência é uniforme em x.

Prova. Supondo F continua, podemos combinar o lema 1, o teore- ma 3 do post anterior e a proposição 1 acima para obter o resulta- do desejado. \square

Apesar do enunciado da proposição 2 ser animador (porque escre- vemos I_N assintoticamente em termos da medida \mu_E do conjunto L^{-1}([0,x])), ainda não estamos em condições de computar a distri- buição F pela seguinte razão: do post anterior sabemos apenas I_N(x)\to\int_0^x \xi F(\xi) d\xi, de modo que para obter F em termos de \mu_E(L^{-1}([0,x])) devemos derivar em x duas vezes esta função. Entretanto, neste ponto não esta claro nem que a derivada de \mu_E(L^{-1}([0,x])) existe!

Para isso, vamos ter que trabalhar um pouco com os conjuntos L^{-1}([0,x]). Com esse intuito, introduzimos o subconjunto S_{c_-,c_+} de E formado pelos lattices \Lambda com algum ponto no triângulo \Delta_{c_-,c_+}, onde c_-<0<c_+. Observe que \mu_E(S_{c_-,c_+}) depende apenas da area c_+-c_- do triângulo \Delta_{c_-,c_+} porque todos os triângulos com area fixada são equivalentes por uma transformação em ASL_2(\mathbb{R}) e a medida \mu_E é ASL_2(\mathbb{R})-invariante. Em particular, podemos definir a função p:[0,\infty]\to [0,1] por

p(c_+-c_-):=\mu_E(S_{c_-,c_+})

com as convenções p(0)=0 e p(\infty)=\infty.

Como ja comentamos, para encontrar uma formula para F eventualmente teremos que derivar duas vezes p:

Lema 1. Suponha que p\in C^2 (i.e., p é duas vezes diferenciavel e p'' é continua). Então,

F(x) = -p''(x).

Prova. Escrevemos \mu_E(\{\Lambda\in E: L(\Lambda)<x\}) em “soma telescopica” assim:

\mu_E(S_{0,x}) - \lim\limits_{M\to\infty} \sum\limits_{j=0}^{M-1} [\mu_E(S_{\frac{(j+1)x}{M}-x, \frac{jx}{M}})-\mu_E(S_{\frac{jx}{M}-x,\frac{jx}{M}})].

Colocando isto em termos da função p, obtemos

\mu_E(\{\Lambda\in E: L(\Lambda)<x\}) = p(x) - \lim\limits_{M\to\infty} M\left(p(x)-p(x-\frac{x}{M})\right).

Sendo p diferenciavel, segue que

\mu_E(\{\Lambda\in E: L(\Lambda)<x\}) = p(x) - xp'(x).

Por outro lado, supondo p duas vezes diferenciavel, sabemos que \frac{d}{dx}(p(x)-xp'(x))=-xp''(x). Mais ainda, como p(0)=0, vemos que p(x)-xp'(x)=0 em x=0. Combinando esses dois fatos, obtemos que p(x)-xp'(x)=\int_0^x -\xi p''(\xi) d\xi.

Juntando as identidades acima, obtemos

\mu_E(\{\Lambda\in E: L(\Lambda)<x\}) = \int_0^x -\xi p''(\xi) d\xi.

Isto termina a prova do lema tendo em vista a proposição 2 e o fato (discutido no post anterior) de |I_N(x)|\to \int_0^x\xi F(\xi) d\xi. \square

Observação 1. Ainda supondo que p\in C^2, vemos que a definição de p e o lema 1 implicam

F(x)=-p''(x)=-\frac{\partial^2}{\partial c_- \partial c_+}\mu_E(S_{c_-,c_+})

para quaisquer c_-<0<c_+ com c_+-c_-=x. Isto fornece a se- guinte interpretação geométrica para F(x) em termos de \mu_E: o va- lor F(c_+-c_-) dc_- dc_+ é a medida do conjunto de lattices \Lambda\in E intersectando \Delta_{c_-,c_+} em exatamente dois pontos – um deles com coordenadas (w_1,w_2) verificando w_1/2w_2\in (c_-, c_-+dc_-) e o outro com coordenadas (w_1,w_2) verificando w_1/2w_2\in (c_+-dc_+,c_+).

Do lema 1, o calculo da distribuição F de \{\sqrt{n}\} fica reduzido a computar explicitamente a função p e verificar que p\in C^2. Para isso, vamos recapitular alguns fatos conhecidos sobre a teoria de redes unimodulares.

Denotamos por B o espaço de redes unimodulares de \mathbb{R}^2 (i.e., subgrupos discretos \Lambda^0 isomorfos a \mathbb{Z}^2 com covolume 1) e \mu_B a medida de Haar de B. Um vetor w\in \Lambda^0 de uma rede \Lambda^0\in B é dito primitivo sempre que existir w'\in\Lambda^0 tal que \{w,w'\} é uma \mathbb{Z}^2-base de \Lambda^0. Equivalentemente, w\in\Lambda^0 é primitivo quando w/k\in\Lambda^0 para todo k>1. No que se segue iremos utilizar os seguintes fatos:

  • o subconjunto Z_w\subset B de redes possuindo w como um vetor primitivo forma um circulo (na verdade um horociclo fechado);
  • dado K\subset\mathbb{R}^2 um compacto convexo, a area de K é \zeta(2)\times\int_B f_K(\Lambda^0) d\mu_B onde f_K(\Lambda^0) é a quantidade de vetores primitivos de \Lambda^0 em K;
  • em particular, tomando K suficientemente pequeno de modo que f_K(\Lambda^0)\leq 1 para todo \Lambda^0\in B, vemos que o conjunto de lattices com vetor primitivo em K tem \mu_B-medida igual a 1/\zeta(2) vezes a area de K;
  • mais ainda, podemos desintegrar a medida \mu_B de um subconjunto mensuravel \widetilde{B}\subset B assim: \mu_B(\widetilde{B}) = \frac{1}{\zeta(2)}\int_{w\in K}\mu_w(\widetilde{B}\cap Z_w), onde \mu_w é a medida (normalizada) de Lebesgue do circulo Z_w.

Neste ponto, nosso objetivo sera usar a observação 1 com a des- integração de \mu_B para expressar F como uma integral dupla. Nesse sentido, em vista da interpretação geométrica de F (na observação 1), olhamos para os lattices \Lambda\in E intersectando o triângulo \Delta_{c_-,c_+} em dois pontos com coordenadas (w_1,w_2) satisfa- zendo w_1/2w_2\in (c_-,c_-+dc_-) e w_1/2w_2\in (c_+-dc_+,c_+). Note que a diferença entre esses dois pontos de \Lambda é um vetor primitivo: caso contrario, \Lambda iria conter um terceiro ponto no segmento de reta determinado por esses dois pontos; sendo \Delta_{c_-,c_+} convexo (porque ele é um triângulo) seguiria que \Lambda intersectaria \Delta_{c_-,c_+} em três pontos, uma contradição com nossa hipotese. Usando esse vetor primitivo, aplicamos a desintegração de \mu_B para exprimir F como uma integral nas w_2 coordenadas v_-,v_+ dos vetores de \Lambda na fronteira de \Delta_{c_-,c_+}: para v_-,v_+\in (0,1), escrevemos w=(2c_+v_+,v_+)-(2c_-v_-,v_-) e lembramos que Z_w parametriza os lattices contendo w; em seguida, denotamos por q_x(v_-,v_+)\in [0,1] a (\mu_w)-medida do subconjunto de Z_w formado por lattices disjuntos do interior de \Delta_{c_-,c_+}. Observe que escrevemos q_x ao invés de q_{c_-,c_+} porque essa quantidade depende apenas de x=c_+-c_-. Com essa notação, a formula de F em integral dupla é:

Proposição 3. A função (x,v_-,v_+)\mapsto q_x(v_-,v_+) é continua exceto num subconjunto de \{v_-=v_+\}. Mais ainda, para x\in [0,\infty), temos

-p''(x)=F(x)=\frac{1}{\zeta(2)}\int_0^1\int_0^1 4v_-v_+ q_x(v_-,v_+) dv_- dv_+.

Em particular, segue que F é continua.

Prova. O fato de q_x(v_-,v_+) ser continuo é imediato exceto quando o vetor w é horizontal (em particular ele fica paralelo ao terceiro lado de \Delta_{c_-,c_+}). Isto prova a primeira afirmação da proposição porque w horizontal implica v_-=v_+. No mais, como 0\leq q_x(v_-,v_+)\leq 1, a integral dupla acima existe e varia continuamente com x. Finalmente, para ver que esta integral coincide com -p''(x) e F(x), usamos a interpretação geométrica de F (discutida no paragrafo anterior ao enunciado da proposição) combinado com o fato de 4v_-v_+ ser o produto dos comprimentos dos segmentos de reta

\{(w_1,v_-): 2c_-v_-<w_1<2(c_-+dc_-)v_-\}

e

\{(w_1,v_-): 2c_-v_-<w_1<2(c_-+dc_-)v_-\}

onde os vetores do lattice variam (além do fato de que estamos utilizando os fatores q_x(v_-,v_+)/\zeta(2) na formula de desintegração de \mu_B). \square

Para tornar a proposição 3 um pouco mais util, precisamos computar q_x(v_-,v_+). A idéia para fazer isso consiste em fazer considerações geométricas apos uma mudança afim de coordenadas de (w_1,w_2) para (z,z') levando o triângulo \Delta_{c_-,c_+} no triângulo isosceles

\Delta_0:=\{(z,z')\in\mathbb{R}^2: z,z'>0, z+z'<1\}

de area 1/2. Como o triângulo \Delta_{c_-,c_+} tem area c_+-c_-, esta transformação multiplica a area pelo fator

r:=1/2x.

Apesar do argumento não ser muito complicado, deixaremos para o leitor curioso ver a prova do lemma 3.12 para os detalhes da demonstração do seguinte fato:

Lema 2. Para quaisquer 0<v,v'\leq 1 e x>0 vale q_x(v,v')= q_x(v',v). Além disso, para v\geq v', temos

q_x(v,v'):=\max\left\{0, \min\left(1,\frac{r}{vv'}\right) - \max\left(0,\frac{v(1-v')-r}{v(v-v')}\right)\right\}

com r=1/2x. Aqui estamos interpretando

\max\left(0,\frac{v(1-v')-r}{v(v-v')}\right) = \begin{cases} \infty & \textrm{ se }  v=v' \textrm{ e } r<v(1-v') \\ 0 & \textrm{ se } v=v' \textrm{ e } r\geq v(1-v') \end{cases}

Com este fato em mãos, achar uma formula explicita para F (a distribuição assintotica das lacunas de \{\sqrt{n}\}) vira um exercicio de Calculo I. Com efeito, seguindo combinando a proposição 3 com o lema 2 e calculando algumas integrais (como na prova do teorema 3.14 de Elkies e McMullen), o leitor eventualmente acabara demonstrando o seguinte resultado:

Teorema 2. Temos

F(t):=\begin{cases}6/\pi^2, \quad t\in [0,1/2], \\ F_2(t), \quad t\in[1/2,2], \\ F_3(t), \quad t\in [2,\infty), \end{cases}

onde F_2(t) e F_3(t) são

F_2(x)=\frac{6}{\pi^2}(\frac{2}{3}(4r-1)^{\frac{3}{2}}\psi(r) + (1-6r)\log r + 2r - 1)

e

F_3(x)=\frac{6}{\pi^2} (f(\alpha)-g(\alpha)-h(\alpha) .

Aqui r:=1/2x e \psi(r) = \tan^{-1}[(2r-1)/\sqrt{4r-1}] - \tan^{-1}[1/\sqrt{4r-1}], \alpha = (1-\sqrt{1-4r})/2, f(\alpha)=4(1-4\alpha)(1-\alpha)^2\log(1-\alpha), g(\alpha)=2(1-2\alpha)^3\log(1-2\alpha) e h(\alpha)=2\alpha^2.

Dito de outro modo, acabamos de completar a prova do teorema de Elkies e McMullen (conforme enunciado no primeiro post introdu- torio) modulo o teorema 1 (o qual assumimos durante toda esta seção)!

Com isso, encerramos essa seção e passamos para a questão de relacionar o teorema 1 com a teoria ergodica de fluxos homo- gêneos.

Relação entre o teorema 1 e fluxos homogêneos

Lembramos que o teorema 1 fala sobre a equidistribuição da fa- milia de circulos de lattices \{\Lambda_{s^2}(t): t\in [0,1]\} quando s\to\infty. Para reformular o teorema 1 numa linguagem apropriada, obser- vamos que toda a ação ocorre no grupo especial afim ASL_2(\mathbb{R}) o qual iremos re-escrever como

G(\mathbb{R}):=\left\{\left(\begin{array}{ccc}a &b&x \\ c&d&y \\ 0&0&1\end{array}\right) : ad-bc=1\right\} \subset SL_3(\mathbb{R}).

Note que este grupo atua em \mathbb{R}^2 através das transformações afins conservativas

\left(\begin{array}{c}X \\ Y\end{array}\right)\mapsto \left(\begin{array}{cc}a&b \\ c&d\end{array}\right)\left(\begin{array}{c}X \\ Y\end{array}\right) + \left(\begin{array}{c}x \\ y\end{array}\right).

Denotamos por G(\mathbb{Z})\subset G(\mathbb{R}) o subgrupo formado pelas matrizes com entradas inteiras e observamos que o espaço de lattices (uni- modulares) E é naturalmente identificado com G(\mathbb{R})/G(\mathbb{Z}): tomamos o lattice inteiro \mathbb{Z}^2 como ponto base e para cada g\in G(\mathbb{R}) associamos o lattice

\Lambda(g) := \left\{ (w_1,w_2)\in\mathbb{R}^2: \left(\begin{array}{c}w_1 \\ w_2 \\ 1\end{array}\right)\in g \left(\begin{array}{c}\mathbb{Z} \\ \mathbb{Z} \\ 1\end{array}\right)\right\}.

Esta aplicação é sobrejetiva e \Lambda(g)=\Lambda(h) se e so se h\in g\cdot G(\mathbb{Z}) (como o leitor pode verificar), de maneira que isto é um isomor- fismo entre E e G(\mathbb{R})/G(\mathbb{Z}).

No caso particular dos lattices \Lambda_{s^2}(t), os elementos de G(\mathbb{R})/G(\mathbb{Z}) associados por esse isomorfismo podem ser calculados explicita- mente do seguinto jeito: relembramos do post anterior que

\Lambda_{s^2}(t):=\{(s(b-2ta-t^2),(a+t)/s)\},

donde os pontos (w_1,w_2)\in\Lambda_{s^2}(t) em notação matricial ficam:

\left(\begin{array}{c}w_1 \\ w_2 \\ 1\end{array}\right) = \left(\begin{array}{ccc}s&-2st&-st^2 \\ 0&1/s&t/s \\ 0&0&1\end{array}\right)\left(\begin{array}{c}b\\a\\1\end{array}\right) = A_sU(t) \left(\begin{array}{c}b\\a\\1\end{array}\right),

onde A_s = diag(s,1/s,1) é a matriz diagonal

A_s:=\left(\begin{array}{ccc}s&0&0 \\ 0&1/s&0 \\ 0&0&1\end{array}\right)

e

U(t):= \left(\begin{array}{ccc}1&-2t&-t^2 \\ 0&1&t \\ 0&0&1\end{array}\right).

Logo, \Lambda_{s^2}(t) é o lattice

\Lambda_{s^2}(t) = \left\{(w_1,w_2)\in\mathbb{R}^2 : \left(\begin{array}{c}w_1 \\ w_2 \\ 1\end{array}\right)\in A_sU(t) \left(\begin{array}{c}\mathbb{Z} \\ \mathbb{Z} \\ 1\end{array}\right)\right\}.

Em outras palavras, \Lambda_{s^2}(t) é identificado com A_s U(t). Resumindo, vemos que o teorema 1 é equivalente ao seguinte enunciado:

Teorema 3. Os circulos \{A_sU(t):t\in [0,1]\} ficam e- quidistribuidos em G(\mathbb{R})/G(\mathbb{Z}) quando s\to\infty, i.e., para toda f\in C_0(E) vale

\lim\limits_{s\to\infty}\int_0^1 f(A_sU(t))dt = \int_E f d\mu_E.

Uma vez que o teorema 1 foi “traduzido” para o teorema 3, nosso plano sera utilizar a teoria ergodica do fluxo homogêneo A_s no es- paço E = G(\mathbb{R})/G(\mathbb{Z}): mais precisamente, iremos explorar o fato do circulo \{U(t):t\in[0,1]\} ser um horociclo não-linear (um con- ceito a ser discutido depois) para derivar o teorema 3 de um re- sultado mais geral sobre a equidistribuição de horociclos não-li- neares pelo fluxo de A_s. Porém, como uma explicação detalhada disso leva um certo tempo, deixaremos para o proximo post esta discussão.

Read Full Post »

Começaremos a discussão de hoje esclarecendo um pouco mais o esquema da prova do teorema de Elkies e McMullen (sobre a distribuição das lacunas de \sqrt{n} (mod 1) exposto no penultimo paragrafo do post passado. Conforme ja tinhamos adiantado, a idéia consiste em relacionar a distribuição de \sqrt{n} (mod 1) com a teoria ergodica de lattices aleatorios. Antes de entrarmos nos pormenores, vamos introduzir algumas notações. Lembramos que \Lambda_0\subset\mathbb{R}^2 é uma rede se \Lambda_0 é um subgrupo discreto isomorfo à \mathbb{Z}^2. Dizemos que uma rede \Lambda_0 é unimodular se o toro \mathbb{R}^2/\Lambda_0 tem area 1. Além disso, um lattice \Lambda\subset\mathbb{R}^2 é um subconjunto da forma \Lambda = \Lambda_0+v onde v\in\mathbb{R}^2 e \Lambda_0 é uma rede.

Observação 0. Normalmente, o que chamamos acima de “rede” usualmente corresponde a um lattice na literatura, sendo que o que chamamos de “lattice” é denotado por “lattice translate” no artigo de Elkies e McMullen. Entretanto, suponho que não teremos problemas com a notação (pelo contrario, como estaremos apenas interessados nas translações das redes, essa notação sera benéfica).

Denotaremos por E o espaço de lattices unimodulares. Como o leitor pode verificar, este espaço é naturalmente identificado com

E = ASL(2,\mathbb{R})/ASL(2,\mathbb{Z}),

onde ASL(2,\mathbb{R}) é o grupo de transformações afins g:\mathbb{R}^2\to\mathbb{R}^2 da forma g(v) = Av+b com \det A=1 e ASL(2,\mathbb{Z}) é o subgrupo discreto de ASL(2,\mathbb{R}) cujos elementos g(v)=Av+b satisfazem A\in SL(2,\mathbb{Z}) e b\in\mathbb{Z}^2.

Uma consequência direta dessa identificação é o fato de E possuir uma unica probabilidade \mu_E invariante pela ação pela esquerda de ASL(2,\mathbb{R}) (sendo esta probabilidade dita a medida de Haar de E). Em particular, a noção de “lattice aleatorio” de E faz sentido: um lattice aleatorio sera um lattice com propriedades genéricas com relação a \mu_E, i.e., lattices satisfazendo propriedades definindo um conjunto de \mu_E probabilidade total).

Neste ponto, podemos fazer um esquema informal da prova do teorema de Elkies e McMullen.

Programa da prova do teorema de Elkies e McMullen

Fixemos N inteiro grande, t>0 e I=[x,x+t/N]\subset\mathbb{R}/\mathbb{Z}, onde x\in [0,1] é tomado aleatoriamente (com relação a medida de Lebesgue). Nesses termos, o programa da demonstração sera o seguinte:

  • determinar a distribuição de \sqrt{n} (mod 1) equivale a computar a probabilidade P_N(t) de I conter algum ponto \{\sqrt{n}\} com 0\leq n\leq N;
  • por outro lado, \{\sqrt{n}\}\in I \iff \sqrt{n}\in I+a para algum a\in\mathbb{Z} \iff n\in (I+a)^2 para algum a\in\mathbb{Z};
  • em seguida, mostra-se que, para efeitos do calculo da distribuição das lacunas de \{\sqrt{n}\}, podemos trocar (I+a)^2 por sua aproximação linear

(I+a)^2\sim (a+x)^2+ 2(a+x)(I-x) = a^2-x^2+2(a+x)I;

  • além disso, prova-se que podemos assumir que N é um quadrado;
  • com estes fatos em mãos, olhamos para a aproximação linear a^2-x^2+2(a+x)I de (I+a)^2 e notamos que

n\in a^2-x^2+2(a+x)I (para 0\leq n\leq N)

\Updownarrow

(\mathbb{Z}+x^2)\cap 2(a+x)I\neq\emptyset (para 0\leq a+x\leq\sqrt{N})

  • esta ultima condição pode ser escrita como T\cap\mathbb{Z}^2\neq\emptyset onde T\subset\mathbb{R}^2 é o triângulo de area t definido por

T:=\{(a,b): b+x^2\in 2(a+x)I \textrm{ e } a+x\in [0,\sqrt{N}]\}.

  • denotando por S_t o triângulo “padrão” de area t com vértices (0,0), (1,0), (0,2t) e considerando g\in ASL(2,\mathbb{R}) a unica transformação afim com g(T)=S_t e g(-x,-x^2)=(0,0), podemos reescrever a condição anterior como

g(\mathbb{Z}^2)\cap S_t\neq\emptyset;

  • resumindo, toda a discussão acima permite traduzirmos o calculo da probabilidade P_N(t) de I=[x,x+t/N] conter algum elemento \{\sqrt{n}\} com 0\leq n\leq N no problema de computar a probabilidade do lattice \Lambda_N(x):=g(\mathbb{Z}^2) intersectar o triângulo padrão S_t.
  • entretanto, para N\gg 1 grande espera-se que \Lambda_N(x)\in E se comporte como um lattice aleatorio: de fato, assim como todo bom lattice aleatorio, temos que a sequência \Lambda_N(x) é uniformemente distribuida – para toda f função continua de suporte compacto de E vale

\int_0^1 f(\Lambda_N(x)) dx\to\int_E f(\Lambda) d\mu_E(\Lambda) quando N\to\infty

  • usando o resultado de distribuição uniforme anterior, veremos que P_N(t)\to p(t) quando N\to\infty, onde p(t) é a probabilidade de um lattice aleatorio intersectar o triângulo padrão S_t;
  • finalmente, revertendo as traduções, mostra-se que p''(t)=-F(t), onde F(t) é a distribuição de lacunas de \{\sqrt{n}\}, o que acaba a demonstração porque p''(t) pode ser calculado explicitamente através de formulas naturais para a medida \mu_E.

Apos esta descrição informal do programa de Elkies e McMullen, passaremos a discutir com certo nivel de detalhes todos os pontos acima.

Algumas reduções preliminares

Para cada N\geq 1 inteiro, definimos a função \lambda_N:[0,\infty)\to [0,1] assim. Consideramos os N pontos \{\sqrt{n}\}, n=1,\dots,N, do circulo \mathbb{R}/\mathbb{Z}. Isso fornece uma partição do circulo em N intervalos J_1,\dots, J_N dos quais \lfloor N\rfloor-1 tem tamanho zero (estes intervalos são as lacunas de \{n\}, 1\leq n\leq N). Nessa notação,

\lambda_N(x):=\frac{1}{N}\#\{1\leq i\leq N: |J_i|<x/N\}.

Deixamos para o leitor verificar as seguintes propriedades elementares de \lambda_N(x):

  • \lambda_N é não-decrescente e continua pela esquerda (de fato, \lambda_N é constante exceto por quantidade finita de saltos); além disso, \lambda_N(0)=0 e \lambda_N(\infty)=1;
  • \int_0^{\infty}(1-\lambda_N(x))dx = \int_0^{\infty} x d\lambda_N(x) = 1 (porque \int_0^{\infty} x d\lambda_N(x) é a soma dos comprimentos das lacunas);

Nesses termos, o resultado de Elkies e McMullen se converte no seguinte teorema:

Teorema 1. Existe uma função continua \lambda_{\infty}:[0,\infty)\to [0,1] tal que \lambda_N\to \lambda_\infty uniformemente em compactos quando N\to\infty. Mais ainda,

\lambda_\infty(x) = \int_0^x F(\xi)d\xi,

onde F é uma função explicita a ser calculada mais tarde.

Note que a função F acima é a distribuição das lacunas de \{\sqrt{n}\} procurada: com efeito, para todo 0\leq x_1<x_2<\infty, a quantidade de lacunas de \{\sqrt{n}\} (1\leq n\leq N) com tamanho entre x_1/N e x_2/N é assintotico à \int_{x_1}^{x_2}F(\xi)d\xi.

Para estudar \lambda_N, introduzimos L_N:\mathbb{R}/\mathbb{Z}\to [0,\infty) dada por

L_N(t) =\begin{cases}0, \quad \quad \quad \quad \quad \quad \quad\textrm{se } t=\{\sqrt{n}\} \textrm{ para algum } 0\leq n\leq N \\ N\times \textrm{tamanho da lacuna contendo } t, \quad \textrm{caso contrario.}\end{cases}

Usando L_N podemos escrever a união das lacunas de tamanho <x/N como

I_N(x):=\{t\in\mathbb{R}/\mathbb{Z}: L_N(t)<x\}.

Em particular, |I_N(x)| = \int_0^x \xi d\lambda_N(\xi), de maneira que o teorema 1 equivale à:

Teorema 2. |I_N(x)|\to\int_0^x \xi F(\xi) d\xi uniformemente para x variando em compactos quando N\to\infty.

Agora vamos falar um pouco das reduções do(s) teorema(s) acima. A primeira simplificação do teorema 1 foi anunciada no quarto ponto do programa discutido anteriormente: no enunciado deste teorema podemos assumir que N é um quadrado perfeito, i.e., N=s^2 com s\in\mathbb{Z}. Mais precisamente, temos o seguinte enunciado:

Lema 1 (lemma 3.1 de Elkies e McMullen). Suponha que \lambda_{s^2} converge unif. em compactos para uma função continua \lambda_{\infty} quando s\to\infty. Então, \lambda_N também converge (unif. em compactos) para \lambda_\infty quando N\to\infty.

Prova. Observe que todo inteiro N esta a uma distância de O(\sqrt{N}) de um quadrado perfeito s^2. Por outro lado, a troca de N por s^2 muda 3|N-s^2|\lesssim\sqrt{N} dos tamanhos das lacunas (ao maximo) e multiplica o fator normalizante 1/N por N/s^2 = 1+O(\sqrt{1/N}). Em particular, segue que \lambda_{s^2}\to\lambda_{\infty} unif. em compactos implica \lambda_N\to\lambda_{\infty} unif. em compactos. \square

A segunda simplificação foi descrita no segundo e terceiro pontos do programa de Elkies e McMullen: no estudo de \lambda_N(x) podemos trocar as expressões quadraticas por suas aproximações lineares sem afetar as assintoticas. Para descrever detalhadamente isso, precisaremos introduzir mais alguma notação. Lembre que cada inteiro n pode ser escrito de maneira unica como a^2+b onde a = \lfloor n\rfloor = \sqrt{n} - \{\sqrt{n}\}. Utilizando o lema 1, podemos assumir que N é um quadrado perfeito, digamos N = s^2. Nessa situação, vemos que

L_N(t)=N(t_2-t_1)

onde t_2 é o menor numero real \geq t com (a_2+t_2)^2\in\mathbb{Z} para algum a_2<s inteiro e t_1 é o maior numero real \leq t com (a_1+t_1)^2\in\mathbb{Z} para algum a_1<s inteiro. Para entender melhor a função L_N fazemos a seguinte observação aritmética:

Observação 1. Para a_j\in\mathbb{Z} (j=1,2), temos que (a_j+t_j)^2 = a_j^2+2a_jt_j+t_j^2\in\mathbb{Z} se e so se b_j:=2a_jt_j+t_j^2\in\mathbb{Z}. Além disso, temos 0\leq b_j\leq (a_j+1)^2-a_j^2=2a_j+1 quando 0\leq t\leq 1.

Usando esta pequena observação, podemos re-escrever a identidade L_N(t) = N(t_2-t_1) como

L_N(t)=N((t_2-t)-(t_1-t))= N(\min\limits_{r_t(a,b)\geq 0} r_t(a,b) - \max\limits_{r_t(a,b)\leq 0} r_t(a,b)) onde a, b variam sobre os inteiros satisfazendo

0<a<s e 0\leq b\leq 2a+1.

Observação 2. De fato, esta ultima condição sobre b é superflua: por um lado, 0\leq b\leq 2a+1 equivale a 0\leq r_t(a,b)+t\leq 1 e por outro lado \min\limits_{r_t(a,b)\geq 0} r_t(a,b)+t e \max\limits_{r_t(a,b)\leq 0} r_t(a,b) estão entre 0 e 1 ja que r_t(1,0)+t=0 e r_t(1,3)+t=1.

Continuando o estudo de L_N, iremos aplicar a idéia discutida no terceiro ponto do programa de Elkies e McMullen: na definição de b_j (feita na obs. 1), trocamos t_j^2 pela sua aproximação linear t^2+2t(t_j-t) = 2t_jt-t^2 em torno de t. Com essa troca, b_j é substituido por 2a_j t_j + (2t_jt-t^2) = 2(a+t)t_j-t^2. Por esse motivo, vamos considerar \tau_j = (b_j+t^2)/2(a+t) a solução da equação

2(a+t)\tau_j-t^2=b_j

e vamos trocar t_j por \tau_j na definição de L_N, de modo que obtemos a função

\widetilde{L}_N(t):=N(\min\limits_{\rho_t(a,b)\geq 0} r_t(a,b) - \max\limits_{\rho_t(a,b)\leq 0} r_t(a,b))

onde \rho_t(a,b) := \frac{b+t^2}{2(a+t)} - t = \frac{a^2+b-(a+t)^2}{2(a+t)} e a, b variam sobre os inteiros satisfazendo

0<a<s e 0\leq b\leq 2a+1.

Observação 2′. Assim como na observação 2, a condição acima sobre b é superflua.

Analogamente ao conjunto I_N(x), definimos

\widetilde{I}_N(x):=\{t\in\mathbb{R}/\mathbb{Z}: \widetilde{L}_N(t)<x\}.

Como antecipamos no terceiro ponto do programa de Elkies e McMullen, a troca de t_j^2 por sua aproximação linear (ou equiva- lentemente a troca de t_j por \tau_j) na definição de L_N não altera as assintoticas. Mais precisamente, temos o seguinte teorema:

Teorema 3 (proposition 3.2 de Elkies e McMullen). Suponha que |\widetilde{I}_N(x)| converge unif. em compactos para \int_0^x \xi F(\xi)d\xi com F continua. Então o mesmo ocorre com I_N:

|I_N(x)|\to \int_0^x \xi F(\xi) d\xi

quando N\to\infty (unif. em compactos).

A explicação “conceitual” para a validade desse teorema é: tipicamente espera-se que t_j=t+O(1/N), de modo que |t_j-\tau_j|=O(1/a_jN^2) (ja que \tau_j é a solução da equação 2(a_j+t)\tau_j-t^2=b_j=2a_jt_j+t_j^2). Mais ainda, dado \varepsilon>0, temos 1/a_j<\varepsilon para a “maioria” dos pares (a_j,b_j). Portanto, a expectativa é que a troca de t_j por \tau_j muda o tamanho da maioria das lacunas de O(\varepsilon/N^2), o que não altera o comportamento assintotico de |I_N|.

Para formalizar a explicação anterior, consideramos o quociente

\frac{\rho_t(a,b)}{r_t(a,b)} = \frac{\sqrt{a^2+b}+a+t}{2(a+t)}\in [\frac{2a+1}{2a+2}, \frac{2a+1}{2a}].

Manipulando essa informação (veja o lemma 3.3 do artigo de Elkies e McMullen), segue que

Lema 2. Para todo t\in [0,1] vale \frac{3}{4}L_N(t)\leq \widetilde{L}_N(t)\leq \frac{3}{2} L_N(t). Além disso, para todo A\in\mathbb{N}, temos que a estimativa

\frac{2A+1}{2A+2}\widetilde{L}_N(t)\leq\frac{2A+1}{2A}L_N(t)

para todo t\in[0,1] exceto para um conjunto de tamanho \leq (A+2)(A-1)/(s-1).

Como o leitor pode verificar, este lema implica facilmente nas seguintes estimativas

|\widetilde{I}_N(3x/4)|\leq |I_N(x)|\leq |\widetilde{I}_N(3x/2)|

e

|\widetilde{I}_N(\frac{2A+1}{2A+2}x)|-O(A^2/s)\leq |I_N(x)|\leq |\widetilde{I}_N(\frac{2A+1}{2A}x)|+ O(A^2/s)

para todo x\in [0,\infty) e A=1,2,\dots. Usando essas estimativas com A=1+\lfloor s^{1/3}\rfloor (ou qualquer outra função crescente de s com A^2/s\to 0), obtemos o teorema 3.

Uma vez que temos o teorema 3 em mãos, nosso objetivo fica reduzido ao estudo assintotico de \widetilde{L_N}. Para isso, faremos na proxima seção a interpretação dessa quantidade em termos de lattices conforme proposto os pontos 5, 6, 7 e 8 do programa de Elkies e McMullen.

Interpretação geométrica de \widetilde{L}_N

Como dissemos no ponto 6 do programa, vamos usar um triângulo T conveniente (cuja forma ja explicitamos). Com nossa notação atual, T é o triângulo no plano (a,b) cujo interior é determinado pelas desigualdades

0<a+t<s, \, \, 2c_-(a+t)/s^2 < b-2ta-t^2 < 2c_+ (a+t)/s^2,

para c_-<0<c_+. Fazendo as traduções diretas das notações, o leitor pode checar facilmente que \widetilde{L}_N é interpretado em termos de T como no seguinte lema:

Lema 3. Para cada N=s^2 e t\in [0,1], temos as seguintes possibilidades:

  • se \widetilde{L}_N(t)\neq 0, então \widetilde{L}_N(t) é a area c_+-c_- do maior triângulo T (definido acima) cujo interior não intersecta \mathbb{Z}^2-\{(0,0),(0,1)\};
  • se \widetilde{L}_N(t)=0, então todos triângulos T como acima contém o ponto (a,b) cujas coordenadas satisfazem b-2ta-t^2=0 com 0<a<s.

Em seguida, fazemos uma “limpeza” no enunciado do lema acima observando que as possibilidades (a,b)= (0,0), (0,1) não afetam \widetilde{L}_N(t) exceto para t\in [0,1] num subconjunto de tamanho O(1/s):

Lema 4. A caracterização da quantidade \widetilde{L}_N(t) feita no lema 3 não é alterada pela inclusão dos casos (a,b)=(0,0), (0,1) exceto se 0\leq t < 1/(s-1) ou t^{-1}-t < 1/(s-1).

A prova desse lema é uma simples analise de caso: para os de- talhes veja o lemma 3.7 de Elkies e McMullen. Usando este lema, segue que a inclusão dos casos (a,b)=(0,0), (0,1) não afeta a assintotica de |\widetilde{I}_N(t)| (ja que esta modificação altera os valores de \widetilde{L}_N(t) apenas num subconjunto de tamanho O(1/s)).

Agora aplicaremos a idéia discutida no ponto 7 do programa: consideramos a transformação afim g de \mathbb{R}^2 definida por

g(a,b) = (w_1,w_2)=(s(b-2ta-t^2),(a+t)/s).

Observe que g leva o vértice (-t,-t^2) na origem (0,0), o triângulo T no triângulo

\Delta_{c_-,c_+}:=\{(w_1,w_2)\in\mathbb{R}^2: 0<w_2<1, \, 2c_- w_2<w_1<2c_+ w_2\}

e o lattice \mathbb{Z}^2 no lattice \Lambda_{s^2}(t)=g(\mathbb{Z}^2) dado por

\Lambda_{s^2}(t):=\{(s(b-2ta-t^2),(a+t)/s): (a,b)\in\mathbb{Z}^2)\}.

Note que o triângulo “padrão” \Delta_{c_-,c_+} depende de c_-,c_+ mas não de s,t (para efeitos de comparação, esse triângulo corresponde ao triângulo S_t do ponto 7 do programa de Elkies e McMullen).

Para finalizar nossas interpretações, introduzimos a seguinte definição:

Definição 1. Dado um lattice \Lambda no plano (w_1,w_2), denotamos por L(\Lambda) a area c_+-c_- do maior triângulo da forma \Delta_{c_-,c_+} disjunto de \Lambda com as convenções L(\Lambda)=0 quando não existir um tal triângulo e L(\Lambda)=\infty quando todos estes triângulos forem disjuntos de \Lambda.

Com essa notação, podemos aplicar o lema 4 para resumir toda essa discussão no seguinte fato:

Proposição 1 (proposition 3.8 de Elkies e McMullen). Para todo s\in\mathbb{N}, x\in\mathbb{R}, o conjunto dos t\in [0,1] com L(\Lambda_{s^2}(t))\leq x tem tamanho

|\widetilde{I}_{s^2}(x)|+O(1/s).

Em outras palavras, a proposição 1 diz que a questão de estudar a assintotica de \widetilde{I}_{s^2} fica reduzida ao estudo do comportamento da função L na familia de lattices \Lambda_{s^2}(t).

Nesse ponto, fica faltando “apenas” detalhar os pontos restantes (9, 10, 11) do programa. Moralmente, esses pontos essencialmente falam que o estudo de L nos lattices \Lambda_{s^2}(t) pode ser feito usando-se a teoria ergodica de lattices aleatorios (em particular, os teoremas de Ratner são bem uteis nessa tarefa).

Entretanto, deixaremos a discussão da parte “ergodica” da prova do teorema de Elkies e McMullen para os proximos posts. Até la!

Read Full Post »

Older Posts »