ViewVC Help
View File | Revision Log | Show Annotations | Download File | View Changeset | Root Listing
root/src/trunk/secure/lib/libcrypto/amd64/aesni-sha1-x86_64.S
(Generate patch)

Comparing trunk/secure/lib/libcrypto/amd64/aesni-sha1-x86_64.S (file contents):
Revision 12152 by laffer1, Sun Jul 8 16:29:52 2018 UTC vs.
Revision 12153 by laffer1, Sun Jan 20 05:38:15 2019 UTC

# Line 1 | Line 1
1   /* $MidnightBSD$ */
2 < # $FreeBSD: stable/10/secure/lib/libcrypto/amd64/aesni-sha1-x86_64.S 299966 2016-05-16 19:30:27Z jkim $
3 < # Do not modify. This file is auto-generated from aesni-sha1-x86_64.pl.
2 > /* $FreeBSD: stable/11/secure/lib/libcrypto/amd64/aesni-sha1-x86_64.S 325335 2017-11-02 18:22:53Z jkim $ */
3 > /* Do not modify. This file is auto-generated from aesni-sha1-x86_64.pl. */
4   .text  
5  
6  
7   .globl  aesni_cbc_sha1_enc
8   .type   aesni_cbc_sha1_enc,@function
9 < .align  16
9 > .align  32
10   aesni_cbc_sha1_enc:
11  
12          movl    OPENSSL_ia32cap_P+0(%rip),%r10d
13 <        movl    OPENSSL_ia32cap_P+4(%rip),%r11d
13 >        movq    OPENSSL_ia32cap_P+4(%rip),%r11
14 >        btq     $61,%r11
15 >        jc      aesni_cbc_sha1_enc_shaext
16          andl    $268435456,%r11d
17          andl    $1073741824,%r10d
18          orl     %r11d,%r10d
# Line 20 | Line 22 | aesni_cbc_sha1_enc:
22          .byte   0xf3,0xc3
23   .size   aesni_cbc_sha1_enc,.-aesni_cbc_sha1_enc
24   .type   aesni_cbc_sha1_enc_ssse3,@function
25 < .align  16
25 > .align  32
26   aesni_cbc_sha1_enc_ssse3:
27          movq    8(%rsp),%r10
28  
# Line 37 | Line 39 | aesni_cbc_sha1_enc_ssse3:
39          movq    %rdi,%r12
40          movq    %rsi,%r13
41          movq    %rdx,%r14
42 <        movq    %rcx,%r15
43 <        movdqu  (%r8),%xmm11
42 >        leaq    112(%rcx),%r15
43 >        movdqu  (%r8),%xmm2
44          movq    %r8,88(%rsp)
45          shlq    $6,%r14
46          subq    %r12,%r13
47 <        movl    240(%r15),%r8d
47 >        movl    240-112(%r15),%r8d
48          addq    %r10,%r14
49  
50          leaq    K_XX_XX(%rip),%r11
# Line 52 | Line 54 | aesni_cbc_sha1_enc_ssse3:
54          movl    12(%r9),%edx
55          movl    %ebx,%esi
56          movl    16(%r9),%ebp
57 +        movl    %ecx,%edi
58 +        xorl    %edx,%edi
59 +        andl    %edi,%esi
60  
61 <        movdqa  64(%r11),%xmm6
62 <        movdqa  0(%r11),%xmm9
63 <        movdqu  0(%r10),%xmm0
64 <        movdqu  16(%r10),%xmm1
65 <        movdqu  32(%r10),%xmm2
66 <        movdqu  48(%r10),%xmm3
67 < .byte   102,15,56,0,198
61 >        movdqa  64(%r11),%xmm3
62 >        movdqa  0(%r11),%xmm13
63 >        movdqu  0(%r10),%xmm4
64 >        movdqu  16(%r10),%xmm5
65 >        movdqu  32(%r10),%xmm6
66 >        movdqu  48(%r10),%xmm7
67 > .byte   102,15,56,0,227
68 > .byte   102,15,56,0,235
69 > .byte   102,15,56,0,243
70          addq    $64,%r10
71 < .byte   102,15,56,0,206
72 < .byte   102,15,56,0,214
73 < .byte   102,15,56,0,222
74 <        paddd   %xmm9,%xmm0
75 <        paddd   %xmm9,%xmm1
76 <        paddd   %xmm9,%xmm2
77 <        movdqa  %xmm0,0(%rsp)
78 <        psubd   %xmm9,%xmm0
79 <        movdqa  %xmm1,16(%rsp)
80 <        psubd   %xmm9,%xmm1
81 <        movdqa  %xmm2,32(%rsp)
82 <        psubd   %xmm9,%xmm2
76 <        movups  (%r15),%xmm13
77 <        movups  16(%r15),%xmm14
71 >        paddd   %xmm13,%xmm4
72 > .byte   102,15,56,0,251
73 >        paddd   %xmm13,%xmm5
74 >        paddd   %xmm13,%xmm6
75 >        movdqa  %xmm4,0(%rsp)
76 >        psubd   %xmm13,%xmm4
77 >        movdqa  %xmm5,16(%rsp)
78 >        psubd   %xmm13,%xmm5
79 >        movdqa  %xmm6,32(%rsp)
80 >        psubd   %xmm13,%xmm6
81 >        movups  -112(%r15),%xmm15
82 >        movups  16-112(%r15),%xmm0
83          jmp     .Loop_ssse3
84 < .align  16
84 > .align  32
85   .Loop_ssse3:
86 <        movdqa  %xmm1,%xmm4
87 <        addl    0(%rsp),%ebp
88 <        movups  0(%r12),%xmm12
89 <        xorps   %xmm13,%xmm12
90 <        xorps   %xmm12,%xmm11
91 < .byte   102,69,15,56,220,222
92 <        movups  32(%r15),%xmm15
93 <        xorl    %edx,%ecx
94 <        movdqa  %xmm3,%xmm8
95 < .byte   102,15,58,15,224,8
86 >        rorl    $2,%ebx
87 >        movups  0(%r12),%xmm14
88 >        xorps   %xmm15,%xmm14
89 >        xorps   %xmm14,%xmm2
90 >        movups  -80(%r15),%xmm1
91 > .byte   102,15,56,220,208
92 >        pshufd  $238,%xmm4,%xmm8
93 >        xorl    %edx,%esi
94 >        movdqa  %xmm7,%xmm12
95 >        paddd   %xmm7,%xmm13
96          movl    %eax,%edi
97 +        addl    0(%rsp),%ebp
98 +        punpcklqdq      %xmm5,%xmm8
99 +        xorl    %ecx,%ebx
100          roll    $5,%eax
93        paddd   %xmm3,%xmm9
94        andl    %ecx,%esi
95        xorl    %edx,%ecx
96        psrldq  $4,%xmm8
97        xorl    %edx,%esi
98        addl    %eax,%ebp
99        pxor    %xmm0,%xmm4
100        rorl    $2,%ebx
101          addl    %esi,%ebp
102 <        pxor    %xmm2,%xmm8
103 <        addl    4(%rsp),%edx
104 <        xorl    %ecx,%ebx
105 <        movl    %ebp,%esi
106 <        roll    $5,%ebp
107 <        pxor    %xmm8,%xmm4
102 >        psrldq  $4,%xmm12
103          andl    %ebx,%edi
104          xorl    %ecx,%ebx
105 <        movdqa  %xmm9,48(%rsp)
106 <        xorl    %ecx,%edi
112 < .byte   102,69,15,56,220,223
113 <        movups  48(%r15),%xmm14
114 <        addl    %ebp,%edx
115 <        movdqa  %xmm4,%xmm10
116 <        movdqa  %xmm4,%xmm8
105 >        pxor    %xmm4,%xmm8
106 >        addl    %eax,%ebp
107          rorl    $7,%eax
108 <        addl    %edi,%edx
109 <        addl    8(%rsp),%ecx
108 >        pxor    %xmm6,%xmm12
109 >        xorl    %ecx,%edi
110 >        movl    %ebp,%esi
111 >        addl    4(%rsp),%edx
112 >        pxor    %xmm12,%xmm8
113          xorl    %ebx,%eax
114 <        pslldq  $12,%xmm10
115 <        paddd   %xmm4,%xmm4
116 <        movl    %edx,%edi
117 <        roll    $5,%edx
114 >        roll    $5,%ebp
115 >        movdqa  %xmm13,48(%rsp)
116 >        addl    %edi,%edx
117 >        movups  -64(%r15),%xmm0
118 > .byte   102,15,56,220,209
119          andl    %eax,%esi
120 +        movdqa  %xmm8,%xmm3
121          xorl    %ebx,%eax
122 <        psrld   $31,%xmm8
128 <        xorl    %ebx,%esi
129 <        addl    %edx,%ecx
130 <        movdqa  %xmm10,%xmm9
122 >        addl    %ebp,%edx
123          rorl    $7,%ebp
124 <        addl    %esi,%ecx
125 <        psrld   $30,%xmm10
126 <        por     %xmm8,%xmm4
127 <        addl    12(%rsp),%ebx
124 >        movdqa  %xmm8,%xmm12
125 >        xorl    %ebx,%esi
126 >        pslldq  $12,%xmm3
127 >        paddd   %xmm8,%xmm8
128 >        movl    %edx,%edi
129 >        addl    8(%rsp),%ecx
130 >        psrld   $31,%xmm12
131          xorl    %eax,%ebp
132 <        movl    %ecx,%esi
133 <        roll    $5,%ecx
134 < .byte   102,69,15,56,220,222
140 <        movups  64(%r15),%xmm15
141 <        pslld   $2,%xmm9
142 <        pxor    %xmm10,%xmm4
132 >        roll    $5,%edx
133 >        addl    %esi,%ecx
134 >        movdqa  %xmm3,%xmm13
135          andl    %ebp,%edi
136          xorl    %eax,%ebp
137 <        movdqa  0(%r11),%xmm10
138 <        xorl    %eax,%edi
147 <        addl    %ecx,%ebx
148 <        pxor    %xmm9,%xmm4
137 >        psrld   $30,%xmm3
138 >        addl    %edx,%ecx
139          rorl    $7,%edx
140 <        addl    %edi,%ebx
141 <        movdqa  %xmm2,%xmm5
142 <        addl    16(%rsp),%eax
140 >        por     %xmm12,%xmm8
141 >        xorl    %eax,%edi
142 >        movl    %ecx,%esi
143 >        addl    12(%rsp),%ebx
144 >        movups  -48(%r15),%xmm1
145 > .byte   102,15,56,220,208
146 >        pslld   $2,%xmm13
147 >        pxor    %xmm3,%xmm8
148          xorl    %ebp,%edx
149 <        movdqa  %xmm4,%xmm9
150 < .byte   102,15,58,15,233,8
151 <        movl    %ebx,%edi
157 <        roll    $5,%ebx
158 <        paddd   %xmm4,%xmm10
149 >        movdqa  0(%r11),%xmm3
150 >        roll    $5,%ecx
151 >        addl    %edi,%ebx
152          andl    %edx,%esi
153 +        pxor    %xmm13,%xmm8
154          xorl    %ebp,%edx
155 <        psrldq  $4,%xmm9
162 <        xorl    %ebp,%esi
163 <        addl    %ebx,%eax
164 <        pxor    %xmm1,%xmm5
155 >        addl    %ecx,%ebx
156          rorl    $7,%ecx
157 <        addl    %esi,%eax
158 <        pxor    %xmm3,%xmm9
159 <        addl    20(%rsp),%ebp
160 < .byte   102,69,15,56,220,223
161 <        movups  80(%r15),%xmm14
157 >        pshufd  $238,%xmm5,%xmm9
158 >        xorl    %ebp,%esi
159 >        movdqa  %xmm8,%xmm13
160 >        paddd   %xmm8,%xmm3
161 >        movl    %ebx,%edi
162 >        addl    16(%rsp),%eax
163 >        punpcklqdq      %xmm6,%xmm9
164          xorl    %edx,%ecx
165 <        movl    %eax,%esi
166 <        roll    $5,%eax
167 <        pxor    %xmm9,%xmm5
165 >        roll    $5,%ebx
166 >        addl    %esi,%eax
167 >        psrldq  $4,%xmm13
168          andl    %ecx,%edi
169          xorl    %edx,%ecx
170 <        movdqa  %xmm10,0(%rsp)
171 <        xorl    %edx,%edi
179 <        addl    %eax,%ebp
180 <        movdqa  %xmm5,%xmm8
181 <        movdqa  %xmm5,%xmm9
170 >        pxor    %xmm5,%xmm9
171 >        addl    %ebx,%eax
172          rorl    $7,%ebx
173 <        addl    %edi,%ebp
174 <        addl    24(%rsp),%edx
173 >        movups  -32(%r15),%xmm0
174 > .byte   102,15,56,220,209
175 >        pxor    %xmm7,%xmm13
176 >        xorl    %edx,%edi
177 >        movl    %eax,%esi
178 >        addl    20(%rsp),%ebp
179 >        pxor    %xmm13,%xmm9
180          xorl    %ecx,%ebx
181 <        pslldq  $12,%xmm8
182 <        paddd   %xmm5,%xmm5
183 <        movl    %ebp,%edi
189 <        roll    $5,%ebp
181 >        roll    $5,%eax
182 >        movdqa  %xmm3,0(%rsp)
183 >        addl    %edi,%ebp
184          andl    %ebx,%esi
185 +        movdqa  %xmm9,%xmm12
186          xorl    %ecx,%ebx
187 <        psrld   $31,%xmm9
193 <        xorl    %ecx,%esi
194 < .byte   102,69,15,56,220,222
195 <        movups  96(%r15),%xmm15
196 <        addl    %ebp,%edx
197 <        movdqa  %xmm8,%xmm10
187 >        addl    %eax,%ebp
188          rorl    $7,%eax
189 <        addl    %esi,%edx
190 <        psrld   $30,%xmm8
191 <        por     %xmm9,%xmm5
192 <        addl    28(%rsp),%ecx
189 >        movdqa  %xmm9,%xmm13
190 >        xorl    %ecx,%esi
191 >        pslldq  $12,%xmm12
192 >        paddd   %xmm9,%xmm9
193 >        movl    %ebp,%edi
194 >        addl    24(%rsp),%edx
195 >        psrld   $31,%xmm13
196          xorl    %ebx,%eax
197 <        movl    %edx,%esi
198 <        roll    $5,%edx
199 <        pslld   $2,%xmm10
200 <        pxor    %xmm8,%xmm5
197 >        roll    $5,%ebp
198 >        addl    %esi,%edx
199 >        movups  -16(%r15),%xmm1
200 > .byte   102,15,56,220,208
201 >        movdqa  %xmm12,%xmm3
202          andl    %eax,%edi
203          xorl    %ebx,%eax
204 <        movdqa  16(%r11),%xmm8
205 <        xorl    %ebx,%edi
212 <        addl    %edx,%ecx
213 <        pxor    %xmm10,%xmm5
204 >        psrld   $30,%xmm12
205 >        addl    %ebp,%edx
206          rorl    $7,%ebp
207 <        addl    %edi,%ecx
208 <        movdqa  %xmm3,%xmm6
209 <        addl    32(%rsp),%ebx
207 >        por     %xmm13,%xmm9
208 >        xorl    %ebx,%edi
209 >        movl    %edx,%esi
210 >        addl    28(%rsp),%ecx
211 >        pslld   $2,%xmm3
212 >        pxor    %xmm12,%xmm9
213          xorl    %eax,%ebp
214 <        movdqa  %xmm5,%xmm10
215 < .byte   102,15,58,15,242,8
216 <        movl    %ecx,%edi
222 <        roll    $5,%ecx
223 < .byte   102,69,15,56,220,223
224 <        movups  112(%r15),%xmm14
225 <        paddd   %xmm5,%xmm8
214 >        movdqa  16(%r11),%xmm12
215 >        roll    $5,%edx
216 >        addl    %edi,%ecx
217          andl    %ebp,%esi
218 +        pxor    %xmm3,%xmm9
219          xorl    %eax,%ebp
220 <        psrldq  $4,%xmm10
229 <        xorl    %eax,%esi
230 <        addl    %ecx,%ebx
231 <        pxor    %xmm2,%xmm6
220 >        addl    %edx,%ecx
221          rorl    $7,%edx
222 <        addl    %esi,%ebx
223 <        pxor    %xmm4,%xmm10
224 <        addl    36(%rsp),%eax
222 >        pshufd  $238,%xmm6,%xmm10
223 >        xorl    %eax,%esi
224 >        movdqa  %xmm9,%xmm3
225 >        paddd   %xmm9,%xmm12
226 >        movl    %ecx,%edi
227 >        addl    32(%rsp),%ebx
228 >        movups  0(%r15),%xmm0
229 > .byte   102,15,56,220,209
230 >        punpcklqdq      %xmm7,%xmm10
231          xorl    %ebp,%edx
232 <        movl    %ebx,%esi
233 <        roll    $5,%ebx
234 <        pxor    %xmm10,%xmm6
232 >        roll    $5,%ecx
233 >        addl    %esi,%ebx
234 >        psrldq  $4,%xmm3
235          andl    %edx,%edi
236          xorl    %ebp,%edx
237 <        movdqa  %xmm8,16(%rsp)
238 <        xorl    %ebp,%edi
244 <        addl    %ebx,%eax
245 <        movdqa  %xmm6,%xmm9
246 <        movdqa  %xmm6,%xmm10
237 >        pxor    %xmm6,%xmm10
238 >        addl    %ecx,%ebx
239          rorl    $7,%ecx
240 <        addl    %edi,%eax
241 <        addl    40(%rsp),%ebp
242 < .byte   102,69,15,56,220,222
243 <        movups  128(%r15),%xmm15
240 >        pxor    %xmm8,%xmm3
241 >        xorl    %ebp,%edi
242 >        movl    %ebx,%esi
243 >        addl    36(%rsp),%eax
244 >        pxor    %xmm3,%xmm10
245          xorl    %edx,%ecx
246 <        pslldq  $12,%xmm9
247 <        paddd   %xmm6,%xmm6
248 <        movl    %eax,%edi
256 <        roll    $5,%eax
246 >        roll    $5,%ebx
247 >        movdqa  %xmm12,16(%rsp)
248 >        addl    %edi,%eax
249          andl    %ecx,%esi
250 +        movdqa  %xmm10,%xmm13
251          xorl    %edx,%ecx
252 <        psrld   $31,%xmm10
260 <        xorl    %edx,%esi
261 <        addl    %eax,%ebp
262 <        movdqa  %xmm9,%xmm8
252 >        addl    %ebx,%eax
253          rorl    $7,%ebx
254 <        addl    %esi,%ebp
255 <        psrld   $30,%xmm9
256 <        por     %xmm10,%xmm6
257 <        addl    44(%rsp),%edx
254 >        movups  16(%r15),%xmm1
255 > .byte   102,15,56,220,208
256 >        movdqa  %xmm10,%xmm3
257 >        xorl    %edx,%esi
258 >        pslldq  $12,%xmm13
259 >        paddd   %xmm10,%xmm10
260 >        movl    %eax,%edi
261 >        addl    40(%rsp),%ebp
262 >        psrld   $31,%xmm3
263          xorl    %ecx,%ebx
264 <        movl    %ebp,%esi
265 <        roll    $5,%ebp
266 <        pslld   $2,%xmm8
272 <        pxor    %xmm9,%xmm6
264 >        roll    $5,%eax
265 >        addl    %esi,%ebp
266 >        movdqa  %xmm13,%xmm12
267          andl    %ebx,%edi
268          xorl    %ecx,%ebx
269 <        movdqa  16(%r11),%xmm9
270 <        xorl    %ecx,%edi
277 < .byte   102,69,15,56,220,223
278 <        movups  144(%r15),%xmm14
279 <        addl    %ebp,%edx
280 <        pxor    %xmm8,%xmm6
269 >        psrld   $30,%xmm13
270 >        addl    %eax,%ebp
271          rorl    $7,%eax
272 <        addl    %edi,%edx
273 <        movdqa  %xmm4,%xmm7
274 <        addl    48(%rsp),%ecx
272 >        por     %xmm3,%xmm10
273 >        xorl    %ecx,%edi
274 >        movl    %ebp,%esi
275 >        addl    44(%rsp),%edx
276 >        pslld   $2,%xmm12
277 >        pxor    %xmm13,%xmm10
278          xorl    %ebx,%eax
279 <        movdqa  %xmm6,%xmm8
280 < .byte   102,15,58,15,251,8
281 <        movl    %edx,%edi
282 <        roll    $5,%edx
283 <        paddd   %xmm6,%xmm9
279 >        movdqa  16(%r11),%xmm13
280 >        roll    $5,%ebp
281 >        addl    %edi,%edx
282 >        movups  32(%r15),%xmm0
283 > .byte   102,15,56,220,209
284          andl    %eax,%esi
285 +        pxor    %xmm12,%xmm10
286          xorl    %ebx,%eax
287 <        psrldq  $4,%xmm8
294 <        xorl    %ebx,%esi
295 <        addl    %edx,%ecx
296 <        pxor    %xmm3,%xmm7
287 >        addl    %ebp,%edx
288          rorl    $7,%ebp
289 <        addl    %esi,%ecx
290 <        pxor    %xmm5,%xmm8
291 <        addl    52(%rsp),%ebx
289 >        pshufd  $238,%xmm7,%xmm11
290 >        xorl    %ebx,%esi
291 >        movdqa  %xmm10,%xmm12
292 >        paddd   %xmm10,%xmm13
293 >        movl    %edx,%edi
294 >        addl    48(%rsp),%ecx
295 >        punpcklqdq      %xmm8,%xmm11
296          xorl    %eax,%ebp
297 <        movl    %ecx,%esi
298 <        roll    $5,%ecx
299 < .byte   102,69,15,56,220,222
305 <        movups  160(%r15),%xmm15
306 <        pxor    %xmm8,%xmm7
297 >        roll    $5,%edx
298 >        addl    %esi,%ecx
299 >        psrldq  $4,%xmm12
300          andl    %ebp,%edi
301          xorl    %eax,%ebp
302 <        movdqa  %xmm9,32(%rsp)
303 <        xorl    %eax,%edi
311 <        addl    %ecx,%ebx
312 <        movdqa  %xmm7,%xmm10
313 <        movdqa  %xmm7,%xmm8
302 >        pxor    %xmm7,%xmm11
303 >        addl    %edx,%ecx
304          rorl    $7,%edx
305 <        addl    %edi,%ebx
306 <        addl    56(%rsp),%eax
305 >        pxor    %xmm9,%xmm12
306 >        xorl    %eax,%edi
307 >        movl    %ecx,%esi
308 >        addl    52(%rsp),%ebx
309 >        movups  48(%r15),%xmm1
310 > .byte   102,15,56,220,208
311 >        pxor    %xmm12,%xmm11
312          xorl    %ebp,%edx
313 <        pslldq  $12,%xmm10
314 <        paddd   %xmm7,%xmm7
315 <        movl    %ebx,%edi
321 <        roll    $5,%ebx
313 >        roll    $5,%ecx
314 >        movdqa  %xmm13,32(%rsp)
315 >        addl    %edi,%ebx
316          andl    %edx,%esi
317 +        movdqa  %xmm11,%xmm3
318          xorl    %ebp,%edx
319 <        psrld   $31,%xmm8
325 <        xorl    %ebp,%esi
326 <        addl    %ebx,%eax
327 <        movdqa  %xmm10,%xmm9
319 >        addl    %ecx,%ebx
320          rorl    $7,%ecx
321 +        movdqa  %xmm11,%xmm12
322 +        xorl    %ebp,%esi
323 +        pslldq  $12,%xmm3
324 +        paddd   %xmm11,%xmm11
325 +        movl    %ebx,%edi
326 +        addl    56(%rsp),%eax
327 +        psrld   $31,%xmm12
328 +        xorl    %edx,%ecx
329 +        roll    $5,%ebx
330          addl    %esi,%eax
331 <        psrld   $30,%xmm10
332 <        por     %xmm8,%xmm7
333 <        addl    60(%rsp),%ebp
331 >        movdqa  %xmm3,%xmm13
332 >        andl    %ecx,%edi
333 >        xorl    %edx,%ecx
334 >        psrld   $30,%xmm3
335 >        addl    %ebx,%eax
336 >        rorl    $7,%ebx
337          cmpl    $11,%r8d
338          jb      .Laesenclast1
339 <        movups  176(%r15),%xmm14
340 < .byte   102,69,15,56,220,223
341 <        movups  192(%r15),%xmm15
342 < .byte   102,69,15,56,220,222
339 >        movups  64(%r15),%xmm0
340 > .byte   102,15,56,220,209
341 >        movups  80(%r15),%xmm1
342 > .byte   102,15,56,220,208
343          je      .Laesenclast1
344 <        movups  208(%r15),%xmm14
345 < .byte   102,69,15,56,220,223
346 <        movups  224(%r15),%xmm15
347 < .byte   102,69,15,56,220,222
344 >        movups  96(%r15),%xmm0
345 > .byte   102,15,56,220,209
346 >        movups  112(%r15),%xmm1
347 > .byte   102,15,56,220,208
348   .Laesenclast1:
349 < .byte   102,69,15,56,221,223
350 <        movups  16(%r15),%xmm14
351 <        xorl    %edx,%ecx
349 > .byte   102,15,56,221,209
350 >        movups  16-112(%r15),%xmm0
351 >        por     %xmm12,%xmm11
352 >        xorl    %edx,%edi
353          movl    %eax,%esi
354 +        addl    60(%rsp),%ebp
355 +        pslld   $2,%xmm13
356 +        pxor    %xmm3,%xmm11
357 +        xorl    %ecx,%ebx
358 +        movdqa  16(%r11),%xmm3
359          roll    $5,%eax
350        pslld   $2,%xmm9
351        pxor    %xmm10,%xmm7
352        andl    %ecx,%edi
353        xorl    %edx,%ecx
354        movdqa  16(%r11),%xmm10
355        xorl    %edx,%edi
356        addl    %eax,%ebp
357        pxor    %xmm9,%xmm7
358        rorl    $7,%ebx
360          addl    %edi,%ebp
360        movdqa  %xmm7,%xmm9
361        addl    0(%rsp),%edx
362        pxor    %xmm4,%xmm0
363 .byte   102,68,15,58,15,206,8
364        xorl    %ecx,%ebx
365        movl    %ebp,%edi
366        roll    $5,%ebp
367        pxor    %xmm1,%xmm0
361          andl    %ebx,%esi
362 +        pxor    %xmm13,%xmm11
363 +        pshufd  $238,%xmm10,%xmm13
364          xorl    %ecx,%ebx
365 <        movdqa  %xmm10,%xmm8
371 <        paddd   %xmm7,%xmm10
372 <        xorl    %ecx,%esi
373 <        movups  16(%r12),%xmm12
374 <        xorps   %xmm13,%xmm12
375 <        movups  %xmm11,0(%r13,%r12,1)
376 <        xorps   %xmm12,%xmm11
377 < .byte   102,69,15,56,220,222
378 <        movups  32(%r15),%xmm15
379 <        addl    %ebp,%edx
380 <        pxor    %xmm9,%xmm0
365 >        addl    %eax,%ebp
366          rorl    $7,%eax
367 <        addl    %esi,%edx
368 <        addl    4(%rsp),%ecx
367 >        pxor    %xmm8,%xmm4
368 >        xorl    %ecx,%esi
369 >        movl    %ebp,%edi
370 >        addl    0(%rsp),%edx
371 >        punpcklqdq      %xmm11,%xmm13
372          xorl    %ebx,%eax
373 <        movdqa  %xmm0,%xmm9
374 <        movdqa  %xmm10,48(%rsp)
375 <        movl    %edx,%esi
376 <        roll    $5,%edx
373 >        roll    $5,%ebp
374 >        pxor    %xmm5,%xmm4
375 >        addl    %esi,%edx
376 >        movups  16(%r12),%xmm14
377 >        xorps   %xmm15,%xmm14
378 >        movups  %xmm2,0(%r12,%r13,1)
379 >        xorps   %xmm14,%xmm2
380 >        movups  -80(%r15),%xmm1
381 > .byte   102,15,56,220,208
382          andl    %eax,%edi
383 +        movdqa  %xmm3,%xmm12
384          xorl    %ebx,%eax
385 <        pslld   $2,%xmm0
386 <        xorl    %ebx,%edi
387 <        addl    %edx,%ecx
394 <        psrld   $30,%xmm9
385 >        paddd   %xmm11,%xmm3
386 >        addl    %ebp,%edx
387 >        pxor    %xmm13,%xmm4
388          rorl    $7,%ebp
389 <        addl    %edi,%ecx
390 <        addl    8(%rsp),%ebx
389 >        xorl    %ebx,%edi
390 >        movl    %edx,%esi
391 >        addl    4(%rsp),%ecx
392 >        movdqa  %xmm4,%xmm13
393          xorl    %eax,%ebp
394 <        movl    %ecx,%edi
395 <        roll    $5,%ecx
396 < .byte   102,69,15,56,220,223
402 <        movups  48(%r15),%xmm14
403 <        por     %xmm9,%xmm0
394 >        roll    $5,%edx
395 >        movdqa  %xmm3,48(%rsp)
396 >        addl    %edi,%ecx
397          andl    %ebp,%esi
398          xorl    %eax,%ebp
399 <        movdqa  %xmm0,%xmm10
400 <        xorl    %eax,%esi
408 <        addl    %ecx,%ebx
399 >        pslld   $2,%xmm4
400 >        addl    %edx,%ecx
401          rorl    $7,%edx
402 <        addl    %esi,%ebx
403 <        addl    12(%rsp),%eax
402 >        psrld   $30,%xmm13
403 >        xorl    %eax,%esi
404 >        movl    %ecx,%edi
405 >        addl    8(%rsp),%ebx
406 >        movups  -64(%r15),%xmm0
407 > .byte   102,15,56,220,209
408 >        por     %xmm13,%xmm4
409          xorl    %ebp,%edx
410 <        movl    %ebx,%esi
411 <        roll    $5,%ebx
410 >        roll    $5,%ecx
411 >        pshufd  $238,%xmm11,%xmm3
412 >        addl    %esi,%ebx
413          andl    %edx,%edi
414          xorl    %ebp,%edx
415 +        addl    %ecx,%ebx
416 +        addl    12(%rsp),%eax
417          xorl    %ebp,%edi
418 <        addl    %ebx,%eax
419 <        rorl    $7,%ecx
418 >        movl    %ebx,%esi
419 >        roll    $5,%ebx
420          addl    %edi,%eax
421        addl    16(%rsp),%ebp
422 .byte   102,69,15,56,220,222
423        movups  64(%r15),%xmm15
424        pxor    %xmm5,%xmm1
425 .byte   102,68,15,58,15,215,8
421          xorl    %edx,%esi
422 +        rorl    $7,%ecx
423 +        addl    %ebx,%eax
424 +        pxor    %xmm9,%xmm5
425 +        addl    16(%rsp),%ebp
426 +        movups  -48(%r15),%xmm1
427 + .byte   102,15,56,220,208
428 +        xorl    %ecx,%esi
429 +        punpcklqdq      %xmm4,%xmm3
430          movl    %eax,%edi
431          roll    $5,%eax
432 <        pxor    %xmm2,%xmm1
430 <        xorl    %ecx,%esi
431 <        addl    %eax,%ebp
432 <        movdqa  %xmm8,%xmm9
433 <        paddd   %xmm0,%xmm8
434 <        rorl    $7,%ebx
432 >        pxor    %xmm6,%xmm5
433          addl    %esi,%ebp
436        pxor    %xmm10,%xmm1
437        addl    20(%rsp),%edx
434          xorl    %ecx,%edi
435 +        movdqa  %xmm12,%xmm13
436 +        rorl    $7,%ebx
437 +        paddd   %xmm4,%xmm12
438 +        addl    %eax,%ebp
439 +        pxor    %xmm3,%xmm5
440 +        addl    20(%rsp),%edx
441 +        xorl    %ebx,%edi
442          movl    %ebp,%esi
443          roll    $5,%ebp
444 <        movdqa  %xmm1,%xmm10
442 <        movdqa  %xmm8,0(%rsp)
443 <        xorl    %ebx,%edi
444 <        addl    %ebp,%edx
445 <        rorl    $7,%eax
444 >        movdqa  %xmm5,%xmm3
445          addl    %edi,%edx
447        pslld   $2,%xmm1
448        addl    24(%rsp),%ecx
446          xorl    %ebx,%esi
447 <        psrld   $30,%xmm10
447 >        movdqa  %xmm12,0(%rsp)
448 >        rorl    $7,%eax
449 >        addl    %ebp,%edx
450 >        addl    24(%rsp),%ecx
451 >        pslld   $2,%xmm5
452 >        xorl    %eax,%esi
453          movl    %edx,%edi
454 +        psrld   $30,%xmm3
455          roll    $5,%edx
453        xorl    %eax,%esi
454 .byte   102,69,15,56,220,223
455        movups  80(%r15),%xmm14
456        addl    %edx,%ecx
457        rorl    $7,%ebp
456          addl    %esi,%ecx
457 <        por     %xmm10,%xmm1
458 <        addl    28(%rsp),%ebx
457 >        movups  -32(%r15),%xmm0
458 > .byte   102,15,56,220,209
459          xorl    %eax,%edi
460 <        movdqa  %xmm1,%xmm8
460 >        rorl    $7,%ebp
461 >        por     %xmm3,%xmm5
462 >        addl    %edx,%ecx
463 >        addl    28(%rsp),%ebx
464 >        pshufd  $238,%xmm4,%xmm12
465 >        xorl    %ebp,%edi
466          movl    %ecx,%esi
467          roll    $5,%ecx
465        xorl    %ebp,%edi
466        addl    %ecx,%ebx
467        rorl    $7,%edx
468          addl    %edi,%ebx
469        addl    32(%rsp),%eax
470        pxor    %xmm6,%xmm2
471 .byte   102,68,15,58,15,192,8
469          xorl    %ebp,%esi
470 +        rorl    $7,%edx
471 +        addl    %ecx,%ebx
472 +        pxor    %xmm10,%xmm6
473 +        addl    32(%rsp),%eax
474 +        xorl    %edx,%esi
475 +        punpcklqdq      %xmm5,%xmm12
476          movl    %ebx,%edi
477          roll    $5,%ebx
478 <        pxor    %xmm3,%xmm2
476 <        xorl    %edx,%esi
477 <        addl    %ebx,%eax
478 <        movdqa  32(%r11),%xmm10
479 <        paddd   %xmm1,%xmm9
480 <        rorl    $7,%ecx
478 >        pxor    %xmm7,%xmm6
479          addl    %esi,%eax
482        pxor    %xmm8,%xmm2
483        addl    36(%rsp),%ebp
484 .byte   102,69,15,56,220,222
485        movups  96(%r15),%xmm15
480          xorl    %edx,%edi
481 +        movdqa  32(%r11),%xmm3
482 +        rorl    $7,%ecx
483 +        paddd   %xmm5,%xmm13
484 +        addl    %ebx,%eax
485 +        pxor    %xmm12,%xmm6
486 +        addl    36(%rsp),%ebp
487 +        movups  -16(%r15),%xmm1
488 + .byte   102,15,56,220,208
489 +        xorl    %ecx,%edi
490          movl    %eax,%esi
491          roll    $5,%eax
492 <        movdqa  %xmm2,%xmm8
490 <        movdqa  %xmm9,16(%rsp)
491 <        xorl    %ecx,%edi
492 <        addl    %eax,%ebp
493 <        rorl    $7,%ebx
492 >        movdqa  %xmm6,%xmm12
493          addl    %edi,%ebp
495        pslld   $2,%xmm2
496        addl    40(%rsp),%edx
494          xorl    %ecx,%esi
495 <        psrld   $30,%xmm8
495 >        movdqa  %xmm13,16(%rsp)
496 >        rorl    $7,%ebx
497 >        addl    %eax,%ebp
498 >        addl    40(%rsp),%edx
499 >        pslld   $2,%xmm6
500 >        xorl    %ebx,%esi
501          movl    %ebp,%edi
502 +        psrld   $30,%xmm12
503          roll    $5,%ebp
501        xorl    %ebx,%esi
502        addl    %ebp,%edx
503        rorl    $7,%eax
504          addl    %esi,%edx
505        por     %xmm8,%xmm2
506        addl    44(%rsp),%ecx
505          xorl    %ebx,%edi
506 <        movdqa  %xmm2,%xmm9
506 >        rorl    $7,%eax
507 >        por     %xmm12,%xmm6
508 >        addl    %ebp,%edx
509 >        addl    44(%rsp),%ecx
510 >        pshufd  $238,%xmm5,%xmm13
511 >        xorl    %eax,%edi
512          movl    %edx,%esi
513          roll    $5,%edx
511        xorl    %eax,%edi
512 .byte   102,69,15,56,220,223
513        movups  112(%r15),%xmm14
514        addl    %edx,%ecx
515        rorl    $7,%ebp
514          addl    %edi,%ecx
515 <        addl    48(%rsp),%ebx
516 <        pxor    %xmm7,%xmm3
519 < .byte   102,68,15,58,15,201,8
515 >        movups  0(%r15),%xmm0
516 > .byte   102,15,56,220,209
517          xorl    %eax,%esi
518 +        rorl    $7,%ebp
519 +        addl    %edx,%ecx
520 +        pxor    %xmm11,%xmm7
521 +        addl    48(%rsp),%ebx
522 +        xorl    %ebp,%esi
523 +        punpcklqdq      %xmm6,%xmm13
524          movl    %ecx,%edi
525          roll    $5,%ecx
526 <        pxor    %xmm4,%xmm3
524 <        xorl    %ebp,%esi
525 <        addl    %ecx,%ebx
526 <        movdqa  %xmm10,%xmm8
527 <        paddd   %xmm2,%xmm10
528 <        rorl    $7,%edx
526 >        pxor    %xmm8,%xmm7
527          addl    %esi,%ebx
530        pxor    %xmm9,%xmm3
531        addl    52(%rsp),%eax
528          xorl    %ebp,%edi
529 +        movdqa  %xmm3,%xmm12
530 +        rorl    $7,%edx
531 +        paddd   %xmm6,%xmm3
532 +        addl    %ecx,%ebx
533 +        pxor    %xmm13,%xmm7
534 +        addl    52(%rsp),%eax
535 +        xorl    %edx,%edi
536          movl    %ebx,%esi
537          roll    $5,%ebx
538 <        movdqa  %xmm3,%xmm9
536 <        movdqa  %xmm10,32(%rsp)
537 <        xorl    %edx,%edi
538 <        addl    %ebx,%eax
539 <        rorl    $7,%ecx
538 >        movdqa  %xmm7,%xmm13
539          addl    %edi,%eax
541        pslld   $2,%xmm3
542        addl    56(%rsp),%ebp
543 .byte   102,69,15,56,220,222
544        movups  128(%r15),%xmm15
540          xorl    %edx,%esi
541 <        psrld   $30,%xmm9
541 >        movdqa  %xmm3,32(%rsp)
542 >        rorl    $7,%ecx
543 >        addl    %ebx,%eax
544 >        addl    56(%rsp),%ebp
545 >        movups  16(%r15),%xmm1
546 > .byte   102,15,56,220,208
547 >        pslld   $2,%xmm7
548 >        xorl    %ecx,%esi
549          movl    %eax,%edi
550 +        psrld   $30,%xmm13
551          roll    $5,%eax
549        xorl    %ecx,%esi
550        addl    %eax,%ebp
551        rorl    $7,%ebx
552          addl    %esi,%ebp
553        por     %xmm9,%xmm3
554        addl    60(%rsp),%edx
553          xorl    %ecx,%edi
554 <        movdqa  %xmm3,%xmm10
554 >        rorl    $7,%ebx
555 >        por     %xmm13,%xmm7
556 >        addl    %eax,%ebp
557 >        addl    60(%rsp),%edx
558 >        pshufd  $238,%xmm6,%xmm3
559 >        xorl    %ebx,%edi
560          movl    %ebp,%esi
561          roll    $5,%ebp
559        xorl    %ebx,%edi
560        addl    %ebp,%edx
561        rorl    $7,%eax
562          addl    %edi,%edx
563        addl    0(%rsp),%ecx
564        pxor    %xmm0,%xmm4
565 .byte   102,68,15,58,15,210,8
563          xorl    %ebx,%esi
564 +        rorl    $7,%eax
565 +        addl    %ebp,%edx
566 +        pxor    %xmm4,%xmm8
567 +        addl    0(%rsp),%ecx
568 +        xorl    %eax,%esi
569 +        punpcklqdq      %xmm7,%xmm3
570          movl    %edx,%edi
571          roll    $5,%edx
572 <        pxor    %xmm5,%xmm4
570 <        xorl    %eax,%esi
571 < .byte   102,69,15,56,220,223
572 <        movups  144(%r15),%xmm14
573 <        addl    %edx,%ecx
574 <        movdqa  %xmm8,%xmm9
575 <        paddd   %xmm3,%xmm8
576 <        rorl    $7,%ebp
572 >        pxor    %xmm9,%xmm8
573          addl    %esi,%ecx
574 <        pxor    %xmm10,%xmm4
575 <        addl    4(%rsp),%ebx
574 >        movups  32(%r15),%xmm0
575 > .byte   102,15,56,220,209
576          xorl    %eax,%edi
577 +        movdqa  %xmm12,%xmm13
578 +        rorl    $7,%ebp
579 +        paddd   %xmm7,%xmm12
580 +        addl    %edx,%ecx
581 +        pxor    %xmm3,%xmm8
582 +        addl    4(%rsp),%ebx
583 +        xorl    %ebp,%edi
584          movl    %ecx,%esi
585          roll    $5,%ecx
586 <        movdqa  %xmm4,%xmm10
584 <        movdqa  %xmm8,48(%rsp)
585 <        xorl    %ebp,%edi
586 <        addl    %ecx,%ebx
587 <        rorl    $7,%edx
586 >        movdqa  %xmm8,%xmm3
587          addl    %edi,%ebx
589        pslld   $2,%xmm4
590        addl    8(%rsp),%eax
588          xorl    %ebp,%esi
589 <        psrld   $30,%xmm10
589 >        movdqa  %xmm12,48(%rsp)
590 >        rorl    $7,%edx
591 >        addl    %ecx,%ebx
592 >        addl    8(%rsp),%eax
593 >        pslld   $2,%xmm8
594 >        xorl    %edx,%esi
595          movl    %ebx,%edi
596 +        psrld   $30,%xmm3
597          roll    $5,%ebx
595        xorl    %edx,%esi
596        addl    %ebx,%eax
597        rorl    $7,%ecx
598          addl    %esi,%eax
599        por     %xmm10,%xmm4
600        addl    12(%rsp),%ebp
601 .byte   102,69,15,56,220,222
602        movups  160(%r15),%xmm15
599          xorl    %edx,%edi
600 <        movdqa  %xmm4,%xmm8
600 >        rorl    $7,%ecx
601 >        por     %xmm3,%xmm8
602 >        addl    %ebx,%eax
603 >        addl    12(%rsp),%ebp
604 >        movups  48(%r15),%xmm1
605 > .byte   102,15,56,220,208
606 >        pshufd  $238,%xmm7,%xmm12
607 >        xorl    %ecx,%edi
608          movl    %eax,%esi
609          roll    $5,%eax
607        xorl    %ecx,%edi
608        addl    %eax,%ebp
609        rorl    $7,%ebx
610          addl    %edi,%ebp
611        addl    16(%rsp),%edx
612        pxor    %xmm1,%xmm5
613 .byte   102,68,15,58,15,195,8
611          xorl    %ecx,%esi
612 +        rorl    $7,%ebx
613 +        addl    %eax,%ebp
614 +        pxor    %xmm5,%xmm9
615 +        addl    16(%rsp),%edx
616 +        xorl    %ebx,%esi
617 +        punpcklqdq      %xmm8,%xmm12
618          movl    %ebp,%edi
619          roll    $5,%ebp
620 <        pxor    %xmm6,%xmm5
618 <        xorl    %ebx,%esi
619 <        addl    %ebp,%edx
620 <        movdqa  %xmm9,%xmm10
621 <        paddd   %xmm4,%xmm9
622 <        rorl    $7,%eax
620 >        pxor    %xmm10,%xmm9
621          addl    %esi,%edx
624        pxor    %xmm8,%xmm5
625        addl    20(%rsp),%ecx
622          xorl    %ebx,%edi
623 +        movdqa  %xmm13,%xmm3
624 +        rorl    $7,%eax
625 +        paddd   %xmm8,%xmm13
626 +        addl    %ebp,%edx
627 +        pxor    %xmm12,%xmm9
628 +        addl    20(%rsp),%ecx
629 +        xorl    %eax,%edi
630          movl    %edx,%esi
631          roll    $5,%edx
632 <        movdqa  %xmm5,%xmm8
633 <        movdqa  %xmm9,0(%rsp)
631 <        xorl    %eax,%edi
632 >        movdqa  %xmm9,%xmm12
633 >        addl    %edi,%ecx
634          cmpl    $11,%r8d
635          jb      .Laesenclast2
636 <        movups  176(%r15),%xmm14
637 < .byte   102,69,15,56,220,223
638 <        movups  192(%r15),%xmm15
639 < .byte   102,69,15,56,220,222
636 >        movups  64(%r15),%xmm0
637 > .byte   102,15,56,220,209
638 >        movups  80(%r15),%xmm1
639 > .byte   102,15,56,220,208
640          je      .Laesenclast2
641 <        movups  208(%r15),%xmm14
642 < .byte   102,69,15,56,220,223
643 <        movups  224(%r15),%xmm15
644 < .byte   102,69,15,56,220,222
641 >        movups  96(%r15),%xmm0
642 > .byte   102,15,56,220,209
643 >        movups  112(%r15),%xmm1
644 > .byte   102,15,56,220,208
645   .Laesenclast2:
646 < .byte   102,69,15,56,221,223
647 <        movups  16(%r15),%xmm14
648 <        addl    %edx,%ecx
646 > .byte   102,15,56,221,209
647 >        movups  16-112(%r15),%xmm0
648 >        xorl    %eax,%esi
649 >        movdqa  %xmm13,0(%rsp)
650          rorl    $7,%ebp
651 <        addl    %edi,%ecx
649 <        pslld   $2,%xmm5
651 >        addl    %edx,%ecx
652          addl    24(%rsp),%ebx
653 <        xorl    %eax,%esi
654 <        psrld   $30,%xmm8
653 >        pslld   $2,%xmm9
654 >        xorl    %ebp,%esi
655          movl    %ecx,%edi
656 +        psrld   $30,%xmm12
657          roll    $5,%ecx
655        xorl    %ebp,%esi
656        addl    %ecx,%ebx
657        rorl    $7,%edx
658          addl    %esi,%ebx
659        por     %xmm8,%xmm5
660        addl    28(%rsp),%eax
659          xorl    %ebp,%edi
660 <        movdqa  %xmm5,%xmm9
660 >        rorl    $7,%edx
661 >        por     %xmm12,%xmm9
662 >        addl    %ecx,%ebx
663 >        addl    28(%rsp),%eax
664 >        pshufd  $238,%xmm8,%xmm13
665 >        rorl    $7,%ecx
666          movl    %ebx,%esi
664        roll    $5,%ebx
667          xorl    %edx,%edi
668 <        addl    %ebx,%eax
667 <        rorl    $7,%ecx
668 >        roll    $5,%ebx
669          addl    %edi,%eax
670 <        movl    %ecx,%edi
670 <        movups  32(%r12),%xmm12
671 <        xorps   %xmm13,%xmm12
672 <        movups  %xmm11,16(%r13,%r12,1)
673 <        xorps   %xmm12,%xmm11
674 < .byte   102,69,15,56,220,222
675 <        movups  32(%r15),%xmm15
676 <        pxor    %xmm2,%xmm6
677 < .byte   102,68,15,58,15,204,8
670 >        xorl    %ecx,%esi
671          xorl    %edx,%ecx
672 +        addl    %ebx,%eax
673 +        pxor    %xmm6,%xmm10
674          addl    32(%rsp),%ebp
675 <        andl    %edx,%edi
676 <        pxor    %xmm7,%xmm6
675 >        movups  32(%r12),%xmm14
676 >        xorps   %xmm15,%xmm14
677 >        movups  %xmm2,16(%r13,%r12,1)
678 >        xorps   %xmm14,%xmm2
679 >        movups  -80(%r15),%xmm1
680 > .byte   102,15,56,220,208
681          andl    %ecx,%esi
682 +        xorl    %edx,%ecx
683          rorl    $7,%ebx
684 <        movdqa  %xmm10,%xmm8
685 <        paddd   %xmm5,%xmm10
686 <        addl    %edi,%ebp
684 >        punpcklqdq      %xmm9,%xmm13
685          movl    %eax,%edi
686 <        pxor    %xmm9,%xmm6
686 >        xorl    %ecx,%esi
687 >        pxor    %xmm11,%xmm10
688          roll    $5,%eax
689          addl    %esi,%ebp
690 <        xorl    %edx,%ecx
691 <        addl    %eax,%ebp
692 <        movdqa  %xmm6,%xmm9
694 <        movdqa  %xmm10,16(%rsp)
695 <        movl    %ebx,%esi
690 >        movdqa  %xmm3,%xmm12
691 >        xorl    %ebx,%edi
692 >        paddd   %xmm9,%xmm3
693          xorl    %ecx,%ebx
694 +        pxor    %xmm13,%xmm10
695 +        addl    %eax,%ebp
696          addl    36(%rsp),%edx
698        andl    %ecx,%esi
699        pslld   $2,%xmm6
697          andl    %ebx,%edi
698 +        xorl    %ecx,%ebx
699          rorl    $7,%eax
700 <        psrld   $30,%xmm9
703 <        addl    %esi,%edx
700 >        movdqa  %xmm10,%xmm13
701          movl    %ebp,%esi
702 +        xorl    %ebx,%edi
703 +        movdqa  %xmm3,16(%rsp)
704          roll    $5,%ebp
706 .byte   102,69,15,56,220,223
707        movups  48(%r15),%xmm14
705          addl    %edi,%edx
706 <        xorl    %ecx,%ebx
707 <        addl    %ebp,%edx
708 <        por     %xmm9,%xmm6
709 <        movl    %eax,%edi
706 >        movups  -64(%r15),%xmm0
707 > .byte   102,15,56,220,209
708 >        xorl    %eax,%esi
709 >        pslld   $2,%xmm10
710          xorl    %ebx,%eax
711 <        movdqa  %xmm6,%xmm10
711 >        addl    %ebp,%edx
712 >        psrld   $30,%xmm13
713          addl    40(%rsp),%ecx
716        andl    %ebx,%edi
714          andl    %eax,%esi
715 +        xorl    %ebx,%eax
716 +        por     %xmm13,%xmm10
717          rorl    $7,%ebp
719        addl    %edi,%ecx
718          movl    %edx,%edi
719 +        xorl    %eax,%esi
720          roll    $5,%edx
721 +        pshufd  $238,%xmm9,%xmm3
722          addl    %esi,%ecx
723 <        xorl    %ebx,%eax
724 <        addl    %edx,%ecx
725 <        movl    %ebp,%esi
723 >        xorl    %ebp,%edi
724          xorl    %eax,%ebp
725 +        addl    %edx,%ecx
726          addl    44(%rsp),%ebx
728        andl    %eax,%esi
727          andl    %ebp,%edi
728 < .byte   102,69,15,56,220,222
731 <        movups  64(%r15),%xmm15
728 >        xorl    %eax,%ebp
729          rorl    $7,%edx
730 <        addl    %esi,%ebx
730 >        movups  -48(%r15),%xmm1
731 > .byte   102,15,56,220,208
732          movl    %ecx,%esi
733 +        xorl    %ebp,%edi
734          roll    $5,%ecx
735          addl    %edi,%ebx
736 <        xorl    %eax,%ebp
738 <        addl    %ecx,%ebx
739 <        movl    %edx,%edi
740 <        pxor    %xmm3,%xmm7
741 < .byte   102,68,15,58,15,213,8
736 >        xorl    %edx,%esi
737          xorl    %ebp,%edx
738 +        addl    %ecx,%ebx
739 +        pxor    %xmm7,%xmm11
740          addl    48(%rsp),%eax
744        andl    %ebp,%edi
745        pxor    %xmm0,%xmm7
741          andl    %edx,%esi
742 +        xorl    %ebp,%edx
743          rorl    $7,%ecx
744 <        movdqa  48(%r11),%xmm9
749 <        paddd   %xmm6,%xmm8
750 <        addl    %edi,%eax
744 >        punpcklqdq      %xmm10,%xmm3
745          movl    %ebx,%edi
746 <        pxor    %xmm10,%xmm7
746 >        xorl    %edx,%esi
747 >        pxor    %xmm4,%xmm11
748          roll    $5,%ebx
749          addl    %esi,%eax
750 <        xorl    %ebp,%edx
751 <        addl    %ebx,%eax
752 <        movdqa  %xmm7,%xmm10
758 <        movdqa  %xmm8,32(%rsp)
759 <        movl    %ecx,%esi
760 < .byte   102,69,15,56,220,223
761 <        movups  80(%r15),%xmm14
750 >        movdqa  48(%r11),%xmm13
751 >        xorl    %ecx,%edi
752 >        paddd   %xmm10,%xmm12
753          xorl    %edx,%ecx
754 +        pxor    %xmm3,%xmm11
755 +        addl    %ebx,%eax
756          addl    52(%rsp),%ebp
757 <        andl    %edx,%esi
758 <        pslld   $2,%xmm7
757 >        movups  -32(%r15),%xmm0
758 > .byte   102,15,56,220,209
759          andl    %ecx,%edi
760 +        xorl    %edx,%ecx
761          rorl    $7,%ebx
762 <        psrld   $30,%xmm10
769 <        addl    %esi,%ebp
762 >        movdqa  %xmm11,%xmm3
763          movl    %eax,%esi
764 +        xorl    %ecx,%edi
765 +        movdqa  %xmm12,32(%rsp)
766          roll    $5,%eax
767          addl    %edi,%ebp
768 <        xorl    %edx,%ecx
769 <        addl    %eax,%ebp
775 <        por     %xmm10,%xmm7
776 <        movl    %ebx,%edi
768 >        xorl    %ebx,%esi
769 >        pslld   $2,%xmm11
770          xorl    %ecx,%ebx
771 <        movdqa  %xmm7,%xmm8
771 >        addl    %eax,%ebp
772 >        psrld   $30,%xmm3
773          addl    56(%rsp),%edx
780        andl    %ecx,%edi
774          andl    %ebx,%esi
775 +        xorl    %ecx,%ebx
776 +        por     %xmm3,%xmm11
777          rorl    $7,%eax
783        addl    %edi,%edx
778          movl    %ebp,%edi
779 +        xorl    %ebx,%esi
780          roll    $5,%ebp
781 < .byte   102,69,15,56,220,222
787 <        movups  96(%r15),%xmm15
781 >        pshufd  $238,%xmm10,%xmm12
782          addl    %esi,%edx
783 <        xorl    %ecx,%ebx
784 <        addl    %ebp,%edx
785 <        movl    %eax,%esi
783 >        movups  -16(%r15),%xmm1
784 > .byte   102,15,56,220,208
785 >        xorl    %eax,%edi
786          xorl    %ebx,%eax
787 +        addl    %ebp,%edx
788          addl    60(%rsp),%ecx
794        andl    %ebx,%esi
789          andl    %eax,%edi
790 +        xorl    %ebx,%eax
791          rorl    $7,%ebp
797        addl    %esi,%ecx
792          movl    %edx,%esi
793 +        xorl    %eax,%edi
794          roll    $5,%edx
795          addl    %edi,%ecx
796 <        xorl    %ebx,%eax
802 <        addl    %edx,%ecx
803 <        movl    %ebp,%edi
804 <        pxor    %xmm4,%xmm0
805 < .byte   102,68,15,58,15,198,8
796 >        xorl    %ebp,%esi
797          xorl    %eax,%ebp
798 +        addl    %edx,%ecx
799 +        pxor    %xmm8,%xmm4
800          addl    0(%rsp),%ebx
808        andl    %eax,%edi
809        pxor    %xmm1,%xmm0
801          andl    %ebp,%esi
802 < .byte   102,69,15,56,220,223
812 <        movups  112(%r15),%xmm14
802 >        xorl    %eax,%ebp
803          rorl    $7,%edx
804 <        movdqa  %xmm9,%xmm10
805 <        paddd   %xmm7,%xmm9
806 <        addl    %edi,%ebx
804 >        movups  0(%r15),%xmm0
805 > .byte   102,15,56,220,209
806 >        punpcklqdq      %xmm11,%xmm12
807          movl    %ecx,%edi
808 <        pxor    %xmm8,%xmm0
808 >        xorl    %ebp,%esi
809 >        pxor    %xmm5,%xmm4
810          roll    $5,%ecx
811          addl    %esi,%ebx
812 <        xorl    %eax,%ebp
813 <        addl    %ecx,%ebx
814 <        movdqa  %xmm0,%xmm8
824 <        movdqa  %xmm9,48(%rsp)
825 <        movl    %edx,%esi
812 >        movdqa  %xmm13,%xmm3
813 >        xorl    %edx,%edi
814 >        paddd   %xmm11,%xmm13
815          xorl    %ebp,%edx
816 +        pxor    %xmm12,%xmm4
817 +        addl    %ecx,%ebx
818          addl    4(%rsp),%eax
828        andl    %ebp,%esi
829        pslld   $2,%xmm0
819          andl    %edx,%edi
820 +        xorl    %ebp,%edx
821          rorl    $7,%ecx
822 <        psrld   $30,%xmm8
833 <        addl    %esi,%eax
822 >        movdqa  %xmm4,%xmm12
823          movl    %ebx,%esi
824 +        xorl    %edx,%edi
825 +        movdqa  %xmm13,48(%rsp)
826          roll    $5,%ebx
827          addl    %edi,%eax
828 <        xorl    %ebp,%edx
829 <        addl    %ebx,%eax
839 <        por     %xmm8,%xmm0
840 <        movl    %ecx,%edi
841 < .byte   102,69,15,56,220,222
842 <        movups  128(%r15),%xmm15
828 >        xorl    %ecx,%esi
829 >        pslld   $2,%xmm4
830          xorl    %edx,%ecx
831 <        movdqa  %xmm0,%xmm9
831 >        addl    %ebx,%eax
832 >        psrld   $30,%xmm12
833          addl    8(%rsp),%ebp
834 <        andl    %edx,%edi
834 >        movups  16(%r15),%xmm1
835 > .byte   102,15,56,220,208
836          andl    %ecx,%esi
837 +        xorl    %edx,%ecx
838 +        por     %xmm12,%xmm4
839          rorl    $7,%ebx
849        addl    %edi,%ebp
840          movl    %eax,%edi
841 +        xorl    %ecx,%esi
842          roll    $5,%eax
843 +        pshufd  $238,%xmm11,%xmm13
844          addl    %esi,%ebp
845 <        xorl    %edx,%ecx
854 <        addl    %eax,%ebp
855 <        movl    %ebx,%esi
845 >        xorl    %ebx,%edi
846          xorl    %ecx,%ebx
847 +        addl    %eax,%ebp
848          addl    12(%rsp),%edx
858        andl    %ecx,%esi
849          andl    %ebx,%edi
850 +        xorl    %ecx,%ebx
851          rorl    $7,%eax
861        addl    %esi,%edx
852          movl    %ebp,%esi
853 +        xorl    %ebx,%edi
854          roll    $5,%ebp
864 .byte   102,69,15,56,220,223
865        movups  144(%r15),%xmm14
855          addl    %edi,%edx
856 <        xorl    %ecx,%ebx
857 <        addl    %ebp,%edx
858 <        movl    %eax,%edi
870 <        pxor    %xmm5,%xmm1
871 < .byte   102,68,15,58,15,207,8
856 >        movups  32(%r15),%xmm0
857 > .byte   102,15,56,220,209
858 >        xorl    %eax,%esi
859          xorl    %ebx,%eax
860 +        addl    %ebp,%edx
861 +        pxor    %xmm9,%xmm5
862          addl    16(%rsp),%ecx
874        andl    %ebx,%edi
875        pxor    %xmm2,%xmm1
863          andl    %eax,%esi
864 +        xorl    %ebx,%eax
865          rorl    $7,%ebp
866 <        movdqa  %xmm10,%xmm8
879 <        paddd   %xmm0,%xmm10
880 <        addl    %edi,%ecx
866 >        punpcklqdq      %xmm4,%xmm13
867          movl    %edx,%edi
868 <        pxor    %xmm9,%xmm1
868 >        xorl    %eax,%esi
869 >        pxor    %xmm6,%xmm5
870          roll    $5,%edx
871          addl    %esi,%ecx
872 <        xorl    %ebx,%eax
873 <        addl    %edx,%ecx
874 <        movdqa  %xmm1,%xmm9
888 <        movdqa  %xmm10,0(%rsp)
889 <        movl    %ebp,%esi
872 >        movdqa  %xmm3,%xmm12
873 >        xorl    %ebp,%edi
874 >        paddd   %xmm4,%xmm3
875          xorl    %eax,%ebp
876 +        pxor    %xmm13,%xmm5
877 +        addl    %edx,%ecx
878          addl    20(%rsp),%ebx
892        andl    %eax,%esi
893        pslld   $2,%xmm1
879          andl    %ebp,%edi
880 < .byte   102,69,15,56,220,222
896 <        movups  160(%r15),%xmm15
880 >        xorl    %eax,%ebp
881          rorl    $7,%edx
882 <        psrld   $30,%xmm9
883 <        addl    %esi,%ebx
882 >        movups  48(%r15),%xmm1
883 > .byte   102,15,56,220,208
884 >        movdqa  %xmm5,%xmm13
885          movl    %ecx,%esi
886 +        xorl    %ebp,%edi
887 +        movdqa  %xmm3,0(%rsp)
888          roll    $5,%ecx
889          addl    %edi,%ebx
890 <        xorl    %eax,%ebp
891 <        addl    %ecx,%ebx
905 <        por     %xmm9,%xmm1
906 <        movl    %edx,%edi
890 >        xorl    %edx,%esi
891 >        pslld   $2,%xmm5
892          xorl    %ebp,%edx
893 <        movdqa  %xmm1,%xmm10
893 >        addl    %ecx,%ebx
894 >        psrld   $30,%xmm13
895          addl    24(%rsp),%eax
910        andl    %ebp,%edi
896          andl    %edx,%esi
897 +        xorl    %ebp,%edx
898 +        por     %xmm13,%xmm5
899          rorl    $7,%ecx
913        addl    %edi,%eax
900          movl    %ebx,%edi
901 +        xorl    %edx,%esi
902          roll    $5,%ebx
903 +        pshufd  $238,%xmm4,%xmm3
904          addl    %esi,%eax
905 <        xorl    %ebp,%edx
905 >        xorl    %ecx,%edi
906 >        xorl    %edx,%ecx
907          addl    %ebx,%eax
908 <        movl    %ecx,%esi
908 >        addl    28(%rsp),%ebp
909          cmpl    $11,%r8d
910          jb      .Laesenclast3
911 <        movups  176(%r15),%xmm14
912 < .byte   102,69,15,56,220,223
913 <        movups  192(%r15),%xmm15
914 < .byte   102,69,15,56,220,222
911 >        movups  64(%r15),%xmm0
912 > .byte   102,15,56,220,209
913 >        movups  80(%r15),%xmm1
914 > .byte   102,15,56,220,208
915          je      .Laesenclast3
916 <        movups  208(%r15),%xmm14
917 < .byte   102,69,15,56,220,223
918 <        movups  224(%r15),%xmm15
919 < .byte   102,69,15,56,220,222
916 >        movups  96(%r15),%xmm0
917 > .byte   102,15,56,220,209
918 >        movups  112(%r15),%xmm1
919 > .byte   102,15,56,220,208
920   .Laesenclast3:
921 < .byte   102,69,15,56,221,223
922 <        movups  16(%r15),%xmm14
934 <        xorl    %edx,%ecx
935 <        addl    28(%rsp),%ebp
936 <        andl    %edx,%esi
921 > .byte   102,15,56,221,209
922 >        movups  16-112(%r15),%xmm0
923          andl    %ecx,%edi
924 +        xorl    %edx,%ecx
925          rorl    $7,%ebx
939        addl    %esi,%ebp
926          movl    %eax,%esi
927 +        xorl    %ecx,%edi
928          roll    $5,%eax
929          addl    %edi,%ebp
930 <        xorl    %edx,%ecx
944 <        addl    %eax,%ebp
945 <        movl    %ebx,%edi
946 <        pxor    %xmm6,%xmm2
947 < .byte   102,68,15,58,15,208,8
930 >        xorl    %ebx,%esi
931          xorl    %ecx,%ebx
932 +        addl    %eax,%ebp
933 +        pxor    %xmm10,%xmm6
934          addl    32(%rsp),%edx
950        andl    %ecx,%edi
951        pxor    %xmm3,%xmm2
935          andl    %ebx,%esi
936 +        xorl    %ecx,%ebx
937          rorl    $7,%eax
938 <        movdqa  %xmm8,%xmm9
955 <        paddd   %xmm1,%xmm8
956 <        addl    %edi,%edx
938 >        punpcklqdq      %xmm5,%xmm3
939          movl    %ebp,%edi
940 <        pxor    %xmm10,%xmm2
940 >        xorl    %ebx,%esi
941 >        pxor    %xmm7,%xmm6
942          roll    $5,%ebp
960        movups  48(%r12),%xmm12
961        xorps   %xmm13,%xmm12
962        movups  %xmm11,32(%r13,%r12,1)
963        xorps   %xmm12,%xmm11
964 .byte   102,69,15,56,220,222
965        movups  32(%r15),%xmm15
943          addl    %esi,%edx
944 <        xorl    %ecx,%ebx
945 <        addl    %ebp,%edx
946 <        movdqa  %xmm2,%xmm10
947 <        movdqa  %xmm8,16(%rsp)
948 <        movl    %eax,%esi
944 >        movups  48(%r12),%xmm14
945 >        xorps   %xmm15,%xmm14
946 >        movups  %xmm2,32(%r13,%r12,1)
947 >        xorps   %xmm14,%xmm2
948 >        movups  -80(%r15),%xmm1
949 > .byte   102,15,56,220,208
950 >        movdqa  %xmm12,%xmm13
951 >        xorl    %eax,%edi
952 >        paddd   %xmm5,%xmm12
953          xorl    %ebx,%eax
954 +        pxor    %xmm3,%xmm6
955 +        addl    %ebp,%edx
956          addl    36(%rsp),%ecx
974        andl    %ebx,%esi
975        pslld   $2,%xmm2
957          andl    %eax,%edi
958 +        xorl    %ebx,%eax
959          rorl    $7,%ebp
960 <        psrld   $30,%xmm10
979 <        addl    %esi,%ecx
960 >        movdqa  %xmm6,%xmm3
961          movl    %edx,%esi
962 +        xorl    %eax,%edi
963 +        movdqa  %xmm12,16(%rsp)
964          roll    $5,%edx
965          addl    %edi,%ecx
966 <        xorl    %ebx,%eax
967 <        addl    %edx,%ecx
985 <        por     %xmm10,%xmm2
986 <        movl    %ebp,%edi
966 >        xorl    %ebp,%esi
967 >        pslld   $2,%xmm6
968          xorl    %eax,%ebp
969 <        movdqa  %xmm2,%xmm8
969 >        addl    %edx,%ecx
970 >        psrld   $30,%xmm3
971          addl    40(%rsp),%ebx
990        andl    %eax,%edi
972          andl    %ebp,%esi
973 < .byte   102,69,15,56,220,223
974 <        movups  48(%r15),%xmm14
973 >        xorl    %eax,%ebp
974 >        por     %xmm3,%xmm6
975          rorl    $7,%edx
976 <        addl    %edi,%ebx
976 >        movups  -64(%r15),%xmm0
977 > .byte   102,15,56,220,209
978          movl    %ecx,%edi
979 +        xorl    %ebp,%esi
980          roll    $5,%ecx
981 +        pshufd  $238,%xmm5,%xmm12
982          addl    %esi,%ebx
983 <        xorl    %eax,%ebp
1000 <        addl    %ecx,%ebx
1001 <        movl    %edx,%esi
983 >        xorl    %edx,%edi
984          xorl    %ebp,%edx
985 +        addl    %ecx,%ebx
986          addl    44(%rsp),%eax
1004        andl    %ebp,%esi
987          andl    %edx,%edi
988 +        xorl    %ebp,%edx
989          rorl    $7,%ecx
1007        addl    %esi,%eax
990          movl    %ebx,%esi
991 +        xorl    %edx,%edi
992          roll    $5,%ebx
993          addl    %edi,%eax
994 <        xorl    %ebp,%edx
994 >        xorl    %edx,%esi
995          addl    %ebx,%eax
996 +        pxor    %xmm11,%xmm7
997          addl    48(%rsp),%ebp
998 < .byte   102,69,15,56,220,222
999 <        movups  64(%r15),%xmm15
1000 <        pxor    %xmm7,%xmm3
1001 < .byte   102,68,15,58,15,193,8
1018 <        xorl    %edx,%esi
998 >        movups  -48(%r15),%xmm1
999 > .byte   102,15,56,220,208
1000 >        xorl    %ecx,%esi
1001 >        punpcklqdq      %xmm6,%xmm12
1002          movl    %eax,%edi
1003          roll    $5,%eax
1004 <        pxor    %xmm4,%xmm3
1022 <        xorl    %ecx,%esi
1023 <        addl    %eax,%ebp
1024 <        movdqa  %xmm9,%xmm10
1025 <        paddd   %xmm2,%xmm9
1026 <        rorl    $7,%ebx
1004 >        pxor    %xmm8,%xmm7
1005          addl    %esi,%ebp
1028        pxor    %xmm8,%xmm3
1029        addl    52(%rsp),%edx
1006          xorl    %ecx,%edi
1007 +        movdqa  %xmm13,%xmm3
1008 +        rorl    $7,%ebx
1009 +        paddd   %xmm6,%xmm13
1010 +        addl    %eax,%ebp
1011 +        pxor    %xmm12,%xmm7
1012 +        addl    52(%rsp),%edx
1013 +        xorl    %ebx,%edi
1014          movl    %ebp,%esi
1015          roll    $5,%ebp
1016 <        movdqa  %xmm3,%xmm8
1034 <        movdqa  %xmm9,32(%rsp)
1035 <        xorl    %ebx,%edi
1036 <        addl    %ebp,%edx
1037 <        rorl    $7,%eax
1016 >        movdqa  %xmm7,%xmm12
1017          addl    %edi,%edx
1039        pslld   $2,%xmm3
1040        addl    56(%rsp),%ecx
1018          xorl    %ebx,%esi
1019 <        psrld   $30,%xmm8
1019 >        movdqa  %xmm13,32(%rsp)
1020 >        rorl    $7,%eax
1021 >        addl    %ebp,%edx
1022 >        addl    56(%rsp),%ecx
1023 >        pslld   $2,%xmm7
1024 >        xorl    %eax,%esi
1025          movl    %edx,%edi
1026 +        psrld   $30,%xmm12
1027          roll    $5,%edx
1045        xorl    %eax,%esi
1046 .byte   102,69,15,56,220,223
1047        movups  80(%r15),%xmm14
1048        addl    %edx,%ecx
1049        rorl    $7,%ebp
1028          addl    %esi,%ecx
1029 <        por     %xmm8,%xmm3
1030 <        addl    60(%rsp),%ebx
1029 >        movups  -32(%r15),%xmm0
1030 > .byte   102,15,56,220,209
1031          xorl    %eax,%edi
1032 +        rorl    $7,%ebp
1033 +        por     %xmm12,%xmm7
1034 +        addl    %edx,%ecx
1035 +        addl    60(%rsp),%ebx
1036 +        xorl    %ebp,%edi
1037          movl    %ecx,%esi
1038          roll    $5,%ecx
1056        xorl    %ebp,%edi
1057        addl    %ecx,%ebx
1058        rorl    $7,%edx
1039          addl    %edi,%ebx
1060        addl    0(%rsp),%eax
1061        paddd   %xmm3,%xmm10
1040          xorl    %ebp,%esi
1041 +        rorl    $7,%edx
1042 +        addl    %ecx,%ebx
1043 +        addl    0(%rsp),%eax
1044 +        xorl    %edx,%esi
1045          movl    %ebx,%edi
1046          roll    $5,%ebx
1047 <        xorl    %edx,%esi
1066 <        movdqa  %xmm10,48(%rsp)
1067 <        addl    %ebx,%eax
1068 <        rorl    $7,%ecx
1047 >        paddd   %xmm7,%xmm3
1048          addl    %esi,%eax
1070        addl    4(%rsp),%ebp
1071 .byte   102,69,15,56,220,222
1072        movups  96(%r15),%xmm15
1049          xorl    %edx,%edi
1050 +        movdqa  %xmm3,48(%rsp)
1051 +        rorl    $7,%ecx
1052 +        addl    %ebx,%eax
1053 +        addl    4(%rsp),%ebp
1054 +        movups  -16(%r15),%xmm1
1055 + .byte   102,15,56,220,208
1056 +        xorl    %ecx,%edi
1057          movl    %eax,%esi
1058          roll    $5,%eax
1076        xorl    %ecx,%edi
1077        addl    %eax,%ebp
1078        rorl    $7,%ebx
1059          addl    %edi,%ebp
1080        addl    8(%rsp),%edx
1060          xorl    %ecx,%esi
1061 +        rorl    $7,%ebx
1062 +        addl    %eax,%ebp
1063 +        addl    8(%rsp),%edx
1064 +        xorl    %ebx,%esi
1065          movl    %ebp,%edi
1066          roll    $5,%ebp
1084        xorl    %ebx,%esi
1085        addl    %ebp,%edx
1086        rorl    $7,%eax
1067          addl    %esi,%edx
1088        addl    12(%rsp),%ecx
1068          xorl    %ebx,%edi
1069 +        rorl    $7,%eax
1070 +        addl    %ebp,%edx
1071 +        addl    12(%rsp),%ecx
1072 +        xorl    %eax,%edi
1073          movl    %edx,%esi
1074          roll    $5,%edx
1092        xorl    %eax,%edi
1093 .byte   102,69,15,56,220,223
1094        movups  112(%r15),%xmm14
1095        addl    %edx,%ecx
1096        rorl    $7,%ebp
1075          addl    %edi,%ecx
1076 +        movups  0(%r15),%xmm0
1077 + .byte   102,15,56,220,209
1078 +        xorl    %eax,%esi
1079 +        rorl    $7,%ebp
1080 +        addl    %edx,%ecx
1081          cmpq    %r14,%r10
1082          je      .Ldone_ssse3
1083 <        movdqa  64(%r11),%xmm6
1084 <        movdqa  0(%r11),%xmm9
1085 <        movdqu  0(%r10),%xmm0
1086 <        movdqu  16(%r10),%xmm1
1087 <        movdqu  32(%r10),%xmm2
1088 <        movdqu  48(%r10),%xmm3
1089 < .byte   102,15,56,0,198
1083 >        movdqa  64(%r11),%xmm3
1084 >        movdqa  0(%r11),%xmm13
1085 >        movdqu  0(%r10),%xmm4
1086 >        movdqu  16(%r10),%xmm5
1087 >        movdqu  32(%r10),%xmm6
1088 >        movdqu  48(%r10),%xmm7
1089 > .byte   102,15,56,0,227
1090          addq    $64,%r10
1091          addl    16(%rsp),%ebx
1092 <        xorl    %eax,%esi
1110 < .byte   102,15,56,0,206
1092 >        xorl    %ebp,%esi
1093          movl    %ecx,%edi
1094 + .byte   102,15,56,0,235
1095          roll    $5,%ecx
1113        paddd   %xmm9,%xmm0
1114        xorl    %ebp,%esi
1115        addl    %ecx,%ebx
1116        rorl    $7,%edx
1096          addl    %esi,%ebx
1118        movdqa  %xmm0,0(%rsp)
1119        addl    20(%rsp),%eax
1097          xorl    %ebp,%edi
1098 <        psubd   %xmm9,%xmm0
1098 >        rorl    $7,%edx
1099 >        paddd   %xmm13,%xmm4
1100 >        addl    %ecx,%ebx
1101 >        addl    20(%rsp),%eax
1102 >        xorl    %edx,%edi
1103          movl    %ebx,%esi
1104 +        movdqa  %xmm4,0(%rsp)
1105          roll    $5,%ebx
1124        xorl    %edx,%edi
1125        addl    %ebx,%eax
1126        rorl    $7,%ecx
1106          addl    %edi,%eax
1128        addl    24(%rsp),%ebp
1129 .byte   102,69,15,56,220,222
1130        movups  128(%r15),%xmm15
1107          xorl    %edx,%esi
1108 +        rorl    $7,%ecx
1109 +        psubd   %xmm13,%xmm4
1110 +        addl    %ebx,%eax
1111 +        addl    24(%rsp),%ebp
1112 +        movups  16(%r15),%xmm1
1113 + .byte   102,15,56,220,208
1114 +        xorl    %ecx,%esi
1115          movl    %eax,%edi
1116          roll    $5,%eax
1134        xorl    %ecx,%esi
1135        addl    %eax,%ebp
1136        rorl    $7,%ebx
1117          addl    %esi,%ebp
1138        addl    28(%rsp),%edx
1118          xorl    %ecx,%edi
1119 +        rorl    $7,%ebx
1120 +        addl    %eax,%ebp
1121 +        addl    28(%rsp),%edx
1122 +        xorl    %ebx,%edi
1123          movl    %ebp,%esi
1124          roll    $5,%ebp
1142        xorl    %ebx,%edi
1143        addl    %ebp,%edx
1144        rorl    $7,%eax
1125          addl    %edi,%edx
1146        addl    32(%rsp),%ecx
1126          xorl    %ebx,%esi
1127 < .byte   102,15,56,0,214
1127 >        rorl    $7,%eax
1128 >        addl    %ebp,%edx
1129 >        addl    32(%rsp),%ecx
1130 >        xorl    %eax,%esi
1131          movl    %edx,%edi
1132 + .byte   102,15,56,0,243
1133          roll    $5,%edx
1151        paddd   %xmm9,%xmm1
1152        xorl    %eax,%esi
1153 .byte   102,69,15,56,220,223
1154        movups  144(%r15),%xmm14
1155        addl    %edx,%ecx
1156        rorl    $7,%ebp
1134          addl    %esi,%ecx
1135 <        movdqa  %xmm1,16(%rsp)
1136 <        addl    36(%rsp),%ebx
1135 >        movups  32(%r15),%xmm0
1136 > .byte   102,15,56,220,209
1137          xorl    %eax,%edi
1138 <        psubd   %xmm9,%xmm1
1138 >        rorl    $7,%ebp
1139 >        paddd   %xmm13,%xmm5
1140 >        addl    %edx,%ecx
1141 >        addl    36(%rsp),%ebx
1142 >        xorl    %ebp,%edi
1143          movl    %ecx,%esi
1144 +        movdqa  %xmm5,16(%rsp)
1145          roll    $5,%ecx
1164        xorl    %ebp,%edi
1165        addl    %ecx,%ebx
1166        rorl    $7,%edx
1146          addl    %edi,%ebx
1168        addl    40(%rsp),%eax
1147          xorl    %ebp,%esi
1148 +        rorl    $7,%edx
1149 +        psubd   %xmm13,%xmm5
1150 +        addl    %ecx,%ebx
1151 +        addl    40(%rsp),%eax
1152 +        xorl    %edx,%esi
1153          movl    %ebx,%edi
1154          roll    $5,%ebx
1172        xorl    %edx,%esi
1173        addl    %ebx,%eax
1174        rorl    $7,%ecx
1155          addl    %esi,%eax
1176        addl    44(%rsp),%ebp
1177 .byte   102,69,15,56,220,222
1178        movups  160(%r15),%xmm15
1156          xorl    %edx,%edi
1157 +        rorl    $7,%ecx
1158 +        addl    %ebx,%eax
1159 +        addl    44(%rsp),%ebp
1160 +        movups  48(%r15),%xmm1
1161 + .byte   102,15,56,220,208
1162 +        xorl    %ecx,%edi
1163          movl    %eax,%esi
1164          roll    $5,%eax
1182        xorl    %ecx,%edi
1183        addl    %eax,%ebp
1184        rorl    $7,%ebx
1165          addl    %edi,%ebp
1186        addl    48(%rsp),%edx
1166          xorl    %ecx,%esi
1167 < .byte   102,15,56,0,222
1167 >        rorl    $7,%ebx
1168 >        addl    %eax,%ebp
1169 >        addl    48(%rsp),%edx
1170 >        xorl    %ebx,%esi
1171          movl    %ebp,%edi
1172 + .byte   102,15,56,0,251
1173          roll    $5,%ebp
1191        paddd   %xmm9,%xmm2
1192        xorl    %ebx,%esi
1193        addl    %ebp,%edx
1194        rorl    $7,%eax
1174          addl    %esi,%edx
1196        movdqa  %xmm2,32(%rsp)
1197        addl    52(%rsp),%ecx
1175          xorl    %ebx,%edi
1176 <        psubd   %xmm9,%xmm2
1176 >        rorl    $7,%eax
1177 >        paddd   %xmm13,%xmm6
1178 >        addl    %ebp,%edx
1179 >        addl    52(%rsp),%ecx
1180 >        xorl    %eax,%edi
1181          movl    %edx,%esi
1182 +        movdqa  %xmm6,32(%rsp)
1183          roll    $5,%edx
1184 <        xorl    %eax,%edi
1184 >        addl    %edi,%ecx
1185          cmpl    $11,%r8d
1186          jb      .Laesenclast4
1187 <        movups  176(%r15),%xmm14
1188 < .byte   102,69,15,56,220,223
1189 <        movups  192(%r15),%xmm15
1190 < .byte   102,69,15,56,220,222
1187 >        movups  64(%r15),%xmm0
1188 > .byte   102,15,56,220,209
1189 >        movups  80(%r15),%xmm1
1190 > .byte   102,15,56,220,208
1191          je      .Laesenclast4
1192 <        movups  208(%r15),%xmm14
1193 < .byte   102,69,15,56,220,223
1194 <        movups  224(%r15),%xmm15
1195 < .byte   102,69,15,56,220,222
1192 >        movups  96(%r15),%xmm0
1193 > .byte   102,15,56,220,209
1194 >        movups  112(%r15),%xmm1
1195 > .byte   102,15,56,220,208
1196   .Laesenclast4:
1197 < .byte   102,69,15,56,221,223
1198 <        movups  16(%r15),%xmm14
1199 <        addl    %edx,%ecx
1197 > .byte   102,15,56,221,209
1198 >        movups  16-112(%r15),%xmm0
1199 >        xorl    %eax,%esi
1200          rorl    $7,%ebp
1201 <        addl    %edi,%ecx
1201 >        psubd   %xmm13,%xmm6
1202 >        addl    %edx,%ecx
1203          addl    56(%rsp),%ebx
1204 <        xorl    %eax,%esi
1204 >        xorl    %ebp,%esi
1205          movl    %ecx,%edi
1206          roll    $5,%ecx
1224        xorl    %ebp,%esi
1225        addl    %ecx,%ebx
1226        rorl    $7,%edx
1207          addl    %esi,%ebx
1228        addl    60(%rsp),%eax
1208          xorl    %ebp,%edi
1209 +        rorl    $7,%edx
1210 +        addl    %ecx,%ebx
1211 +        addl    60(%rsp),%eax
1212 +        xorl    %edx,%edi
1213          movl    %ebx,%esi
1214          roll    $5,%ebx
1232        xorl    %edx,%edi
1233        addl    %ebx,%eax
1234        rorl    $7,%ecx
1215          addl    %edi,%eax
1216 <        movups  %xmm11,48(%r13,%r12,1)
1216 >        rorl    $7,%ecx
1217 >        addl    %ebx,%eax
1218 >        movups  %xmm2,48(%r13,%r12,1)
1219          leaq    64(%r12),%r12
1220  
1221          addl    0(%r9),%eax
# Line 1245 | Line 1227 | aesni_cbc_sha1_enc_ssse3:
1227          movl    %esi,4(%r9)
1228          movl    %esi,%ebx
1229          movl    %ecx,8(%r9)
1230 +        movl    %ecx,%edi
1231          movl    %edx,12(%r9)
1232 +        xorl    %edx,%edi
1233          movl    %ebp,16(%r9)
1234 +        andl    %edi,%esi
1235          jmp     .Loop_ssse3
1236  
1252 .align  16
1237   .Ldone_ssse3:
1238          addl    16(%rsp),%ebx
1239 <        xorl    %eax,%esi
1239 >        xorl    %ebp,%esi
1240          movl    %ecx,%edi
1241          roll    $5,%ecx
1258        xorl    %ebp,%esi
1259        addl    %ecx,%ebx
1260        rorl    $7,%edx
1242          addl    %esi,%ebx
1262        addl    20(%rsp),%eax
1243          xorl    %ebp,%edi
1244 +        rorl    $7,%edx
1245 +        addl    %ecx,%ebx
1246 +        addl    20(%rsp),%eax
1247 +        xorl    %edx,%edi
1248          movl    %ebx,%esi
1249          roll    $5,%ebx
1266        xorl    %edx,%edi
1267        addl    %ebx,%eax
1268        rorl    $7,%ecx
1250          addl    %edi,%eax
1270        addl    24(%rsp),%ebp
1271 .byte   102,69,15,56,220,222
1272        movups  128(%r15),%xmm15
1251          xorl    %edx,%esi
1252 +        rorl    $7,%ecx
1253 +        addl    %ebx,%eax
1254 +        addl    24(%rsp),%ebp
1255 +        movups  16(%r15),%xmm1
1256 + .byte   102,15,56,220,208
1257 +        xorl    %ecx,%esi
1258          movl    %eax,%edi
1259          roll    $5,%eax
1276        xorl    %ecx,%esi
1277        addl    %eax,%ebp
1278        rorl    $7,%ebx
1260          addl    %esi,%ebp
1280        addl    28(%rsp),%edx
1261          xorl    %ecx,%edi
1262 +        rorl    $7,%ebx
1263 +        addl    %eax,%ebp
1264 +        addl    28(%rsp),%edx
1265 +        xorl    %ebx,%edi
1266          movl    %ebp,%esi
1267          roll    $5,%ebp
1284        xorl    %ebx,%edi
1285        addl    %ebp,%edx
1286        rorl    $7,%eax
1268          addl    %edi,%edx
1288        addl    32(%rsp),%ecx
1269          xorl    %ebx,%esi
1270 +        rorl    $7,%eax
1271 +        addl    %ebp,%edx
1272 +        addl    32(%rsp),%ecx
1273 +        xorl    %eax,%esi
1274          movl    %edx,%edi
1275          roll    $5,%edx
1292        xorl    %eax,%esi
1293 .byte   102,69,15,56,220,223
1294        movups  144(%r15),%xmm14
1295        addl    %edx,%ecx
1296        rorl    $7,%ebp
1276          addl    %esi,%ecx
1277 <        addl    36(%rsp),%ebx
1277 >        movups  32(%r15),%xmm0
1278 > .byte   102,15,56,220,209
1279          xorl    %eax,%edi
1280 +        rorl    $7,%ebp
1281 +        addl    %edx,%ecx
1282 +        addl    36(%rsp),%ebx
1283 +        xorl    %ebp,%edi
1284          movl    %ecx,%esi
1285          roll    $5,%ecx
1302        xorl    %ebp,%edi
1303        addl    %ecx,%ebx
1304        rorl    $7,%edx
1286          addl    %edi,%ebx
1306        addl    40(%rsp),%eax
1287          xorl    %ebp,%esi
1288 +        rorl    $7,%edx
1289 +        addl    %ecx,%ebx
1290 +        addl    40(%rsp),%eax
1291 +        xorl    %edx,%esi
1292          movl    %ebx,%edi
1293          roll    $5,%ebx
1310        xorl    %edx,%esi
1311        addl    %ebx,%eax
1312        rorl    $7,%ecx
1294          addl    %esi,%eax
1314        addl    44(%rsp),%ebp
1315 .byte   102,69,15,56,220,222
1316        movups  160(%r15),%xmm15
1295          xorl    %edx,%edi
1296 +        rorl    $7,%ecx
1297 +        addl    %ebx,%eax
1298 +        addl    44(%rsp),%ebp
1299 +        movups  48(%r15),%xmm1
1300 + .byte   102,15,56,220,208
1301 +        xorl    %ecx,%edi
1302          movl    %eax,%esi
1303          roll    $5,%eax
1320        xorl    %ecx,%edi
1321        addl    %eax,%ebp
1322        rorl    $7,%ebx
1304          addl    %edi,%ebp
1324        addl    48(%rsp),%edx
1305          xorl    %ecx,%esi
1306 +        rorl    $7,%ebx
1307 +        addl    %eax,%ebp
1308 +        addl    48(%rsp),%edx
1309 +        xorl    %ebx,%esi
1310          movl    %ebp,%edi
1311          roll    $5,%ebp
1328        xorl    %ebx,%esi
1329        addl    %ebp,%edx
1330        rorl    $7,%eax
1312          addl    %esi,%edx
1332        addl    52(%rsp),%ecx
1313          xorl    %ebx,%edi
1314 +        rorl    $7,%eax
1315 +        addl    %ebp,%edx
1316 +        addl    52(%rsp),%ecx
1317 +        xorl    %eax,%edi
1318          movl    %edx,%esi
1319          roll    $5,%edx
1320 <        xorl    %eax,%edi
1320 >        addl    %edi,%ecx
1321          cmpl    $11,%r8d
1322          jb      .Laesenclast5
1323 <        movups  176(%r15),%xmm14
1324 < .byte   102,69,15,56,220,223
1325 <        movups  192(%r15),%xmm15
1326 < .byte   102,69,15,56,220,222
1323 >        movups  64(%r15),%xmm0
1324 > .byte   102,15,56,220,209
1325 >        movups  80(%r15),%xmm1
1326 > .byte   102,15,56,220,208
1327          je      .Laesenclast5
1328 <        movups  208(%r15),%xmm14
1329 < .byte   102,69,15,56,220,223
1330 <        movups  224(%r15),%xmm15
1331 < .byte   102,69,15,56,220,222
1328 >        movups  96(%r15),%xmm0
1329 > .byte   102,15,56,220,209
1330 >        movups  112(%r15),%xmm1
1331 > .byte   102,15,56,220,208
1332   .Laesenclast5:
1333 < .byte   102,69,15,56,221,223
1334 <        movups  16(%r15),%xmm14
1335 <        addl    %edx,%ecx
1333 > .byte   102,15,56,221,209
1334 >        movups  16-112(%r15),%xmm0
1335 >        xorl    %eax,%esi
1336          rorl    $7,%ebp
1337 <        addl    %edi,%ecx
1337 >        addl    %edx,%ecx
1338          addl    56(%rsp),%ebx
1339 <        xorl    %eax,%esi
1339 >        xorl    %ebp,%esi
1340          movl    %ecx,%edi
1341          roll    $5,%ecx
1358        xorl    %ebp,%esi
1359        addl    %ecx,%ebx
1360        rorl    $7,%edx
1342          addl    %esi,%ebx
1362        addl    60(%rsp),%eax
1343          xorl    %ebp,%edi
1344 +        rorl    $7,%edx
1345 +        addl    %ecx,%ebx
1346 +        addl    60(%rsp),%eax
1347 +        xorl    %edx,%edi
1348          movl    %ebx,%esi
1349          roll    $5,%ebx
1366        xorl    %edx,%edi
1367        addl    %ebx,%eax
1368        rorl    $7,%ecx
1350          addl    %edi,%eax
1351 <        movups  %xmm11,48(%r13,%r12,1)
1351 >        rorl    $7,%ecx
1352 >        addl    %ebx,%eax
1353 >        movups  %xmm2,48(%r13,%r12,1)
1354          movq    88(%rsp),%r8
1355  
1356          addl    0(%r9),%eax
# Line 1380 | Line 1363 | aesni_cbc_sha1_enc_ssse3:
1363          movl    %ecx,8(%r9)
1364          movl    %edx,12(%r9)
1365          movl    %ebp,16(%r9)
1366 <        movups  %xmm11,(%r8)
1366 >        movups  %xmm2,(%r8)
1367          leaq    104(%rsp),%rsi
1368          movq    0(%rsi),%r15
1369          movq    8(%rsi),%r14
# Line 1393 | Line 1376 | aesni_cbc_sha1_enc_ssse3:
1376          .byte   0xf3,0xc3
1377   .size   aesni_cbc_sha1_enc_ssse3,.-aesni_cbc_sha1_enc_ssse3
1378   .type   aesni_cbc_sha1_enc_avx,@function
1379 < .align  16
1379 > .align  32
1380   aesni_cbc_sha1_enc_avx:
1381          movq    8(%rsp),%r10
1382  
# Line 1411 | Line 1394 | aesni_cbc_sha1_enc_avx:
1394          movq    %rdi,%r12
1395          movq    %rsi,%r13
1396          movq    %rdx,%r14
1397 <        movq    %rcx,%r15
1398 <        vmovdqu (%r8),%xmm11
1397 >        leaq    112(%rcx),%r15
1398 >        vmovdqu (%r8),%xmm12
1399          movq    %r8,88(%rsp)
1400          shlq    $6,%r14
1401          subq    %r12,%r13
1402 <        movl    240(%r15),%r8d
1420 <        addq    $112,%r15
1402 >        movl    240-112(%r15),%r8d
1403          addq    %r10,%r14
1404  
1405          leaq    K_XX_XX(%rip),%r11
# Line 1427 | Line 1409 | aesni_cbc_sha1_enc_avx:
1409          movl    12(%r9),%edx
1410          movl    %ebx,%esi
1411          movl    16(%r9),%ebp
1412 +        movl    %ecx,%edi
1413 +        xorl    %edx,%edi
1414 +        andl    %edi,%esi
1415  
1416          vmovdqa 64(%r11),%xmm6
1417 <        vmovdqa 0(%r11),%xmm9
1417 >        vmovdqa 0(%r11),%xmm10
1418          vmovdqu 0(%r10),%xmm0
1419          vmovdqu 16(%r10),%xmm1
1420          vmovdqu 32(%r10),%xmm2
# Line 1439 | Line 1424 | aesni_cbc_sha1_enc_avx:
1424          vpshufb %xmm6,%xmm1,%xmm1
1425          vpshufb %xmm6,%xmm2,%xmm2
1426          vpshufb %xmm6,%xmm3,%xmm3
1427 <        vpaddd  %xmm9,%xmm0,%xmm4
1428 <        vpaddd  %xmm9,%xmm1,%xmm5
1429 <        vpaddd  %xmm9,%xmm2,%xmm6
1427 >        vpaddd  %xmm10,%xmm0,%xmm4
1428 >        vpaddd  %xmm10,%xmm1,%xmm5
1429 >        vpaddd  %xmm10,%xmm2,%xmm6
1430          vmovdqa %xmm4,0(%rsp)
1431          vmovdqa %xmm5,16(%rsp)
1432          vmovdqa %xmm6,32(%rsp)
1433 <        vmovups -112(%r15),%xmm13
1433 >        vmovups -112(%r15),%xmm15
1434          vmovups 16-112(%r15),%xmm14
1435          jmp     .Loop_avx
1436 < .align  16
1436 > .align  32
1437   .Loop_avx:
1438 <        addl    0(%rsp),%ebp
1439 <        vmovups 0(%r12),%xmm12
1440 <        vxorps  %xmm13,%xmm12,%xmm12
1441 <        vxorps  %xmm12,%xmm11,%xmm11
1442 <        vaesenc %xmm14,%xmm11,%xmm11
1438 >        shrdl   $2,%ebx,%ebx
1439 >        vmovdqu 0(%r12),%xmm13
1440 >        vpxor   %xmm15,%xmm13,%xmm13
1441 >        vpxor   %xmm13,%xmm12,%xmm12
1442 >        vaesenc %xmm14,%xmm12,%xmm12
1443          vmovups -80(%r15),%xmm15
1444 <        xorl    %edx,%ecx
1444 >        xorl    %edx,%esi
1445          vpalignr        $8,%xmm0,%xmm1,%xmm4
1446          movl    %eax,%edi
1447 +        addl    0(%rsp),%ebp
1448 +        vpaddd  %xmm3,%xmm10,%xmm9
1449 +        xorl    %ecx,%ebx
1450          shldl   $5,%eax,%eax
1463        vpaddd  %xmm3,%xmm9,%xmm9
1464        andl    %ecx,%esi
1465        xorl    %edx,%ecx
1451          vpsrldq $4,%xmm3,%xmm8
1467        xorl    %edx,%esi
1468        addl    %eax,%ebp
1469        vpxor   %xmm0,%xmm4,%xmm4
1470        shrdl   $2,%ebx,%ebx
1452          addl    %esi,%ebp
1453 <        vpxor   %xmm2,%xmm8,%xmm8
1454 <        addl    4(%rsp),%edx
1453 >        andl    %ebx,%edi
1454 >        vpxor   %xmm0,%xmm4,%xmm4
1455          xorl    %ecx,%ebx
1456 +        addl    %eax,%ebp
1457 +        vpxor   %xmm2,%xmm8,%xmm8
1458 +        shrdl   $7,%eax,%eax
1459 +        xorl    %ecx,%edi
1460          movl    %ebp,%esi
1461 <        shldl   $5,%ebp,%ebp
1461 >        addl    4(%rsp),%edx
1462          vpxor   %xmm8,%xmm4,%xmm4
1463 <        andl    %ebx,%edi
1464 <        xorl    %ecx,%ebx
1463 >        xorl    %ebx,%eax
1464 >        shldl   $5,%ebp,%ebp
1465          vmovdqa %xmm9,48(%rsp)
1466 <        xorl    %ecx,%edi
1467 <        vaesenc %xmm15,%xmm11,%xmm11
1466 >        addl    %edi,%edx
1467 >        vaesenc %xmm15,%xmm12,%xmm12
1468          vmovups -64(%r15),%xmm14
1469 <        addl    %ebp,%edx
1469 >        andl    %eax,%esi
1470          vpsrld  $31,%xmm4,%xmm8
1486        shrdl   $7,%eax,%eax
1487        addl    %edi,%edx
1488        addl    8(%rsp),%ecx
1471          xorl    %ebx,%eax
1472 <        vpslldq $12,%xmm4,%xmm10
1472 >        addl    %ebp,%edx
1473 >        shrdl   $7,%ebp,%ebp
1474 >        xorl    %ebx,%esi
1475 >        vpslldq $12,%xmm4,%xmm9
1476          vpaddd  %xmm4,%xmm4,%xmm4
1477          movl    %edx,%edi
1478 +        addl    8(%rsp),%ecx
1479 +        xorl    %eax,%ebp
1480          shldl   $5,%edx,%edx
1494        andl    %eax,%esi
1495        xorl    %ebx,%eax
1496        vpsrld  $30,%xmm10,%xmm9
1481          vpor    %xmm8,%xmm4,%xmm4
1482 <        xorl    %ebx,%esi
1499 <        addl    %edx,%ecx
1500 <        shrdl   $7,%ebp,%ebp
1482 >        vpsrld  $30,%xmm9,%xmm8
1483          addl    %esi,%ecx
1502        vpslld  $2,%xmm10,%xmm10
1503        vpxor   %xmm9,%xmm4,%xmm4
1504        addl    12(%rsp),%ebx
1505        xorl    %eax,%ebp
1506        movl    %ecx,%esi
1507        shldl   $5,%ecx,%ecx
1508        vaesenc %xmm14,%xmm11,%xmm11
1509        vmovups -48(%r15),%xmm15
1510        vpxor   %xmm10,%xmm4,%xmm4
1484          andl    %ebp,%edi
1485          xorl    %eax,%ebp
1486 <        vmovdqa 0(%r11),%xmm10
1487 <        xorl    %eax,%edi
1488 <        addl    %ecx,%ebx
1486 >        addl    %edx,%ecx
1487 >        vpslld  $2,%xmm9,%xmm9
1488 >        vpxor   %xmm8,%xmm4,%xmm4
1489          shrdl   $7,%edx,%edx
1490 +        xorl    %eax,%edi
1491 +        movl    %ecx,%esi
1492 +        addl    12(%rsp),%ebx
1493 +        vaesenc %xmm14,%xmm12,%xmm12
1494 +        vmovups -48(%r15),%xmm15
1495 +        vpxor   %xmm9,%xmm4,%xmm4
1496 +        xorl    %ebp,%edx
1497 +        shldl   $5,%ecx,%ecx
1498          addl    %edi,%ebx
1499 <        addl    16(%rsp),%eax
1499 >        andl    %edx,%esi
1500          xorl    %ebp,%edx
1501 +        addl    %ecx,%ebx
1502 +        shrdl   $7,%ecx,%ecx
1503 +        xorl    %ebp,%esi
1504          vpalignr        $8,%xmm1,%xmm2,%xmm5
1505          movl    %ebx,%edi
1506 +        addl    16(%rsp),%eax
1507 +        vpaddd  %xmm4,%xmm10,%xmm9
1508 +        xorl    %edx,%ecx
1509          shldl   $5,%ebx,%ebx
1510 <        vpaddd  %xmm4,%xmm10,%xmm10
1524 <        andl    %edx,%esi
1525 <        xorl    %ebp,%edx
1526 <        vpsrldq $4,%xmm4,%xmm9
1527 <        xorl    %ebp,%esi
1528 <        addl    %ebx,%eax
1529 <        vpxor   %xmm1,%xmm5,%xmm5
1530 <        shrdl   $7,%ecx,%ecx
1510 >        vpsrldq $4,%xmm4,%xmm8
1511          addl    %esi,%eax
1532        vpxor   %xmm3,%xmm9,%xmm9
1533        addl    20(%rsp),%ebp
1534        vaesenc %xmm15,%xmm11,%xmm11
1535        vmovups -32(%r15),%xmm14
1536        xorl    %edx,%ecx
1537        movl    %eax,%esi
1538        shldl   $5,%eax,%eax
1539        vpxor   %xmm9,%xmm5,%xmm5
1512          andl    %ecx,%edi
1513 +        vpxor   %xmm1,%xmm5,%xmm5
1514          xorl    %edx,%ecx
1515 <        vmovdqa %xmm10,0(%rsp)
1516 <        xorl    %edx,%edi
1544 <        addl    %eax,%ebp
1545 <        vpsrld  $31,%xmm5,%xmm9
1515 >        addl    %ebx,%eax
1516 >        vpxor   %xmm3,%xmm8,%xmm8
1517          shrdl   $7,%ebx,%ebx
1518 +        vaesenc %xmm15,%xmm12,%xmm12
1519 +        vmovups -32(%r15),%xmm14
1520 +        xorl    %edx,%edi
1521 +        movl    %eax,%esi
1522 +        addl    20(%rsp),%ebp
1523 +        vpxor   %xmm8,%xmm5,%xmm5
1524 +        xorl    %ecx,%ebx
1525 +        shldl   $5,%eax,%eax
1526 +        vmovdqa %xmm9,0(%rsp)
1527          addl    %edi,%ebp
1528 <        addl    24(%rsp),%edx
1528 >        andl    %ebx,%esi
1529 >        vpsrld  $31,%xmm5,%xmm8
1530          xorl    %ecx,%ebx
1531 <        vpslldq $12,%xmm5,%xmm8
1531 >        addl    %eax,%ebp
1532 >        shrdl   $7,%eax,%eax
1533 >        xorl    %ecx,%esi
1534 >        vpslldq $12,%xmm5,%xmm9
1535          vpaddd  %xmm5,%xmm5,%xmm5
1536          movl    %ebp,%edi
1537 +        addl    24(%rsp),%edx
1538 +        xorl    %ebx,%eax
1539          shldl   $5,%ebp,%ebp
1540 <        andl    %ebx,%esi
1541 <        xorl    %ecx,%ebx
1556 <        vpsrld  $30,%xmm8,%xmm10
1557 <        vpor    %xmm9,%xmm5,%xmm5
1558 <        xorl    %ecx,%esi
1559 <        vaesenc %xmm14,%xmm11,%xmm11
1560 <        vmovups -16(%r15),%xmm15
1561 <        addl    %ebp,%edx
1562 <        shrdl   $7,%eax,%eax
1540 >        vpor    %xmm8,%xmm5,%xmm5
1541 >        vpsrld  $30,%xmm9,%xmm8
1542          addl    %esi,%edx
1543 <        vpslld  $2,%xmm8,%xmm8
1544 <        vpxor   %xmm10,%xmm5,%xmm5
1566 <        addl    28(%rsp),%ecx
1567 <        xorl    %ebx,%eax
1568 <        movl    %edx,%esi
1569 <        shldl   $5,%edx,%edx
1570 <        vpxor   %xmm8,%xmm5,%xmm5
1543 >        vaesenc %xmm14,%xmm12,%xmm12
1544 >        vmovups -16(%r15),%xmm15
1545          andl    %eax,%edi
1546          xorl    %ebx,%eax
1547 <        vmovdqa 16(%r11),%xmm8
1548 <        xorl    %ebx,%edi
1549 <        addl    %edx,%ecx
1547 >        addl    %ebp,%edx
1548 >        vpslld  $2,%xmm9,%xmm9
1549 >        vpxor   %xmm8,%xmm5,%xmm5
1550          shrdl   $7,%ebp,%ebp
1551 +        xorl    %ebx,%edi
1552 +        movl    %edx,%esi
1553 +        addl    28(%rsp),%ecx
1554 +        vpxor   %xmm9,%xmm5,%xmm5
1555 +        xorl    %eax,%ebp
1556 +        shldl   $5,%edx,%edx
1557 +        vmovdqa 16(%r11),%xmm10
1558          addl    %edi,%ecx
1559 <        addl    32(%rsp),%ebx
1559 >        andl    %ebp,%esi
1560          xorl    %eax,%ebp
1561 +        addl    %edx,%ecx
1562 +        shrdl   $7,%edx,%edx
1563 +        xorl    %eax,%esi
1564          vpalignr        $8,%xmm2,%xmm3,%xmm6
1565          movl    %ecx,%edi
1566 <        shldl   $5,%ecx,%ecx
1567 <        vaesenc %xmm15,%xmm11,%xmm11
1566 >        addl    32(%rsp),%ebx
1567 >        vaesenc %xmm15,%xmm12,%xmm12
1568          vmovups 0(%r15),%xmm14
1569 <        vpaddd  %xmm5,%xmm8,%xmm8
1586 <        andl    %ebp,%esi
1587 <        xorl    %eax,%ebp
1588 <        vpsrldq $4,%xmm5,%xmm10
1589 <        xorl    %eax,%esi
1590 <        addl    %ecx,%ebx
1591 <        vpxor   %xmm2,%xmm6,%xmm6
1592 <        shrdl   $7,%edx,%edx
1593 <        addl    %esi,%ebx
1594 <        vpxor   %xmm4,%xmm10,%xmm10
1595 <        addl    36(%rsp),%eax
1569 >        vpaddd  %xmm5,%xmm10,%xmm9
1570          xorl    %ebp,%edx
1571 <        movl    %ebx,%esi
1572 <        shldl   $5,%ebx,%ebx
1573 <        vpxor   %xmm10,%xmm6,%xmm6
1571 >        shldl   $5,%ecx,%ecx
1572 >        vpsrldq $4,%xmm5,%xmm8
1573 >        addl    %esi,%ebx
1574          andl    %edx,%edi
1575 +        vpxor   %xmm2,%xmm6,%xmm6
1576          xorl    %ebp,%edx
1577 <        vmovdqa %xmm8,16(%rsp)
1578 <        xorl    %ebp,%edi
1604 <        addl    %ebx,%eax
1605 <        vpsrld  $31,%xmm6,%xmm10
1577 >        addl    %ecx,%ebx
1578 >        vpxor   %xmm4,%xmm8,%xmm8
1579          shrdl   $7,%ecx,%ecx
1580 +        xorl    %ebp,%edi
1581 +        movl    %ebx,%esi
1582 +        addl    36(%rsp),%eax
1583 +        vpxor   %xmm8,%xmm6,%xmm6
1584 +        xorl    %edx,%ecx
1585 +        shldl   $5,%ebx,%ebx
1586 +        vmovdqa %xmm9,16(%rsp)
1587          addl    %edi,%eax
1588 <        addl    40(%rsp),%ebp
1589 <        vaesenc %xmm14,%xmm11,%xmm11
1610 <        vmovups 16(%r15),%xmm15
1588 >        andl    %ecx,%esi
1589 >        vpsrld  $31,%xmm6,%xmm8
1590          xorl    %edx,%ecx
1591 +        addl    %ebx,%eax
1592 +        shrdl   $7,%ebx,%ebx
1593 +        vaesenc %xmm14,%xmm12,%xmm12
1594 +        vmovups 16(%r15),%xmm15
1595 +        xorl    %edx,%esi
1596          vpslldq $12,%xmm6,%xmm9
1597          vpaddd  %xmm6,%xmm6,%xmm6
1598          movl    %eax,%edi
1599 +        addl    40(%rsp),%ebp
1600 +        xorl    %ecx,%ebx
1601          shldl   $5,%eax,%eax
1602 <        andl    %ecx,%esi
1617 <        xorl    %edx,%ecx
1602 >        vpor    %xmm8,%xmm6,%xmm6
1603          vpsrld  $30,%xmm9,%xmm8
1619        vpor    %xmm10,%xmm6,%xmm6
1620        xorl    %edx,%esi
1621        addl    %eax,%ebp
1622        shrdl   $7,%ebx,%ebx
1604          addl    %esi,%ebp
1605 +        andl    %ebx,%edi
1606 +        xorl    %ecx,%ebx
1607 +        addl    %eax,%ebp
1608          vpslld  $2,%xmm9,%xmm9
1609          vpxor   %xmm8,%xmm6,%xmm6
1610 <        addl    44(%rsp),%edx
1611 <        xorl    %ecx,%ebx
1610 >        shrdl   $7,%eax,%eax
1611 >        xorl    %ecx,%edi
1612          movl    %ebp,%esi
1613 <        shldl   $5,%ebp,%ebp
1613 >        addl    44(%rsp),%edx
1614          vpxor   %xmm9,%xmm6,%xmm6
1615 <        andl    %ebx,%edi
1616 <        xorl    %ecx,%ebx
1633 <        vmovdqa 16(%r11),%xmm9
1634 <        xorl    %ecx,%edi
1635 <        vaesenc %xmm15,%xmm11,%xmm11
1636 <        vmovups 32(%r15),%xmm14
1637 <        addl    %ebp,%edx
1638 <        shrdl   $7,%eax,%eax
1615 >        xorl    %ebx,%eax
1616 >        shldl   $5,%ebp,%ebp
1617          addl    %edi,%edx
1618 <        addl    48(%rsp),%ecx
1618 >        vaesenc %xmm15,%xmm12,%xmm12
1619 >        vmovups 32(%r15),%xmm14
1620 >        andl    %eax,%esi
1621          xorl    %ebx,%eax
1622 +        addl    %ebp,%edx
1623 +        shrdl   $7,%ebp,%ebp
1624 +        xorl    %ebx,%esi
1625          vpalignr        $8,%xmm3,%xmm4,%xmm7
1626          movl    %edx,%edi
1627 +        addl    48(%rsp),%ecx
1628 +        vpaddd  %xmm6,%xmm10,%xmm9
1629 +        xorl    %eax,%ebp
1630          shldl   $5,%edx,%edx
1645        vpaddd  %xmm6,%xmm9,%xmm9
1646        andl    %eax,%esi
1647        xorl    %ebx,%eax
1631          vpsrldq $4,%xmm6,%xmm8
1649        xorl    %ebx,%esi
1650        addl    %edx,%ecx
1651        vpxor   %xmm3,%xmm7,%xmm7
1652        shrdl   $7,%ebp,%ebp
1632          addl    %esi,%ecx
1633 <        vpxor   %xmm5,%xmm8,%xmm8
1634 <        addl    52(%rsp),%ebx
1633 >        andl    %ebp,%edi
1634 >        vpxor   %xmm3,%xmm7,%xmm7
1635          xorl    %eax,%ebp
1636 +        addl    %edx,%ecx
1637 +        vpxor   %xmm5,%xmm8,%xmm8
1638 +        shrdl   $7,%edx,%edx
1639 +        xorl    %eax,%edi
1640          movl    %ecx,%esi
1641 <        shldl   $5,%ecx,%ecx
1642 <        vaesenc %xmm14,%xmm11,%xmm11
1641 >        addl    52(%rsp),%ebx
1642 >        vaesenc %xmm14,%xmm12,%xmm12
1643          vmovups 48(%r15),%xmm15
1644          vpxor   %xmm8,%xmm7,%xmm7
1645 <        andl    %ebp,%edi
1646 <        xorl    %eax,%ebp
1645 >        xorl    %ebp,%edx
1646 >        shldl   $5,%ecx,%ecx
1647          vmovdqa %xmm9,32(%rsp)
1665        xorl    %eax,%edi
1666        addl    %ecx,%ebx
1667        vpsrld  $31,%xmm7,%xmm8
1668        shrdl   $7,%edx,%edx
1648          addl    %edi,%ebx
1649 <        addl    56(%rsp),%eax
1649 >        andl    %edx,%esi
1650 >        vpsrld  $31,%xmm7,%xmm8
1651          xorl    %ebp,%edx
1652 <        vpslldq $12,%xmm7,%xmm10
1652 >        addl    %ecx,%ebx
1653 >        shrdl   $7,%ecx,%ecx
1654 >        xorl    %ebp,%esi
1655 >        vpslldq $12,%xmm7,%xmm9
1656          vpaddd  %xmm7,%xmm7,%xmm7
1657          movl    %ebx,%edi
1658 +        addl    56(%rsp),%eax
1659 +        xorl    %edx,%ecx
1660          shldl   $5,%ebx,%ebx
1676        andl    %edx,%esi
1677        xorl    %ebp,%edx
1678        vpsrld  $30,%xmm10,%xmm9
1661          vpor    %xmm8,%xmm7,%xmm7
1662 <        xorl    %ebp,%esi
1681 <        addl    %ebx,%eax
1682 <        shrdl   $7,%ecx,%ecx
1662 >        vpsrld  $30,%xmm9,%xmm8
1663          addl    %esi,%eax
1664 <        vpslld  $2,%xmm10,%xmm10
1665 <        vpxor   %xmm9,%xmm7,%xmm7
1666 <        addl    60(%rsp),%ebp
1664 >        andl    %ecx,%edi
1665 >        xorl    %edx,%ecx
1666 >        addl    %ebx,%eax
1667 >        vpslld  $2,%xmm9,%xmm9
1668 >        vpxor   %xmm8,%xmm7,%xmm7
1669 >        shrdl   $7,%ebx,%ebx
1670          cmpl    $11,%r8d
1671 <        jb      .Lvaesenclast1
1672 <        vaesenc %xmm15,%xmm11,%xmm11
1671 >        jb      .Lvaesenclast6
1672 >        vaesenc %xmm15,%xmm12,%xmm12
1673          vmovups 64(%r15),%xmm14
1674 <        vaesenc %xmm14,%xmm11,%xmm11
1674 >        vaesenc %xmm14,%xmm12,%xmm12
1675          vmovups 80(%r15),%xmm15
1676 <        je      .Lvaesenclast1
1677 <        vaesenc %xmm15,%xmm11,%xmm11
1676 >        je      .Lvaesenclast6
1677 >        vaesenc %xmm15,%xmm12,%xmm12
1678          vmovups 96(%r15),%xmm14
1679 <        vaesenc %xmm14,%xmm11,%xmm11
1679 >        vaesenc %xmm14,%xmm12,%xmm12
1680          vmovups 112(%r15),%xmm15
1681 < .Lvaesenclast1:
1682 <        vaesenclast     %xmm15,%xmm11,%xmm11
1681 > .Lvaesenclast6:
1682 >        vaesenclast     %xmm15,%xmm12,%xmm12
1683 >        vmovups -112(%r15),%xmm15
1684          vmovups 16-112(%r15),%xmm14
1685 <        xorl    %edx,%ecx
1685 >        xorl    %edx,%edi
1686          movl    %eax,%esi
1687 +        addl    60(%rsp),%ebp
1688 +        vpxor   %xmm9,%xmm7,%xmm7
1689 +        xorl    %ecx,%ebx
1690          shldl   $5,%eax,%eax
1704        vpxor   %xmm10,%xmm7,%xmm7
1705        andl    %ecx,%edi
1706        xorl    %edx,%ecx
1707        vmovdqa 16(%r11),%xmm10
1708        xorl    %edx,%edi
1709        addl    %eax,%ebp
1710        shrdl   $7,%ebx,%ebx
1691          addl    %edi,%ebp
1712        vpalignr        $8,%xmm6,%xmm7,%xmm9
1713        vpxor   %xmm4,%xmm0,%xmm0
1714        addl    0(%rsp),%edx
1715        xorl    %ecx,%ebx
1716        movl    %ebp,%edi
1717        shldl   $5,%ebp,%ebp
1718        vpxor   %xmm1,%xmm0,%xmm0
1692          andl    %ebx,%esi
1693          xorl    %ecx,%ebx
1694 <        vmovdqa %xmm10,%xmm8
1695 <        vpaddd  %xmm7,%xmm10,%xmm10
1696 <        xorl    %ecx,%esi
1724 <        vmovups 16(%r12),%xmm12
1725 <        vxorps  %xmm13,%xmm12,%xmm12
1726 <        vmovups %xmm11,0(%r13,%r12,1)
1727 <        vxorps  %xmm12,%xmm11,%xmm11
1728 <        vaesenc %xmm14,%xmm11,%xmm11
1729 <        vmovups -80(%r15),%xmm15
1730 <        addl    %ebp,%edx
1731 <        vpxor   %xmm9,%xmm0,%xmm0
1694 >        addl    %eax,%ebp
1695 >        vpalignr        $8,%xmm6,%xmm7,%xmm8
1696 >        vpxor   %xmm4,%xmm0,%xmm0
1697          shrdl   $7,%eax,%eax
1698 +        xorl    %ecx,%esi
1699 +        movl    %ebp,%edi
1700 +        addl    0(%rsp),%edx
1701 +        vpxor   %xmm1,%xmm0,%xmm0
1702 +        xorl    %ebx,%eax
1703 +        shldl   $5,%ebp,%ebp
1704 +        vpaddd  %xmm7,%xmm10,%xmm9
1705          addl    %esi,%edx
1706 <        addl    4(%rsp),%ecx
1706 >        vmovdqu 16(%r12),%xmm13
1707 >        vpxor   %xmm15,%xmm13,%xmm13
1708 >        vmovups %xmm12,0(%r12,%r13,1)
1709 >        vpxor   %xmm13,%xmm12,%xmm12
1710 >        vaesenc %xmm14,%xmm12,%xmm12
1711 >        vmovups -80(%r15),%xmm15
1712 >        andl    %eax,%edi
1713 >        vpxor   %xmm8,%xmm0,%xmm0
1714          xorl    %ebx,%eax
1715 <        vpsrld  $30,%xmm0,%xmm9
1716 <        vmovdqa %xmm10,48(%rsp)
1715 >        addl    %ebp,%edx
1716 >        shrdl   $7,%ebp,%ebp
1717 >        xorl    %ebx,%edi
1718 >        vpsrld  $30,%xmm0,%xmm8
1719 >        vmovdqa %xmm9,48(%rsp)
1720          movl    %edx,%esi
1721 +        addl    4(%rsp),%ecx
1722 +        xorl    %eax,%ebp
1723          shldl   $5,%edx,%edx
1740        andl    %eax,%edi
1741        xorl    %ebx,%eax
1724          vpslld  $2,%xmm0,%xmm0
1743        xorl    %ebx,%edi
1744        addl    %edx,%ecx
1745        shrdl   $7,%ebp,%ebp
1725          addl    %edi,%ecx
1747        addl    8(%rsp),%ebx
1748        xorl    %eax,%ebp
1749        movl    %ecx,%edi
1750        shldl   $5,%ecx,%ecx
1751        vaesenc %xmm15,%xmm11,%xmm11
1752        vmovups -64(%r15),%xmm14
1753        vpor    %xmm9,%xmm0,%xmm0
1726          andl    %ebp,%esi
1727          xorl    %eax,%ebp
1728 <        vmovdqa %xmm0,%xmm10
1757 <        xorl    %eax,%esi
1758 <        addl    %ecx,%ebx
1728 >        addl    %edx,%ecx
1729          shrdl   $7,%edx,%edx
1730 <        addl    %esi,%ebx
1731 <        addl    12(%rsp),%eax
1730 >        xorl    %eax,%esi
1731 >        movl    %ecx,%edi
1732 >        addl    8(%rsp),%ebx
1733 >        vaesenc %xmm15,%xmm12,%xmm12
1734 >        vmovups -64(%r15),%xmm14
1735 >        vpor    %xmm8,%xmm0,%xmm0
1736          xorl    %ebp,%edx
1737 <        movl    %ebx,%esi
1738 <        shldl   $5,%ebx,%ebx
1737 >        shldl   $5,%ecx,%ecx
1738 >        addl    %esi,%ebx
1739          andl    %edx,%edi
1740          xorl    %ebp,%edx
1741 +        addl    %ecx,%ebx
1742 +        addl    12(%rsp),%eax
1743          xorl    %ebp,%edi
1744 <        addl    %ebx,%eax
1745 <        shrdl   $7,%ecx,%ecx
1744 >        movl    %ebx,%esi
1745 >        shldl   $5,%ebx,%ebx
1746          addl    %edi,%eax
1747 <        vpalignr        $8,%xmm7,%xmm0,%xmm10
1747 >        xorl    %edx,%esi
1748 >        shrdl   $7,%ecx,%ecx
1749 >        addl    %ebx,%eax
1750 >        vpalignr        $8,%xmm7,%xmm0,%xmm8
1751          vpxor   %xmm5,%xmm1,%xmm1
1752          addl    16(%rsp),%ebp
1753 <        vaesenc %xmm14,%xmm11,%xmm11
1753 >        vaesenc %xmm14,%xmm12,%xmm12
1754          vmovups -48(%r15),%xmm15
1755 <        xorl    %edx,%esi
1755 >        xorl    %ecx,%esi
1756          movl    %eax,%edi
1757          shldl   $5,%eax,%eax
1758          vpxor   %xmm2,%xmm1,%xmm1
1780        xorl    %ecx,%esi
1781        addl    %eax,%ebp
1782        vmovdqa %xmm8,%xmm9
1783        vpaddd  %xmm0,%xmm8,%xmm8
1784        shrdl   $7,%ebx,%ebx
1759          addl    %esi,%ebp
1786        vpxor   %xmm10,%xmm1,%xmm1
1787        addl    20(%rsp),%edx
1760          xorl    %ecx,%edi
1761 +        vpaddd  %xmm0,%xmm10,%xmm9
1762 +        shrdl   $7,%ebx,%ebx
1763 +        addl    %eax,%ebp
1764 +        vpxor   %xmm8,%xmm1,%xmm1
1765 +        addl    20(%rsp),%edx
1766 +        xorl    %ebx,%edi
1767          movl    %ebp,%esi
1768          shldl   $5,%ebp,%ebp
1769 <        vpsrld  $30,%xmm1,%xmm10
1770 <        vmovdqa %xmm8,0(%rsp)
1793 <        xorl    %ebx,%edi
1794 <        addl    %ebp,%edx
1795 <        shrdl   $7,%eax,%eax
1769 >        vpsrld  $30,%xmm1,%xmm8
1770 >        vmovdqa %xmm9,0(%rsp)
1771          addl    %edi,%edx
1772 +        xorl    %ebx,%esi
1773 +        shrdl   $7,%eax,%eax
1774 +        addl    %ebp,%edx
1775          vpslld  $2,%xmm1,%xmm1
1776          addl    24(%rsp),%ecx
1777 <        xorl    %ebx,%esi
1777 >        xorl    %eax,%esi
1778          movl    %edx,%edi
1779          shldl   $5,%edx,%edx
1780 <        xorl    %eax,%esi
1781 <        vaesenc %xmm15,%xmm11,%xmm11
1780 >        addl    %esi,%ecx
1781 >        vaesenc %xmm15,%xmm12,%xmm12
1782          vmovups -32(%r15),%xmm14
1783 <        addl    %edx,%ecx
1783 >        xorl    %eax,%edi
1784          shrdl   $7,%ebp,%ebp
1785 <        addl    %esi,%ecx
1786 <        vpor    %xmm10,%xmm1,%xmm1
1785 >        addl    %edx,%ecx
1786 >        vpor    %xmm8,%xmm1,%xmm1
1787          addl    28(%rsp),%ebx
1788 <        xorl    %eax,%edi
1811 <        vmovdqa %xmm1,%xmm8
1788 >        xorl    %ebp,%edi
1789          movl    %ecx,%esi
1790          shldl   $5,%ecx,%ecx
1814        xorl    %ebp,%edi
1815        addl    %ecx,%ebx
1816        shrdl   $7,%edx,%edx
1791          addl    %edi,%ebx
1792 +        xorl    %ebp,%esi
1793 +        shrdl   $7,%edx,%edx
1794 +        addl    %ecx,%ebx
1795          vpalignr        $8,%xmm0,%xmm1,%xmm8
1796          vpxor   %xmm6,%xmm2,%xmm2
1797          addl    32(%rsp),%eax
1798 <        xorl    %ebp,%esi
1798 >        xorl    %edx,%esi
1799          movl    %ebx,%edi
1800          shldl   $5,%ebx,%ebx
1801          vpxor   %xmm3,%xmm2,%xmm2
1802 <        xorl    %edx,%esi
1803 <        addl    %ebx,%eax
1802 >        addl    %esi,%eax
1803 >        xorl    %edx,%edi
1804 >        vpaddd  %xmm1,%xmm10,%xmm9
1805          vmovdqa 32(%r11),%xmm10
1828        vpaddd  %xmm1,%xmm9,%xmm9
1806          shrdl   $7,%ecx,%ecx
1807 <        addl    %esi,%eax
1807 >        addl    %ebx,%eax
1808          vpxor   %xmm8,%xmm2,%xmm2
1809          addl    36(%rsp),%ebp
1810 <        vaesenc %xmm14,%xmm11,%xmm11
1810 >        vaesenc %xmm14,%xmm12,%xmm12
1811          vmovups -16(%r15),%xmm15
1812 <        xorl    %edx,%edi
1812 >        xorl    %ecx,%edi
1813          movl    %eax,%esi
1814          shldl   $5,%eax,%eax
1815          vpsrld  $30,%xmm2,%xmm8
1816          vmovdqa %xmm9,16(%rsp)
1840        xorl    %ecx,%edi
1841        addl    %eax,%ebp
1842        shrdl   $7,%ebx,%ebx
1817          addl    %edi,%ebp
1818 +        xorl    %ecx,%esi
1819 +        shrdl   $7,%ebx,%ebx
1820 +        addl    %eax,%ebp
1821          vpslld  $2,%xmm2,%xmm2
1822          addl    40(%rsp),%edx
1823 <        xorl    %ecx,%esi
1823 >        xorl    %ebx,%esi
1824          movl    %ebp,%edi
1825          shldl   $5,%ebp,%ebp
1849        xorl    %ebx,%esi
1850        addl    %ebp,%edx
1851        shrdl   $7,%eax,%eax
1826          addl    %esi,%edx
1827 +        xorl    %ebx,%edi
1828 +        shrdl   $7,%eax,%eax
1829 +        addl    %ebp,%edx
1830          vpor    %xmm8,%xmm2,%xmm2
1831          addl    44(%rsp),%ecx
1832 <        xorl    %ebx,%edi
1856 <        vmovdqa %xmm2,%xmm9
1832 >        xorl    %eax,%edi
1833          movl    %edx,%esi
1834          shldl   $5,%edx,%edx
1835 <        xorl    %eax,%edi
1836 <        vaesenc %xmm15,%xmm11,%xmm11
1835 >        addl    %edi,%ecx
1836 >        vaesenc %xmm15,%xmm12,%xmm12
1837          vmovups 0(%r15),%xmm14
1838 <        addl    %edx,%ecx
1838 >        xorl    %eax,%esi
1839          shrdl   $7,%ebp,%ebp
1840 <        addl    %edi,%ecx
1841 <        vpalignr        $8,%xmm1,%xmm2,%xmm9
1840 >        addl    %edx,%ecx
1841 >        vpalignr        $8,%xmm1,%xmm2,%xmm8
1842          vpxor   %xmm7,%xmm3,%xmm3
1843          addl    48(%rsp),%ebx
1844 <        xorl    %eax,%esi
1844 >        xorl    %ebp,%esi
1845          movl    %ecx,%edi
1846          shldl   $5,%ecx,%ecx
1847          vpxor   %xmm4,%xmm3,%xmm3
1872        xorl    %ebp,%esi
1873        addl    %ecx,%ebx
1874        vmovdqa %xmm10,%xmm8
1875        vpaddd  %xmm2,%xmm10,%xmm10
1876        shrdl   $7,%edx,%edx
1848          addl    %esi,%ebx
1878        vpxor   %xmm9,%xmm3,%xmm3
1879        addl    52(%rsp),%eax
1849          xorl    %ebp,%edi
1850 +        vpaddd  %xmm2,%xmm10,%xmm9
1851 +        shrdl   $7,%edx,%edx
1852 +        addl    %ecx,%ebx
1853 +        vpxor   %xmm8,%xmm3,%xmm3
1854 +        addl    52(%rsp),%eax
1855 +        xorl    %edx,%edi
1856          movl    %ebx,%esi
1857          shldl   $5,%ebx,%ebx
1858 <        vpsrld  $30,%xmm3,%xmm9
1859 <        vmovdqa %xmm10,32(%rsp)
1885 <        xorl    %edx,%edi
1886 <        addl    %ebx,%eax
1887 <        shrdl   $7,%ecx,%ecx
1858 >        vpsrld  $30,%xmm3,%xmm8
1859 >        vmovdqa %xmm9,32(%rsp)
1860          addl    %edi,%eax
1861 +        xorl    %edx,%esi
1862 +        shrdl   $7,%ecx,%ecx
1863 +        addl    %ebx,%eax
1864          vpslld  $2,%xmm3,%xmm3
1865          addl    56(%rsp),%ebp
1866 <        vaesenc %xmm14,%xmm11,%xmm11
1866 >        vaesenc %xmm14,%xmm12,%xmm12
1867          vmovups 16(%r15),%xmm15
1868 <        xorl    %edx,%esi
1868 >        xorl    %ecx,%esi
1869          movl    %eax,%edi
1870          shldl   $5,%eax,%eax
1896        xorl    %ecx,%esi
1897        addl    %eax,%ebp
1898        shrdl   $7,%ebx,%ebx
1871          addl    %esi,%ebp
1900        vpor    %xmm9,%xmm3,%xmm3
1901        addl    60(%rsp),%edx
1872          xorl    %ecx,%edi
1873 <        vmovdqa %xmm3,%xmm10
1873 >        shrdl   $7,%ebx,%ebx
1874 >        addl    %eax,%ebp
1875 >        vpor    %xmm8,%xmm3,%xmm3
1876 >        addl    60(%rsp),%edx
1877 >        xorl    %ebx,%edi
1878          movl    %ebp,%esi
1879          shldl   $5,%ebp,%ebp
1906        xorl    %ebx,%edi
1907        addl    %ebp,%edx
1908        shrdl   $7,%eax,%eax
1880          addl    %edi,%edx
1881 <        vpalignr        $8,%xmm2,%xmm3,%xmm10
1881 >        xorl    %ebx,%esi
1882 >        shrdl   $7,%eax,%eax
1883 >        addl    %ebp,%edx
1884 >        vpalignr        $8,%xmm2,%xmm3,%xmm8
1885          vpxor   %xmm0,%xmm4,%xmm4
1886          addl    0(%rsp),%ecx
1887 <        xorl    %ebx,%esi
1887 >        xorl    %eax,%esi
1888          movl    %edx,%edi
1889          shldl   $5,%edx,%edx
1890          vpxor   %xmm5,%xmm4,%xmm4
1891 <        xorl    %eax,%esi
1892 <        vaesenc %xmm15,%xmm11,%xmm11
1891 >        addl    %esi,%ecx
1892 >        vaesenc %xmm15,%xmm12,%xmm12
1893          vmovups 32(%r15),%xmm14
1894 <        addl    %edx,%ecx
1895 <        vmovdqa %xmm8,%xmm9
1922 <        vpaddd  %xmm3,%xmm8,%xmm8
1894 >        xorl    %eax,%edi
1895 >        vpaddd  %xmm3,%xmm10,%xmm9
1896          shrdl   $7,%ebp,%ebp
1897 <        addl    %esi,%ecx
1898 <        vpxor   %xmm10,%xmm4,%xmm4
1897 >        addl    %edx,%ecx
1898 >        vpxor   %xmm8,%xmm4,%xmm4
1899          addl    4(%rsp),%ebx
1900 <        xorl    %eax,%edi
1900 >        xorl    %ebp,%edi
1901          movl    %ecx,%esi
1902          shldl   $5,%ecx,%ecx
1903 <        vpsrld  $30,%xmm4,%xmm10
1904 <        vmovdqa %xmm8,48(%rsp)
1932 <        xorl    %ebp,%edi
1933 <        addl    %ecx,%ebx
1934 <        shrdl   $7,%edx,%edx
1903 >        vpsrld  $30,%xmm4,%xmm8
1904 >        vmovdqa %xmm9,48(%rsp)
1905          addl    %edi,%ebx
1906 +        xorl    %ebp,%esi
1907 +        shrdl   $7,%edx,%edx
1908 +        addl    %ecx,%ebx
1909          vpslld  $2,%xmm4,%xmm4
1910          addl    8(%rsp),%eax
1911 <        xorl    %ebp,%esi
1911 >        xorl    %edx,%esi
1912          movl    %ebx,%edi
1913          shldl   $5,%ebx,%ebx
1941        xorl    %edx,%esi
1942        addl    %ebx,%eax
1943        shrdl   $7,%ecx,%ecx
1914          addl    %esi,%eax
1915 <        vpor    %xmm10,%xmm4,%xmm4
1915 >        xorl    %edx,%edi
1916 >        shrdl   $7,%ecx,%ecx
1917 >        addl    %ebx,%eax
1918 >        vpor    %xmm8,%xmm4,%xmm4
1919          addl    12(%rsp),%ebp
1920 <        vaesenc %xmm14,%xmm11,%xmm11
1920 >        vaesenc %xmm14,%xmm12,%xmm12
1921          vmovups 48(%r15),%xmm15
1922 <        xorl    %edx,%edi
1950 <        vmovdqa %xmm4,%xmm8
1922 >        xorl    %ecx,%edi
1923          movl    %eax,%esi
1924          shldl   $5,%eax,%eax
1953        xorl    %ecx,%edi
1954        addl    %eax,%ebp
1955        shrdl   $7,%ebx,%ebx
1925          addl    %edi,%ebp
1926 +        xorl    %ecx,%esi
1927 +        shrdl   $7,%ebx,%ebx
1928 +        addl    %eax,%ebp
1929          vpalignr        $8,%xmm3,%xmm4,%xmm8
1930          vpxor   %xmm1,%xmm5,%xmm5
1931          addl    16(%rsp),%edx
1932 <        xorl    %ecx,%esi
1932 >        xorl    %ebx,%esi
1933          movl    %ebp,%edi
1934          shldl   $5,%ebp,%ebp
1935          vpxor   %xmm6,%xmm5,%xmm5
1964        xorl    %ebx,%esi
1965        addl    %ebp,%edx
1966        vmovdqa %xmm9,%xmm10
1967        vpaddd  %xmm4,%xmm9,%xmm9
1968        shrdl   $7,%eax,%eax
1936          addl    %esi,%edx
1937 +        xorl    %ebx,%edi
1938 +        vpaddd  %xmm4,%xmm10,%xmm9
1939 +        shrdl   $7,%eax,%eax
1940 +        addl    %ebp,%edx
1941          vpxor   %xmm8,%xmm5,%xmm5
1942          addl    20(%rsp),%ecx
1943 <        xorl    %ebx,%edi
1943 >        xorl    %eax,%edi
1944          movl    %edx,%esi
1945          shldl   $5,%edx,%edx
1946          vpsrld  $30,%xmm5,%xmm8
1947          vmovdqa %xmm9,0(%rsp)
1948 <        xorl    %eax,%edi
1948 >        addl    %edi,%ecx
1949          cmpl    $11,%r8d
1950 <        jb      .Lvaesenclast2
1951 <        vaesenc %xmm15,%xmm11,%xmm11
1950 >        jb      .Lvaesenclast7
1951 >        vaesenc %xmm15,%xmm12,%xmm12
1952          vmovups 64(%r15),%xmm14
1953 <        vaesenc %xmm14,%xmm11,%xmm11
1953 >        vaesenc %xmm14,%xmm12,%xmm12
1954          vmovups 80(%r15),%xmm15
1955 <        je      .Lvaesenclast2
1956 <        vaesenc %xmm15,%xmm11,%xmm11
1955 >        je      .Lvaesenclast7
1956 >        vaesenc %xmm15,%xmm12,%xmm12
1957          vmovups 96(%r15),%xmm14
1958 <        vaesenc %xmm14,%xmm11,%xmm11
1958 >        vaesenc %xmm14,%xmm12,%xmm12
1959          vmovups 112(%r15),%xmm15
1960 < .Lvaesenclast2:
1961 <        vaesenclast     %xmm15,%xmm11,%xmm11
1960 > .Lvaesenclast7:
1961 >        vaesenclast     %xmm15,%xmm12,%xmm12
1962 >        vmovups -112(%r15),%xmm15
1963          vmovups 16-112(%r15),%xmm14
1964 <        addl    %edx,%ecx
1964 >        xorl    %eax,%esi
1965          shrdl   $7,%ebp,%ebp
1966 <        addl    %edi,%ecx
1966 >        addl    %edx,%ecx
1967          vpslld  $2,%xmm5,%xmm5
1968          addl    24(%rsp),%ebx
1969 <        xorl    %eax,%esi
1969 >        xorl    %ebp,%esi
1970          movl    %ecx,%edi
1971          shldl   $5,%ecx,%ecx
2000        xorl    %ebp,%esi
2001        addl    %ecx,%ebx
2002        shrdl   $7,%edx,%edx
1972          addl    %esi,%ebx
1973 +        xorl    %ebp,%edi
1974 +        shrdl   $7,%edx,%edx
1975 +        addl    %ecx,%ebx
1976          vpor    %xmm8,%xmm5,%xmm5
1977          addl    28(%rsp),%eax
1978 <        xorl    %ebp,%edi
2007 <        vmovdqa %xmm5,%xmm9
1978 >        shrdl   $7,%ecx,%ecx
1979          movl    %ebx,%esi
2009        shldl   $5,%ebx,%ebx
1980          xorl    %edx,%edi
1981 <        addl    %ebx,%eax
2012 <        shrdl   $7,%ecx,%ecx
1981 >        shldl   $5,%ebx,%ebx
1982          addl    %edi,%eax
1983 <        vpalignr        $8,%xmm4,%xmm5,%xmm9
2015 <        vpxor   %xmm2,%xmm6,%xmm6
2016 <        movl    %ecx,%edi
2017 <        vmovups 32(%r12),%xmm12
2018 <        vxorps  %xmm13,%xmm12,%xmm12
2019 <        vmovups %xmm11,16(%r13,%r12,1)
2020 <        vxorps  %xmm12,%xmm11,%xmm11
2021 <        vaesenc %xmm14,%xmm11,%xmm11
2022 <        vmovups -80(%r15),%xmm15
1983 >        xorl    %ecx,%esi
1984          xorl    %edx,%ecx
1985 +        addl    %ebx,%eax
1986 +        vpalignr        $8,%xmm4,%xmm5,%xmm8
1987 +        vpxor   %xmm2,%xmm6,%xmm6
1988          addl    32(%rsp),%ebp
1989 <        andl    %edx,%edi
1990 <        vpxor   %xmm7,%xmm6,%xmm6
1989 >        vmovdqu 32(%r12),%xmm13
1990 >        vpxor   %xmm15,%xmm13,%xmm13
1991 >        vmovups %xmm12,16(%r13,%r12,1)
1992 >        vpxor   %xmm13,%xmm12,%xmm12
1993 >        vaesenc %xmm14,%xmm12,%xmm12
1994 >        vmovups -80(%r15),%xmm15
1995          andl    %ecx,%esi
1996 +        xorl    %edx,%ecx
1997          shrdl   $7,%ebx,%ebx
1998 <        vmovdqa %xmm10,%xmm8
2030 <        vpaddd  %xmm5,%xmm10,%xmm10
2031 <        addl    %edi,%ebp
1998 >        vpxor   %xmm7,%xmm6,%xmm6
1999          movl    %eax,%edi
2000 <        vpxor   %xmm9,%xmm6,%xmm6
2000 >        xorl    %ecx,%esi
2001 >        vpaddd  %xmm5,%xmm10,%xmm9
2002          shldl   $5,%eax,%eax
2003          addl    %esi,%ebp
2004 <        xorl    %edx,%ecx
2005 <        addl    %eax,%ebp
2038 <        vpsrld  $30,%xmm6,%xmm9
2039 <        vmovdqa %xmm10,16(%rsp)
2040 <        movl    %ebx,%esi
2004 >        vpxor   %xmm8,%xmm6,%xmm6
2005 >        xorl    %ebx,%edi
2006          xorl    %ecx,%ebx
2007 +        addl    %eax,%ebp
2008          addl    36(%rsp),%edx
2009 <        andl    %ecx,%esi
2010 <        vpslld  $2,%xmm6,%xmm6
2009 >        vpsrld  $30,%xmm6,%xmm8
2010 >        vmovdqa %xmm9,16(%rsp)
2011          andl    %ebx,%edi
2012 +        xorl    %ecx,%ebx
2013          shrdl   $7,%eax,%eax
2047        addl    %esi,%edx
2014          movl    %ebp,%esi
2015 +        vpslld  $2,%xmm6,%xmm6
2016 +        xorl    %ebx,%edi
2017          shldl   $5,%ebp,%ebp
2050        vaesenc %xmm15,%xmm11,%xmm11
2051        vmovups -64(%r15),%xmm14
2018          addl    %edi,%edx
2019 <        xorl    %ecx,%ebx
2020 <        addl    %ebp,%edx
2021 <        vpor    %xmm9,%xmm6,%xmm6
2056 <        movl    %eax,%edi
2019 >        vaesenc %xmm15,%xmm12,%xmm12
2020 >        vmovups -64(%r15),%xmm14
2021 >        xorl    %eax,%esi
2022          xorl    %ebx,%eax
2023 <        vmovdqa %xmm6,%xmm10
2023 >        addl    %ebp,%edx
2024          addl    40(%rsp),%ecx
2060        andl    %ebx,%edi
2025          andl    %eax,%esi
2026 +        vpor    %xmm8,%xmm6,%xmm6
2027 +        xorl    %ebx,%eax
2028          shrdl   $7,%ebp,%ebp
2063        addl    %edi,%ecx
2029          movl    %edx,%edi
2030 +        xorl    %eax,%esi
2031          shldl   $5,%edx,%edx
2032          addl    %esi,%ecx
2033 <        xorl    %ebx,%eax
2068 <        addl    %edx,%ecx
2069 <        movl    %ebp,%esi
2033 >        xorl    %ebp,%edi
2034          xorl    %eax,%ebp
2035 +        addl    %edx,%ecx
2036          addl    44(%rsp),%ebx
2072        andl    %eax,%esi
2037          andl    %ebp,%edi
2038 <        vaesenc %xmm14,%xmm11,%xmm11
2075 <        vmovups -48(%r15),%xmm15
2038 >        xorl    %eax,%ebp
2039          shrdl   $7,%edx,%edx
2040 <        addl    %esi,%ebx
2040 >        vaesenc %xmm14,%xmm12,%xmm12
2041 >        vmovups -48(%r15),%xmm15
2042          movl    %ecx,%esi
2043 +        xorl    %ebp,%edi
2044          shldl   $5,%ecx,%ecx
2045          addl    %edi,%ebx
2046 <        xorl    %eax,%ebp
2046 >        xorl    %edx,%esi
2047 >        xorl    %ebp,%edx
2048          addl    %ecx,%ebx
2049 <        vpalignr        $8,%xmm5,%xmm6,%xmm10
2049 >        vpalignr        $8,%xmm5,%xmm6,%xmm8
2050          vpxor   %xmm3,%xmm7,%xmm7
2085        movl    %edx,%edi
2086        xorl    %ebp,%edx
2051          addl    48(%rsp),%eax
2088        andl    %ebp,%edi
2089        vpxor   %xmm0,%xmm7,%xmm7
2052          andl    %edx,%esi
2053 +        xorl    %ebp,%edx
2054          shrdl   $7,%ecx,%ecx
2055 <        vmovdqa 48(%r11),%xmm9
2093 <        vpaddd  %xmm6,%xmm8,%xmm8
2094 <        addl    %edi,%eax
2055 >        vpxor   %xmm0,%xmm7,%xmm7
2056          movl    %ebx,%edi
2057 <        vpxor   %xmm10,%xmm7,%xmm7
2057 >        xorl    %edx,%esi
2058 >        vpaddd  %xmm6,%xmm10,%xmm9
2059 >        vmovdqa 48(%r11),%xmm10
2060          shldl   $5,%ebx,%ebx
2061          addl    %esi,%eax
2062 <        xorl    %ebp,%edx
2063 <        addl    %ebx,%eax
2101 <        vpsrld  $30,%xmm7,%xmm10
2102 <        vmovdqa %xmm8,32(%rsp)
2103 <        movl    %ecx,%esi
2104 <        vaesenc %xmm15,%xmm11,%xmm11
2105 <        vmovups -32(%r15),%xmm14
2062 >        vpxor   %xmm8,%xmm7,%xmm7
2063 >        xorl    %ecx,%edi
2064          xorl    %edx,%ecx
2065 +        addl    %ebx,%eax
2066          addl    52(%rsp),%ebp
2067 <        andl    %edx,%esi
2068 <        vpslld  $2,%xmm7,%xmm7
2067 >        vaesenc %xmm15,%xmm12,%xmm12
2068 >        vmovups -32(%r15),%xmm14
2069 >        vpsrld  $30,%xmm7,%xmm8
2070 >        vmovdqa %xmm9,32(%rsp)
2071          andl    %ecx,%edi
2072 +        xorl    %edx,%ecx
2073          shrdl   $7,%ebx,%ebx
2112        addl    %esi,%ebp
2074          movl    %eax,%esi
2075 +        vpslld  $2,%xmm7,%xmm7
2076 +        xorl    %ecx,%edi
2077          shldl   $5,%eax,%eax
2078          addl    %edi,%ebp
2079 <        xorl    %edx,%ecx
2117 <        addl    %eax,%ebp
2118 <        vpor    %xmm10,%xmm7,%xmm7
2119 <        movl    %ebx,%edi
2079 >        xorl    %ebx,%esi
2080          xorl    %ecx,%ebx
2081 <        vmovdqa %xmm7,%xmm8
2081 >        addl    %eax,%ebp
2082          addl    56(%rsp),%edx
2123        andl    %ecx,%edi
2083          andl    %ebx,%esi
2084 +        vpor    %xmm8,%xmm7,%xmm7
2085 +        xorl    %ecx,%ebx
2086          shrdl   $7,%eax,%eax
2126        addl    %edi,%edx
2087          movl    %ebp,%edi
2088 +        xorl    %ebx,%esi
2089          shldl   $5,%ebp,%ebp
2129        vaesenc %xmm14,%xmm11,%xmm11
2130        vmovups -16(%r15),%xmm15
2090          addl    %esi,%edx
2091 <        xorl    %ecx,%ebx
2092 <        addl    %ebp,%edx
2093 <        movl    %eax,%esi
2091 >        vaesenc %xmm14,%xmm12,%xmm12
2092 >        vmovups -16(%r15),%xmm15
2093 >        xorl    %eax,%edi
2094          xorl    %ebx,%eax
2095 +        addl    %ebp,%edx
2096          addl    60(%rsp),%ecx
2137        andl    %ebx,%esi
2097          andl    %eax,%edi
2098 +        xorl    %ebx,%eax
2099          shrdl   $7,%ebp,%ebp
2140        addl    %esi,%ecx
2100          movl    %edx,%esi
2101 +        xorl    %eax,%edi
2102          shldl   $5,%edx,%edx
2103          addl    %edi,%ecx
2104 <        xorl    %ebx,%eax
2104 >        xorl    %ebp,%esi
2105 >        xorl    %eax,%ebp
2106          addl    %edx,%ecx
2107          vpalignr        $8,%xmm6,%xmm7,%xmm8
2108          vpxor   %xmm4,%xmm0,%xmm0
2148        movl    %ebp,%edi
2149        xorl    %eax,%ebp
2109          addl    0(%rsp),%ebx
2151        andl    %eax,%edi
2152        vpxor   %xmm1,%xmm0,%xmm0
2110          andl    %ebp,%esi
2111 <        vaesenc %xmm15,%xmm11,%xmm11
2155 <        vmovups 0(%r15),%xmm14
2111 >        xorl    %eax,%ebp
2112          shrdl   $7,%edx,%edx
2113 <        vmovdqa %xmm9,%xmm10
2114 <        vpaddd  %xmm7,%xmm9,%xmm9
2115 <        addl    %edi,%ebx
2113 >        vaesenc %xmm15,%xmm12,%xmm12
2114 >        vmovups 0(%r15),%xmm14
2115 >        vpxor   %xmm1,%xmm0,%xmm0
2116          movl    %ecx,%edi
2117 <        vpxor   %xmm8,%xmm0,%xmm0
2117 >        xorl    %ebp,%esi
2118 >        vpaddd  %xmm7,%xmm10,%xmm9
2119          shldl   $5,%ecx,%ecx
2120          addl    %esi,%ebx
2121 <        xorl    %eax,%ebp
2121 >        vpxor   %xmm8,%xmm0,%xmm0
2122 >        xorl    %edx,%edi
2123 >        xorl    %ebp,%edx
2124          addl    %ecx,%ebx
2125 +        addl    4(%rsp),%eax
2126          vpsrld  $30,%xmm0,%xmm8
2127          vmovdqa %xmm9,48(%rsp)
2168        movl    %edx,%esi
2169        xorl    %ebp,%edx
2170        addl    4(%rsp),%eax
2171        andl    %ebp,%esi
2172        vpslld  $2,%xmm0,%xmm0
2128          andl    %edx,%edi
2129 +        xorl    %ebp,%edx
2130          shrdl   $7,%ecx,%ecx
2175        addl    %esi,%eax
2131          movl    %ebx,%esi
2132 +        vpslld  $2,%xmm0,%xmm0
2133 +        xorl    %edx,%edi
2134          shldl   $5,%ebx,%ebx
2135          addl    %edi,%eax
2136 <        xorl    %ebp,%edx
2180 <        addl    %ebx,%eax
2181 <        vpor    %xmm8,%xmm0,%xmm0
2182 <        movl    %ecx,%edi
2183 <        vaesenc %xmm14,%xmm11,%xmm11
2184 <        vmovups 16(%r15),%xmm15
2136 >        xorl    %ecx,%esi
2137          xorl    %edx,%ecx
2138 <        vmovdqa %xmm0,%xmm9
2138 >        addl    %ebx,%eax
2139          addl    8(%rsp),%ebp
2140 <        andl    %edx,%edi
2140 >        vaesenc %xmm14,%xmm12,%xmm12
2141 >        vmovups 16(%r15),%xmm15
2142          andl    %ecx,%esi
2143 +        vpor    %xmm8,%xmm0,%xmm0
2144 +        xorl    %edx,%ecx
2145          shrdl   $7,%ebx,%ebx
2191        addl    %edi,%ebp
2146          movl    %eax,%edi
2147 +        xorl    %ecx,%esi
2148          shldl   $5,%eax,%eax
2149          addl    %esi,%ebp
2150 <        xorl    %edx,%ecx
2196 <        addl    %eax,%ebp
2197 <        movl    %ebx,%esi
2150 >        xorl    %ebx,%edi
2151          xorl    %ecx,%ebx
2152 +        addl    %eax,%ebp
2153          addl    12(%rsp),%edx
2200        andl    %ecx,%esi
2154          andl    %ebx,%edi
2155 +        xorl    %ecx,%ebx
2156          shrdl   $7,%eax,%eax
2203        addl    %esi,%edx
2157          movl    %ebp,%esi
2158 +        xorl    %ebx,%edi
2159          shldl   $5,%ebp,%ebp
2206        vaesenc %xmm15,%xmm11,%xmm11
2207        vmovups 32(%r15),%xmm14
2160          addl    %edi,%edx
2161 <        xorl    %ecx,%ebx
2161 >        vaesenc %xmm15,%xmm12,%xmm12
2162 >        vmovups 32(%r15),%xmm14
2163 >        xorl    %eax,%esi
2164 >        xorl    %ebx,%eax
2165          addl    %ebp,%edx
2166 <        vpalignr        $8,%xmm7,%xmm0,%xmm9
2166 >        vpalignr        $8,%xmm7,%xmm0,%xmm8
2167          vpxor   %xmm5,%xmm1,%xmm1
2213        movl    %eax,%edi
2214        xorl    %ebx,%eax
2168          addl    16(%rsp),%ecx
2216        andl    %ebx,%edi
2217        vpxor   %xmm2,%xmm1,%xmm1
2169          andl    %eax,%esi
2170 +        xorl    %ebx,%eax
2171          shrdl   $7,%ebp,%ebp
2172 <        vmovdqa %xmm10,%xmm8
2221 <        vpaddd  %xmm0,%xmm10,%xmm10
2222 <        addl    %edi,%ecx
2172 >        vpxor   %xmm2,%xmm1,%xmm1
2173          movl    %edx,%edi
2174 <        vpxor   %xmm9,%xmm1,%xmm1
2174 >        xorl    %eax,%esi
2175 >        vpaddd  %xmm0,%xmm10,%xmm9
2176          shldl   $5,%edx,%edx
2177          addl    %esi,%ecx
2178 <        xorl    %ebx,%eax
2179 <        addl    %edx,%ecx
2229 <        vpsrld  $30,%xmm1,%xmm9
2230 <        vmovdqa %xmm10,0(%rsp)
2231 <        movl    %ebp,%esi
2178 >        vpxor   %xmm8,%xmm1,%xmm1
2179 >        xorl    %ebp,%edi
2180          xorl    %eax,%ebp
2181 +        addl    %edx,%ecx
2182          addl    20(%rsp),%ebx
2183 <        andl    %eax,%esi
2184 <        vpslld  $2,%xmm1,%xmm1
2183 >        vpsrld  $30,%xmm1,%xmm8
2184 >        vmovdqa %xmm9,0(%rsp)
2185          andl    %ebp,%edi
2186 <        vaesenc %xmm14,%xmm11,%xmm11
2238 <        vmovups 48(%r15),%xmm15
2186 >        xorl    %eax,%ebp
2187          shrdl   $7,%edx,%edx
2188 <        addl    %esi,%ebx
2188 >        vaesenc %xmm14,%xmm12,%xmm12
2189 >        vmovups 48(%r15),%xmm15
2190          movl    %ecx,%esi
2191 +        vpslld  $2,%xmm1,%xmm1
2192 +        xorl    %ebp,%edi
2193          shldl   $5,%ecx,%ecx
2194          addl    %edi,%ebx
2195 <        xorl    %eax,%ebp
2245 <        addl    %ecx,%ebx
2246 <        vpor    %xmm9,%xmm1,%xmm1
2247 <        movl    %edx,%edi
2195 >        xorl    %edx,%esi
2196          xorl    %ebp,%edx
2197 <        vmovdqa %xmm1,%xmm10
2197 >        addl    %ecx,%ebx
2198          addl    24(%rsp),%eax
2251        andl    %ebp,%edi
2199          andl    %edx,%esi
2200 +        vpor    %xmm8,%xmm1,%xmm1
2201 +        xorl    %ebp,%edx
2202          shrdl   $7,%ecx,%ecx
2254        addl    %edi,%eax
2203          movl    %ebx,%edi
2204 +        xorl    %edx,%esi
2205          shldl   $5,%ebx,%ebx
2206          addl    %esi,%eax
2207 <        xorl    %ebp,%edx
2207 >        xorl    %ecx,%edi
2208 >        xorl    %edx,%ecx
2209          addl    %ebx,%eax
2210 <        movl    %ecx,%esi
2210 >        addl    28(%rsp),%ebp
2211          cmpl    $11,%r8d
2212 <        jb      .Lvaesenclast3
2213 <        vaesenc %xmm15,%xmm11,%xmm11
2212 >        jb      .Lvaesenclast8
2213 >        vaesenc %xmm15,%xmm12,%xmm12
2214          vmovups 64(%r15),%xmm14
2215 <        vaesenc %xmm14,%xmm11,%xmm11
2215 >        vaesenc %xmm14,%xmm12,%xmm12
2216          vmovups 80(%r15),%xmm15
2217 <        je      .Lvaesenclast3
2218 <        vaesenc %xmm15,%xmm11,%xmm11
2217 >        je      .Lvaesenclast8
2218 >        vaesenc %xmm15,%xmm12,%xmm12
2219          vmovups 96(%r15),%xmm14
2220 <        vaesenc %xmm14,%xmm11,%xmm11
2220 >        vaesenc %xmm14,%xmm12,%xmm12
2221          vmovups 112(%r15),%xmm15
2222 < .Lvaesenclast3:
2223 <        vaesenclast     %xmm15,%xmm11,%xmm11
2222 > .Lvaesenclast8:
2223 >        vaesenclast     %xmm15,%xmm12,%xmm12
2224 >        vmovups -112(%r15),%xmm15
2225          vmovups 16-112(%r15),%xmm14
2275        xorl    %edx,%ecx
2276        addl    28(%rsp),%ebp
2277        andl    %edx,%esi
2226          andl    %ecx,%edi
2227 +        xorl    %edx,%ecx
2228          shrdl   $7,%ebx,%ebx
2280        addl    %esi,%ebp
2229          movl    %eax,%esi
2230 +        xorl    %ecx,%edi
2231          shldl   $5,%eax,%eax
2232          addl    %edi,%ebp
2233 <        xorl    %edx,%ecx
2233 >        xorl    %ebx,%esi
2234 >        xorl    %ecx,%ebx
2235          addl    %eax,%ebp
2236 <        vpalignr        $8,%xmm0,%xmm1,%xmm10
2236 >        vpalignr        $8,%xmm0,%xmm1,%xmm8
2237          vpxor   %xmm6,%xmm2,%xmm2
2288        movl    %ebx,%edi
2289        xorl    %ecx,%ebx
2238          addl    32(%rsp),%edx
2291        andl    %ecx,%edi
2292        vpxor   %xmm3,%xmm2,%xmm2
2239          andl    %ebx,%esi
2240 +        xorl    %ecx,%ebx
2241          shrdl   $7,%eax,%eax
2242 <        vmovdqa %xmm8,%xmm9
2296 <        vpaddd  %xmm1,%xmm8,%xmm8
2297 <        addl    %edi,%edx
2242 >        vpxor   %xmm3,%xmm2,%xmm2
2243          movl    %ebp,%edi
2244 <        vpxor   %xmm10,%xmm2,%xmm2
2244 >        xorl    %ebx,%esi
2245 >        vpaddd  %xmm1,%xmm10,%xmm9
2246          shldl   $5,%ebp,%ebp
2301        vmovups 48(%r12),%xmm12
2302        vxorps  %xmm13,%xmm12,%xmm12
2303        vmovups %xmm11,32(%r13,%r12,1)
2304        vxorps  %xmm12,%xmm11,%xmm11
2305        vaesenc %xmm14,%xmm11,%xmm11
2306        vmovups -80(%r15),%xmm15
2247          addl    %esi,%edx
2248 <        xorl    %ecx,%ebx
2249 <        addl    %ebp,%edx
2250 <        vpsrld  $30,%xmm2,%xmm10
2251 <        vmovdqa %xmm8,16(%rsp)
2252 <        movl    %eax,%esi
2248 >        vmovdqu 48(%r12),%xmm13
2249 >        vpxor   %xmm15,%xmm13,%xmm13
2250 >        vmovups %xmm12,32(%r13,%r12,1)
2251 >        vpxor   %xmm13,%xmm12,%xmm12
2252 >        vaesenc %xmm14,%xmm12,%xmm12
2253 >        vmovups -80(%r15),%xmm15
2254 >        vpxor   %xmm8,%xmm2,%xmm2
2255 >        xorl    %eax,%edi
2256          xorl    %ebx,%eax
2257 +        addl    %ebp,%edx
2258          addl    36(%rsp),%ecx
2259 <        andl    %ebx,%esi
2260 <        vpslld  $2,%xmm2,%xmm2
2259 >        vpsrld  $30,%xmm2,%xmm8
2260 >        vmovdqa %xmm9,16(%rsp)
2261          andl    %eax,%edi
2262 +        xorl    %ebx,%eax
2263          shrdl   $7,%ebp,%ebp
2319        addl    %esi,%ecx
2264          movl    %edx,%esi
2265 +        vpslld  $2,%xmm2,%xmm2
2266 +        xorl    %eax,%edi
2267          shldl   $5,%edx,%edx
2268          addl    %edi,%ecx
2269 <        xorl    %ebx,%eax
2324 <        addl    %edx,%ecx
2325 <        vpor    %xmm10,%xmm2,%xmm2
2326 <        movl    %ebp,%edi
2269 >        xorl    %ebp,%esi
2270          xorl    %eax,%ebp
2271 <        vmovdqa %xmm2,%xmm8
2271 >        addl    %edx,%ecx
2272          addl    40(%rsp),%ebx
2330        andl    %eax,%edi
2273          andl    %ebp,%esi
2274 <        vaesenc %xmm15,%xmm11,%xmm11
2275 <        vmovups -64(%r15),%xmm14
2274 >        vpor    %xmm8,%xmm2,%xmm2
2275 >        xorl    %eax,%ebp
2276          shrdl   $7,%edx,%edx
2277 <        addl    %edi,%ebx
2277 >        vaesenc %xmm15,%xmm12,%xmm12
2278 >        vmovups -64(%r15),%xmm14
2279          movl    %ecx,%edi
2280 +        xorl    %ebp,%esi
2281          shldl   $5,%ecx,%ecx
2282          addl    %esi,%ebx
2283 <        xorl    %eax,%ebp
2340 <        addl    %ecx,%ebx
2341 <        movl    %edx,%esi
2283 >        xorl    %edx,%edi
2284          xorl    %ebp,%edx
2285 +        addl    %ecx,%ebx
2286          addl    44(%rsp),%eax
2344        andl    %ebp,%esi
2287          andl    %edx,%edi
2288 +        xorl    %ebp,%edx
2289          shrdl   $7,%ecx,%ecx
2347        addl    %esi,%eax
2290          movl    %ebx,%esi
2291 +        xorl    %edx,%edi
2292          shldl   $5,%ebx,%ebx
2293          addl    %edi,%eax
2294 <        xorl    %ebp,%edx
2294 >        xorl    %edx,%esi
2295          addl    %ebx,%eax
2296          vpalignr        $8,%xmm1,%xmm2,%xmm8
2297          vpxor   %xmm7,%xmm3,%xmm3
2298          addl    48(%rsp),%ebp
2299 <        vaesenc %xmm14,%xmm11,%xmm11
2299 >        vaesenc %xmm14,%xmm12,%xmm12
2300          vmovups -48(%r15),%xmm15
2301 <        xorl    %edx,%esi
2301 >        xorl    %ecx,%esi
2302          movl    %eax,%edi
2303          shldl   $5,%eax,%eax
2304          vpxor   %xmm4,%xmm3,%xmm3
2362        xorl    %ecx,%esi
2363        addl    %eax,%ebp
2364        vmovdqa %xmm9,%xmm10
2365        vpaddd  %xmm2,%xmm9,%xmm9
2366        shrdl   $7,%ebx,%ebx
2305          addl    %esi,%ebp
2306 +        xorl    %ecx,%edi
2307 +        vpaddd  %xmm2,%xmm10,%xmm9
2308 +        shrdl   $7,%ebx,%ebx
2309 +        addl    %eax,%ebp
2310          vpxor   %xmm8,%xmm3,%xmm3
2311          addl    52(%rsp),%edx
2312 <        xorl    %ecx,%edi
2312 >        xorl    %ebx,%edi
2313          movl    %ebp,%esi
2314          shldl   $5,%ebp,%ebp
2315          vpsrld  $30,%xmm3,%xmm8
2316          vmovdqa %xmm9,32(%rsp)
2375        xorl    %ebx,%edi
2376        addl    %ebp,%edx
2377        shrdl   $7,%eax,%eax
2317          addl    %edi,%edx
2318 +        xorl    %ebx,%esi
2319 +        shrdl   $7,%eax,%eax
2320 +        addl    %ebp,%edx
2321          vpslld  $2,%xmm3,%xmm3
2322          addl    56(%rsp),%ecx
2323 <        xorl    %ebx,%esi
2323 >        xorl    %eax,%esi
2324          movl    %edx,%edi
2325          shldl   $5,%edx,%edx
2326 <        xorl    %eax,%esi
2327 <        vaesenc %xmm15,%xmm11,%xmm11
2326 >        addl    %esi,%ecx
2327 >        vaesenc %xmm15,%xmm12,%xmm12
2328          vmovups -32(%r15),%xmm14
2329 <        addl    %edx,%ecx
2329 >        xorl    %eax,%edi
2330          shrdl   $7,%ebp,%ebp
2331 <        addl    %esi,%ecx
2331 >        addl    %edx,%ecx
2332          vpor    %xmm8,%xmm3,%xmm3
2333          addl    60(%rsp),%ebx
2334 <        xorl    %eax,%edi
2334 >        xorl    %ebp,%edi
2335          movl    %ecx,%esi
2336          shldl   $5,%ecx,%ecx
2395        xorl    %ebp,%edi
2396        addl    %ecx,%ebx
2397        shrdl   $7,%edx,%edx
2337          addl    %edi,%ebx
2399        addl    0(%rsp),%eax
2400        vpaddd  %xmm3,%xmm10,%xmm10
2338          xorl    %ebp,%esi
2339 +        shrdl   $7,%edx,%edx
2340 +        addl    %ecx,%ebx
2341 +        addl    0(%rsp),%eax
2342 +        vpaddd  %xmm3,%xmm10,%xmm9
2343 +        xorl    %edx,%esi
2344          movl    %ebx,%edi
2345          shldl   $5,%ebx,%ebx
2404        xorl    %edx,%esi
2405        movdqa  %xmm10,48(%rsp)
2406        addl    %ebx,%eax
2407        shrdl   $7,%ecx,%ecx
2346          addl    %esi,%eax
2347 +        vmovdqa %xmm9,48(%rsp)
2348 +        xorl    %edx,%edi
2349 +        shrdl   $7,%ecx,%ecx
2350 +        addl    %ebx,%eax
2351          addl    4(%rsp),%ebp
2352 <        vaesenc %xmm14,%xmm11,%xmm11
2352 >        vaesenc %xmm14,%xmm12,%xmm12
2353          vmovups -16(%r15),%xmm15
2354 <        xorl    %edx,%edi
2354 >        xorl    %ecx,%edi
2355          movl    %eax,%esi
2356          shldl   $5,%eax,%eax
2415        xorl    %ecx,%edi
2416        addl    %eax,%ebp
2417        shrdl   $7,%ebx,%ebx
2357          addl    %edi,%ebp
2419        addl    8(%rsp),%edx
2358          xorl    %ecx,%esi
2359 +        shrdl   $7,%ebx,%ebx
2360 +        addl    %eax,%ebp
2361 +        addl    8(%rsp),%edx
2362 +        xorl    %ebx,%esi
2363          movl    %ebp,%edi
2364          shldl   $5,%ebp,%ebp
2423        xorl    %ebx,%esi
2424        addl    %ebp,%edx
2425        shrdl   $7,%eax,%eax
2365          addl    %esi,%edx
2427        addl    12(%rsp),%ecx
2366          xorl    %ebx,%edi
2367 +        shrdl   $7,%eax,%eax
2368 +        addl    %ebp,%edx
2369 +        addl    12(%rsp),%ecx
2370 +        xorl    %eax,%edi
2371          movl    %edx,%esi
2372          shldl   $5,%edx,%edx
2373 <        xorl    %eax,%edi
2374 <        vaesenc %xmm15,%xmm11,%xmm11
2373 >        addl    %edi,%ecx
2374 >        vaesenc %xmm15,%xmm12,%xmm12
2375          vmovups 0(%r15),%xmm14
2376 <        addl    %edx,%ecx
2376 >        xorl    %eax,%esi
2377          shrdl   $7,%ebp,%ebp
2378 <        addl    %edi,%ecx
2378 >        addl    %edx,%ecx
2379          cmpq    %r14,%r10
2380          je      .Ldone_avx
2381 <        vmovdqa 64(%r11),%xmm6
2382 <        vmovdqa 0(%r11),%xmm9
2381 >        vmovdqa 64(%r11),%xmm9
2382 >        vmovdqa 0(%r11),%xmm10
2383          vmovdqu 0(%r10),%xmm0
2384          vmovdqu 16(%r10),%xmm1
2385          vmovdqu 32(%r10),%xmm2
2386          vmovdqu 48(%r10),%xmm3
2387 <        vpshufb %xmm6,%xmm0,%xmm0
2387 >        vpshufb %xmm9,%xmm0,%xmm0
2388          addq    $64,%r10
2389          addl    16(%rsp),%ebx
2390 <        xorl    %eax,%esi
2391 <        vpshufb %xmm6,%xmm1,%xmm1
2390 >        xorl    %ebp,%esi
2391 >        vpshufb %xmm9,%xmm1,%xmm1
2392          movl    %ecx,%edi
2393          shldl   $5,%ecx,%ecx
2394 <        vpaddd  %xmm9,%xmm0,%xmm4
2453 <        xorl    %ebp,%esi
2454 <        addl    %ecx,%ebx
2455 <        shrdl   $7,%edx,%edx
2394 >        vpaddd  %xmm10,%xmm0,%xmm8
2395          addl    %esi,%ebx
2457        vmovdqa %xmm4,0(%rsp)
2458        addl    20(%rsp),%eax
2396          xorl    %ebp,%edi
2397 +        shrdl   $7,%edx,%edx
2398 +        addl    %ecx,%ebx
2399 +        vmovdqa %xmm8,0(%rsp)
2400 +        addl    20(%rsp),%eax
2401 +        xorl    %edx,%edi
2402          movl    %ebx,%esi
2403          shldl   $5,%ebx,%ebx
2462        xorl    %edx,%edi
2463        addl    %ebx,%eax
2464        shrdl   $7,%ecx,%ecx
2404          addl    %edi,%eax
2405 +        xorl    %edx,%esi
2406 +        shrdl   $7,%ecx,%ecx
2407 +        addl    %ebx,%eax
2408          addl    24(%rsp),%ebp
2409 <        vaesenc %xmm14,%xmm11,%xmm11
2409 >        vaesenc %xmm14,%xmm12,%xmm12
2410          vmovups 16(%r15),%xmm15
2411 <        xorl    %edx,%esi
2411 >        xorl    %ecx,%esi
2412          movl    %eax,%edi
2413          shldl   $5,%eax,%eax
2472        xorl    %ecx,%esi
2473        addl    %eax,%ebp
2474        shrdl   $7,%ebx,%ebx
2414          addl    %esi,%ebp
2476        addl    28(%rsp),%edx
2415          xorl    %ecx,%edi
2416 +        shrdl   $7,%ebx,%ebx
2417 +        addl    %eax,%ebp
2418 +        addl    28(%rsp),%edx
2419 +        xorl    %ebx,%edi
2420          movl    %ebp,%esi
2421          shldl   $5,%ebp,%ebp
2480        xorl    %ebx,%edi
2481        addl    %ebp,%edx
2482        shrdl   $7,%eax,%eax
2422          addl    %edi,%edx
2484        addl    32(%rsp),%ecx
2423          xorl    %ebx,%esi
2424 <        vpshufb %xmm6,%xmm2,%xmm2
2424 >        shrdl   $7,%eax,%eax
2425 >        addl    %ebp,%edx
2426 >        addl    32(%rsp),%ecx
2427 >        xorl    %eax,%esi
2428 >        vpshufb %xmm9,%xmm2,%xmm2
2429          movl    %edx,%edi
2430          shldl   $5,%edx,%edx
2431 <        vpaddd  %xmm9,%xmm1,%xmm5
2432 <        xorl    %eax,%esi
2433 <        vaesenc %xmm15,%xmm11,%xmm11
2431 >        vpaddd  %xmm10,%xmm1,%xmm8
2432 >        addl    %esi,%ecx
2433 >        vaesenc %xmm15,%xmm12,%xmm12
2434          vmovups 32(%r15),%xmm14
2435 <        addl    %edx,%ecx
2435 >        xorl    %eax,%edi
2436          shrdl   $7,%ebp,%ebp
2437 <        addl    %esi,%ecx
2438 <        vmovdqa %xmm5,16(%rsp)
2437 >        addl    %edx,%ecx
2438 >        vmovdqa %xmm8,16(%rsp)
2439          addl    36(%rsp),%ebx
2440 <        xorl    %eax,%edi
2440 >        xorl    %ebp,%edi
2441          movl    %ecx,%esi
2442          shldl   $5,%ecx,%ecx
2501        xorl    %ebp,%edi
2502        addl    %ecx,%ebx
2503        shrdl   $7,%edx,%edx
2443          addl    %edi,%ebx
2505        addl    40(%rsp),%eax
2444          xorl    %ebp,%esi
2445 +        shrdl   $7,%edx,%edx
2446 +        addl    %ecx,%ebx
2447 +        addl    40(%rsp),%eax
2448 +        xorl    %edx,%esi
2449          movl    %ebx,%edi
2450          shldl   $5,%ebx,%ebx
2509        xorl    %edx,%esi
2510        addl    %ebx,%eax
2511        shrdl   $7,%ecx,%ecx
2451          addl    %esi,%eax
2452 +        xorl    %edx,%edi
2453 +        shrdl   $7,%ecx,%ecx
2454 +        addl    %ebx,%eax
2455          addl    44(%rsp),%ebp
2456 <        vaesenc %xmm14,%xmm11,%xmm11
2456 >        vaesenc %xmm14,%xmm12,%xmm12
2457          vmovups 48(%r15),%xmm15
2458 <        xorl    %edx,%edi
2458 >        xorl    %ecx,%edi
2459          movl    %eax,%esi
2460          shldl   $5,%eax,%eax
2519        xorl    %ecx,%edi
2520        addl    %eax,%ebp
2521        shrdl   $7,%ebx,%ebx
2461          addl    %edi,%ebp
2523        addl    48(%rsp),%edx
2462          xorl    %ecx,%esi
2463 <        vpshufb %xmm6,%xmm3,%xmm3
2463 >        shrdl   $7,%ebx,%ebx
2464 >        addl    %eax,%ebp
2465 >        addl    48(%rsp),%edx
2466 >        xorl    %ebx,%esi
2467 >        vpshufb %xmm9,%xmm3,%xmm3
2468          movl    %ebp,%edi
2469          shldl   $5,%ebp,%ebp
2470 <        vpaddd  %xmm9,%xmm2,%xmm6
2529 <        xorl    %ebx,%esi
2530 <        addl    %ebp,%edx
2531 <        shrdl   $7,%eax,%eax
2470 >        vpaddd  %xmm10,%xmm2,%xmm8
2471          addl    %esi,%edx
2533        vmovdqa %xmm6,32(%rsp)
2534        addl    52(%rsp),%ecx
2472          xorl    %ebx,%edi
2473 +        shrdl   $7,%eax,%eax
2474 +        addl    %ebp,%edx
2475 +        vmovdqa %xmm8,32(%rsp)
2476 +        addl    52(%rsp),%ecx
2477 +        xorl    %eax,%edi
2478          movl    %edx,%esi
2479          shldl   $5,%edx,%edx
2480 <        xorl    %eax,%edi
2480 >        addl    %edi,%ecx
2481          cmpl    $11,%r8d
2482 <        jb      .Lvaesenclast4
2483 <        vaesenc %xmm15,%xmm11,%xmm11
2482 >        jb      .Lvaesenclast9
2483 >        vaesenc %xmm15,%xmm12,%xmm12
2484          vmovups 64(%r15),%xmm14
2485 <        vaesenc %xmm14,%xmm11,%xmm11
2485 >        vaesenc %xmm14,%xmm12,%xmm12
2486          vmovups 80(%r15),%xmm15
2487 <        je      .Lvaesenclast4
2488 <        vaesenc %xmm15,%xmm11,%xmm11
2487 >        je      .Lvaesenclast9
2488 >        vaesenc %xmm15,%xmm12,%xmm12
2489          vmovups 96(%r15),%xmm14
2490 <        vaesenc %xmm14,%xmm11,%xmm11
2490 >        vaesenc %xmm14,%xmm12,%xmm12
2491          vmovups 112(%r15),%xmm15
2492 < .Lvaesenclast4:
2493 <        vaesenclast     %xmm15,%xmm11,%xmm11
2492 > .Lvaesenclast9:
2493 >        vaesenclast     %xmm15,%xmm12,%xmm12
2494 >        vmovups -112(%r15),%xmm15
2495          vmovups 16-112(%r15),%xmm14
2496 <        addl    %edx,%ecx
2496 >        xorl    %eax,%esi
2497          shrdl   $7,%ebp,%ebp
2498 <        addl    %edi,%ecx
2498 >        addl    %edx,%ecx
2499          addl    56(%rsp),%ebx
2500 <        xorl    %eax,%esi
2500 >        xorl    %ebp,%esi
2501          movl    %ecx,%edi
2502          shldl   $5,%ecx,%ecx
2560        xorl    %ebp,%esi
2561        addl    %ecx,%ebx
2562        shrdl   $7,%edx,%edx
2503          addl    %esi,%ebx
2564        addl    60(%rsp),%eax
2504          xorl    %ebp,%edi
2505 +        shrdl   $7,%edx,%edx
2506 +        addl    %ecx,%ebx
2507 +        addl    60(%rsp),%eax
2508 +        xorl    %edx,%edi
2509          movl    %ebx,%esi
2510          shldl   $5,%ebx,%ebx
2568        xorl    %edx,%edi
2569        addl    %ebx,%eax
2570        shrdl   $7,%ecx,%ecx
2511          addl    %edi,%eax
2512 <        vmovups %xmm11,48(%r13,%r12,1)
2512 >        shrdl   $7,%ecx,%ecx
2513 >        addl    %ebx,%eax
2514 >        vmovups %xmm12,48(%r13,%r12,1)
2515          leaq    64(%r12),%r12
2516  
2517          addl    0(%r9),%eax
# Line 2581 | Line 2523 | aesni_cbc_sha1_enc_avx:
2523          movl    %esi,4(%r9)
2524          movl    %esi,%ebx
2525          movl    %ecx,8(%r9)
2526 +        movl    %ecx,%edi
2527          movl    %edx,12(%r9)
2528 +        xorl    %edx,%edi
2529          movl    %ebp,16(%r9)
2530 +        andl    %edi,%esi
2531          jmp     .Loop_avx
2532  
2588 .align  16
2533   .Ldone_avx:
2534          addl    16(%rsp),%ebx
2535 <        xorl    %eax,%esi
2535 >        xorl    %ebp,%esi
2536          movl    %ecx,%edi
2537          shldl   $5,%ecx,%ecx
2594        xorl    %ebp,%esi
2595        addl    %ecx,%ebx
2596        shrdl   $7,%edx,%edx
2538          addl    %esi,%ebx
2598        addl    20(%rsp),%eax
2539          xorl    %ebp,%edi
2540 +        shrdl   $7,%edx,%edx
2541 +        addl    %ecx,%ebx
2542 +        addl    20(%rsp),%eax
2543 +        xorl    %edx,%edi
2544          movl    %ebx,%esi
2545          shldl   $5,%ebx,%ebx
2602        xorl    %edx,%edi
2603        addl    %ebx,%eax
2604        shrdl   $7,%ecx,%ecx
2546          addl    %edi,%eax
2547 +        xorl    %edx,%esi
2548 +        shrdl   $7,%ecx,%ecx
2549 +        addl    %ebx,%eax
2550          addl    24(%rsp),%ebp
2551 <        vaesenc %xmm14,%xmm11,%xmm11
2551 >        vaesenc %xmm14,%xmm12,%xmm12
2552          vmovups 16(%r15),%xmm15
2553 <        xorl    %edx,%esi
2553 >        xorl    %ecx,%esi
2554          movl    %eax,%edi
2555          shldl   $5,%eax,%eax
2612        xorl    %ecx,%esi
2613        addl    %eax,%ebp
2614        shrdl   $7,%ebx,%ebx
2556          addl    %esi,%ebp
2616        addl    28(%rsp),%edx
2557          xorl    %ecx,%edi
2558 +        shrdl   $7,%ebx,%ebx
2559 +        addl    %eax,%ebp
2560 +        addl    28(%rsp),%edx
2561 +        xorl    %ebx,%edi
2562          movl    %ebp,%esi
2563          shldl   $5,%ebp,%ebp
2620        xorl    %ebx,%edi
2621        addl    %ebp,%edx
2622        shrdl   $7,%eax,%eax
2564          addl    %edi,%edx
2624        addl    32(%rsp),%ecx
2565          xorl    %ebx,%esi
2566 +        shrdl   $7,%eax,%eax
2567 +        addl    %ebp,%edx
2568 +        addl    32(%rsp),%ecx
2569 +        xorl    %eax,%esi
2570          movl    %edx,%edi
2571          shldl   $5,%edx,%edx
2572 <        xorl    %eax,%esi
2573 <        vaesenc %xmm15,%xmm11,%xmm11
2572 >        addl    %esi,%ecx
2573 >        vaesenc %xmm15,%xmm12,%xmm12
2574          vmovups 32(%r15),%xmm14
2575 <        addl    %edx,%ecx
2575 >        xorl    %eax,%edi
2576          shrdl   $7,%ebp,%ebp
2577 <        addl    %esi,%ecx
2577 >        addl    %edx,%ecx
2578          addl    36(%rsp),%ebx
2579 <        xorl    %eax,%edi
2579 >        xorl    %ebp,%edi
2580          movl    %ecx,%esi
2581          shldl   $5,%ecx,%ecx
2638        xorl    %ebp,%edi
2639        addl    %ecx,%ebx
2640        shrdl   $7,%edx,%edx
2582          addl    %edi,%ebx
2642        addl    40(%rsp),%eax
2583          xorl    %ebp,%esi
2584 +        shrdl   $7,%edx,%edx
2585 +        addl    %ecx,%ebx
2586 +        addl    40(%rsp),%eax
2587 +        xorl    %edx,%esi
2588          movl    %ebx,%edi
2589          shldl   $5,%ebx,%ebx
2646        xorl    %edx,%esi
2647        addl    %ebx,%eax
2648        shrdl   $7,%ecx,%ecx
2590          addl    %esi,%eax
2591 +        xorl    %edx,%edi
2592 +        shrdl   $7,%ecx,%ecx
2593 +        addl    %ebx,%eax
2594          addl    44(%rsp),%ebp
2595 <        vaesenc %xmm14,%xmm11,%xmm11
2595 >        vaesenc %xmm14,%xmm12,%xmm12
2596          vmovups 48(%r15),%xmm15
2597 <        xorl    %edx,%edi
2597 >        xorl    %ecx,%edi
2598          movl    %eax,%esi
2599          shldl   $5,%eax,%eax
2656        xorl    %ecx,%edi
2657        addl    %eax,%ebp
2658        shrdl   $7,%ebx,%ebx
2600          addl    %edi,%ebp
2660        addl    48(%rsp),%edx
2601          xorl    %ecx,%esi
2602 +        shrdl   $7,%ebx,%ebx
2603 +        addl    %eax,%ebp
2604 +        addl    48(%rsp),%edx
2605 +        xorl    %ebx,%esi
2606          movl    %ebp,%edi
2607          shldl   $5,%ebp,%ebp
2664        xorl    %ebx,%esi
2665        addl    %ebp,%edx
2666        shrdl   $7,%eax,%eax
2608          addl    %esi,%edx
2668        addl    52(%rsp),%ecx
2609          xorl    %ebx,%edi
2610 +        shrdl   $7,%eax,%eax
2611 +        addl    %ebp,%edx
2612 +        addl    52(%rsp),%ecx
2613 +        xorl    %eax,%edi
2614          movl    %edx,%esi
2615          shldl   $5,%edx,%edx
2616 <        xorl    %eax,%edi
2616 >        addl    %edi,%ecx
2617          cmpl    $11,%r8d
2618 <        jb      .Lvaesenclast5
2619 <        vaesenc %xmm15,%xmm11,%xmm11
2618 >        jb      .Lvaesenclast10
2619 >        vaesenc %xmm15,%xmm12,%xmm12
2620          vmovups 64(%r15),%xmm14
2621 <        vaesenc %xmm14,%xmm11,%xmm11
2621 >        vaesenc %xmm14,%xmm12,%xmm12
2622          vmovups 80(%r15),%xmm15
2623 <        je      .Lvaesenclast5
2624 <        vaesenc %xmm15,%xmm11,%xmm11
2623 >        je      .Lvaesenclast10
2624 >        vaesenc %xmm15,%xmm12,%xmm12
2625          vmovups 96(%r15),%xmm14
2626 <        vaesenc %xmm14,%xmm11,%xmm11
2626 >        vaesenc %xmm14,%xmm12,%xmm12
2627          vmovups 112(%r15),%xmm15
2628 < .Lvaesenclast5:
2629 <        vaesenclast     %xmm15,%xmm11,%xmm11
2628 > .Lvaesenclast10:
2629 >        vaesenclast     %xmm15,%xmm12,%xmm12
2630 >        vmovups -112(%r15),%xmm15
2631          vmovups 16-112(%r15),%xmm14
2632 <        addl    %edx,%ecx
2632 >        xorl    %eax,%esi
2633          shrdl   $7,%ebp,%ebp
2634 <        addl    %edi,%ecx
2634 >        addl    %edx,%ecx
2635          addl    56(%rsp),%ebx
2636 <        xorl    %eax,%esi
2636 >        xorl    %ebp,%esi
2637          movl    %ecx,%edi
2638          shldl   $5,%ecx,%ecx
2694        xorl    %ebp,%esi
2695        addl    %ecx,%ebx
2696        shrdl   $7,%edx,%edx
2639          addl    %esi,%ebx
2698        addl    60(%rsp),%eax
2640          xorl    %ebp,%edi
2641 +        shrdl   $7,%edx,%edx
2642 +        addl    %ecx,%ebx
2643 +        addl    60(%rsp),%eax
2644 +        xorl    %edx,%edi
2645          movl    %ebx,%esi
2646          shldl   $5,%ebx,%ebx
2702        xorl    %edx,%edi
2703        addl    %ebx,%eax
2704        shrdl   $7,%ecx,%ecx
2647          addl    %edi,%eax
2648 <        vmovups %xmm11,48(%r13,%r12,1)
2648 >        shrdl   $7,%ecx,%ecx
2649 >        addl    %ebx,%eax
2650 >        vmovups %xmm12,48(%r13,%r12,1)
2651          movq    88(%rsp),%r8
2652  
2653          addl    0(%r9),%eax
# Line 2716 | Line 2660 | aesni_cbc_sha1_enc_avx:
2660          movl    %ecx,8(%r9)
2661          movl    %edx,12(%r9)
2662          movl    %ebp,16(%r9)
2663 <        vmovups %xmm11,(%r8)
2663 >        vmovups %xmm12,(%r8)
2664          vzeroall
2665          leaq    104(%rsp),%rsi
2666          movq    0(%rsi),%r15
# Line 2731 | Line 2675 | aesni_cbc_sha1_enc_avx:
2675   .size   aesni_cbc_sha1_enc_avx,.-aesni_cbc_sha1_enc_avx
2676   .align  64
2677   K_XX_XX:
2678 < .long   0x5a827999,0x5a827999,0x5a827999,0x5a827999    
2679 < .long   0x6ed9eba1,0x6ed9eba1,0x6ed9eba1,0x6ed9eba1    
2680 < .long   0x8f1bbcdc,0x8f1bbcdc,0x8f1bbcdc,0x8f1bbcdc    
2681 < .long   0xca62c1d6,0xca62c1d6,0xca62c1d6,0xca62c1d6    
2682 < .long   0x00010203,0x04050607,0x08090a0b,0x0c0d0e0f    
2678 > .long   0x5a827999,0x5a827999,0x5a827999,0x5a827999
2679 > .long   0x6ed9eba1,0x6ed9eba1,0x6ed9eba1,0x6ed9eba1
2680 > .long   0x8f1bbcdc,0x8f1bbcdc,0x8f1bbcdc,0x8f1bbcdc
2681 > .long   0xca62c1d6,0xca62c1d6,0xca62c1d6,0xca62c1d6
2682 > .long   0x00010203,0x04050607,0x08090a0b,0x0c0d0e0f
2683 > .byte   0xf,0xe,0xd,0xc,0xb,0xa,0x9,0x8,0x7,0x6,0x5,0x4,0x3,0x2,0x1,0x0
2684  
2685   .byte   65,69,83,78,73,45,67,66,67,43,83,72,65,49,32,115,116,105,116,99,104,32,102,111,114,32,120,56,54,95,54,52,44,32,67,82,89,80,84,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,108,46,111,114,103,62,0
2686   .align  64
2687 + .type   aesni_cbc_sha1_enc_shaext,@function
2688 + .align  32
2689 + aesni_cbc_sha1_enc_shaext:
2690 +        movq    8(%rsp),%r10
2691 +        movdqu  (%r9),%xmm8
2692 +        movd    16(%r9),%xmm9
2693 +        movdqa  K_XX_XX+80(%rip),%xmm7
2694 +
2695 +        movl    240(%rcx),%r11d
2696 +        subq    %rdi,%rsi
2697 +        movups  (%rcx),%xmm15
2698 +        movups  (%r8),%xmm2
2699 +        movups  16(%rcx),%xmm0
2700 +        leaq    112(%rcx),%rcx
2701 +
2702 +        pshufd  $27,%xmm8,%xmm8
2703 +        pshufd  $27,%xmm9,%xmm9
2704 +        jmp     .Loop_shaext
2705 +
2706 + .align  16
2707 + .Loop_shaext:
2708 +        movups  0(%rdi),%xmm14
2709 +        xorps   %xmm15,%xmm14
2710 +        xorps   %xmm14,%xmm2
2711 +        movups  -80(%rcx),%xmm1
2712 + .byte   102,15,56,220,208
2713 +        movdqu  (%r10),%xmm3
2714 +        movdqa  %xmm9,%xmm12
2715 + .byte   102,15,56,0,223
2716 +        movdqu  16(%r10),%xmm4
2717 +        movdqa  %xmm8,%xmm11
2718 +        movups  -64(%rcx),%xmm0
2719 + .byte   102,15,56,220,209
2720 + .byte   102,15,56,0,231
2721 +
2722 +        paddd   %xmm3,%xmm9
2723 +        movdqu  32(%r10),%xmm5
2724 +        leaq    64(%r10),%r10
2725 +        pxor    %xmm12,%xmm3
2726 +        movups  -48(%rcx),%xmm1
2727 + .byte   102,15,56,220,208
2728 +        pxor    %xmm12,%xmm3
2729 +        movdqa  %xmm8,%xmm10
2730 + .byte   102,15,56,0,239
2731 + .byte   69,15,58,204,193,0
2732 + .byte   68,15,56,200,212
2733 +        movups  -32(%rcx),%xmm0
2734 + .byte   102,15,56,220,209
2735 + .byte   15,56,201,220
2736 +        movdqu  -16(%r10),%xmm6
2737 +        movdqa  %xmm8,%xmm9
2738 + .byte   102,15,56,0,247
2739 +        movups  -16(%rcx),%xmm1
2740 + .byte   102,15,56,220,208
2741 + .byte   69,15,58,204,194,0
2742 + .byte   68,15,56,200,205
2743 +        pxor    %xmm5,%xmm3
2744 + .byte   15,56,201,229
2745 +        movups  0(%rcx),%xmm0
2746 + .byte   102,15,56,220,209
2747 +        movdqa  %xmm8,%xmm10
2748 + .byte   69,15,58,204,193,0
2749 + .byte   68,15,56,200,214
2750 +        movups  16(%rcx),%xmm1
2751 + .byte   102,15,56,220,208
2752 + .byte   15,56,202,222
2753 +        pxor    %xmm6,%xmm4
2754 + .byte   15,56,201,238
2755 +        movups  32(%rcx),%xmm0
2756 + .byte   102,15,56,220,209
2757 +        movdqa  %xmm8,%xmm9
2758 + .byte   69,15,58,204,194,0
2759 + .byte   68,15,56,200,203
2760 +        movups  48(%rcx),%xmm1
2761 + .byte   102,15,56,220,208
2762 + .byte   15,56,202,227
2763 +        pxor    %xmm3,%xmm5
2764 + .byte   15,56,201,243
2765 +        cmpl    $11,%r11d
2766 +        jb      .Laesenclast11
2767 +        movups  64(%rcx),%xmm0
2768 + .byte   102,15,56,220,209
2769 +        movups  80(%rcx),%xmm1
2770 + .byte   102,15,56,220,208
2771 +        je      .Laesenclast11
2772 +        movups  96(%rcx),%xmm0
2773 + .byte   102,15,56,220,209
2774 +        movups  112(%rcx),%xmm1
2775 + .byte   102,15,56,220,208
2776 + .Laesenclast11:
2777 + .byte   102,15,56,221,209
2778 +        movups  16-112(%rcx),%xmm0
2779 +        movdqa  %xmm8,%xmm10
2780 + .byte   69,15,58,204,193,0
2781 + .byte   68,15,56,200,212
2782 +        movups  16(%rdi),%xmm14
2783 +        xorps   %xmm15,%xmm14
2784 +        movups  %xmm2,0(%rsi,%rdi,1)
2785 +        xorps   %xmm14,%xmm2
2786 +        movups  -80(%rcx),%xmm1
2787 + .byte   102,15,56,220,208
2788 + .byte   15,56,202,236
2789 +        pxor    %xmm4,%xmm6
2790 + .byte   15,56,201,220
2791 +        movups  -64(%rcx),%xmm0
2792 + .byte   102,15,56,220,209
2793 +        movdqa  %xmm8,%xmm9
2794 + .byte   69,15,58,204,194,1
2795 + .byte   68,15,56,200,205
2796 +        movups  -48(%rcx),%xmm1
2797 + .byte   102,15,56,220,208
2798 + .byte   15,56,202,245
2799 +        pxor    %xmm5,%xmm3
2800 + .byte   15,56,201,229
2801 +        movups  -32(%rcx),%xmm0
2802 + .byte   102,15,56,220,209
2803 +        movdqa  %xmm8,%xmm10
2804 + .byte   69,15,58,204,193,1
2805 + .byte   68,15,56,200,214
2806 +        movups  -16(%rcx),%xmm1
2807 + .byte   102,15,56,220,208
2808 + .byte   15,56,202,222
2809 +        pxor    %xmm6,%xmm4
2810 + .byte   15,56,201,238
2811 +        movups  0(%rcx),%xmm0
2812 + .byte   102,15,56,220,209
2813 +        movdqa  %xmm8,%xmm9
2814 + .byte   69,15,58,204,194,1
2815 + .byte   68,15,56,200,203
2816 +        movups  16(%rcx),%xmm1
2817 + .byte   102,15,56,220,208
2818 + .byte   15,56,202,227
2819 +        pxor    %xmm3,%xmm5
2820 + .byte   15,56,201,243
2821 +        movups  32(%rcx),%xmm0
2822 + .byte   102,15,56,220,209
2823 +        movdqa  %xmm8,%xmm10
2824 + .byte   69,15,58,204,193,1
2825 + .byte   68,15,56,200,212
2826 +        movups  48(%rcx),%xmm1
2827 + .byte   102,15,56,220,208
2828 + .byte   15,56,202,236
2829 +        pxor    %xmm4,%xmm6
2830 + .byte   15,56,201,220
2831 +        cmpl    $11,%r11d
2832 +        jb      .Laesenclast12
2833 +        movups  64(%rcx),%xmm0
2834 + .byte   102,15,56,220,209
2835 +        movups  80(%rcx),%xmm1
2836 + .byte   102,15,56,220,208
2837 +        je      .Laesenclast12
2838 +        movups  96(%rcx),%xmm0
2839 + .byte   102,15,56,220,209
2840 +        movups  112(%rcx),%xmm1
2841 + .byte   102,15,56,220,208
2842 + .Laesenclast12:
2843 + .byte   102,15,56,221,209
2844 +        movups  16-112(%rcx),%xmm0
2845 +        movdqa  %xmm8,%xmm9
2846 + .byte   69,15,58,204,194,1
2847 + .byte   68,15,56,200,205
2848 +        movups  32(%rdi),%xmm14
2849 +        xorps   %xmm15,%xmm14
2850 +        movups  %xmm2,16(%rsi,%rdi,1)
2851 +        xorps   %xmm14,%xmm2
2852 +        movups  -80(%rcx),%xmm1
2853 + .byte   102,15,56,220,208
2854 + .byte   15,56,202,245
2855 +        pxor    %xmm5,%xmm3
2856 + .byte   15,56,201,229
2857 +        movups  -64(%rcx),%xmm0
2858 + .byte   102,15,56,220,209
2859 +        movdqa  %xmm8,%xmm10
2860 + .byte   69,15,58,204,193,2
2861 + .byte   68,15,56,200,214
2862 +        movups  -48(%rcx),%xmm1
2863 + .byte   102,15,56,220,208
2864 + .byte   15,56,202,222
2865 +        pxor    %xmm6,%xmm4
2866 + .byte   15,56,201,238
2867 +        movups  -32(%rcx),%xmm0
2868 + .byte   102,15,56,220,209
2869 +        movdqa  %xmm8,%xmm9
2870 + .byte   69,15,58,204,194,2
2871 + .byte   68,15,56,200,203
2872 +        movups  -16(%rcx),%xmm1
2873 + .byte   102,15,56,220,208
2874 + .byte   15,56,202,227
2875 +        pxor    %xmm3,%xmm5
2876 + .byte   15,56,201,243
2877 +        movups  0(%rcx),%xmm0
2878 + .byte   102,15,56,220,209
2879 +        movdqa  %xmm8,%xmm10
2880 + .byte   69,15,58,204,193,2
2881 + .byte   68,15,56,200,212
2882 +        movups  16(%rcx),%xmm1
2883 + .byte   102,15,56,220,208
2884 + .byte   15,56,202,236
2885 +        pxor    %xmm4,%xmm6
2886 + .byte   15,56,201,220
2887 +        movups  32(%rcx),%xmm0
2888 + .byte   102,15,56,220,209
2889 +        movdqa  %xmm8,%xmm9
2890 + .byte   69,15,58,204,194,2
2891 + .byte   68,15,56,200,205
2892 +        movups  48(%rcx),%xmm1
2893 + .byte   102,15,56,220,208
2894 + .byte   15,56,202,245
2895 +        pxor    %xmm5,%xmm3
2896 + .byte   15,56,201,229
2897 +        cmpl    $11,%r11d
2898 +        jb      .Laesenclast13
2899 +        movups  64(%rcx),%xmm0
2900 + .byte   102,15,56,220,209
2901 +        movups  80(%rcx),%xmm1
2902 + .byte   102,15,56,220,208
2903 +        je      .Laesenclast13
2904 +        movups  96(%rcx),%xmm0
2905 + .byte   102,15,56,220,209
2906 +        movups  112(%rcx),%xmm1
2907 + .byte   102,15,56,220,208
2908 + .Laesenclast13:
2909 + .byte   102,15,56,221,209
2910 +        movups  16-112(%rcx),%xmm0
2911 +        movdqa  %xmm8,%xmm10
2912 + .byte   69,15,58,204,193,2
2913 + .byte   68,15,56,200,214
2914 +        movups  48(%rdi),%xmm14
2915 +        xorps   %xmm15,%xmm14
2916 +        movups  %xmm2,32(%rsi,%rdi,1)
2917 +        xorps   %xmm14,%xmm2
2918 +        movups  -80(%rcx),%xmm1
2919 + .byte   102,15,56,220,208
2920 + .byte   15,56,202,222
2921 +        pxor    %xmm6,%xmm4
2922 + .byte   15,56,201,238
2923 +        movups  -64(%rcx),%xmm0
2924 + .byte   102,15,56,220,209
2925 +        movdqa  %xmm8,%xmm9
2926 + .byte   69,15,58,204,194,3
2927 + .byte   68,15,56,200,203
2928 +        movups  -48(%rcx),%xmm1
2929 + .byte   102,15,56,220,208
2930 + .byte   15,56,202,227
2931 +        pxor    %xmm3,%xmm5
2932 + .byte   15,56,201,243
2933 +        movups  -32(%rcx),%xmm0
2934 + .byte   102,15,56,220,209
2935 +        movdqa  %xmm8,%xmm10
2936 + .byte   69,15,58,204,193,3
2937 + .byte   68,15,56,200,212
2938 + .byte   15,56,202,236
2939 +        pxor    %xmm4,%xmm6
2940 +        movups  -16(%rcx),%xmm1
2941 + .byte   102,15,56,220,208
2942 +        movdqa  %xmm8,%xmm9
2943 + .byte   69,15,58,204,194,3
2944 + .byte   68,15,56,200,205
2945 + .byte   15,56,202,245
2946 +        movups  0(%rcx),%xmm0
2947 + .byte   102,15,56,220,209
2948 +        movdqa  %xmm12,%xmm5
2949 +        movdqa  %xmm8,%xmm10
2950 + .byte   69,15,58,204,193,3
2951 + .byte   68,15,56,200,214
2952 +        movups  16(%rcx),%xmm1
2953 + .byte   102,15,56,220,208
2954 +        movdqa  %xmm8,%xmm9
2955 + .byte   69,15,58,204,194,3
2956 + .byte   68,15,56,200,205
2957 +        movups  32(%rcx),%xmm0
2958 + .byte   102,15,56,220,209
2959 +        movups  48(%rcx),%xmm1
2960 + .byte   102,15,56,220,208
2961 +        cmpl    $11,%r11d
2962 +        jb      .Laesenclast14
2963 +        movups  64(%rcx),%xmm0
2964 + .byte   102,15,56,220,209
2965 +        movups  80(%rcx),%xmm1
2966 + .byte   102,15,56,220,208
2967 +        je      .Laesenclast14
2968 +        movups  96(%rcx),%xmm0
2969 + .byte   102,15,56,220,209
2970 +        movups  112(%rcx),%xmm1
2971 + .byte   102,15,56,220,208
2972 + .Laesenclast14:
2973 + .byte   102,15,56,221,209
2974 +        movups  16-112(%rcx),%xmm0
2975 +        decq    %rdx
2976 +
2977 +        paddd   %xmm11,%xmm8
2978 +        movups  %xmm2,48(%rsi,%rdi,1)
2979 +        leaq    64(%rdi),%rdi
2980 +        jnz     .Loop_shaext
2981 +
2982 +        pshufd  $27,%xmm8,%xmm8
2983 +        pshufd  $27,%xmm9,%xmm9
2984 +        movups  %xmm2,(%r8)
2985 +        movdqu  %xmm8,(%r9)
2986 +        movd    %xmm9,16(%r9)
2987 +        .byte   0xf3,0xc3
2988 + .size   aesni_cbc_sha1_enc_shaext,.-aesni_cbc_sha1_enc_shaext

Diff Legend

Removed lines
+ Added lines
< Changed lines
> Changed lines